Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 30 reacties
Bron: vnunet.com, submitter: pven

SpraakherkenningChipfabrikant Intel heeft software uitgebracht waarmee het mogelijk wordt spraakherkenning uit te voeren door middel van liplezen, zo meldt vnunet.com. De Audio Visual Speech Recognition software detecteert en analyseert mondbewegingen en kan zo nauwkeuriger achterhalen wat er door een persoon gezegd wordt. Hierdoor vormen achtergrondgeluiden en ruis niet zo'n groot probleem meer en is de kans op een succesvolle herkenning minder afhankelijk van de omgeving of de kwaliteit van de microfoon. De software maakt gebruikt van algoritmes uit Intels Open Source Computer Vision library, of kortweg OpenCV. Het bedrijf heeft dit pakket ontwikkeld om onderzoekers en commerciŰle ontwikkelaars te helpen bij het gebruik van computer vision, bijvoorbeeld in de biometrie en de robotica.

Moderatie-faq Wijzig weergave

Reacties (30)

Liplezen is al moeilijk genoeg, daar kan ik mee praten. Want als er iemand een hangsnor of een volle baard heeft dan is het bijna onmogelijk om te liplezen. Ik denk dat het ook geldt voor de computer!

[Offtopic]
Als de Amerikanen deze technologie voor het leger gebruiken, kunnen zij er nix mee. Want Talibans dragen baarden... }> (8>
[Offtopic]
ik denk eigenlijk dat het liplezen van iemand met een baard wel meevalt voor een computer, een mens is gewend aan een gezicht zonder baard. De computer kijkt alleen naar de beweging dus zal dat geen groot probleem zijn.
Umm nee, want het probleem van de meeste mensen met een baard is dat hun snor over de bovenlip hangt of bedekt.
Als de lippen echter vrij zijn kan ik baarddragers prima liplezen.
Daar kan ik ook over meepraten. Het is inderdaad erg moeilijk, zo niet onmogelijk, om iemand met een dikke snor/baard te liplezen. Maar er lopen ook mensen rond die zwaar binnenmonds praten .. Je ziet hun mond/tand/tong-bewegingen maar heel weinig ..

Dan lijkt het me wel zinniger om het liplezen te combineren met spraaktechnologie -zoals eerder geopperd-, waardoor de kans op fouten sterk afneemt :)
Ik ben erg benieuwd naar het percentage matching. Ik verwacht zelf dat het 90% van de tijd goed zal gaan maar dat er altijd een risico blijft bestaan van 10% dat het niet werkt.

Ditsoort dingen zijn leuk als je een garantie krijgt van 99,999% matching maar niet als er 10% afwijking in zit. Dan kun je deze dingen niet gebruiken in productie omgevingen en dat maakt 'de uitvinding' waardeloos.
Bijna alle nieuwe ontwikkelingen zijn als 'praktisch nutteloos' begonnen, en het is een beetje voorbarig om nieuwe dingen meteen de grond in te stampen.

Het idee is simpel maar erg goed, en dit soort research en development is zinvol en hopelijk vruchtbaar. Als we allemaal zoals jij dachten dan zaten we nu nog met onze knuppels en speren bij een vuurtje in het veld ;)

No offense, maar met een voldoende brede steun komen dit soort ontwikkelingen een stuk verder.
Ik zou zeggen, gooi het de open source wereld in. Wat je dan hebt is dat er meer mensen uit verschillende landen ermee bezig kunnen en daarmee lijkt het mij dat je dan op een brede steun komt.
Ditsoort dingen zijn leuk als je een garantie krijgt van 99,999% matching maar niet als er 10% afwijking in zit.
Wat een bullshit! Als mensen met elkaar praten haal je niet eens 99,999%, zeker niet in een rumoerige omgeving. Wil je dat een compu je beter kan verstaan dan een ander mens? Ook voor een computer is het prima mogelijk om "wat zeg je" te zeggen hoor. Ik weet niet of 90% acceptable is, maar dat is een getal wat jij uit de lucht hebt gegrepen, dus niet echt een boeiend vraagstuk. Het hangt natuurlijk allemaal af van de toepassing...
Da's lekker voor je privacy met al die bewakingscamera's overal. Weer een reden voor een mondkapje (8>
nu je het zegt, het zal wel lastig zijn voor doven met sars :+
de nieuwspost is nogal beperkt gericht op die ene toepassing van openCV.

openCV is er echter tevens op gericht op herkenning van visuele beelden-interactie:
de Library bevat ook vorm-herkenning en tracking van vormen.

feitelijk zal de software al snel leren dat die roze-blur met dat witte vlakje voor de ronde top-vorm op de cilinder zijn gebruiker is, en voor je het weet gaat hij je begroeten met een welgeemd:
"Good evening, Dave. Everything's running smoothly. And you?"
Werkt dit door middel van een webcam?
Opzich klinkt het wel slim :)
combineer het met spraakherkenning en het is alweer een stuk minder fouten :)
"Intel leert computers liplezen"

Op een of andere manier is mijn vriendin hier ook heel erg in geinteresseerd :)

hehehe
Hoezo draagt die zo'n strakke witte legging?
Nee, hij zit zo vaak op T.net dat z'n vriendin hem alleen maar icm met de 'puter kent. Dus hoopt ze dat hij er wat van leert... :+
Hoe zit het met mensen die binnenmonds praten?
Ik denk dat je bij Zoiets toch redelijk goed moet articuleren wil het effect hebben.
is er al een patch voor stotteraars ?
een voordeel is misschien wel dat je kan fluisteren of gewoon met je mond bewegen, het doet nogal raar om tegen een computer luidop te praten weet je. het zal ook weer een zicht zijn als je zo met drie naast elkaar tegen je computer zit te praten ik weet niet hoor ik vin het doodgewone cherry klaviertje de beste uitvinding aller tijden :D
Klaviertje is ook een goed uitvinding, alleen niet voor mensen zonder handjes :+
Als je Dragon Naturally Speaking gebruikt, valt het met die fouten wel mee hoor, ik zie iedereen hier over 10%, dat is zeker niet zo. Als je een normaal verhaal voorleest hebben we het eerder over 1 tot 3 %.

Tenzij je natuurlijk met een Ponkio(tm) geluidskaart zit en een OkkieBokkie(tm) headset. ;)
En je leest voor uit de Okkie, het verhaal van Ponkio het Bokkie.

Maar ik denk dat de kwaliteit van de hardware niet echt bepalend (dus al snel goed genoeg) is wanneer je het gemiddelde gemompel van onze medemens beziet.
Ik denk dat het wel een goed idee is maar is dit wel algemeen. niet iedereen beweegt zijn lippen op dezelfde manier. En wat met stotteraars?

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True