Hoofdcategorieën
Device Settings

Spraakherkenning voor mobieltjes leert van alle gebruikers

Door Harm Hilvers, dinsdag 21 augustus 2007 21:14
Bron: Ars Technica, views: 12.432

Een nieuw bedrijf genaamd Vlingo heeft spraakherkenningssoftware ontwikkeld voor mobiele telefoons. Een van de opvallendste features is dat het systeem leert van de uitspraak van alle gebruikers van het systeem.

Vlingo-logoMaar weinig bezitters van mobiele telefoons maken gebruik van de mogelijkheden tot spraakherkenning van hun telefoon. De voornaamste reden hiervoor is dat ze weinig gebruiksvriendelijk zijn, omdat ze slechts een zeer beperkte 'woordenschat' hebben of doordat ze van gebruikers eisen dat een bepaalde set woorden aangeleerd moet worden. In beide gevallen werkt de technologie niet foutloos en moet een commando vaak herhaald worden.

Vlingo Mobile hoopt deze problemen op te lossen. Het bedrijf is vandaag van start gegaan met een bètatest van zijn spraakherkenningssoftware. Er hoeft geen lijst met commando's uit het hoofd geleerd te worden, aangezien er op een natuurlijke wijze tegen het apparaat gesproken kan worden. Daarnaast is de Vlingo-software niet gebonden aan een beperkt aantal telefoonapplicaties, maar werkt het in alle programma's.

De software is in Java geschreven en maakt gebruik van Hierarchical Language Models. Concreet betekent dit dat uitgesproken woorden geanalyseerd worden op hun geluidsvorm, uitspraak, grammatica en de onderlinge relatie. Deze analyse wordt uitgevoerd op de servers van Vlingo of die van de aanbieder van mobiele telefonie en de resultaten worden vervolgens teruggestuurd.

Het gevolg hiervan is dat het systeem 'leert' van de stemmen van al zijn gebruikers, waardoor de software een grotere nauwkeurigheid zou kunnen bereiken. De noodzaak van internet voor de data-analyse zorgt er echter voor dat het systeem vermoedelijk niet werkt als er geen verbinding met internet gemaakt kan worden.

Diagram met werking Vlingo
Volgende 21:27 HP en Acer consolideren goede marktpositie Quanta
Vorige 17:08 Communitysite Bebo integreert Live Messenger
Advertentie

Reacties

«  1  2  »

Inoverend, maar heeft niemand dit al voorgedaan?
Ik meen me te herinneren van wel.

Het model dat hier beschreven staat is eigenlijk de standaard voor out-of-the-box spraakherkenningssystemen.

Het enige wat ze nu doen is de samples van gebruikers verzamelen om een betere accoustische modellen te ontwikkelen.
Maar dit geeft natuurlijk wel extra dataverkeer voor de gebruiker van de telefoon.
Dat kost je natuurlijk wel weer wat als je geen flatfree abbonement hebt.

Het zou goed kunnen werken als er ook lokaal een database voor woordherkenning wordt bijgehouden, en dat er af en toe gegevens worden uitgewisseld met de server van Vlingo. Anders wordt je wel erg afhankelijk van een verbinding met die servers.

dan zou er wel erg veel data moeten worden uitgewisseld, tenminste dat lijkt me. Als grammatica woordenschat en zelfs uitspraak worden me genomen.

valt wel mee: met grammatica bedoelen ze context in een trigram (dus het woord ervoor en erna), dan heb je nog het woord zelf en dan de uitspraak.

dat betekent dus dat voor "bel harry nu" het volgende naar de server gaat:

bel > bEl
harry > hAri
nu > ny

en het complete trigram, namelijk bel harry nu. dat lijkt me een beheersbare hoeveelheid data, dan kun je ook nog een 8-bit soundfile meesturen.

[Reactie gewijzigd door .at op woensdag 22 augustus 2007 14:48]


Ik mis eigenlijk een spraakherkenning voor de Nederlands taal. Meestal is het eerst in het Engels (wat ik goed begrijp aangezien het altijd Engelse bedrijven die eraan beginnen en omdat die markt veel groter is) maar is de technologie niet al een beetje rijp genoeg voor ons taaltje?

Of vergis ik mij gewoon en is het enkel Windows dat enkel ENG verstaat ;)

Enkel Windows. Er zijn spraakprogramma's in het Nederlands voor Windows (Dragon, L&H), maar ingebouwd heeft oa. Apple's Mac OS X en IBM's OS/2 (in samenwerking met Philips) een 'originele' Nederlandse spraakherkenning

Inderdaad had IBM's OS/2 warp 3 dit destijds al in zijn OS zitten, en daar werd goed gebruik van gemaakt (door moi)

Ik zat laatst in een Fiat Punto en daar was de spraakherkenning van Windows Mobile toch goed. En je spreekt dus in het nederlands, en niet in het engels.

Ik vind het allemaal maar onzin. Waarom zou ik het gebruiken? Je staat er alleen maar mee voor lul, en bovendien kan ik alles doen via mijn touchscherm. Alleen maar overbodig dus. Het is wel leuk hoor, begrijp me niet verkeerd, maar pas wanneer we als mens met een machine kunnen praten word het interresant (zie Star Trek)

Als ik zit van:

-ehhh, telefoon, bel Henk even op...of, o nee wacht, ik bedoel Karin.

-Telefoon, zoek voor mij eens n aar alle contacten die beginnen met een K

Bovenstaande dingen zijn eigelijk heel normaal, maar nog niet mogelijk. Pas wanneer zulke dingen gevraagd kunnen worden wordt het interresant.

Je staat ermee voor lul? Dit heeft meer met je eigen zelfvertrouwen te maken, dan met het aangeboden product.

Tevens is de verwachting dat een apparaat volledig menselijke invoer(met alle contexten en insinuaties van dien) moet kunnen interpreteren een behoorlijke eis. Dat krijg je nu ook niet met je analoge joystick en je numerieke toetsenbord.

Je zegt het niet letterlijk, maar ik meen aan je betoog te kunnen ontlenen dat je de huidige situatie wel accepteert, maar niet wanneer deze situatie zich voor doet in combinatie met spraakherkenning.

Ik zet twijfels achter je argumentatie, doch beaam ik dat een volledig semantische computer een interessante ontwikkeling zou zijn.

Geloof me. Je zit in een stille bus en opeens begin je allerlei commando's uit te kramen. Mensen zullen allicht vreemd opkijken en wellicht ook lachen. Ik denk niet dat veel mensen dat willen. Wanneer je als mens tegen je telefoon praat wordt het al heel anders.

Van de andere kant schamen de meeste zich er niet voor om de hele bus mee te laten luisteren met je telefoongesprek....

Geval van "anders zijn". Luide en vooral zeer persoonlijke telefoongesprekken in het openbaar zijn heel storend, vandaar al die iPod oortjes overal. Echter, het is wel een min of meer gewoon fenomeen geworden. Ga je opeens commando's uitblaten, da's anders...dus men let er extra op. Het heeft dan met een gevoel van schaamte te maken als je je daar weer aan stoort. Maar echt erg zou ik het niet vinden.

Ooit moet er iemand zijn geweest die als eerste schaamteloos een stille treincoupe verstoorde met z'n levensverhaal. Toen waren mobiele telefoons nog schaars. Nu kan je nergens meer komen of er staat wel zo'n gek in z'n telefoon te schreeuwen.
Over een paar jaar heeft iedereen misschien wel een telefoon met spraakherkenning. Voor lul? Nah, iedereen doet het.

Dan sta je niet voor lul omdat je tegen je telefoon staat te praten, maar omdat je de stilte verstoord. Dat is een heel ander punt waarin ik je alleen maar gelijk kan geven.
Maar dit staat verder los van het gebruik van deze technologie en dat het beschamend zou zijn.

Schaamte is niets meer dan een methode (onbewust en bewust) om de handelingen van individuen in een maatschappij te reguleren.

In dit geval ben je echt niet veel anders of storender bezig dan gewoon bellen in het openbaar. Die schaamte kan je echt wel negeren.

Als je nu zou praten tegen een telefoon die geen voice herkenning functie heeft, tja...

[Reactie gewijzigd door Teddy Rukspin op dinsdag 21 augustus 2007 23:23]


Niet helemaal hoor, schaamte is een emotie die sterker is geworden door het ontstaan van de maatschappij. Zie http://nl.wikipedia.org/wiki/Schaamte voor een heldere uitleg.

En dat schaamte zowel op bewust als onbewust niveau zijn uitwerkingen heeft is volgens mij niet correct. Schaamte is immers een emotie die wordt ervaren door een individu doordat deze zich in een situatie bevind waarvan zijn geheugen zegt dat dit door betrokkenen niet wordt gewaardeerd. Uit de angst om niet als volwaardig door de betrokkenen te worden gezien ("kijk hem dan") ontstaat een gevoel schaamte.

Al herkent het individu de emotie niet als zodanig toch ervaart deze de emotie. Daarom denk ik dat schaamte zich niet op onbewust niveau plaatsvind.

Misschien zelf nog even nalezen dat artikel?

Er staat niets in dat tegenstrijdig is met wat ik gezegd heb.

Onbewust toegepast door de maatschappij, niet onbewust ervaren. Dat is toch best duidelijk geschreven.

praat je niet ook tegen je telefoon als je belt?

zeggen: bel henk is niet iets om je voor te schamen vind ik, meer voor het telefoongesprek dat daarna komt.

Jup je staat voor lul, hoe je het ook ziet. Als je zulk soorte dingen tegen je mob gaat zeggen in het openbaar zullen mensen je toch wel enigzins raar gaan aankijken, en denken "die is gek!".

inderdaad... maar de mensen zullen ook verkeerd begrepen, want als een persoon in de volle bus of trein tegen een telefoon spreekt, terwijl hij bijv wargames speelt, "okay, cancel my previous order, launch all nuclear missiles away!!!" :+

[Reactie gewijzigd door Dark Angel 58 op dinsdag 21 augustus 2007 23:09]


bij mensen die op straat 'hands-free' lopen te bellen met zo'n microfoon-boom in hun oor moet ik al mn best doen om ze niet uit te lachen :+

Nou ik gebruik het wel!
Niet als ik in de trein of bus zit, maar in m'n auto. Ik heb bij aanschaf van auto meteen een bluetooth carkit genomen. Mijn PPCphone houdt ik gewoon in m'n broekzak en de meeste mensen die ik bel staan in de lijst.

Je moet eerst wel een keer goed opnemen. Ik heb dat op volgende manier gedaan:
Radio uit (deze gaat ook uit als ik knopje indruk van carkit) en microfoon van telefoon zo'n 20 cm van je mond verwijdert houden, beetje gasgeven en naam noemen. De microfoon van de carkit zit bij mij net onder/achter de spiegel.

Voor lul staan?
Ik heb zoveel zelfvertrouwen dat ik niet zo snel voor lul sta. :*)

Het is wel handig voor slecht zienden;)

Hmm vreemd, mijn Nokia N76 herkent toch gewoon zonder inleren de namen in het adresboek en een flink aantal spraakopdrachten (taalonafhankelijk) en doet dit al vrij goed. Ook deze past zich aan aan de gebruiker. Natuurlijk gaat dit een stuk minder ver dan Vlingo en het wil ook niet zeggen, dat het foutloos werkt. Het is echter zeer bruikbaar.

Overigens had mijn eerste mobieltje, een Samsung SGH600, zo'n 8 à 9 jaar geleden al spraakherkenning, zij het alleen via vooraf opgenomen commando's en met het bijgeleverde (kwalitatief vrij hoogwaardige) headsetje.

klopt, mijn e65 had dit ook. ik gok dat de n95 dit ook heeft
maar zoals gezegd, tis wel heel erg basic. alle namen moet je in het engels uitspreken, anders pakt ie hem niet

De voice herkenning van mijn E61 doet het verbazingwekkend goed, en volgens mij spreek ik de namen gewoon in het Nederlands uit. Ook NL commando's pakt hij goed.


Ik krijg hem niet veel hoger als 100 getrimt. (woorden per minuut). Me nauwkeurigheid is dan wel onder de 60 :). Is wel leuk om even te proberen.
«  1  2  »

Op dit item kan niet meer gereageerd worden.

Volgende 21:27 HP en Acer consolideren goede marktpositie Quanta
Vorige 17:08 Communitysite Bebo integreert Live Messenger
VNU Media logo Hosted by True

© 1998 - 2012 Tweakers.net B.V. - Alle rechten voorbehouden - Contact - Jouw privacy - Algemene Voorwaarden

Uitgever van:

Website van het jaar 2011