Google laat Voice Search spraak beter en sneller verstaan

Google gebruikt een nieuw akoestisch model voor de spraakherkenning van zijn Google-app op Android en iOS. Hierdoor zouden uitgesproken zoekopdrachten accurater en sneller herkend moeten worden, ook als er omgevingsgeluid is.

Google gebruikt voor de spraakherkenning nu het long short-term memory-type van recurrent neural networks. Dit type netwerken kan ook temporele inputs goed classificeren, verwerken en voorspellen als er lange-termijnafhankelijkheden een rol spelen. In de woorden van Google heet het dat de netwerken informatie langer kunnen 'onthouden' door gebruik van geheugencellen in de netwerken en geavanceerde gating-mechanismen.

Het zoekbedrijf noemt als voorbeeld het woord 'museum' uitgesproken in het Engels. Dat woord wordt fonetisch gespeld als /m j u z i @ m/. Als de gebruikers de /u/ uitspreekt, is de klankproductie van de /j/ en de /m/ daar aan voorafgegaan door de bewegingen in de mond- en keelholte. De rnn zouden dit soort vloeiende overgangen kunnen detecteren.

Google moest voor deze 'vloeiende detectie' de modellen trainen om de fonemen of kleinste klankeenheden te herkennen, zonder dat ze voor elke tijdsinterval afzonderlijk een voorspelling hoefden te maken. Bij deze training maken de modellen een reeks pieken die de opeenvolgende fonetische eenheden in het spraaksignaal weergeven. Dit stelt het model in staat de fonemen verder van te voren en daardoor accurater te voorspellen. Het model zorgde ook voor een vertraging van 300 milliseconden, schrijft Google. Door verdere training heeft het bedrijf dit ongedaan weten te maken.

Niet alleen is de herkenning accurater en sneller, ook is de invloed van omgevingsgeluiden verminderd en vergt het model minder rekenkracht. Google publiceerde in juli al de onderzoeksresultaten van zijn verbeteringen bij het herkennen van spraak.

Google Long Short-Term Memory RNN

IT-banen

Reacties (20)

koelkast 25 september 2015 10:26

Wat goed dat ze hier steeds meer aandacht aan besteden!
Ik wacht nog steeds op het kunnen toevoegen van interpunctie, zoals komma's en punten in de Nederlandse taal. Dat zou veel toevoegen!

Floor @koelkast • 25 september 2015 10:34

Een goede bekende van me is patholoog anatoom. Tijdens een autopsie worden alle bevindingen direct gedicteerd. Ze werkt daarvoor al jaren met een lerende voice to speech software. Deze werkt volledig foutloos.
Dat Google dit inmiddels op de brede manier inzet is niet onverwacht maar gezien de technische hoogstand weldegelijk bewonderingswaardig.
Ook voor mensen met dyslextie (kunnen ook moeite hebben met schrijven) of andere schrijfvaardige beperkingen is deze software een uitkomst. Dikke Duim voor Google!

Verwijderd @Floor • 25 september 2015 10:47

Een goede bekende van me is patholoog anatoom. Tijdens een autopsie worden alle bevindingen direct gedicteerd. Ze werkt daarvoor al jaren met een lerende voice to speech software. Deze werkt volledig foutloos.

Dat is een gespecificeerde applicatie, net als radiologen etc al jaren gebruiken. Omdat je daar altijd met een beperkte woordkeuze, standard formatering van documenten etc te maken hebt is correcte herkenning veel eenvoudiger.

Gewone mensentaal is veel moeiljker.

erikieperikie @Verwijderd • 25 september 2015 13:54

Beperkte woordkeuze: HA!

Er zijn legio woorden die radiologen gebruiken, te weten: alles wat jij en ik kennen, plus de duizenden medische termen die ook nog eens in vreemde combinaties voorkomen. Ja, ok, ze spreken in korte, bondige beschrijvingen i.p.v. lange zinnen met nette opbouw en werkwoorden, maar dat is juist lastig voor spraakherkenning: elk woord moet individueel herkend worden, aangezien je niet altijd bepaalde woorden kunt verwachten. Bovendien werken verschillende radiologen met verschillende formats (en al helemaal in verschillende zorginstellingen). Om dit werkend te krijgen, moet je een stevig woordenboek hanteren dat weet van allerlei vreemde terminologie. Bijv.: "Een rechte distale fibulafractuur wordt gezien ter hoogte van de syndesmose: Weber type B."

Jeanpaul145 @erikieperikie • 26 september 2015 10:58

Die terminologie is juist waar falconhunter het over heeft, dat is het makkelijke deel. Door de beperkte omvang van het jargon kan je daarna (zij het met Markov Chains, zij het met neural networks, of een combinatie) aardig goed voorspellen wat er gaat volgen. Het kost wat moeite, ja, maar het is goed te doen voor een commercieel bedrijf dat gespecialiseerde (en dus peperdure) software voor dit soort toepassingen aanbiedt.

Wat dat betreft is Google veel indrukwekkender bezig.

Korben @koelkast • 25 september 2015 10:30

Dat is voornamelijk een kwestie van taalherkenning, niet spraakherkenning. Je kunt natuurlijk wel gaan dicteren, maar dat is m.i. niet wat Google wil bereiken; zij willen kunnen herkennen dat wanneer je x of y zegt dat daar een komma tussen hoort.

McBrown @Korben • 25 september 2015 10:52

In het Engels werkt het wel hè

McBrown @koelkast • 25 september 2015 10:29

Dat klopt, dat is namelijk ook het enige dat ik heb moeten typen met het toetsenbord in mijn reactie.

calvinturbo @koelkast • 25 september 2015 10:30

Als dat zou kunnen, wordt het gelijk de moeite waard om spraakherkenning in Google Docs te gebruiken.

jip_86 @koelkast • 25 september 2015 10:34

En het is al behoorlijk goed. Heb gisteren een aantal whatsapp berichten verstuurd met spraak toen ik stil stond in de file. En dat gaat eigenlijk zo goed als vlekkeloos.

Verwijderd @koelkast • 25 september 2015 11:16

Het vreemde is, dat jaren terug je wel gewoon interpunctie kon uispreken bij verschillende spraakherkenningspakketten.

Die pakketten waren echter lang niet so secuur als wat tegenwoordig je mobiel kan doen. Ook was het nodig om eerst een uur lang allerlei zinnen uit te spreken zodat de software gewend kon raken aan jouw stem.

Ik weet dat bedrijven als Google en Amazon uiteindelijk als doel hebben om de interactie met computers op het niveau van Star Trek te krijgen. Kan niet wachten tot het zover is.

McBrown 25 september 2015 10:27

Kan het zijn dat deze functie er al langer in zit? Ik gebruik namelijk regelmatig om met mijn schoonouders te praten in het Chinees. En het viel mij eergisteren op dat spraakherkenning ineens heel goed werkt. Deze reactie volledig geschreven met spraakherkenning in de badkamer. (dus veel echo)

bop @McBrown • 25 september 2015 10:38

Ik weet eigenlijk niet of er ook een app update nodig was, als dat het geval is dan had ik het pas sinds vandaag. Maar kan mij best voorstellen dat ze het inderdaad eerst gradueel hebben aangezet en toen een blogpost hebben gedaan. Hoe krijg jij de vraagtekens en punten voor elkaar? Of zijn die wel met het toetsenbord gedaan?

McBrown @bop • 25 september 2015 10:44

Reactie op een reactie van @koelkast

Dat klopt, dat is namelijk ook het enige dat ik heb moeten typen met het toetsenbord in mijn reactie.

[Reactie gewijzigd door McBrown op 1 augustus 2024 05:38]

Verwijderd @McBrown • 25 september 2015 10:59

@McBrown [...deze reactie volledig geschreven met spraakherkenning...]

serieus ... of..? want dat is wel gaaf al dan.. mijn iphone3gs geeft echt niet zown goed resultaat.

[Reactie gewijzigd door Verwijderd op 1 augustus 2024 05:38]

MGutker @Verwijderd • 26 september 2015 10:35

Je hebt het over een iPhone, en nog een "oude" ook. Wat had je dan verwacht?

Swerfer 25 september 2015 11:19

Ik zou wel eens een onafhankelijke test willen zien waarbij de spraakherkenning van Google, Microsoft en Apple met elkaar worden vergeleken met verschillende omstandigheden zoals omgevingsgeluid, dialecten, spraak op de achtergrond en dergelijke. Bij dergelijke onderzoeken kan meer concurrentie ontstaan, vooral omdat de spraakherkenning van een fabrikant niet altijd meer platform gebonden is, en daaruit kan dus meer innovatie vloeien waarbij de eindgebruikers baat hebben.

SinergyX @Swerfer • 25 september 2015 12:49

Dat inderdaad, zeker binnen engels heb je ook nog eens flink wat dialecten (US en UK), dat er buiten 'herkenning' wel stuk meer bij komt kijken.

Soms verbaas ik me hoe goed Kinect mijn snelle 'xbox turn off' kan horen, maar op mijn Phone ik soms 6x moet herhalen.

blueman85 26 september 2015 04:16

Allemaal leuk en aardig, maar sinds deze update krijg ik nu een reactie van Google Now van de nederlandse stem die woorden in het engels uitspreekt en de getallen in het nederlands opnoemt.... hallo?????

Verwijderd 27 september 2015 16:19

Toch zou ik graag zoiets als Jarvis uit Iron man willen ontwikkelen.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (20)

Sorteer op:

Weergave: