Google illustreert opmars voice recognition

Stemherkenning door computers lijkt langzaam tot wasdom te komen. Na een serie even nutteloze als hilarische pogingen om menselijke spraak accuraat te duiden, lijken bedrijven als Google en Microsoft inmiddels op de juiste weg te zijn - en er zijn meer kapers op de kust.

Spraak via mobiele telefonie Startups als Simulscribe, SpinVox en Callwave beweren software in huis te hebben die - zonder training - spraak accuraat naar geschreven tekst kan omzetten, en bieden diensten aan die voicemail in e-mail of sms-berichten verandert. De kwaliteit is volgens diverse analisten 'eindelijk acceptabel', al levert een teveel aan achtergrondgeluid nog altijd onvoorspelbare transcripties op. 'Spraak is nog altijd de killer application van mobiele telefoons', aldus Charles Golvin van Forrester Research, 'en de mogelijkheden van spraakgestuurde diensten worden momenteel flink onderschat.' Dat lijkt een open deur, maar de tijdwinst die met goede spraakanalyse geboekt kan worden is aanzienlijk: het lezen van een sms'je kost luttele seconden, terwijl het afluisteren van een voicemailtje met dezelfde inhoud makkelijk een minuut of langer kan duren. Bovendien is de informatie uit een bericht - waarbij bijvoorbeeld gedacht kan worden aan adressen en telefoonnummers - beschikbaar in een voor computers herkenbaar formaat. Er is dan ook goed geld te verdienen voor degene die als eerste een betrouwbare implementatie in de markt weet te zetten.

Goog411-logo Het wordt algemeen als een teken aan de wand gezien dat Microsoft in maart naar schatting 800 miljoen dollar voor spraakherkenningsbedrijf Tellme op tafel legde: de spraak-naar-schriftsoftware, die gesproken vragen per sms kan beantwoorden, is langzamerhand rijp voor het grote publiek. Google presenteerde gisteren eveneens een spraakgestuurde zoekdienst, die vooralsnog overigens alleen in de Verenigde Staten beschikbaar is: aan het telefoonnummer 0800-GOOG411 kunnen de inwoners van dat land gelocaliseerde zoekopdrachten geven, waarna ze - bijvoorbeeld - het adres van de dichtstbijzijnde pizzeria per sms toegestuurd krijgen. In hoeverre de diensten aanslaan moet nog even afgewacht worden: een eerdere poging van Google stierf een stille dood, terwijl de spraakherkenning die Microsoft in Vista verpakte juist veel meer aandacht kreeg dan de softwarebouwer leuk vond.

Microsoft Vista's spraakherkenningsdemonstratie

Door René Wichers

Eindredacteur

07-04-2007 • 19:27

40

Bron: C|net

Lees meer

IDF: MSI zet pc aan met stemcommando
IDF: MSI zet pc aan met stemcommando Nieuws van 15 september 2011
Spraakherkenning in rts EndWar
Spraakherkenning in rts EndWar Nieuws van 24 mei 2007
Symbian: 'einde pc-tijdperk nabij'
Symbian: 'einde pc-tijdperk nabij' Nieuws van 17 oktober 2006
Algoritme luistert typisten af
Algoritme luistert typisten af Nieuws van 15 september 2005

Reacties (40)

Sorteer op:

Weergave:

Grappig dat dit ineens hot news is. Ik heb in 1999 al een demonstratie gezien, of beter gezegd gehoord, van zo'n dienst. Dat was toen operationeel in Amerika. Een dienst waarbij je telefonisch restaurants kon zoeken en een tafel kon reserveren. Volledig gestuurd door voice recognition.
idd en binnen de medische wereld (lees Radiologie) heb je al langer voice recognition systemen als "Powerscribe" die de verslagen prima maken zonder dat er een typiste of opnameband tussen komt. Het is niet optimaal (je kan woorden toevoegen die het programma niet herkent) maar voldoende voor de meeste verslagen...

Dit is natuurlijk andere koek, maar voice systemen die tekst kunnen "maken" wat jij zegt bestaat al veel langer..
Heb nu een telefoonprovider hier (.ca), waarbij je alleen nog met spraakherkenning het menu kan besturen. Dat zuigt toch best wel. Waarschijnlijk begrijpt dat ding mijn .nl-accent niet. Hulp van een (Canadese) collega ingeroepen. Hij is er uit eindelijk wel uitgekomen, na veel pogingen. Eindelijk een operator er aan gekregen, dus ik klagen over het voice systeem. Zegt ie dat ze het weten en 'er mee bezig zijn'...

Ben benieuwd hoe het systeem van google werkt. Of ie ook tegen Engels met een accent (of ander spraakgebrek) kan.

Trouwens; het is 1800-GOOG411, niet 0800-GOOG411 ...
Vorig jaar moest ik de laatste trein vanuit Utrecht nemen, ik bellen met 9292 o.i.d. kreeg ik ook een computer aan de telefoon. Ik heb werkelijkwaar 30 minuten er over gedaan om de juiste informatie door te krijgen.

computer: "is deze informatie juist?"

Ik: Ja.

computer: ...

Ik: Ja.

computer: "is deze informatie juist?"

etc.
De Engelse sprakherkenning in Vista doet het prima. Alle opdrachten die ik geef worden opgevolgd, en als hij woorden niet herkend, wat niet vaak gebeurd, geeft hij je gewoon keuzemogelijkheden, waar het goede woord altijd tussenzit.

Perfect dus. Helaas,niet heel interessant aangezien er geen NL versie is volgens mij.
Verwijderd @PWM7 april 2007 19:42
De kwaliteit is volgens diverse analisten 'eindelijk acceptabel', al levert een teveel aan achtergrondgeluid nog altijd onvoorspelbare transcripties op.
Microsoft Research heeft wel al een 'killer' oplossing voor dit probleem, wat je gedeeltelijk kan zien op: http://www.youtube.com/watch?v=PBmclnJjGtM

Het is te hopen dat die research snel onderdeel wordt van de bestaande spraak herkenning.

edit: oops was als algemene reactie bedoeld, niet voor PWM
maar ehhh... ik zie wel iets leuks, maar horen is iets anders. Als ze het daarna nou zouden afspelen en het zou kloppen (en verstaanbaar) dan is het allicht een goede technologie. Maar hoe weten wij dat alles wat verdwijnt door zijn algoritme achtergrond geluiden zijn? Misschien gooit ie der gewoon een image filter overheen die alle gele pixels die grenzen aan blauwe weg gooit :s
Eerst horen dan geloven.
Zo'n killer oplossing is dit niet volgens mij. Zo'n spectrum kun je met Matlab maken (fast fourier transform toepassen). Het versterken en onderdrukken van frequenties is dan een eitje. Je kunt bijvoorbeeld elk element van het spectrum op elk tijdstip (visueel: elke pixel van het grafiekje) kwadrateren en er daarna een bepaalde treshold vanaf trekken. Dan produceer je misschien wel hetzelfde resultaat als in het filmpje wordt weegegeven, al zal het niet zó eenvoudig zijn.

Zoals hierboven al gezegd: de kwaliteit van het algoritme hangt af van hoe het resultaat klinkt: het moet een dusdanig intelligente methode van filtering toepassen (oa bepaling van de treshold) dat het doorgelaten resultaat nog steeds natuurlijk klinkt.
De nieuwe dienst van Google lijkt een beetje op 1207 met Sophie, alleen wordt daar geen sms verstuurd nadien.
Voor de mensen die dat niet kennen, 1207 is de algemene inlichtingendienst van België. Een goed jaar geleden deed Sophie haar intrede, een computerstem die gesproken opdrachten moet herkennen en nadien een antwoord kan geven. Je spreekt bv. eerst de gemeente in en dan de naam van een persoon. Als ze het correct verstaat, geeft Sophie je het telefoonnummer, anders wordt je doorverbonden met een medewerker.
Het systeem is niet foutloos, maar als je duidelijk spreekt, werkt het. Van de 10 keer dat ik het geprobeerd heb, gaf ze 7 keer het juiste nummer.
In Nederland heb je dat ook wel met de telefoonversie van 9292ov.nl Heb daar een hele tijd terug wel eens mee gebeld, maar als je heel duidelijk praat begrijpt die ook een hoop.
CBR heeft het ook, maar dat was huilen met de pet op :'( heb half uur aan de lijn gehangen voordat die domme computer doorhad dat ik in Zwolle examen wilde doen, en niet in Enschede :(
Bij de Xerox helpdesk ook.
Alleen die stem die je antwoord geeft, afgrijselijk.
Maar het serienummer inspreken heeft hij meestal wel goed te pakken, terwijl dat meestel datgene is waar het mis gaat.
je bedoelt: 'Welkom bij xerox, ik heb wat gegevens van je nodig zodat ik je kan doorverbinden' ? Wat een vreselijke gladde 'homo quismaster" stem. Ik vind hem wel grappig. tenminste niet zo'n standaard computer stem die weinig kleur heeft.
Bovendien is de informatie uit een bericht - waarbij bijvoorbeeld gedacht kan worden aan adressen en telefoonnummers - beschikbaar in een voor computers herkenbaar formaat.
Het ingesproken bericht is dan toch ook een herkenbaar formaat voor computers? Als het niet herkenbaar zou zijn kan het berichtje ook niet gegenereerd worden ;)
M'n vorige GSM (denk dat het de Samsung A700 was) had ook een voice dial. Die werkte perfect. Per contact 3x inspreken en vanaf dan 1 knopje en de naam zeggen.

Ik heb ook een tijd gebprobeerd in Word 2003 met spraakherkenning te werken, maar dat was nog een ramp.

Het zit eraan te komen. Ik geef het een goeie kans dat het binnen 5 jaar vrij mainstream is en dat ik tegen dan niet meer op m'n ramplank moet zitten tokkelen om te posten.

Na al die hypes (L&H - Flanders Language Valley etc.) mag het ook wel eens. Gek dat een goed algoritme zoveel tijd kost als je denkt dat het probleem al lang niet meer bij de hardware ligt.

Man de wereld gaat weer op z'n kop staan :) Heerlijk technologie!
Bijna alle moderne (zakelijke?) Nokia's hebben dit inderdaad ook. Verschil is dat hier gekozen moet worden uit, zeg, 200 ingesproken contact namen. Een beetje taal (zoals het Engels) heeft een vocabulaire van een half miljoen woorden * (exclusief vervoegingen). Je kunt je voorstellen dat dit het niet een beetje ingewikkelder maakt ;).

* bron: http://en.wikipedia.org/wiki/Number_of_words_in_English
M'n vorige GSM (denk dat het de Samsung A700 was) had ook een voice dial. Die werkte perfect. Per contact 3x inspreken en vanaf dan 1 knopje en de naam zeggen.
M'n Ericsson T68 kon dat ook al (5 jaar geleden). Maar bij deze voorbeelden is het ook geen echte spraakherkenning: 't is commando herkenning door vergelijk met een opgenomen stukje spraak. Je gaf zelf al aan "Per contact 3x inspreken....". Dus dat is voor m'n 250 contacten in m'n telefoonboek 750x opnemen.

Het zou pas _echt_ handig zijn als er echte spraakherkenning in zou zitten en je dus niet van te voren bij elk contact een sample hoeft op te nemen, maar dat hij aan de tekst/naam van 't contact zelf kan 'herkennen' wie je bedoelt....
Hier in Australie, als je de grote telco (Telstra) belt, moet je alles spraak gestuurd doen. Dit is soms zeer frustrerend, sinds het elke keer jou vraagt of het antwoord correct is (zeker als je weer opnieuw moet bellen, want dan weet je waar je naar toe wilt en met toetsen zou je veel sneller door de menu's heen kunnen surfen). Maar ik moet zeggen dat met mijn Nederlands accent (wat ik toch wel schijn te hebben) het tot zover maar een keer fout is gegaan van de 10 keer dat ik belde...
De moeilijkheid zit hem er in dat we woorden apart lezen, maar die in 1 adem uitspreken, als 1 woord dus niet zelden.
Aan allen die de voorbeelden geven van telecom bedrijven: Zou het niet beter zijn voor velen ipv voor enkelen, als we massal klagen dat die systemen niet werken er dan dUs weer mensen komen te werken?
Ik ben dol op computers, maar als we 'over-automatiseren' gaat het voor velen veel schade opleveren en slechts enkelen kunnen dan lachen.
Heeft allemaal met kostenbesparing te maken. Dit geldt misschien niet voor jou, maar veel mensen willen én een echte persoon aan de lijn én het allergoedkoopste Telfort-abonnementje. Vanaf een bepaald punt gaan dingen niet meer samen en wordt het of-of.

Op dit item kan niet meer gereageerd worden.