Google illustreert opmars voice recognition

Stemherkenning door computers lijkt langzaam tot wasdom te komen. Na een serie even nutteloze als hilarische pogingen om menselijke spraak accuraat te duiden, lijken bedrijven als Google en Microsoft inmiddels op de juiste weg te zijn - en er zijn meer kapers op de kust.

Spraak via mobiele telefonie Startups als Simulscribe, SpinVox en Callwave beweren software in huis te hebben die - zonder training - spraak accuraat naar geschreven tekst kan omzetten, en bieden diensten aan die voicemail in e-mail of sms-berichten verandert. De kwaliteit is volgens diverse analisten 'eindelijk acceptabel', al levert een teveel aan achtergrondgeluid nog altijd onvoorspelbare transcripties op. 'Spraak is nog altijd de killer application van mobiele telefoons', aldus Charles Golvin van Forrester Research, 'en de mogelijkheden van spraakgestuurde diensten worden momenteel flink onderschat.' Dat lijkt een open deur, maar de tijdwinst die met goede spraakanalyse geboekt kan worden is aanzienlijk: het lezen van een sms'je kost luttele seconden, terwijl het afluisteren van een voicemailtje met dezelfde inhoud makkelijk een minuut of langer kan duren. Bovendien is de informatie uit een bericht - waarbij bijvoorbeeld gedacht kan worden aan adressen en telefoonnummers - beschikbaar in een voor computers herkenbaar formaat. Er is dan ook goed geld te verdienen voor degene die als eerste een betrouwbare implementatie in de markt weet te zetten.

Goog411-logo Het wordt algemeen als een teken aan de wand gezien dat Microsoft in maart naar schatting 800 miljoen dollar voor spraakherkenningsbedrijf Tellme op tafel legde: de spraak-naar-schriftsoftware, die gesproken vragen per sms kan beantwoorden, is langzamerhand rijp voor het grote publiek. Google presenteerde gisteren eveneens een spraakgestuurde zoekdienst, die vooralsnog overigens alleen in de Verenigde Staten beschikbaar is: aan het telefoonnummer 0800-GOOG411 kunnen de inwoners van dat land gelocaliseerde zoekopdrachten geven, waarna ze - bijvoorbeeld - het adres van de dichtstbijzijnde pizzeria per sms toegestuurd krijgen. In hoeverre de diensten aanslaan moet nog even afgewacht worden: een eerdere poging van Google stierf een stille dood, terwijl de spraakherkenning die Microsoft in Vista verpakte juist veel meer aandacht kreeg dan de softwarebouwer leuk vond.

Microsoft Vista's spraakherkenningsdemonstratie

Vorig nieuwsartikel Volgend nieuwsartikel

Door René Wichers

Eindredacteur

Feedback • 07-04-2007 19:27 40

07-04-2007 • 19:27

Bron: C|net

Lees meer

IDF: MSI zet pc aan met stemcommando Nieuws van 15 september 2011

Microsoft wil spraakherkenning met Windows Mobile laten meeleveren Nieuws van 29 april 2009

Google laat internetters nu ook gesproken tekst doorzoeken Nieuws van 18 september 2008

Afluisteren mogelijk door bug in sip-telefoons Nieuws van 28 augustus 2007

Spraakherkenning in rts EndWar Nieuws van 24 mei 2007

Google integreert zoekresultaten Nieuws van 18 mei 2007

Google koopt ontwikkelaar webconferentiesoftware Nieuws van 20 april 2007

Overname Tellme door Microsoft een feit Nieuws van 15 maart 2007

Vista's spraakopdrachten potentieel veiligheidsgat Nieuws van 2 februari 2007

Geruchten over opvolgers Windows Vista: Fiji en Vienna Nieuws van 2 januari 2007

Symbian: 'einde pc-tijdperk nabij' Nieuws van 17 oktober 2006

Microsoft-ontwikkelaars over spraakherkenningsfunctie Nieuws van 1 augustus 2006

Rabobank twijfelt over nut biometrie Nieuws van 26 juli 2006

ABN Amro beveiligt met spraakherkenning Nieuws van 21 juli 2006

Ballmer woedend op zichzelf: 'Google niet tijdig onderkend' Nieuws van 27 april 2006

Google opent onderzoekscentrum in Taiwan Nieuws van 1 april 2006

IBM verbetert spraakherkenningssoftware Nieuws van 3 maart 2006

Microsoft onderzoekt computergebruik door analfabeten Nieuws van 2 maart 2006

Algoritme luistert typisten af Nieuws van 15 september 2005

Spraakgestuurde e-mail op proef bij Xs4all Nieuws van 1 september 2005

IBM komt met nieuwe typemethode voor handhelds Nieuws van 15 augustus 2005

Hardware-implantaten binnenkort realiteit volgens Gates Nieuws van 7 juli 2005

Spraakgestuurde home-entertainmentsoftware van Opera Nieuws van 24 februari 2005

Onderzoekers willen computer laten leren door te lezen Nieuws van 31 januari 2005

Samsung toont telefoon die spraak naar tekst vertaalt Nieuws van 9 januari 2005

Spraakherkenningsoftware IBM wordt open-source Nieuws van 13 september 2004

Meer producten en artikelen

Software

Reacties (40)

-Moderatie-faq

Wijzig sortering

Verwijderd 7 april 2007 21:43

Grappig dat dit ineens hot news is. Ik heb in 1999 al een demonstratie gezien, of beter gezegd gehoord, van zo'n dienst. Dat was toen operationeel in Amerika. Een dienst waarbij je telefonisch restaurants kon zoeken en een tafel kon reserveren. Volledig gestuurd door voice recognition.

shakemyass @Verwijderd • 8 april 2007 10:50

idd en binnen de medische wereld (lees Radiologie) heb je al langer voice recognition systemen als "Powerscribe" die de verslagen prima maken zonder dat er een typiste of opnameband tussen komt. Het is niet optimaal (je kan woorden toevoegen die het programma niet herkent) maar voldoende voor de meeste verslagen...

Dit is natuurlijk andere koek, maar voice systemen die tekst kunnen "maken" wat jij zegt bestaat al veel langer..

lamme23 8 april 2007 01:57

Heb nu een telefoonprovider hier (.ca), waarbij je alleen nog met spraakherkenning het menu kan besturen. Dat zuigt toch best wel. Waarschijnlijk begrijpt dat ding mijn .nl-accent niet. Hulp van een (Canadese) collega ingeroepen. Hij is er uit eindelijk wel uitgekomen, na veel pogingen. Eindelijk een operator er aan gekregen, dus ik klagen over het voice systeem. Zegt ie dat ze het weten en 'er mee bezig zijn'...

Ben benieuwd hoe het systeem van google werkt. Of ie ook tegen Engels met een accent (of ander spraakgebrek) kan.

Trouwens; het is 1800-GOOG411, niet 0800-GOOG411 ...

Wilf @lamme23 • 8 april 2007 22:45

Vorig jaar moest ik de laatste trein vanuit Utrecht nemen, ik bellen met 9292 o.i.d. kreeg ik ook een computer aan de telefoon. Ik heb werkelijkwaar 30 minuten er over gedaan om de juiste informatie door te krijgen.

computer: "is deze informatie juist?"

Ik: Ja.

computer: ...

Ik: Ja.

computer: "is deze informatie juist?"

etc.

PWM 7 april 2007 19:31

De Engelse sprakherkenning in Vista doet het prima. Alle opdrachten die ik geef worden opgevolgd, en als hij woorden niet herkend, wat niet vaak gebeurd, geeft hij je gewoon keuzemogelijkheden, waar het goede woord altijd tussenzit.

Perfect dus. Helaas,niet heel interessant aangezien er geen NL versie is volgens mij.

Verwijderd @PWM • 7 april 2007 19:42

De kwaliteit is volgens diverse analisten 'eindelijk acceptabel', al levert een teveel aan achtergrondgeluid nog altijd onvoorspelbare transcripties op.

Microsoft Research heeft wel al een 'killer' oplossing voor dit probleem, wat je gedeeltelijk kan zien op: http://www.youtube.com/watch?v=PBmclnJjGtM

Het is te hopen dat die research snel onderdeel wordt van de bestaande spraak herkenning.

edit: oops was als algemene reactie bedoeld, niet voor PWM

Verwijderd @Verwijderd • 8 april 2007 15:10

maar ehhh... ik zie wel iets leuks, maar horen is iets anders. Als ze het daarna nou zouden afspelen en het zou kloppen (en verstaanbaar) dan is het allicht een goede technologie. Maar hoe weten wij dat alles wat verdwijnt door zijn algoritme achtergrond geluiden zijn? Misschien gooit ie der gewoon een image filter overheen die alle gele pixels die grenzen aan blauwe weg gooit

Eerst horen dan geloven.

Bozozo @Verwijderd • 9 april 2007 11:57

Zo'n killer oplossing is dit niet volgens mij. Zo'n spectrum kun je met Matlab maken (fast fourier transform toepassen). Het versterken en onderdrukken van frequenties is dan een eitje. Je kunt bijvoorbeeld elk element van het spectrum op elk tijdstip (visueel: elke pixel van het grafiekje) kwadrateren en er daarna een bepaalde treshold vanaf trekken. Dan produceer je misschien wel hetzelfde resultaat als in het filmpje wordt weegegeven, al zal het niet zó eenvoudig zijn.

Zoals hierboven al gezegd: de kwaliteit van het algoritme hangt af van hoe het resultaat klinkt: het moet een dusdanig intelligente methode van filtering toepassen (oa bepaling van de treshold) dat het doorgelaten resultaat nog steeds natuurlijk klinkt.

Alfredo 7 april 2007 20:22

De nieuwe dienst van Google lijkt een beetje op 1207 met Sophie, alleen wordt daar geen sms verstuurd nadien.
Voor de mensen die dat niet kennen, 1207 is de algemene inlichtingendienst van België. Een goed jaar geleden deed Sophie haar intrede, een computerstem die gesproken opdrachten moet herkennen en nadien een antwoord kan geven. Je spreekt bv. eerst de gemeente in en dan de naam van een persoon. Als ze het correct verstaat, geeft Sophie je het telefoonnummer, anders wordt je doorverbonden met een medewerker.
Het systeem is niet foutloos, maar als je duidelijk spreekt, werkt het. Van de 10 keer dat ik het geprobeerd heb, gaf ze 7 keer het juiste nummer.

jip_86 @Alfredo • 8 april 2007 01:00

In Nederland heb je dat ook wel met de telefoonversie van 9292ov.nl Heb daar een hele tijd terug wel eens mee gebeld, maar als je heel duidelijk praat begrijpt die ook een hoop.

Neko Koneko @jip_86 • 8 april 2007 23:48

CBR heeft het ook, maar dat was huilen met de pet op

heb half uur aan de lijn gehangen voordat die domme computer doorhad dat ik in Zwolle examen wilde doen, en niet in Enschede

Verwijderd @jip_86 • 9 april 2007 13:35

Bij de Xerox helpdesk ook.
Alleen die stem die je antwoord geeft, afgrijselijk.
Maar het serienummer inspreken heeft hij meestal wel goed te pakken, terwijl dat meestel datgene is waar het mis gaat.

rdoorn @Verwijderd • 10 april 2007 10:36

je bedoelt: 'Welkom bij xerox, ik heb wat gegevens van je nodig zodat ik je kan doorverbinden' ? Wat een vreselijke gladde 'homo quismaster" stem. Ik vind hem wel grappig. tenminste niet zo'n standaard computer stem die weinig kleur heeft.

thechronic 8 april 2007 00:58

Bovendien is de informatie uit een bericht - waarbij bijvoorbeeld gedacht kan worden aan adressen en telefoonnummers - beschikbaar in een voor computers herkenbaar formaat.

Het ingesproken bericht is dan toch ook een herkenbaar formaat voor computers? Als het niet herkenbaar zou zijn kan het berichtje ook niet gegenereerd worden

Verwijderd 8 april 2007 05:29

M'n vorige GSM (denk dat het de Samsung A700 was) had ook een voice dial. Die werkte perfect. Per contact 3x inspreken en vanaf dan 1 knopje en de naam zeggen.

Ik heb ook een tijd gebprobeerd in Word 2003 met spraakherkenning te werken, maar dat was nog een ramp.

Het zit eraan te komen. Ik geef het een goeie kans dat het binnen 5 jaar vrij mainstream is en dat ik tegen dan niet meer op m'n ramplank moet zitten tokkelen om te posten.

Na al die hypes (L&H - Flanders Language Valley etc.) mag het ook wel eens. Gek dat een goed algoritme zoveel tijd kost als je denkt dat het probleem al lang niet meer bij de hardware ligt.

Man de wereld gaat weer op z'n kop staan

Heerlijk technologie!

Verwijderd @Verwijderd • 8 april 2007 11:23

Bijna alle moderne (zakelijke?) Nokia's hebben dit inderdaad ook. Verschil is dat hier gekozen moet worden uit, zeg, 200 ingesproken contact namen. Een beetje taal (zoals het Engels) heeft een vocabulaire van een half miljoen woorden * (exclusief vervoegingen). Je kunt je voorstellen dat dit het niet een beetje ingewikkelder maakt

.

* bron: http://en.wikipedia.org/wiki/Number_of_words_in_English

Tjark @Verwijderd • 8 april 2007 12:43

M'n vorige GSM (denk dat het de Samsung A700 was) had ook een voice dial. Die werkte perfect. Per contact 3x inspreken en vanaf dan 1 knopje en de naam zeggen.

M'n Ericsson T68 kon dat ook al (5 jaar geleden). Maar bij deze voorbeelden is het ook geen echte spraakherkenning: 't is commando herkenning door vergelijk met een opgenomen stukje spraak. Je gaf zelf al aan "Per contact 3x inspreken....". Dus dat is voor m'n 250 contacten in m'n telefoonboek 750x opnemen.

Het zou pas _echt_ handig zijn als er echte spraakherkenning in zou zitten en je dus niet van te voren bij elk contact een sample hoeft op te nemen, maar dat hij aan de tekst/naam van 't contact zelf kan 'herkennen' wie je bedoelt....

PrinsEdje80 8 april 2007 06:21

Hier in Australie, als je de grote telco (Telstra) belt, moet je alles spraak gestuurd doen. Dit is soms zeer frustrerend, sinds het elke keer jou vraagt of het antwoord correct is (zeker als je weer opnieuw moet bellen, want dan weet je waar je naar toe wilt en met toetsen zou je veel sneller door de menu's heen kunnen surfen). Maar ik moet zeggen dat met mijn Nederlands accent (wat ik toch wel schijn te hebben) het tot zover maar een keer fout is gegaan van de 10 keer dat ik belde...

notsonewbie 8 april 2007 10:24

De moeilijkheid zit hem er in dat we woorden apart lezen, maar die in 1 adem uitspreken, als 1 woord dus niet zelden.

notsonewbie 8 april 2007 10:26

Aan allen die de voorbeelden geven van telecom bedrijven: Zou het niet beter zijn voor velen ipv voor enkelen, als we massal klagen dat die systemen niet werken er dan dUs weer mensen komen te werken?
Ik ben dol op computers, maar als we 'over-automatiseren' gaat het voor velen veel schade opleveren en slechts enkelen kunnen dan lachen.

Verwijderd @notsonewbie • 9 april 2007 10:45

Heeft allemaal met kostenbesparing te maken. Dit geldt misschien niet voor jou, maar veel mensen willen én een echte persoon aan de lijn én het allergoedkoopste Telfort-abonnementje. Vanaf een bepaald punt gaan dingen niet meer samen en wordt het of-of.

Innsewerants 8 april 2007 10:38

Computer, lights.

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (40)

Sorteer op:

Weergave: