Hoofdcategorieën

Google illustreert opmars voice recognition

Door René Wichers, zaterdag 7 april 2007 19:27
Bron: C|net, views: 23.476

Stemherkenning door computers lijkt langzaam tot wasdom te komen. Na een serie even nutteloze als hilarische pogingen om menselijke spraak accuraat te duiden, lijken bedrijven als Google en Microsoft inmiddels op de juiste weg te zijn - en er zijn meer kapers op de kust.

Spraak via mobiele telefonie Startups als Simulscribe, SpinVox en Callwave beweren software in huis te hebben die - zonder training - spraak accuraat naar geschreven tekst kan omzetten, en bieden diensten aan die voicemail in e-mail of sms-berichten verandert. De kwaliteit is volgens diverse analisten 'eindelijk acceptabel', al levert een teveel aan achtergrondgeluid nog altijd onvoorspelbare transcripties op. 'Spraak is nog altijd de killer application van mobiele telefoons', aldus Charles Golvin van Forrester Research, 'en de mogelijkheden van spraakgestuurde diensten worden momenteel flink onderschat.' Dat lijkt een open deur, maar de tijdwinst die met goede spraakanalyse geboekt kan worden is aanzienlijk: het lezen van een sms'je kost luttele seconden, terwijl het afluisteren van een voicemailtje met dezelfde inhoud makkelijk een minuut of langer kan duren. Bovendien is de informatie uit een bericht - waarbij bijvoorbeeld gedacht kan worden aan adressen en telefoonnummers - beschikbaar in een voor computers herkenbaar formaat. Er is dan ook goed geld te verdienen voor degene die als eerste een betrouwbare implementatie in de markt weet te zetten.

Goog411-logo Het wordt algemeen als een teken aan de wand gezien dat Microsoft in maart naar schatting 800 miljoen dollar voor spraakherkenningsbedrijf Tellme op tafel legde: de spraak-naar-schriftsoftware, die gesproken vragen per sms kan beantwoorden, is langzamerhand rijp voor het grote publiek. Google presenteerde gisteren eveneens een spraakgestuurde zoekdienst, die vooralsnog overigens alleen in de Verenigde Staten beschikbaar is: aan het telefoonnummer 0800-GOOG411 kunnen de inwoners van dat land gelocaliseerde zoekopdrachten geven, waarna ze - bijvoorbeeld - het adres van de dichtstbijzijnde pizzeria per sms toegestuurd krijgen. In hoeverre de diensten aanslaan moet nog even afgewacht worden: een eerdere poging van Google stierf een stille dood, terwijl de spraakherkenning die Microsoft in Vista verpakte juist veel meer aandacht kreeg dan de softwarebouwer leuk vond.

Microsoft Vista's spraakherkenningsdemonstratie

Volgende 19:46
Vorige 18:43

Reacties

«  1  2  3  »

De Engelse sprakherkenning in Vista doet het prima. Alle opdrachten die ik geef worden opgevolgd, en als hij woorden niet herkend, wat niet vaak gebeurd, geeft hij je gewoon keuzemogelijkheden, waar het goede woord altijd tussenzit.

Perfect dus. Helaas,niet heel interessant aangezien er geen NL versie is volgens mij.

De kwaliteit is volgens diverse analisten 'eindelijk acceptabel', al levert een teveel aan achtergrondgeluid nog altijd onvoorspelbare transcripties op.
Microsoft Research heeft wel al een 'killer' oplossing voor dit probleem, wat je gedeeltelijk kan zien op: http://www.youtube.com/watch?v=PBmclnJjGtM

Het is te hopen dat die research snel onderdeel wordt van de bestaande spraak herkenning.

edit: oops was als algemene reactie bedoeld, niet voor PWM

maar ehhh... ik zie wel iets leuks, maar horen is iets anders. Als ze het daarna nou zouden afspelen en het zou kloppen (en verstaanbaar) dan is het allicht een goede technologie. Maar hoe weten wij dat alles wat verdwijnt door zijn algoritme achtergrond geluiden zijn? Misschien gooit ie der gewoon een image filter overheen die alle gele pixels die grenzen aan blauwe weg gooit :s
Eerst horen dan geloven.

Zo'n killer oplossing is dit niet volgens mij. Zo'n spectrum kun je met Matlab maken (fast fourier transform toepassen). Het versterken en onderdrukken van frequenties is dan een eitje. Je kunt bijvoorbeeld elk element van het spectrum op elk tijdstip (visueel: elke pixel van het grafiekje) kwadrateren en er daarna een bepaalde treshold vanaf trekken. Dan produceer je misschien wel hetzelfde resultaat als in het filmpje wordt weegegeven, al zal het niet zó eenvoudig zijn.

Zoals hierboven al gezegd: de kwaliteit van het algoritme hangt af van hoe het resultaat klinkt: het moet een dusdanig intelligente methode van filtering toepassen (oa bepaling van de treshold) dat het doorgelaten resultaat nog steeds natuurlijk klinkt.

neen, want dat vond ik heel vervelend toen ik moest overstappen va men RC1 naar de nederlandse business versie :(

Laat er dan eerst wat hogere kwaliteit microfoons komen voor de PC (mainstream).
Die zijn meestal echt om te huilen.

Er bestaan talloze microfoons van prima kwaliteit :?

Ligt er aan wat je prima vind ;) Maar voor echt goede stemherkenning lijkt me het standaard webcam- of headsetmicrofoontje bij lange aan niet toereikend.

De nieuwe dienst van Google lijkt een beetje op 1207 met Sophie, alleen wordt daar geen sms verstuurd nadien.
Voor de mensen die dat niet kennen, 1207 is de algemene inlichtingendienst van België. Een goed jaar geleden deed Sophie haar intrede, een computerstem die gesproken opdrachten moet herkennen en nadien een antwoord kan geven. Je spreekt bv. eerst de gemeente in en dan de naam van een persoon. Als ze het correct verstaat, geeft Sophie je het telefoonnummer, anders wordt je doorverbonden met een medewerker.
Het systeem is niet foutloos, maar als je duidelijk spreekt, werkt het. Van de 10 keer dat ik het geprobeerd heb, gaf ze 7 keer het juiste nummer.

In Nederland heb je dat ook wel met de telefoonversie van 9292ov.nl Heb daar een hele tijd terug wel eens mee gebeld, maar als je heel duidelijk praat begrijpt die ook een hoop.

CBR heeft het ook, maar dat was huilen met de pet op :'( heb half uur aan de lijn gehangen voordat die domme computer doorhad dat ik in Zwolle examen wilde doen, en niet in Enschede :(

Bij de Xerox helpdesk ook.
Alleen die stem die je antwoord geeft, afgrijselijk.
Maar het serienummer inspreken heeft hij meestal wel goed te pakken, terwijl dat meestel datgene is waar het mis gaat.

je bedoelt: 'Welkom bij xerox, ik heb wat gegevens van je nodig zodat ik je kan doorverbinden' ? Wat een vreselijke gladde 'homo quismaster" stem. Ik vind hem wel grappig. tenminste niet zo'n standaard computer stem die weinig kleur heeft.

Nog een mooie voordeel hiervan is, dat mensen eindelijk fatsoenlijk leren te articuleren, en grammaticaal misschien ook een stukje beter worden.
Zonder goede articulatie en een minimum aan grammatica zal het voor dit systeem onmogelijk zijn om spraak om te zetten in tekst.

Edit: Dit is een postieve benadering op het probleem dat deze systemen moeite hebben met sommige accenten en dialecten.

grammatica? Zoveel grammaticale kennis heb je toch niet nodig om "ok", "word" of "close that" te zeggen? :?

Ik heb nu al 6x geprobeerd Word te openen met dt en alle keren opende het netjes. Zo goed is Vista dus niet met grammatica.....

Grappig dat dit ineens hot news is. Ik heb in 1999 al een demonstratie gezien, of beter gezegd gehoord, van zo'n dienst. Dat was toen operationeel in Amerika. Een dienst waarbij je telefonisch restaurants kon zoeken en een tafel kon reserveren. Volledig gestuurd door voice recognition.

idd en binnen de medische wereld (lees Radiologie) heb je al langer voice recognition systemen als "Powerscribe" die de verslagen prima maken zonder dat er een typiste of opnameband tussen komt. Het is niet optimaal (je kan woorden toevoegen die het programma niet herkent) maar voldoende voor de meeste verslagen...

Dit is natuurlijk andere koek, maar voice systemen die tekst kunnen "maken" wat jij zegt bestaat al veel langer..

Lernout & Hauspie anyone? 8-)

Jazeker, de Belgische firma Lernout en Hauspie werd er groot mee, zij verzamelden de kennis onder meer door de bedrijven op te kopen die goed waren in taal- en teksttechnologie.
Terzijde: zo zetten de Belgen hun nadeel (taalstrijd) om in een voordeel..
Alle benodigde kennis voor spraak naar geschreven tekst bestaat al minstens 8 jaar. En niet alleen voor de Engelse taal.

WordPerfect Office 2000 (WP9) werd (in 1999 dus!) al geleverd met Dragon Naturally Speaking. Dat is een heel goed werkend programma om spraak in geschreven tekst om te zetten.
Dragon Naturally Speaking is nu bij versie 9. Ook voor Nederlands gesproken tekst, haast perfect. Er zijn verschillende versies, van onder de honderd tot haast 800 euro.

Hoe is het mogelijk dat spraakherkenning nu nog als nieuws wordt gebracht?
Mensen, doe de oogkleppen eens af en kijk voorbij MS!

Bovendien is de informatie uit een bericht - waarbij bijvoorbeeld gedacht kan worden aan adressen en telefoonnummers - beschikbaar in een voor computers herkenbaar formaat.
Het ingesproken bericht is dan toch ook een herkenbaar formaat voor computers? Als het niet herkenbaar zou zijn kan het berichtje ook niet gegenereerd worden ;)

Heb nu een telefoonprovider hier (.ca), waarbij je alleen nog met spraakherkenning het menu kan besturen. Dat zuigt toch best wel. Waarschijnlijk begrijpt dat ding mijn .nl-accent niet. Hulp van een (Canadese) collega ingeroepen. Hij is er uit eindelijk wel uitgekomen, na veel pogingen. Eindelijk een operator er aan gekregen, dus ik klagen over het voice systeem. Zegt ie dat ze het weten en 'er mee bezig zijn'...

Ben benieuwd hoe het systeem van google werkt. Of ie ook tegen Engels met een accent (of ander spraakgebrek) kan.

Trouwens; het is 1800-GOOG411, niet 0800-GOOG411 ...

Vorig jaar moest ik de laatste trein vanuit Utrecht nemen, ik bellen met 9292 o.i.d. kreeg ik ook een computer aan de telefoon. Ik heb werkelijkwaar 30 minuten er over gedaan om de juiste informatie door te krijgen.

computer: "is deze informatie juist?"

Ik: Ja.

computer: ...

Ik: Ja.

computer: "is deze informatie juist?"

etc.

M'n vorige GSM (denk dat het de Samsung A700 was) had ook een voice dial. Die werkte perfect. Per contact 3x inspreken en vanaf dan 1 knopje en de naam zeggen.

Ik heb ook een tijd gebprobeerd in Word 2003 met spraakherkenning te werken, maar dat was nog een ramp.

Het zit eraan te komen. Ik geef het een goeie kans dat het binnen 5 jaar vrij mainstream is en dat ik tegen dan niet meer op m'n ramplank moet zitten tokkelen om te posten.

Na al die hypes (L&H - Flanders Language Valley etc.) mag het ook wel eens. Gek dat een goed algoritme zoveel tijd kost als je denkt dat het probleem al lang niet meer bij de hardware ligt.

Man de wereld gaat weer op z'n kop staan :) Heerlijk technologie!

Bijna alle moderne (zakelijke?) Nokia's hebben dit inderdaad ook. Verschil is dat hier gekozen moet worden uit, zeg, 200 ingesproken contact namen. Een beetje taal (zoals het Engels) heeft een vocabulaire van een half miljoen woorden * (exclusief vervoegingen). Je kunt je voorstellen dat dit het niet een beetje ingewikkelder maakt ;).

* bron: http://en.wikipedia.org/wiki/Number_of_words_in_English

M'n vorige GSM (denk dat het de Samsung A700 was) had ook een voice dial. Die werkte perfect. Per contact 3x inspreken en vanaf dan 1 knopje en de naam zeggen.
M'n Ericsson T68 kon dat ook al (5 jaar geleden). Maar bij deze voorbeelden is het ook geen echte spraakherkenning: 't is commando herkenning door vergelijk met een opgenomen stukje spraak. Je gaf zelf al aan "Per contact 3x inspreken....". Dus dat is voor m'n 250 contacten in m'n telefoonboek 750x opnemen.

Het zou pas _echt_ handig zijn als er echte spraakherkenning in zou zitten en je dus niet van te voren bij elk contact een sample hoeft op te nemen, maar dat hij aan de tekst/naam van 't contact zelf kan 'herkennen' wie je bedoelt....
«  1  2  3  »

Op dit item kan niet meer gereageerd worden.

Volgende 19:46
Vorige 18:43
VNU Media logo Hosted by True

© 1998 - 2009 Tweakers.net - Alle rechten voorbehouden - Uw Privacy - Algemene Voorwaarden

Uitgever van: