Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 40 reacties
Bron: C|net

Stemherkenning door computers lijkt langzaam tot wasdom te komen. Na een serie even nutteloze als hilarische pogingen om menselijke spraak accuraat te duiden, lijken bedrijven als Google en Microsoft inmiddels op de juiste weg te zijn - en er zijn meer kapers op de kust.

Spraak via mobiele telefonie Startups als Simulscribe, SpinVox en Callwave beweren software in huis te hebben die - zonder training - spraak accuraat naar geschreven tekst kan omzetten, en bieden diensten aan die voicemail in e-mail of sms-berichten verandert. De kwaliteit is volgens diverse analisten 'eindelijk acceptabel', al levert een teveel aan achtergrondgeluid nog altijd onvoorspelbare transcripties op. 'Spraak is nog altijd de killer application van mobiele telefoons', aldus Charles Golvin van Forrester Research, 'en de mogelijkheden van spraakgestuurde diensten worden momenteel flink onderschat.' Dat lijkt een open deur, maar de tijdwinst die met goede spraakanalyse geboekt kan worden is aanzienlijk: het lezen van een sms'je kost luttele seconden, terwijl het afluisteren van een voicemailtje met dezelfde inhoud makkelijk een minuut of langer kan duren. Bovendien is de informatie uit een bericht - waarbij bijvoorbeeld gedacht kan worden aan adressen en telefoonnummers - beschikbaar in een voor computers herkenbaar formaat. Er is dan ook goed geld te verdienen voor degene die als eerste een betrouwbare implementatie in de markt weet te zetten.

Goog411-logo Het wordt algemeen als een teken aan de wand gezien dat Microsoft in maart naar schatting 800 miljoen dollar voor spraakherkenningsbedrijf Tellme op tafel legde: de spraak-naar-schriftsoftware, die gesproken vragen per sms kan beantwoorden, is langzamerhand rijp voor het grote publiek. Google presenteerde gisteren eveneens een spraakgestuurde zoekdienst, die vooralsnog overigens alleen in de Verenigde Staten beschikbaar is: aan het telefoonnummer 0800-GOOG411 kunnen de inwoners van dat land gelocaliseerde zoekopdrachten geven, waarna ze - bijvoorbeeld - het adres van de dichtstbijzijnde pizzeria per sms toegestuurd krijgen. In hoeverre de diensten aanslaan moet nog even afgewacht worden: een eerdere poging van Google stierf een stille dood, terwijl de spraakherkenning die Microsoft in Vista verpakte juist veel meer aandacht kreeg dan de softwarebouwer leuk vond.

Microsoft Vista's spraakherkenningsdemonstratie

Lees meer over

Gerelateerde content

Alle gerelateerde content (26)
Moderatie-faq Wijzig weergave

Reacties (40)

Grappig dat dit ineens hot news is. Ik heb in 1999 al een demonstratie gezien, of beter gezegd gehoord, van zo'n dienst. Dat was toen operationeel in Amerika. Een dienst waarbij je telefonisch restaurants kon zoeken en een tafel kon reserveren. Volledig gestuurd door voice recognition.
idd en binnen de medische wereld (lees Radiologie) heb je al langer voice recognition systemen als "Powerscribe" die de verslagen prima maken zonder dat er een typiste of opnameband tussen komt. Het is niet optimaal (je kan woorden toevoegen die het programma niet herkent) maar voldoende voor de meeste verslagen...

Dit is natuurlijk andere koek, maar voice systemen die tekst kunnen "maken" wat jij zegt bestaat al veel langer..
Heb nu een telefoonprovider hier (.ca), waarbij je alleen nog met spraakherkenning het menu kan besturen. Dat zuigt toch best wel. Waarschijnlijk begrijpt dat ding mijn .nl-accent niet. Hulp van een (Canadese) collega ingeroepen. Hij is er uit eindelijk wel uitgekomen, na veel pogingen. Eindelijk een operator er aan gekregen, dus ik klagen over het voice systeem. Zegt ie dat ze het weten en 'er mee bezig zijn'...

Ben benieuwd hoe het systeem van google werkt. Of ie ook tegen Engels met een accent (of ander spraakgebrek) kan.

Trouwens; het is 1800-GOOG411, niet 0800-GOOG411 ...
Vorig jaar moest ik de laatste trein vanuit Utrecht nemen, ik bellen met 9292 o.i.d. kreeg ik ook een computer aan de telefoon. Ik heb werkelijkwaar 30 minuten er over gedaan om de juiste informatie door te krijgen.

computer: "is deze informatie juist?"

Ik: Ja.

computer: ...

Ik: Ja.

computer: "is deze informatie juist?"

etc.
M'n vorige GSM (denk dat het de Samsung A700 was) had ook een voice dial. Die werkte perfect. Per contact 3x inspreken en vanaf dan 1 knopje en de naam zeggen.

Ik heb ook een tijd gebprobeerd in Word 2003 met spraakherkenning te werken, maar dat was nog een ramp.

Het zit eraan te komen. Ik geef het een goeie kans dat het binnen 5 jaar vrij mainstream is en dat ik tegen dan niet meer op m'n ramplank moet zitten tokkelen om te posten.

Na al die hypes (L&H - Flanders Language Valley etc.) mag het ook wel eens. Gek dat een goed algoritme zoveel tijd kost als je denkt dat het probleem al lang niet meer bij de hardware ligt.

Man de wereld gaat weer op z'n kop staan :) Heerlijk technologie!
Bijna alle moderne (zakelijke?) Nokia's hebben dit inderdaad ook. Verschil is dat hier gekozen moet worden uit, zeg, 200 ingesproken contact namen. Een beetje taal (zoals het Engels) heeft een vocabulaire van een half miljoen woorden * (exclusief vervoegingen). Je kunt je voorstellen dat dit het niet een beetje ingewikkelder maakt ;).

* bron: http://en.wikipedia.org/wiki/Number_of_words_in_English
M'n vorige GSM (denk dat het de Samsung A700 was) had ook een voice dial. Die werkte perfect. Per contact 3x inspreken en vanaf dan 1 knopje en de naam zeggen.
M'n Ericsson T68 kon dat ook al (5 jaar geleden). Maar bij deze voorbeelden is het ook geen echte spraakherkenning: 't is commando herkenning door vergelijk met een opgenomen stukje spraak. Je gaf zelf al aan "Per contact 3x inspreken....". Dus dat is voor m'n 250 contacten in m'n telefoonboek 750x opnemen.

Het zou pas _echt_ handig zijn als er echte spraakherkenning in zou zitten en je dus niet van te voren bij elk contact een sample hoeft op te nemen, maar dat hij aan de tekst/naam van 't contact zelf kan 'herkennen' wie je bedoelt....
De nieuwe dienst van Google lijkt een beetje op 1207 met Sophie, alleen wordt daar geen sms verstuurd nadien.
Voor de mensen die dat niet kennen, 1207 is de algemene inlichtingendienst van België. Een goed jaar geleden deed Sophie haar intrede, een computerstem die gesproken opdrachten moet herkennen en nadien een antwoord kan geven. Je spreekt bv. eerst de gemeente in en dan de naam van een persoon. Als ze het correct verstaat, geeft Sophie je het telefoonnummer, anders wordt je doorverbonden met een medewerker.
Het systeem is niet foutloos, maar als je duidelijk spreekt, werkt het. Van de 10 keer dat ik het geprobeerd heb, gaf ze 7 keer het juiste nummer.
In Nederland heb je dat ook wel met de telefoonversie van 9292ov.nl Heb daar een hele tijd terug wel eens mee gebeld, maar als je heel duidelijk praat begrijpt die ook een hoop.
Bij de Xerox helpdesk ook.
Alleen die stem die je antwoord geeft, afgrijselijk.
Maar het serienummer inspreken heeft hij meestal wel goed te pakken, terwijl dat meestel datgene is waar het mis gaat.
je bedoelt: 'Welkom bij xerox, ik heb wat gegevens van je nodig zodat ik je kan doorverbinden' ? Wat een vreselijke gladde 'homo quismaster" stem. Ik vind hem wel grappig. tenminste niet zo'n standaard computer stem die weinig kleur heeft.
CBR heeft het ook, maar dat was huilen met de pet op :'( heb half uur aan de lijn gehangen voordat die domme computer doorhad dat ik in Zwolle examen wilde doen, en niet in Enschede :(
De Engelse sprakherkenning in Vista doet het prima. Alle opdrachten die ik geef worden opgevolgd, en als hij woorden niet herkend, wat niet vaak gebeurd, geeft hij je gewoon keuzemogelijkheden, waar het goede woord altijd tussenzit.

Perfect dus. Helaas,niet heel interessant aangezien er geen NL versie is volgens mij.
De kwaliteit is volgens diverse analisten 'eindelijk acceptabel', al levert een teveel aan achtergrondgeluid nog altijd onvoorspelbare transcripties op.
Microsoft Research heeft wel al een 'killer' oplossing voor dit probleem, wat je gedeeltelijk kan zien op: http://www.youtube.com/watch?v=PBmclnJjGtM

Het is te hopen dat die research snel onderdeel wordt van de bestaande spraak herkenning.

edit: oops was als algemene reactie bedoeld, niet voor PWM
maar ehhh... ik zie wel iets leuks, maar horen is iets anders. Als ze het daarna nou zouden afspelen en het zou kloppen (en verstaanbaar) dan is het allicht een goede technologie. Maar hoe weten wij dat alles wat verdwijnt door zijn algoritme achtergrond geluiden zijn? Misschien gooit ie der gewoon een image filter overheen die alle gele pixels die grenzen aan blauwe weg gooit :s
Eerst horen dan geloven.
Zo'n killer oplossing is dit niet volgens mij. Zo'n spectrum kun je met Matlab maken (fast fourier transform toepassen). Het versterken en onderdrukken van frequenties is dan een eitje. Je kunt bijvoorbeeld elk element van het spectrum op elk tijdstip (visueel: elke pixel van het grafiekje) kwadrateren en er daarna een bepaalde treshold vanaf trekken. Dan produceer je misschien wel hetzelfde resultaat als in het filmpje wordt weegegeven, al zal het niet zó eenvoudig zijn.

Zoals hierboven al gezegd: de kwaliteit van het algoritme hangt af van hoe het resultaat klinkt: het moet een dusdanig intelligente methode van filtering toepassen (oa bepaling van de treshold) dat het doorgelaten resultaat nog steeds natuurlijk klinkt.
Goed dan, mijn ervaring met spraakherkenning. Ik studeer Kunstmatige Intelligentie (aan de RuG) en ik volg daar momenteel het practicum 'taal- & spraaktechnologie'. Onderdeel hiervan is het werken met spraakherkenningsystemen (om een indruk te krijgen van wat er momenteel nog allemaal mis is met die systemen).

Ik kan je vertellen dat dit een hoop frustraties heeft opgeleverd. We hebben gewerkt met een vrij recente versie van Dragon Naturally Speaking (dat zou het beste moeten zijn wat er is, de allernieuwste versie zal echter ongetwijfeld iets beter preseteren).

Het dicteren van simpele teksten gaat vrij goed. Na enige training gaan ook de wat lastigere teksten heel redelijk (hoewel het gewoon typen van teksten toch zeker 5 tot 8 keer zo snel zal gaan). De ultieme test was het dicteren van een 'groot dictee der Nederlandse taal'. Dit heeft me bijna 2 uur gekost. Maar goed, van zo'n systeem mag je misschien ook niet verwachten dat het die hele moeilijke , weinig gebruikte woorden goed verstaat.

Maar o wee als er wat teveel achtergrondruis bij komt. Dan gaan de prestaties enorm achteruit.
Om trouwens nog een leuke indruk te geven: na de training heb ik een tekst ingesproken (niet dicteren, maar voorlezen, zonder erbij te zeggen 'punt' of 'comma', enz.). Dit audiobestand kun je door het programma halen en die schrijft dat vervolgens uit. De prestatie was echt belabberd. Het onderwerp van het verhaal dat ik voorlas was nog maar net te herkennen, maar daarmee was het wel gezegd. Dus, conclussie: dicteren gaat (na training zonder al teveel achtergrondruis) heel aardig. Gewoon spreken: belabberd.

Voorbeelden van fouten die ik tegenkwam (dit was met dicteren):
"blèrende dreumesen" -> "blij aan de dreumen zijn"
"beiderlei" -> "beide leiding"
"rigoureuze" -> "regelrechte"
"ontactisch" -> "contact is"
"skateboardde" -> "skaters boorde"
"zee was" -> "een klas"
"je door" -> "de dollar"

Zo, nu ik dit schrijf merk ik al: de frustraties liggen nog vers in het geheugen ;).
Overigens, ter verdediging van het systeem moet ik zeggen: de engelse versie schijnt jaren voorsprong te hebben op de Nederlandse en zoals ik al eerder zei was dit niet de allernieuwste versie.

Hoewel dit practicum een hoop frustraties opleverde, was het wel leuk om eens te kijken hoe die software nou presteerd en waar de problemen liggen. Naar mijn idee zijn we er nog lang niet met spraakherkenning. Deze software werkt alleen op hele specifieke domeinen, terwijl mensen over een enorm domein nog heel goed dingen kan verstaan.

Zodra deze software om kan gaan met ruis in het signaal, met verschillende sprekers (zonder te hoeven trainen) en een normaal gesprek (in plaats van het dicteren) kan volgen, dan zijn we er in de buurt! En ik kan me niet voorstellen dat Google en/of Microsoft daar al zijn.
Van wat ik weet van spraakherkenning (Scansoft) is dat je het ook kunt trainen. Dus die zinnen die hij niet goed pakt, zelf uitschrijven en dat resultaat terugzetten.
Dan doet hij het opeens een beetje beter.

Maar inderdaad, er moet niet teveel achtergrond geluid zijn. Zo was voor een demo omgeving het bij een opstelling wel goed werkend, maar in een andere (een badkamer) was er teveel achtergrond geluid (ookal zat er een perperdure geluidsinstallatie achter) waardoor hij het niet goed oppakte en de commando's niet goed uitvoerde.
Uiteraard. Dat hebben we tijdens het practicum dan ook veelvuldig gedaan.

Van het verbeteren leert het programma je stem beter herkennen. Verder zijn er ook trainingsessies in het programma, dan lees je een verhaal van een half uur voor.

Het punt is alleen een beetje: mensen kunnen zonder te trainen iedereen verstaan (nouja, vrijwel iedereen) die dezelfde taal spreekt. Zolang spraakherkenning dat nog niet kan, is er nog verbetering nodig voordat het algemeen geaccepteerd zal worden.
Nog een mooie voordeel hiervan is, dat mensen eindelijk fatsoenlijk leren te articuleren, en grammaticaal misschien ook een stukje beter worden.
Zonder goede articulatie en een minimum aan grammatica zal het voor dit systeem onmogelijk zijn om spraak om te zetten in tekst.

Edit: Dit is een postieve benadering op het probleem dat deze systemen moeite hebben met sommige accenten en dialecten.
grammatica? Zoveel grammaticale kennis heb je toch niet nodig om "ok", "word" of "close that" te zeggen? :?
Ik heb nu al 6x geprobeerd Word te openen met dt en alle keren opende het netjes. Zo goed is Vista dus niet met grammatica.....
Aan allen die de voorbeelden geven van telecom bedrijven: Zou het niet beter zijn voor velen ipv voor enkelen, als we massal klagen dat die systemen niet werken er dan dUs weer mensen komen te werken?
Ik ben dol op computers, maar als we 'over-automatiseren' gaat het voor velen veel schade opleveren en slechts enkelen kunnen dan lachen.
Heeft allemaal met kostenbesparing te maken. Dit geldt misschien niet voor jou, maar veel mensen willen én een echte persoon aan de lijn én het allergoedkoopste Telfort-abonnementje. Vanaf een bepaald punt gaan dingen niet meer samen en wordt het of-of.
Bovendien is de informatie uit een bericht - waarbij bijvoorbeeld gedacht kan worden aan adressen en telefoonnummers - beschikbaar in een voor computers herkenbaar formaat.
Het ingesproken bericht is dan toch ook een herkenbaar formaat voor computers? Als het niet herkenbaar zou zijn kan het berichtje ook niet gegenereerd worden ;)
Hier in Australie, als je de grote telco (Telstra) belt, moet je alles spraak gestuurd doen. Dit is soms zeer frustrerend, sinds het elke keer jou vraagt of het antwoord correct is (zeker als je weer opnieuw moet bellen, want dan weet je waar je naar toe wilt en met toetsen zou je veel sneller door de menu's heen kunnen surfen). Maar ik moet zeggen dat met mijn Nederlands accent (wat ik toch wel schijn te hebben) het tot zover maar een keer fout is gegaan van de 10 keer dat ik belde...

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True