Interview met Microsoft over spraakherkenning

Op C|Net is een interview verschenen met Kai-Fu Lee, een wetenschapper die onderzoek doet naar spraakherkenning binnen Microsoft's NISD (Natural Interactive Services Division). Uit het verhaal van Lee wordt duidelijk dat deze technologie geen grote sprongen maakt. De mogelijkheden voor consumenten zijn nog steeds beperkt en professionele opstellingen zijn erg prijzig. Toch staat het niet stil: ieder jaar wordt ongeveer 10 tot 15% verbetering geboekt. Volledig foutloos zal het nooit kunnen worden, maar het streven is dat de computer over een jaar of zeven net zo goed spraak zal kunnen herkennen als een mens, misschien zelfs nog iets beter. De software zou in ieder geval niet de beperkende factor zijn, zolang computers snellere processors en meer geheugen krijgen kan er beter gebruik gemaakt worden van enorme hoeveelheden statistische gegevens om woorden uit geluiden te herkennen.

Het uiteindelijke succes is volgens Lee meer afhankelijk van ontwikkelaars en bedrijven. Deze moeten nu alvast kennis gaan maken met de mogelijkheden, zodat ze bereid zijn om er tijd en geld in te investeren. Begin 2004 verschijnt Microsoft Speech Server, een 'scherp geprijsd' pakket om de markt voor spraaktoepassingen alvast een beetje op te warmen. Ook gebruikers zullen er aan moeten wennen om tegen hun computer te praten. Lee denkt dat computers een opdracht als "verzet m'n afspraak met Hans naar woensdag" de komende vijf jaar nog niet zullen begrijpen, maar binnen tien jaar moet het toch zo ver zijn dat ook deze commando's uitgevoerd kunnen worden, net alsof er ergens een secretaresse verborgen zit:

People also have to be taught to talk to the computer. This will happen. It will just take time. I don't see that happening within the next five years but definitely in the next 10. The human social interface is by speech, not typing. If you want a natural, social interface, you have to talk--and people will expect a more anthropomorphic response on the other side.

Reacties (42)

Verwijderd 14 oktober 2003 17:54

Het probleem in spraakherkenning (net als in musical information retrieval, waar ik zelf mee bezig ben) is volgens mij dat er niet genoeg wordt samengewerkt.
Als een onderzoeker in een bedrijf als Microsoft een verbetering heeft gevonden komt deze niet snel genoeg beschikbaar voor andere onderzoekers - als het al beschikbaar komt.

De oplossing is dat de hele community aan een library werkt, die onder de GPL valt...

Verder heb je nog problemen met patenten, die alleen maar kunnen toenemen...

pjr557 14 oktober 2003 17:55

Jammer dat MS lernout en hauspie een paar jaar geleden omzeep geholpen heeft. Werkte goed en je kon je er je pc mee aansturen en een brief dicteren. was trouwens ook een stuk goedkoper. maarja het is hun eigen schuld dat ze failliet zijn hadden ze maar met MS in zee moeten gaan. (ik voel -1 flamebaits aankomen).

Verwijderd 14 oktober 2003 18:25

In het artikel staat dat de computer over 7 jaar goed spraak herkent. Echter dat zeiden ze 10 jaar geleden ook, en 10 jaar daarvoor zelfs al!

Mysteryman 14 oktober 2003 17:25

Klinkt wel veel belovend...

alleen komen er dan nog meer banen vrij want een secretaresse heb je niet meer nodig...

The Jester @Mysteryman • 14 oktober 2003 18:32

Da's dan goed nieuws voor de laptop-producenten.
(Je moet tenslotten wel iets op schoot houden, toch!)

sweetdude @Mysteryman • 14 oktober 2003 18:42

je kunt dan wel tegen de pc zeggen "breng me een bak koffie" dat snapt hij dan ook wel maar brengen doet hij het niet.

Andre-85 14 oktober 2003 17:39

Ik heb hier Dragon NaturallySpeaking, je kan er al wel mee werken maar foutloos is het zeker niet. Ik hoop dat deze thechnologie nog een flinke groei doormaakt, zodat het ook voor de consument aantrekkelijk wordt. Wie wil nou niet zijn computer met stem besturen?

eamelink @Andre-85 • 14 oktober 2003 18:36

Ik absoluut niet,

muis en toetsenbord gaat toch best? Ik zie mezelf al heel de tijd 'sluit venster' zeggen, om popups weg te werken

Als het alleen gaat om tekstinvoer, zou ik er in kunnen komen, maar zelf doe ik het nog steeds liever zo. Ik typ namelijk sneller dan ik denk (dat zegt niet zoveel over m'n typsnelheid, meer over m'n denksnelheid

), dus ik heb echt geen behoefte aan snellere invoermethoden. Daarbij vind ik praten gewoon vervelend tegen een computer.

smokalot @eamelink • 14 oktober 2003 18:52

Voor een pc niet zo handig misschien, maar voor een huis-server (die in de toekomst je verwarming, boodschappen, afspraken, enz regelt) wel, en wellicht wat meer bereikbaar voor mensen nu: de boardcomputer van de auto.

In veel autos zit bv een navigatiesysteem, zou makkelijk zijn als je niet je auto aan de kant hoeft te zetten op het moment dat je iets in wilt stellen.

home entertainment setjes staan ook al bij veel mensen thuis...

Bobco @smokalot • 15 oktober 2003 09:53

Maar tegen dat soort apparatuur zul je een bepaalde set van vaste commando's kunnen gebruiken. Dat is een heel stuk simpeler dan het herkennen (en vooral begrijpen) van natuurlijke taal.

Mensen voegen zelf heel veel informatie toe aan de informatie die ze binnenkrijgen. Een zinntje als 'Haal eens iets lekkers uit de koelkast' kan voor een man resulteren in een biertje en voor een vrouw in een portie ijs (even wat cliche's gebruiken voor de duidelijkheid). De persoon die deze zin hoort hangt daar meteen de voorkeuren van de spreker aan. Dit soort trucs zijn voor een stuk software heel erg lastig, juist omdat er zo ontzettend veel onuitgesporken veronderstellingen aan vast zitten.

Verwijderd @Andre-85 • 14 oktober 2003 17:50

ach voicedialing gebruik ik ook dagelijks op mn telefoon

not

weet niet of het zoveel handiger zal zijn misschien wennen maar voorlopig zit ik er niet om te springen om om 2 uur snachts tegen mn pc te schreeuwen dat ie uit moet gaan

Sturm @Andre-85 • 15 oktober 2003 10:13

Het lijkt me toch vrij irritant als je met een aantal collega's op een kamer zit en dat iedereen door elkaar heen aan 't kleppen is tegen z'n computer...

posttoast 14 oktober 2003 17:25

Het lijkt me ook niet echt geweldig om een kantoor vol mensen die tegen hun PC praten te hebben...

vanDee898 @posttoast • 14 oktober 2003 17:33

Lekker handig ja, als mijn PC de commando's van mijn collega opvangt en uitvoerd......

Beaves @vanDee898 • 14 oktober 2003 18:43

Je zult een zin/commando moeten beginnen met "pc Hans" voordat je een verhaal begint op te hangen tegen je pc, want anders weet zo'n pc nooit wanneer hij moet reageren. Als je ineens "check mail" roept zal je pc echt niet reageren, want anders kan je geen normaal gesprek meer voeren.

Als je aan je buurman uitlegt hoe je mail in Outlook verwijderd wil je immers niet dat alle pc's in de ruimte ineens de mail gaan weggooien of wel?

Zelfs in Star Trek moeten ze eerst "computer" zeggen voordat ze opdrachten kunnen geven aan de computer, dat zal in het echt niet anders zijn.

Het moeilijkste zal zijn om de pc met alle verschillende dialecten en eigenaardigheden van spraak om te laten gaan. Sommige mensen slikken woorden in en ga zo maar door.

bille @Beaves • 14 oktober 2003 19:26

oftewel.. een computer moet ook in staat zijn om:
a: zichzelf als computer te evalueren
b: kunnen herkennen of (wanneer er gesproken wordt) een persoon tegen de computer praat en wie het is (stem authenticatie?)

Naar mijn idee is er voor stemgestuurde computers nog een stapje voorwaarts nodig in AI. Lijkt me echt een ontzettend interessant vakgebied, zij het dat er veel filosofie e.d. aan te pas komt..

ocf81 14 oktober 2003 17:42

Hier zit natuurlijk ook een stukje vertalerbouw bij. laat het nou net zo zijn dat een taal met uitzonderingen (dus erg ambigu) erg veel lastiger (tot bijna niet) te begrijpen is voor computers dan een taal met een non-ambigue grammatica. wooren begrijpen om ze om te zetten naar text is een ding. De symantiek begrijpen is heel iets anders. Zoiets gaat denk ik wel wat langer duren. Als het ze binnen 5 jaar lukt om een enigzins werkend systeem op te zetten voor een bedrag onder de 1000 euro lijkt het mij knap. En BTW waarom moet ik leren om tegen de computer te praten? verstaat ie me anders niet? (krijg je zeker van die hele telegramstijl achtige syntax)

BTW een voorgeprogrammeerde serie klanken herkennen (zoals dat bij van die gamevoice proggies gebeurt) is heel wat anders dan een de hand van een woordenboek c.q. alfabet menselijke taal herkennen (al dan niet in gespoken vorm)

Verwijderd @ocf81 • 14 oktober 2003 17:47

Veel mensen willen nog wel eens murmelen, woorden samentrekken of anderzins ongearticuleerde rijstebrij uitbrengen. Zie een computer dat maar te laten herkennen. Ergo: je moet leren met de computer te spreken, als je behoort tot die categorie mensen. Daarnaast zal de computer moeten leren naar je te luisteren, te wennen aan je tongval en stem... Het is zeg maar net als wanneer je verhuist naar een andere regio binnen eigen land: dan moet je ook even accomoderen voordat je het meisje achter de kassa begrijpt

tvdleur @Verwijderd • 14 oktober 2003 18:16

Ook dat, en zelfs als je ABN spreekt.. wat dacht je van achtergrondgeluiden (pratende collegas, radio)? Dat zal er ook uit gefilterd moeten worden...

Verwijderd @ocf81 • 14 oktober 2003 22:13

Het is minder lastig dan je denkt. Om correct spraak in text om te zetten wordt er namelijk al een heleboel grammatica in de tekst herkennings software gezet. Weten wat er ongeveer zou moeten staan, maakt het herkennen van woorden veel makkelijker.
De gramaticale interpretatie wordt dus op dit moment al gedeeltelijk uitgevoerd.

Ronald_stage 14 oktober 2003 18:01

je kan als je blind kan typen denk ik sneller typen dan dat je praat.

Zolang je de hele zin maar in je hoofd hebt zitten.

jvo @Ronald_stage • 14 oktober 2003 18:28

Uh, nou, ik denk het niet. Hoe snel wou je dan typen? Aanslagje of 1000 per minuut ofzo? Volgens mij is de rangorde als volgt:

schrijven < typen < spreken

eamelink @Ronald_stage • 14 oktober 2003 18:37

Nou, dan typ jij wereldkampioensnelheid hoor, doe maar eens een testje met iemand

Typen gaat écht niet zo snel als schrijven.

Beaves @eamelink • 14 oktober 2003 18:49

Ik weet niet hoe langzaam jij typed, maar ik type echt wel sneller dan ik schrijf, en ik denk dat andere dat ook kunnen, mits je blind kan typen. Heel misschien kan het wel, maar dan schrijf ik zo onduidelijk dat ik het zelf niet meer kan lezen.

Daarnaast denk ik ook dat typen ook sneller gaat als dicteren. Waarom? Omdat je als je een brief aan Word dicteerd je ook randzaken moet opnoemen, zoals "punt", "spatie", "komma", "spring in" en ga zo maar door. Ook het navigeren gaat met de muis/toetsenbord sneller. Als ik naar zin 10, letter "l" wil, ben ik met 1 muisklik daar. Als ik dat moet dicteren ben ik langer bezig. Dan moet ik weten welke regel en welke positie ik moet opnoemen.

Nee, laat mij maar mijn brief schrijven i.p.v. dicteren.

jvo @Beaves • 14 oktober 2003 20:41

Nee, laat mij maar mijn brief schrijven i.p.v. dicteren.

Schrijven? Of typen?

Left 14 oktober 2003 17:55

Ik heb een tijdje vanwege rsi klachten met spraakherkenning geexperimenteerd. Ik moet zeggen om gewoon tekst in te voeren werkt het best goed, misschien nog wel beter dan typen. Ok het is niet foutloos, maar daar staat tegenover dat je sneller kan spreken dan dat je kan typen.

Alleen als je computerprogramma's wil invoeren dan werkt het echt voor geen meter. Al die afkortingen en speciale tekens, dat schiet voor geen meter op.

MacD @Left • 14 oktober 2003 18:18

Als je kan blind typen dan kun je veel sneller typen dan spreken. Sterker nog, je kan sneller luisteren dan spreken, vandaar dat er een paar progjes zijn die video en geluid realtime comprimeren zodat je ze sneller af kan spelen. Spraak zelf is echt de limiterende factor.

Verwijderd 14 oktober 2003 18:40

Dicteren is leuk, maar je computer besturen is veel leuker. A la startrek dus (computer is er nog nieuwe mail?, computer wat zijn de laatste nieuwtjes bij tweakers?...). Dan hoeft de computer ook niet alles perfect te begrijpen. Als iets niet duidelijk is vraagt de computer dat toch gewoon even? Want de spraak-communicatie moet natuurlijk wel bidirectioneel zijn.

Op dit item kan niet meer gereageerd worden.

Interview met Microsoft over spraakherkenning

Lees meer

Reacties (42)

Sorteer op:

Weergave: