Natuurlijke spraakherkenning wordt steeds beter

Machines die op een levensechte manier luisteren en spreken zijn volgens onderzoekers geen toekomstmuziek meer, zo lezen wij in een artikel van C|Net. Dit doordat opstartproblemen zoals technologische moeilijkheden en hoge kosten volgens hen verleden tijd zijn. Hierdoor zien steeds meer bedrijven heil in het ontwikkelen van software voor spraakherkenning. Zo heeft Microsoft vandaag de eerste publieke bèta van zijn Speech Server, het voormalige .NET Speech Platform, uitgegeven. Ook heeft het Amerikaanse bedrijf de derde bèta van zijn Speech Application software developer kit uitgebracht. Verder is er een partnerprogramma gestart om het ontwikkelingen van software door derden voor het Speech Server platform te stimuleren. Het partnerprogramma zal half 2004 zijn intrede doen.

Spraakherkenning IBM is bezig met de ontwikkeling van een boekhoudprogramma dat via gesproken commando's betaalopdrachten uitvoert. Tegelijkertijd spreekt men binnen IBM over computers die twee mensen die niet dezelfde taal spreken een alsnog een conversatie te kunnen bieden. Aan het einde van dit jaar zouden de eerste computers met bovengenoemde eigenschappen op de markt verschijnen. De afgelopen drie tot vier jaar heeft IBM nodig gehad om de elementen binnen een zin te begrijpen. Dankzij de voortdurende ontwikkeling hoopt het bedrijf in 2010 machines te kunnen ontwikkelingen die gesproken woorden beter om kunnen zetten naar geschreven tekst dan mensen dat nu kunnen. Momenteel maken computers nog tien maal zo veel fouten als mensen.

IT-banen

Reacties (48)

Verwijderd 10 juli 2003 00:19

Maar, zelfs in star-trek, wat ik veel mensen hoor ophalen, gebeurt het gros op de brug nog met een keypad/console.

Is gewoon veel minder storingsgevoelig, veiliger. In star-trek doen ze eigenlijk alleen simpele dingen die je niet kan doen als d'r geen console is met de stem. Bijvoorbeeld koffie bestellen bij een replicator (hebben we nu een ober voor), liftknopje, status on-the-fly opvragen,

zonder fysieke interactie zie ik eigenlijk nog niks gebeuren.

Een PC zonder toetsenbord is écht fantasie. Ik noem bijvoorbeeld de BIOS...

Daarbij: s'avonds als ik stiekem puter ben ik stil...

Verwijderd @Verwijderd • 10 juli 2003 08:40

Ik weet niet of je wel eens gezien hebt hoe ze zelf destruct aanzetten (toch een vrij belangrijke actie), maar dat gaat helemaal via spraak...

En als je al zovel bent dat je spraakherkening in de praktijk bruikbaar is, heb je vast wel een oplossing voor problemen a-la bios.

En qua stil: Ze zijn ook bezig om computers te besturen dmv. hersenactiviteit. Dit zit nu ongeveer in hetzelfde stadium als spraakherkenning in het begin. Wie weet hoe ver die technologie is over 10 jaar.

Verwijderd @Verwijderd • 10 juli 2003 22:11

Maar self-destruct is juist veiliger als je 't via spraak moet doen. Als extra beveiliging dus, zoals een vingerafdruk.

't Is ook een vrij eenvoudige handeling of zich... voor complexere handelingen is console veel sneller - of heb je nooit gezien hoeveel consoles er staan in Engineering?

Hersenactiviteit lijkt me pas echt toekomstmuziek. Ik denk eigenlijk dat dat vrijwel onmogelijk is, in de zin van... ik denk aan het instellen van m'n IE startpagina en 't gebeurt. 't Zal toch wel weer neerkomen op het in gedachten 'uitspreken' van commando's, en dat is nauwelijks sneller dan via spraak (maar wel lekker stil natuurlijk

Codin the Coder 9 juli 2003 22:18

Ik meen mij te herinneren dat Kurzweil in een artikel van hem de exponentiele groei van spraakherkenningssoftware uiteen heeft gezet.

En inderdaad, het is hier te lezen: http://www.kurzweilai.net/meme/frame.html?main=/articles/art0134.html (doorscrollen naar "Example: Automatic Speech Recognition Software").

Die man heeft een makkelijk leven zeg. Hij hoeft alleen maar z'n exponentiele grafieken voor hem te laten spreken. Die hebben namelijk altijd gelijk.

Verwijderd 9 juli 2003 22:23

Ik denk niet dat dit ooit ook maar in de buurt komt van het vervangen van muis/toetsenbord, aangezien typen nu eenmaal stuk sneller en concreter is en een klikje sneller gaat als "selecteer dit en dit en dat"

Verwijderd @Verwijderd • 9 juli 2003 22:34

Typen lijkt mij echt niet sneller dan spreken. Mensen die flinke lappen tekst produceren gebruiken al vaak spraakherkenning, ik heb dat een keer gezien, en dat werkt in combinatie met een tekstverwerker heel behoorlijk. Achteraf moet je het dan nog wel nalopen op de onvermijdelijke herkenningsfouten die gemaakt worden, maar dat moet je bij typen toch ook doen, alleen gaat het dan om typfouten. Nadeel, het vreet geheugen, maar met de lage prijzen van het moment is dat geen obstakel meer. Voor wat betreft de commando's heb je wel gelijk, daar is inderdaad een muisklik verrweg het snelst.

YoMarK @Verwijderd • 9 juli 2003 22:49

Misschien blijven inderdaad bepaalde dingen sneller via een toetsenbord/muis(of misschien een toekomstige opvolger).

Echter is tegenwoordig vrijwel elke GUI(GUI is voor een opvolger misschien ook het verkeerde woord) ook gemaakt voor dat soort input, en dus niet voor spraakinput.

Als spraakherkenning ook echt goed gaat worden, dan zijn er leuke dingen mogelijk(denk bijvoorbeeld ook eens aan Star Trek).

Spraakherkenning is echter niet het complete verhaal, het word pas echt leuk als de computer mee gaat denken met je wensen. We zijn er dus nog lang niet.

boesOne @YoMarK • 9 juli 2003 23:24

Precies. Als spraakherkenning gemeengoed wordt dan kan de computer naar de achtergrond verdwijnen. Je spreekt dan tegen je huis zegmaar.
"Huis: Tweede Album van Orbital track 3"
"Huis: Dim het licht"
"Huis: BIER !"
ofzoiets..

0siris @boesOne • 10 juli 2003 08:58

s/Huis/vrouw --> klaar

Codin the Coder @Verwijderd • 9 juli 2003 22:33

Misschien zou het gesproken woord het afleggen tegen mouseclicks in gevallen van "Selecteer My Computer" en "Open my folder with porno".

Bij het typen van verslagen zijn de rollen echter definitief omgedraaid, daar de meest bliksemsnelle typegeit niet aan de snelheid van het gesproken woord komt.

Ik kan het weten, gezien mijn eigen typesnelheid tot de hoogsten behoort.

Mac_Cain13

@Verwijderd • 9 juli 2003 22:36

Dat muizen sneller is dan de cursor met je stem besturen ben ik met je eens, maar ik kan altijd nog sneller spreken dan typen. (Daarom mag ik ook graag voicechatten) Ook is deze technologie handig voor mensen met dyslexie, want die maken zo geen typvouten meer

edit:

*zucht*, waarom posten er altijd mensen voor mij

Verwijderd 9 juli 2003 22:15

Ik vraag me wel af hoe lang het zal duren voordat wij echt onze hele pc kunnen besturen door simpel een commando te geven met onze stem. Ik gebruik nu af en toe dat Dragon Naturally Speaking, maar dat is verre van perfect. Hoop dat MS wel verder gevorderd is met hun technologie..

kamerplant @Verwijderd • 9 juli 2003 22:42

Ik heb hem ook getest maar vind juist dat het verbazend goed werkt.
Nadat het programma aan de stem is gewend en eigen namen kent kon ik goed complete verhalen inspreken. Jammer alleen dat er beperkt commando's gegeven kunnen worden zodat je de muis nog hard nodig hebt.

Het is alleen een beetje zot om zomaar in je zelf tegen een PC te praten en wat nog eens makkelijk afluisterbaar ook door je directe omgeving. Behalve dat ik vrij snel typ is dat de reden waarom ik het niet gebruik.
Ik vraag me af of zulk soort programma's ooit echt massaal zal worden gebruikt, om deze reden.
Wel kan ik het me voorstellen als het wordt gebruikt voor publieke computers. Denkende parkeer-meters enzo.

ixl85 @kamerplant • 10 juli 2003 00:02

en wat nog eens makkelijk afluisterbaar ook

user: http://www.p0rn.org
vrouw: hE? hoorde ik wat lieverd?
user: uuhhhh nee hoor

idd geen goed plan

berzelius @kamerplant • 10 juli 2003 13:42

Zelf ben ik ook gebruiker van Dragon Naturally Speaking 7 en baal als een stekker dat er geen versie voor Linux is. Het programma moet een uurtje of twee a drie aan je stem wennen, waarbij de herkenningspercentages als een tierelier omhoog schieten. Perfect om RSI te voorkomen. Jammer dat de bediening niet optimaal is.

Een 7 op een schaal van 10.

The Source 9 juli 2003 22:50

Net of spraak herkenning de heilige graal is? Als ik een hele dag presentaties heb gegeven of op een event ben dan ben ik blij dat ik 's avonds eens niet hoef te praten.

Wat te denken van stem RSI?

Timfonie @The Source • 10 juli 2003 00:27

Stem-RSI is helaas een verschijnsel dat voorkomt. Alles in je lijf wat je veel en eenzijdig gebruikt, loopt het risico overbelast te raken, zo ook bij het stemapparaat. Daar komt bij dat spreken tijdens spraakherkenning toch net iets geforceerder gaat dan het normale spreken.

Als de stem goed gebruikt wordt en niet te veel (verspreid over aan aantal blokken opgeteld max. een uur of twee), dan kan er met spraakherkenning heel goed worden gewerkt.

Iemand die professioneel met spraakherkenning moet werken, doet er verstandig aan een bezoek aan de logopedist te brengen om het stemgebruik te controleren (en daarna eventueel te corrigeren).

jeroen210 9 juli 2003 22:20

het zou wel handig zijn als je 2 mensen die een andere taal spreken, zou kunnen laten praten wat IBM ontwikkeld.

verder is het natuurlijk wel vet om je pc te besturen met je stem.

heb free speech maar dat werkt niet zo goed, want je moet eerst heeel lang "oefenen" om het een beetje te kunnen laten werken.

Verwijderd @jeroen210 • 9 juli 2003 23:13

Grappig eigenlijk dat ze steeds meer dingen uit STAR TREK proberen maken. Dit zou je kunnen zien als "universele vertaler".

Nu nog een holodek en dan kan ik er tegenaan...

gluip @Verwijderd • 14 juli 2003 01:13

Valt wel mee met Startrek na maken.
Spraak technology is gebaseerd op de theorien van Markov (rond 1900). Die aangaf dat dit gebruikt kon worden in patronen in gedichten te herkennen en misschien wel spraak. Maar dat zou wel in de echte toekomst zijn.

Wel geinig dat hij dat zo stelde op het moment dat schrift herkenning en uberhaupt computers nog ondenkbaar waren.

Cyberdeck @jeroen210 • 9 juli 2003 23:22

Zo moeilijk is dat niet er zijn zat mensen die een andere taal spreken en elkaar nu al prima verstaan. Al die groningers verstaan elkaar prima!

Verwijderd @Cyberdeck • 10 juli 2003 08:36

Da vin'k heulemaal neit grappig m'jong!

miw @jeroen210 • 10 juli 2003 09:18

Zo'n spraakherkenningsprogramma lijkt me ook een erg goed hulpmiddel voor mensen met dyslexie (woordblindheid). Jammer dat spraakherkenning nog niet alle woorden goed herkent. Er is dus altijd een correctie nodig en die is juist voor mensen met woorblindheid niet zo makkelijk.

Tweak-Chrizz 9 juli 2003 22:56

Lekker handig komt er iemand binnen die zegt: delete c-drive

cashewnut @Tweak-Chrizz • 9 juli 2003 23:07

Dat is dus de reden dat spraakherkenning nooit helemaal de "handmatige" input a la muis en keyboard zal vervangen. Er zal altijd wel een foutenmarge zijn, en bij "delete c-drive" achtige dingen is dat niet acceptabel. Je zult dat nog handmatig moeten bevestigen.

Wat ik me afvraag, is hoe de software op stotterende mensen (zoals ik) reageert. Ik heb een paar keer spraakherkenning geprobeerd, maar dat ging niet echt geweldig.

BoB_HenK @Tweak-Chrizz • 9 juli 2003 23:08

Ik denk dat het maar op 1 stem zal reageren, zou ook niet te doen zijn als je in een ruimte zit met meerdere computers met spraakherkening, dat wordt 1 grote zooi

Verwijderd @Tweak-Chrizz • 9 juli 2003 23:20

wrom? het hoeft helemaal geen probleem te zijn.
Bv. je wilt harde schijf wissen...
En je zegt dan iets in de zin van "Delete harddisk authorization code 1231215" Denk niet dat iemand dat zegt als ie je kamer binnenkomt

Verwijderd 9 juli 2003 22:31

Spraakherkenning op basis van waarschijnlijkheden (probabilities) wordt al jaren gebruikt. Veel nieuws lijkt er nu ook niet aan vast te zitten. Over de loop der jaren komen onderzoekers/programmeurs wel met steeds betere algoritmes om ruis etc uit te filteren, maar de principes blijven hetzelfde. Overigens is het vertalen van spraak naar woorden wel leuk en aardig, maar zonder dat je ook maar iets van de semantiek snapt heb je er nog niks aan, dan blijf je hangen op het punt "Open Explorer" o.i.d. Het liefst wil je natuurlijk gewoon met volzinnen kunnen werken, en daar heb je toch ook een flinke syntax en semantiek theorie voor nodig.

liberque @Verwijderd • 10 juli 2003 05:03

Volgens mij kun zonder ingewikkelde theorieen best gebruik maken van volzinnen.

De zin "Computer open de webpagina www.tweakers.net"
bevat al een heleboel duidelijke opdrachten

Computer: attentie
open : open
webpagina: associatie met browser
www.tweakers.net: webpagina

Op deze manier zou zelfs met de huidige technologie een Star Trek achtig spraakherkennings systeem kunnen worden gemaakt waarin je de vrijheid krijgt om je opdracht te formuleren op de manier die jij prefereert zolang je maar let op een enkelvoudige opdracht per zin.

Verwijderd @liberque • 10 juli 2003 08:41

Nou, er staat in het artikel dat IBM hier gebruik van wil gaan maken om twee mensen die verschillende talen spreken met elkaar te laten communiceren. Jouw genoemde "volzinnen" bestaan alleen uit kernwoorden, vergelijk, dit is ongeveer dezelfde manier waarop vroeger dat programmaatje (waarvan de naam me even ontschoten is, u weet wel, de virtuele psychiater) mee werkte. Om een goede conversatie te vertalen heb je dus een zeer goede kennis (syntax, semantiek en lexicon) van de verschillende talen nodig (eentje die ze hier in utrecht bij letteren in ieder geval nog niet hebben voor zover ik weet, misschien IBM wel?).

/edit: dit programmaatje heet Eliza, zie ook bijvoorbeeld http://www-ai.ijs.si/eliza/eliza.html

DonDaaf @Verwijderd • 10 juli 2003 09:40

Eliza

Al zijn er natuurlijk talloze varianten geweest. Vroeger kreeg je bij je Sound Blaster een programmaatje dat heette Dr SBaitso. Dat was een soort Eliza, die terugpraatte.

edit:

Je was me voor

stok 9 juli 2003 22:30

En een pocketoplossing is helemaal handig. Vooral voor op vakantie.
Aanpappen met fijne buitenlandse dames

berzelius @stok • 10 juli 2003 13:44

Dan zul je er eerst ook nog een vertaalprogramma aan vast moeten koppelen en dat is zeker geen sinecure.

Verwijderd 9 juli 2003 22:46

Laten we nooit onze pioniers vergeten

Amen Lernhout & Hauspie

gluip @Verwijderd • 10 juli 2003 01:16

L&H waren niet de pioneers. De eerste echte spraakherkenner was van Dragon (later opgekocht door Philips of L&H). Maar wat maakt dat uit nu ze beiden van ScanSoft zijn.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (48)

Sorteer op:

Weergave: