Tom's Hardware Guide praat tegen de pc

Op Tom's Hardware Guide is een lap tekst verschenen met de huidige stand van zaken wat betreft spraakherkenning. Met behulp van een SoundMAX Cadenza-geluidskaart en twee verschillende speech engines ging men na of de huidige staat van de technologie inmiddels als toegevoegde waarde op de pc beschouwd mag worden. De SoundMAX kan geleverd worden met software voor verbeterde spraakinput en signaal- en ruisreductie samen met een microfoon van hoogstaande kwaliteit, welke beiden in het geval van spraakherkenning natuurlijk een vereiste zijn.

De twee speech engines die getest werden, zijn de ingebouwde spraakherkenner van Windows XP zelf en Dragon Naturally Speaking Versie 6. Na een aantal testjes bleken beide pakketten goede resultaten te geven. Nadat de computer eerst wordt getraind op de stem van de gebruiker, is de besturing van de pc met behulp van stemgeluid een fluitje van een cent. Het dicteren van Word gaat de software echter wat minder goed af. Het beste resultaat dat behaald werd was een herkenning van ongeveer 75%, voor niet-specialistische omgevingen niet slecht, maar nog steeds voor verbetering vatbaar. Al met al is Tom erg content met wat er op dit moment mogelijk is op het gebied van spraakherkenning, maar kijkt hij nog hoopvol naar de toekomst in afwachting van nog betere resultaten:

Spraakherkenning The dream of perfect or near-perfect speech recognition has existed for a long time, but only recently has the dream become a possible reality. Are we there? No. Are we getting there? Yes. With the software improvements discussed in this article, SoundMAX has definitely developed a quality speech recognition product. Depending on whether you use Windows XP/ MS Office's built-in speech engine or a third-party speech engine, your ease of use, accuracy, and enjoyment of the feature may vary. In our test, we used Windows XP speech and Dragon Naturally Speaking, and found that the latter performed better than the Microsoft engine when paired up with SoundMax Cadenza.

Voice recognition software is one of the most impressive technologies around today. I recommend SoundMax technology highly.

Door Bram Kouwenberg

Nieuwsposter

01-12-2002 • 15:39

79

Submitter: Sten Vollebregt

Bron: Tom's Hardware Guide

Reacties (79)

79
79
58
13
0
0
Wijzig sortering
Anoniem: 47550 1 december 2002 15:44
Wow 75% herkenning, netjes! Ik denk dat er nog een lang traject te gaan is om op 99..100% te komen maar dat is toekomst muziek.

Verder is het natuurlijk wel extreem handig als je je computer dag en nacht hebt aan staan zodat je bijvoorbeeld in je slaapkamer licht aan / licht uit kan zeggen :)
Wow 75% herkenning, netjes! Ik denk dat er nog een lang traject te gaan is om op 99..100% te komen maar dat is toekomst muziek.
Netjes? Bar slecht is het hoor. Ze zijn al meer dan 10 jaar bezig om spraakherkenning te ontwikkelen, en nu blijkt dus dat als je engels spreekt een een brief wilt dicteren dat je alsnog 1 van de 4 woorden zelf in moet tikken of verbeteren. Dat is dus nog totaal onbruikbaar. Als een OCR softwarepakket deze resultaten gaf werd het uitgelachen.
dat ze na tien jaar pas 75%, benadrukt alleen maar hoe ontzettend moeilijk het is om 'biologische dingen' door een computer te laten herkennen (neem fingerprints en gezichtsherkenning, dat eerste gaat ook nog niet van een leien dakje en dat laatste is momenteel nog niet eens mogelijk). Dus ik vind 75% best netjes.
bedenk wel dat die 1 op de 4 woorden die niet herkend worden, de langere woorden zijn, en niet de veelgebruikte That, this, and enz, zijn, waar het grootste gedeelte van de meeste zinnen uit bestaan.
Misschien vanuit een technisch oogpunt, maar voor de user is het belachelijk. 1 op de 4 woorden verbeteren is ondoenlijk, dan type ik het wel helemall zelf.
Maar dan nog is 25% van de tekst niet goed herkend veel...

Stel: Je rijdt auto. Alles gaat goed, behalve de wat moelijkere dingen zoals tegelijk in de spiegels kijken, en op het verkeer letten, en schakelen... Resultaat: Je zult toch echt zakken voor je examen.

Zo zal 75% ook echt niet voldoende zijn voor een goed resultaat in een office omgeving...

just my 2 cents, nfi ofcourse

edit:
is reactie op Anarchist...
75% is nog niet genoeg, zeker weten. Echter is er voor die overige 25% naar mijn mening veel meer reserch en processorkracht nodig, dan voor de rest. Het wordt gewoon steeds moeilijker om de modelen te verfeinen!
Misschien vanuit een technisch oogpunt, maar voor de user is het belachelijk. 1 op de 4 woorden verbeteren is ondoenlijk, dan type ik het wel helemall zelf.
1 op de 27 is inderdaad een stuk beter ;)
Inderdaad bar slecht.

Hoe lang is het al wel niet geleden dat OS/2 Warp uitkwam, met spraakherkenning ingebouwd?
Was toen wel een flinke belasting op de hardware van die tijd, maar met een stevige machine kon je er prima mee werken.
En dan was de herkenning al ruim boven die 75%.

Valt vies tegen dat we in al die jaren blijkbaar niet vooruit zijn gekomen. Diep triest!

Overigens was spraakherkenning een leuke gimmick, maar niet echt bruikbaar.
Interessant voor mensen die nu in het dagelijks leven al dicteeraparaten hebben, maar verder compleet nutteloos voor een pc in een kantoor omgeving.
Kan je al voorstellen dat je met je collega's allemaal zit te praten naar je PC? Dan heb je een lekker kippehok waar je in zit te werken.

Bovendien is met je muis klikken nog steeds sneller dan zeggen: Open C drive, Open My Documents, Open etc etc
75 procent wil zeggen dat één op de vier woorden niet juist wordt herkend? Dat is toch volstrekt onbruikbaar?
Nou op zich valt dat wel mee, je moet alleen 1 op de 4 keer undo zeggen na je woord ;)

Typen blijft altijd sneller denk ik. Ik denk dat jij, ik en zovelen wel bijna net zo snel typen als dat ze spreken. Of een computer ooit mijn "snelle" spreektaal kan verstaan (die veel mensen al niet verstaan) betwijfel ik ook.

Ik zie het nut van spraakherkenning de komende 15 jaar ook meer in het bestrijden van RSI dan in het overnemen van het toetsenbord.
49 reacties, slechts 2 zijdelings raak geschoten (RSI) en 1 exact op het doel en de rest kijkt alleen naar zijn eigen wereldje.

Spraakherkenning op de computer: zonder dat er software als dit ontwikkeld werd was er ook nooit software ontwikkeld voor mensen als Stephen Hawkings... ;)

75% spraakherkenning?! dat is echt waanzinnige vooruitgang sinds de laatste keer dat ik op bezoek was bij familie die zijn hele leven er al van afhankelijk is (verlamd tot de nek) Man, die gaat uit zijn dak als ie normaal tegen zijn pc kan praten... nu leeft ie slechts op "commando's."

commando's geven aan een computer kan al jaren... maar 'spreken' tegen je computer.. jammer dat L&H in Belgie er zo'n zooitje van had gemaakt, anders hadden we nu misschien wel op 80% of zelfs hoger gezeten.

Tom's hardware is content om de hierboven aangegeven redenen, niet om tegen je computer te kunnen schelden ;)
Op de 100% komen we toch nooit, dat is practisch onmogelijk. 99,9% geeft imo toch een beter haalbare benadering.
Misschien wel, als we de computer logisch kunnen laten nadenken. Dus als de computer je zelf kijkt wat de voorgaande woorden waren, kan hij vragen of het zojuist genoemde woord wel klopt.

Een beetje zoals een mens zou nadenken en reageren als die iemand z'n woorden op papier moest zetten.

Je zou zelfs misschien een functie erin kunnen stoppen dat je gemompel onthoudt voor de volgende keer. Daarmee bedoel ik dat ie dan onthoudt hoe jij een specifiek woord uitspreekt. Dat zou een mens in het echt ook immers doen.
Je zou zelfs misschien een functie erin kunnen stoppen dat je gemompel onthoudt voor de volgende keer. Daarmee bedoel ik dat ie dan onthoudt hoe jij een specifiek woord uitspreekt. Dat zou een mens in het echt ook immers doen.
Yep, maar zo werkt het al jaren. Je doet eerst een "enrollment", ofwel de initiele training. Dan moet je bijvoorbeeld 5 minuutjes wat teksten oplezen voor de PC. De herkenner wordt zo getraind.

Daarna, tijdens dagelijks gebruik, stelt het systeem continu zijn modellen bij om zich steeds beter aan te passen aan de spreker. Zo werkt Dragon Naturally Speaking in ieder geval al jaren.

Ik heb dat systeem vanwege RSI een tijd gebruikt, en volgens mij haalde dat systeem echt wel betere scores dan 75%...

* Edit: Fixed tyop ;)
Ik hoor de computer al vragen:
Hoe bedoelt u precies, "k*t weer een bloeskrien"?
:P

(ja ik snap dat 'ie dat dan niet meer zegt, het gaat om het voorbeeld ;) )
Probleem is dat de mens niet logisch is en dat ondanks hele goede logische redenatie je er toch nog naast kan zitten :)
99,9% herkenning? Haha, dat haal ik (=mens) bij lange na niet. :+
En volgens mij ben ik niet de enige... 't Zou wel mooi zijn, een computer die je beter verstaat dan je beste vrienden; 't zou helemaal mooi zijn als hij je nou ook nog eens beter zou begrijpen... (8> ;)
Kan aan mij liggen, maar het lijkt me niet zo verstandig hardop te roepen wat je typt. Tenzij je wilt dat iedereen mee krijgt wat je typt.

Spraak herkenning heeft als groot nadeel dat iedereen hoort wat je doet, stel je eens een lan van 1000 man voor en iedereen roept te gelijk "Start".
Nee als ik dan toch toekomst gericht moet denken heb ik liever iets waarbij "Word" en je computer je gedachten kan lezen. Maar ja zitten ook weer gevaren aan.

Nee voor mij toch meer liever mijn muisje of een touchscreen.
Spraak herkenning heeft als groot nadeel dat iedereen hoort wat je doet enzo, stel je eens voor een lan van 1000 man en iedereen roept te gelijk start (naam van de windows button).
Daarvoor word de computer op jouw stem getraind.. Hij luistert dan alleen naar jou als het goed is.
Dit is dus NIET zo. Het trainen gebeurt louter en alleen om betere resultaten te behalen. Zie het alsof de pc moet 'wennen' aan jouw stem. Als er dus iemand naast je staat die ook staat te babbelen, dan zal de software hem/haar niet negeren maar ook proberen de woorden te herkennen. Alleen omdat er niet op die persoon is getraind zal de herkenning bar slecht gaan.

Wat je zegt zou wel kunnen (uiteraard), maar gaat wel een tandje verder. De spraakherkenningssoftware zou naast spraakherkenning dan ook nog automatisch gebruikers-/profiel-herkenning moeten toepassen, maar ik denk dat de huidige techniek daar nog niet aan toe is.
Het gaat niet alleen om het feit dat het programma moeilijk onderscheid kan maken, maar ook gewoon dat iedereen dus kan horen wat je doet (en jij dit van de andere dus ook). Ten eerste is dit gewoon mateloos irritant en ja privacy heb je niet echt.

Voice command driven programma's zijn alleen maar zinvol (volgens mij dan) als je situatie's hebt zoals in startrek waar je gezamelijk met andere mensen de computer gebruikt.
Spraak herkenning heeft als groot nadeel dat iedereen hoort wat je doet, stel je eens een lan van 1000 man voor en iedereen roept te gelijk "Start".
Da's een kwestie van goeie microfoon, noise cancellation en richtingsgevoeligheid. Niet onoplosbaar, kijk maar eens naar dit headsetje, die pikt het geluid op van de trilling op je kaken en "hoort" dus niets van het geluid om je heen.


/edit: @rataplan... typo in de link idd... nee, ik bedoelde die van nextlink, die ook een ongelooflijk klein bluetooth oordopje maken. kijk maar eens
Leuk headsetje? www.tweakers.net is geen headsetje :)

Jij bedoelt zoiets, gok ik
ik ga echt niet met een gasmasker achter de pc zitten! :)
Spraak herkenning heeft als groot nadeel dat iedereen hoort wat je doet, stel je eens een lan van 1000 man voor en iedereen roept te gelijk "Start".
Met een herkenning van 75% hoeft er maar 1 iemand keihard "Start" te roepen om 750 PC-gebruikers gek te maken :)

* 786562 BV
Ik dacht dat het wereldrecord typen op ruim 700 aanslagen per minuut lag. Ik heb wel eens met spraakherkenning gewerkt, en echt goed ging het niet. Ik mis ook nog steeds dat StarTrek-stijl Computer? *bevestigend piepje*. Ik wil dat m'n PC pas naar m'n stem luistert als ik de aandacht vraag. (En ik wacht nog steeds op een mooie open-source implentatie van het geheel, waarin ik iets kan veranderen als het me niet bevalt). Maar goed, ik type met zo'n 430 aanslagen per minuut, wereldrecord is het niet, maar wel sneller als spreken. Dus als ik ga spreken is het een stuk comfort, en moet het vlekkeloos werken.
Ik mis ook nog steeds dat StarTrek-stijl Computer? *bevestigend piepje*. Ik wil dat m'n PC pas naar m'n stem luistert als ik de aandacht vraag.
De meeste spraakherkenners die ik ken hebben inderdaad twee "modes":

- Command and Control
- Continuous Speech (Dictation)

Die eerste variant doet precies wat jij bedoelt. Het is bedoeld voor een klein vocabulaire; Dragon "leest" bijvoorbeeld de menu-opties van de applicaties, en alleen die woorden worden dan herkend (plus nog wat algemene dingen).

Je roept dan ook iets als "Wake up" en "Go to Sleep" om de herkenner standby te zetten. Ik heb die teksten natuurlijk meteen veranderd in "Computer!" en "Kirk out". Werkte perfect, en leverde ook nogal wat verbaasde blikken op. "Computer! Bring up Word! Kirk out."

Je kunt zelf woorden en acties definieren, een soort macro's. Zoals "My Password", dat typte je password in. Best handig, maar ook ietwat onveilig ;)

Daarnaast heb je Continuous Speech, ofwel Dictation Mode. Dat gebruik je binnen applicaties als MS Word, of wat dan ook met een text-edit veld. Daarin kun je niet zo gemakkelijk commando's geven, maar het systeem doet z'n best om alles te herkennen.
nou de spraakherkenning is al heel wat beter dan 75% hoor...veel beter, hier in rotterdam gebruiken de radiologen in het zuider en clara ziekenhuis spraakherkenning software die het direct naar 'Word'
wordt vertaalt...het pakketje word wel naar de server gestuurd voor herkenning, maar het resultaat is ERG goed hoor...veel beter dan 75 %...zoals zo vaak geld :

er kan heel veel, maar het ligt allemaal aan de software en de markt

Ze zouden het echt niet gebruiken als het brak was trouwens hoor, -het scheelt geld en tijd en administratieve medewerkers anders zouden ze het niet doen-

ik heb ernaast gezeten terwijl ze verslagen dicteerden en echt 95 a 97 % herkende de software perfect...zelfs de moeilijke specialistische woorden

hij moest wel eerst een tijdje 'leren' maar daarna ging het perfect
en het corrigeren was vaak de : puntje puntje komma spatie...dat soort gedoe

dus dit is flut software...klaar

de server daar is een p3tje denk ik...niks zwaars in ieder geval
Het beste resultaat dat behaald werd was een herkenning van ongeveer 75%, voor niet-specialistische omgevingen niet slecht, maar nog steeds voor verbetering vatbaar
Waar jij over praat is een ($$$$$) specialistische omgeving
daarmee werd in het stuk bedoelt dat als je word documenten voor specialistische omgeving maakt de herkenning lager is maar voor algemeen gebruik dus op 75% komt
heeft dus niets van doen met het feit dat er meer software is dan alleen Dragon of in Office XP ingebouwde functies, Lernaud en Hauspie waren de leiders op dit gebied maar bestaan door financieel wanbeleid niet meer
Ze konden echter al wel +90% halen
Misschien heb ik het niet duidelijk genoeg geschreven in het stukje, maar ik bedoelde dus inderdaad zoals DKasemier het verwoordde.

In specialistische omgevingen (vb ziekenhuizen) is spraakherkenning (eigenlijk herkenning van alles, handschrift, foto's, patronen) een stuk makkelijker uit te voeren en met betere resultaten, omdat er vaak gewerkt kan worden met een beperkt lexicon. Omdat specifieke woorden veel worden gebruikt, kan een stuk software daar specifiek op worden getraind, met dus betere resultaten.

In een algemene omgeving, waar het hier over gaat, moet de software alles wat je maar kan bedenken, herkennen, met als gevolg dat iha de performance achteruit gaat.
Deze software heb ik ook gebruikt (xp) En werkt nog niet helemaal lekker vind ik. Vooral voor de dialect sprekende mens is het bijna onmogelijk om een beetje leuke teksten eruit te krijgen.

Ik blijf erbij, typen gaat sneller.
woei :) Kan ik eindelijk teksten schrijven in Word zonder last te hebben van RSI :)

Teksten schrijven ? Of Ik spreek mijn tekst in Word ? :P Moet nog een nieuwe term voor worden uitgevonden
Zonder RSI dat had je gedacht.

Mensen die door RSI spraakherkinning gaan gebruiken hebben zeker in het begin last van stem RSI omdat je stem wordt overbelast door de andere methode van spreken in een microfoon. Dit heb ik ook nagevraagd aan mensen van de logpodie opleiding en die onderstrepen dit probleem zelfs. Hierbij moet worden aangetekend dat dit dus wel een van de minst bekende vormen van RSI is maar wel een die samen met de muisarm tot een van de ergste beschouwd kan worden voor een computeraar.
ik ben aan het worden , ik word een boek.
of ik spreek een boek in. :Y)

maar om alle commando's met stem te doen is niet altijd even handig.
het zal meer een combinatie van beide worden.
Anoniem: 45590 @P.B.2 december 2002 10:46
Het is...

Dictation in Word...
OFTEWEL
Dicteren in Word
de ingebouwde spraakherkenner van Windows XP zelf
Waar zit die dan? Ik ben hem nog niet tegengekomen hoor :(
die zit alleen in de engelse versie :)
Captain's log, stardate 51386.4...

Nog ff dus B-) Het meest nuttige lijkt mij nog het UIT schreeuwen tegen je wekker 's ochtends :z
Gepost door Priet zondag 1 december 2002 - 15:56 Score: 1 (Grappig)
Captain's log, stardate 51386.4...

Nog ff dus Het meest nuttige lijkt mij nog het UIT schreeuwen tegen je wekker 's ochtends
Deze wekkers bestaan al lang, mijn zus heeft er namelijk een. Hij werkt trouwens op elk geluid, en niet alleen op 'UIT', dus je kan ook 'blaaaat' ofzo roepen ;)
Of heel hard snurken..... :Z
Ik denk dat Priet het heeft over de PC alszijnde wekker :)
Anoniem: 56708 1 december 2002 15:52
Atgast zegt: "die zit alleen in engelse versie"

Volgens mij zit die alleen in de pro versie want ik heb NL pro en daar zit ook die spraak herkenning in....
Heb het ff gechecked in de helpfiles van Windows (tja, die kunnen heel soms nog wel es nuttig zijn ;)) en ben tot de conclusie gekomen dat je waarschijnlijk een Engelstalige Office geinstalleerd moet hebben. Omdat die engine daar dan in zit. (En die is er nog maar voor 3 talen. Nee, niet voor Nederlands nee ;()
een vriendin van mij dicteert met Dragon Naturally Speaking 6.0 Preferred NL op een AMD XP 2000+ met 256MB DDR. Verder gebruikt ze een onboard (AOpen AK77-333) geluidskaart en een Sennheiser Headset van ongeveer 40 Euro.

75% my ass! Ze haalt zo rond de 99% bij het dicteren in Office en ook kwa herkenning buiten die dicteersfeer is het resultaat verbluffend. En dan bedoel ik dat zo'n tekst als deze probleemloos ingevoerd kan worden met spraakherkenning. Ze chat zelfs pratend af en toe.

Ze heeft daarvoor ook geprobeerd op een AMD K6-2 350 met 256MB met dezelfde headset en dat werkte voor geen meter.

Just to let you know. Misschien dat die gasten bij Tom's Hardware net chaggerijnig waren toen ze de test gingen doen ... ?
Je kunt met NaturallySpeaking vrijwel meteen al een foutenpercentage halen van boven de 90%, zolang je de aanwijzingen volgt (en dat doet lang niet iedereen, vanwege ongeduld). Daarna stijgt dit percentage snel om zo tussen de 95% en 99% te stabiliseren.

Wat betreft stem-klachten: het is zonder meer belangrijk je stem gedosseerd en niet overmatig te gebruiken met spraakherkenning. En het is iedereen die serieus met spraakherkenning aan de slag wil, aan te raden om gewoon eens een keer langs een stemlogopedist te gaan om te zien of het stemgebruik correct is. Dit maakt de kans op klachten veel kleiner.

Je kunt spraakherkenning, voor zover mogelijk, het beste _naast_ traditionele invoermethoden gebruiken. Sommige zaken blijven handiger om het met toetsenbord en muis te doen, terwijl je toch je armen ontlast en RSI meer kans geeft om zich langzaamaan terug te trekken.

Op dit item kan niet meer gereageerd worden.