Microsoft brengt beta-versie spraakherkenningsoftware uit

Microsoft heeft een beta-versie uitgebracht van het spraakherkenningspakket Speech Server, zo schrijft het bedrijf op zijn website. Het pakket is gericht op de zakelijke markt en geeft ondernemingen de mogelijkheid om, met behulp van de Speech Application Software Development Kit (SASDK), diverse spraakgestuurde applicaties te ontwikkelen. Het bedrijf denkt naast toepassingen in 'normale applicaties' als webpagina's, onder meer aan bijvoorbeeld callcenters. Bij een klantenservice bijvoorbeeld, zouden spraakgestuurde programma's de taak van de huidige nummergestuurde menu's kunnen overnemen. Het programma, dat naast spraakherkenning ook mogelijkheden voor spraaksynthese kent, draait op Windows 2003. Honderd bedrijven zijn gevraagd het pakket uit te proberen; voor de definitieve versie moet gewacht worden tot de eerste helft van 2004:

Microsoft Speech Server enables enterprises to cost-effectively deploy speech applications which can improve employee productivity, reduce costs, increase customer satisfaction and create new revenue opportunities. Used in conjunction with the SASDK, MSS enables enterprises to extend existing or new Web applications to be accessible by speech.

Reacties (43)

Sphinix 14 juli 2003 16:03

Dit is zeer interessant. MicroSoft zou hiermee een gat in de markt kunnen vullen. Philips heeft het ooit eens op de consumentenmarkt geprobeert (Philips FreeSpeech), en natuurlijk zat er ook een klein gedeelte geintegreerd in Office XP, maar echte toepassingen zijn er nog niet.
Ben tevens benieuwd of hiervoor de consumentenmarkt geen interessante toepassingen zijn.

SWINX @Sphinix • 14 juli 2003 16:39

Ik heb destijds FreeSpeech 98 eens uitgeprobreerd, was ook zo'n 30 dagen test versie...

Je moest eerst een half uur voorlezen aan die computer om je stem te laten herkennen...

Verwijderd @SWINX • 14 juli 2003 17:56

Deze technologie is spreker onafhankelijk. Je hoeft dus niet eerst een half uur iets voor te lezen. Zou ook onpraktisch zijn voor iedere klant die z'n bank belt om geld over te maken...

Sphinix @Verwijderd • 15 juli 2003 12:16

Wéér een gat in de markt:

Dit informatienummer kost ca 75 c/pm...
En dan zelf een half uur moeten lullen!

Ik voel gouden tijden aankomen...

KMK @Sphinix • 14 juli 2003 16:14

De KPN heeft zo intern al een soort van interne nummer databse draaien..
Je roept dan de naam van een persoon en je wordt doorverbonden met die persoon.

SWINX @KMK • 14 juli 2003 16:40

En 118 zal ook wel op zoiets werken

Werkt altijd goed, behalve "het nieuwe systeem" was afgelopen week erg brak, toen ik terugbelde kreeg ik gelukkig weer het oude systeem, dat werkt voor mij goed genoeg!

Verwijderd @KMK • 15 juli 2003 10:07

De KPN heeft dat helemaal niet draaien. Bij 118 wordt gewoon alles wat je inspreekt achter elkaar gezet en vervolgens op de headset van een operator afgespeeld.

Deze laatste tikt de info in op zijn terminal en kiest het goede nummer uit de lijst met "hits". Als het nummer is uitgekozen geeft de computer het nummer aan jou.

Het lijkt dus geautomatiseerd, maar dat is het niet.

Je denkt toch niet werkelijk dat een computer jou zó goed kan verstaan?

durkino @Sphinix • 14 juli 2003 17:03

Je moet ook denken aan technologie als de tablet pc. Microsoft zal ook daar z'n spraakherkeningssoftware op willen draaien. Op het moment richt Scansoft zich sterk op die markt. Deze heeft zowel de technologie van L & H (inclusief Dragon) als van Philips overgenomen.

bredend 14 juli 2003 17:37

Nadeel van is dat je nog steeds erg dui-de-lijk moet spre-ken. Doe je dat niet, dan krijg je allemaal fouten. tot zo ver is het niet zo erg, maar om continu duidelijk te spreken is niet leuk. Sterker nog, je kan tegen dezelfde problemen als RSI aanlopen. Veel mensen die RSI hebben en dan met spraakherkenning gaan klooien, worden gestresst doort al de fouten, en hun stem gaat eraan.
Dit gebeurrt alleen bij de mensen bij wie het voornamelijk tussen de oren zit: ongezonde stress....

pmeter @bredend • 14 juli 2003 17:59

Even een kleine correctie: stem-RSI ontstaat door een onnatuurlijk stemgebruik. Dit wordt dus niet zozeer veroorzaakt door stress, maar door een onnatuurlijk stemgebruik doordat je anders en overdreven duidelijk moet praten tegen de pc dan tegen mensen. Stress kan het ontstaan wel bevorderen.

Overigens: RSI ontstaat niet zozeer bij gestreste mensen, maar bij volharders, mensen die bereid zijn veel werk te verrichten en het, pijn negerend, af te maken.

Bij stem-RSI geld hetzelfde. Oplossing: neem pauze, wissel typen en spraak af, drink veel.

jvo @pmeter • 14 juli 2003 19:18

Veel drinken, nou, dat moet wel lukken

Roland684 @bredend • 15 juli 2003 00:17

Ik heb freesheech98 maar die doet het toch al vrij goed, daar hoef je echt niet duidelijk voor te spreken, gewoon spreken zoals je normaal zou doen. Op mee laten lopen met een telefoongesprek

Het lijkt me dat freespeech2000 het alleen nog maar beter doet.

Ja oet natuurlijk wel beginnen met goede apperatuur, de geluidskaart van mijn laptop is bijvoorbeeld veel te brak. En een goede microfoon natuurlijk.

Verwijderd 14 juli 2003 16:33

Tjah, consumentenmarkt... Lernhout en Hauspie hebben het ook eens geprobeerd.

Ik vind het eigenlijk wel raar... Spraaktechnologie-paketten presterent eigenlijk absoluut nog niet goed genoeg om in te zetten als iets dat echt vlot met "taal" omgaat. Je dicteert bijvoorbeeld een brief, en dan moet je hem nog 2 maal nalezen en er een vreselijk groot aantal fouten uithalen. je bent er langer mee bezig dan wanneer je hem zelf even typt. Voor veel meer dan je computer bedienen met simpele commando's is het niet goed.

En aan de andere kant is er Echelon: een systeem dat klaarblijkelijk moeiteloos eender welk telefoongesprek in eender welke taal uiteen kan halen... How's *that* for speech technology...

Het lijkt wel alsof er twee markten voor spraaktechnologie zijn: eentje die maar wat aanmodderd (degene die wij gebruiken), en odnermaats presteert, en een geheimzinnig marktje dat blijkbaar ontzettend ver gevorderd moet zijn qua spraaktechnologie. Zou Microsoft met zijn contacten misschien iets los hebben kunnen peuteren?

(Sorrie als ik weer eens doordraaf hoor... ik zie overal dat soort spraaktechnologische complotten)

-RenE- @Verwijderd • 14 juli 2003 18:33

Ik vind het eigenlijk wel raar... Spraaktechnologie-paketten presterent eigenlijk absoluut nog niet goed genoeg om in te zetten als iets dat echt vlot met "taal" omgaat. Je dicteert bijvoorbeeld een brief, en dan moet je hem nog 2 maal nalezen en er een vreselijk groot aantal fouten uithalen. je bent er langer mee bezig dan wanneer je hem zelf even typt. Voor veel meer dan je computer bedienen met simpele commando's is het niet goed.

Kennelijk heb je nog nooit geprobeerd te werken met een pakket als Dragon Naturally speaking. Dit pakket werkt vrij goed: Je spreekt in normale snelheid tegen de computer en deze zet het om in tekst. Dit gaat vrij nauwkeurig; in ieder geval nauwkeuriger dan je zou verwachten. Vergeet ook niet dat je tijdens het typen doorlopend fouten maakt en deze direct corrigeert.

Enig bezwaar zou kunnen zijn dat een training nodig is (10 minuten minimaal) en dat het pakket alleen onder Windows werkt.

Verwijderd @-RenE- • 14 juli 2003 21:48

Dragon Dictate, Dragon Naturally speaking, vertaalsoftware van het ter ziele gegane L&H, de geinige speech-controls in VB... Ik heb er al wel een paar geprobeerd

. Ik heb nog geen spraakherkenningssoftware gezien die me vlot en foutloos brieven creeërt. Het gaat nog steeds sneller met de hand. Om nog maar te zwijgen van dat weekje waarin ik snipverkouden rondliep, mijn accent inwisselde voor algemeen nederlands en dat soort dingen.

Ik vind de foutenmarge echt te hoog. Ik weet wel dat taal niet bepaald de meest objectieve materie is om te informatiseren, maar stel je voor dat je spreadsheet dat soort geintjes qua foutenmarge met je uithaalde.

Binnen een paar jaartjes misschien, maar nu pas ik er nog voor.

Wel geinig, maar net niet productief genoeg.

edit:

natuurlijk dat stukje vergeten: Echelon screent blijkbaar je volledige conversatie op bepaalde woorden. Dat wil dus zeggen dat het een bepaalde woordenschat heeft, en ook weet dat de rest daar niet toe behoort. Als je een "hit" hebt, wat wil zeggen dat een bepaalde combinatie van die-en-die woorden voorkomt wordt het hele gesprek opzijgezet en maakt echelon er ook een printje van. En dat in praktisch eender welke taal. Je kan moeilijk beweren dat het geen vrij ontwikkelde vorm van spraaktechnologie is. Groene appelen versus rode appelen, tot daar aan toe, maar appelen versus peren is misschien een brug te ver.

_Droopy @Verwijderd • 15 juli 2003 11:04

Tssjah, Natural Speaking, Freespeech, dan heeft MS nog een Device uitgebracht dat "Game Voice heet. het heeft allemaal wat weg van "spraak-gestuurde computers" maar het werkt bij de gemiddelde tweaker toch echt niet.
Bij mij is het zo dat ik dan toevallig een vrij zachte stem heb als ik gewoon zit te lullen, zonder erbij na te denken dat een stukkie software me moet kunnen verstaan, dus da's best lastig.
Maar al roep ik met een geforceerd harde stem, nog hoort dat ding me niet!!!
Reden: M'n pc. Ik heb een aantal fannetjes moeten aanbrengen in m'n pc omdat m'n mosfets en northbridge te heet werden, waardoor je dus best wat herrie opwekt. (zijn 40x40-fannetjes)

Bij mij is dus het probleem al begonnen bij de "achtergrond ruis" volgens die mooie "op stem geoptimaliseerde headsetjes" die meegeleverd worden klinkt m'n stem zachter dan m'n pc!! ook als ik er zo'n watje omheen heb zitten. erruhg irritant.

Als ik me de werkvloer van m'n pa voorstel (werkt bij wegener, als journalist) staan daar een hele berg pc's. en die maken me een kolere herrie bijelkaar. En dan zijn dat alleen nog maar werkstations, de servers staan dan natuurlijk ook in een apparte ruimte.

Als ik die Game Voice van MS bekijk, ben je verplicht om het geluid op een headset af te laten spelen, want anders registreert dat ding continu commando's die je niet geeft.
moet je je voorstellen: hang in de lucht (combat flight sim) in een p51 (mustang), zit je achter achter zo'n duitser aan zet je pc ineens de fuel dump aan, of je gear (landingsgestel) uit. Of nog vervelender, klapt ie je haak uit. Dan hang je in het spel dus ineens stil in de lucht! (bug van het spel) Lekker als je met een squad-battle bezig bent.

Ik ben benieuwd of MS deze irritante dingetjes nu beter aangepakt heeft, of beter aan gaat pakken.

Observer @Verwijderd • 14 juli 2003 17:09

Echelon en commerciel spraaksoftware is toch een beetje appels met peren vergelijken. Echelon reageert op bepaalde woorden, waarna het gesprek wordt opgenomen. De hier besproken software moet volzinnen om kunnen zetten naar begrijpelijke teksten.

Verwijderd @Verwijderd • 15 juli 2003 13:00

inderdaad, Lernaut en Hauspie zaten op dezelfde route... en waren al redleijk ver gevorderd.. tot ze een amerikans bedrijf overnamen en zo eigenlijk eigenaars werden van de software die het Amerikaans leger gebruikte voor hun spraakherkenningsprojecten... OEPS!
Noem het complot-obsessie van mijn kant maar ik beweer nog steeds dat L&H op de verkeerde tenen gertrapt hebben en daar zwaar de prijs voor moeten betalen. Ik vind dat ze veel te braafjes alles ondergaan, .. zoals ze ook nu weer aangepakt worden en door een amerikaans tribunaal veroordeeld werden.
Afijn, daar moeten we ons geen zorgen om maken; in een ander land veroordeeld worden zoals via de amnestie-wet mag toch niet, is het niet?

back to topic: my point: hadden L&H verder kunnen doorboeren zoals ze bezig waren, hadden we nu al veel verder gestaan met spraaktechnologie.

egeltje 14 juli 2003 16:01

De NS heeft ook zoiets draaiend gehad (of heeft nog steeds), waar je tegen een computer kon zeggen van waar naar waar je wilde gaan. Dat werkte best goed. Het nadeel is alleen dat je daar niet echt flexibel mee kon zijn.
Ik ben benieuwd hoe dat met dit systeem zal gaan...

Verwijderd @egeltje • 14 juli 2003 16:06

Ik ben het me je eens dat er nog HEEL wat moet gebeuren op technisch vlak

Het is wel grappig om te zien dat bedrijven steeds weer een poging wagen om spraak herkenning te pushen. Maar dat lijkt keer op keer kansloos te mislukken. Maar goed MS is goed in pushen, misschien lukt het hun deze keer

ycode @egeltje • 14 juli 2003 19:47

Het werkt vaak heel goed, mits de vocabulair niet groot is. Als je te veel mogelijkheden hebt en deze lijken op elkaar, wordt het aanzienlijk moeilijker om te herkennen. Als je daarintegen een beperkte woordenset hebt, is er een hoog herkenningspercentage te halen.
Daarnaast is nog een groot voordeel, mensen hoeven geen nummertjes te toetsen, dus handfree naar zo een applicatie bellen gaat fantastisch en werkt heel intuitief.

jvo @egeltje • 14 juli 2003 19:16

Ik ken het van budget rent a car. Daar werkt het wel aardig. Het telefoonmenu werkt daar op spraak i.p.v. het intoetsen van nummers en ik moet zeggen, ik vond het feilloos werken.

ANdrode @egeltje • 14 juli 2003 16:21

het loopt wel eens op het station rond en dan heeft het conduncteur

Ik denk trouwens dat jij het hebt over de sprekende computer van de openbaar-vervoers gid 9292ov
-> 0900-9292
ik citeer:'het volgende nummer kost ... per minuut '

Verwijderd 14 juli 2003 20:47

Ik denk altijd aan dit: Is er een alternatief voor mensen met een spraakgebrek. Iemand die sototert of andere probs heeft zal nooit door zo'n ding verstaan worden.

Verwijderd @Verwijderd • 15 juli 2003 13:49

Anderzijds is spraakherkenning weer een uitstekend alternatief (als het goed werkt) voor mensen die een lichamelijk gebrek hebben en moeite hebben met toetsenbord en muis.

Kortom, de verschillende input-methoden zullen elkaar nooit verdringen, hooguit aanvullen, denk ik.

Verwijderd 14 juli 2003 17:07

ietwat offtopic, in de game sub commander...onderzeebootje spelen, zit voice recog. ingebouwd. Heb je dan wel 'oude' MS speech software voor nodig die mee installed wordt als je dat wilt. En ik moet zeggen, het werkt erg goed en voegt toch wel een nieuwe dimensie toe..."launch tube one" gillen is wat meer immersive dan alleen maar op een muisknop rammen

Wekkel 14 juli 2003 16:02

Hmm, als MS nu haar vorige acties doortrekt en toekomstgericht opereert, is dit programma, althans de opvolger daarvan, over 3 jaar standaard in het MS OS ingebakken. MS richt zich nog steeds stevig op software naast hun OS'en, wat hun weerbaarheid vergroot en in combinatie met hun sterk vertegenwoordigde OS'en een hele riante uitgangspositie verzorgt.

Way to go, MS

Beaves @Wekkel • 14 juli 2003 16:10

Hmm, als MS nu haar vorige acties doortrekt en toekomstgericht opereert, is dit programma, althans de opvolger daarvan, over 3 jaar standaard in het MS OS ingebakken.

Met een sterk aangepaste variant daarvan dan misschien, want MS zal nooit het volledige pakket "gratis" gaan mee distribueren met hun OS. Als ze dat doen kunnen ze het niet meer verkopen en dat is niet de bedoeling.

Het is de bedoeling dat bedrijven dit pakket gaan kopen als het straks af is, het gaan draaien op Windows 2003 Server en er call centers mee gaan draaien ofzo.

Voor de thuisgebruiker zal er wel een spraakherkenning zijn, maar dan puur om Office e.d. mee te besturen, niet om hun eigen call center mee te gaan draaien.

pfismvg @Beaves • 14 juli 2003 16:13

Op servers spraak herkenning draaien?

Das Lachuh

Elke keer als je langs de serverkamer loopt roepen 'format c:'..... past wel binnen het beveiligingsconcept van microsoft

ikwilhet @Beaves • 14 juli 2003 16:20

Kan nog beter!

Windows loopt vast
Je roept "fuck bill gates"
En floep hij formatteert je C drive

Sircuri 14 juli 2003 19:21

Het informatie nummer van KPN werkt zeer goed. Gebruik het regelmatig en tot nu toe heeft de service elke aanvraag goed afgehandeld.

Mooie ontwikkeling dit.

Verwijderd 15 juli 2003 09:56

Commandootjes roepen deed ik al tegen mijn 386 op 40 MHz. Zat een proggie voor bij de geluidskaart.

Kostte wel wat CPU, maar werkte best aardig. Hoewel ik zelden "Nee" heb geroepen tegen 'are you sure' vragen.

Moderne applicaties mikken meer op 'echt' dicteren van tekst, en dat werkte in MS's vorige gratis speech API al heel behoorlijk.

Verschil met dit systeem is dat het niet veel woorden hoeft te kennen, maar wel veel mensen. Het woord moet herkend worden ongeacht wie het zegt, er is geen tijd voor training...

Verwijderd 15 juli 2003 11:27

Shoot (http://clans.gameclubcentral.com/shoot/) wel 's geprobeerd? Gebruikt de Speech API van Microsoft en werkt eigenlijk best wel goed. Beperkte, zelf te definiëren vocabulaire maar wel spreker-onafhankelijk. Extra bonus: configuratiefiles in XML

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (43)

Sorteer op:

Weergave: