Spraakherkenningsoftware IBM wordt open-source

IBM zal bepaalde delen van haar spraakherkenningssoftware open-source maken, zo meldt News.com. Het bedrijf hoopt zo de ontwikkeling van de software te versnellen, zodat het bedrijf een voorsprong krijgt op de concurrentie. Dat laatste is belangrijk, omdat spraakherkenning eindelijk zodanig bruikbaar is dat deze ingezet kan worden in bijvoorbeeld call-centers of auto's. De komende jaren zou de markt voor dergelijke applicaties dan ook sterk moeten groeien. De nu vrij te geven componenten van IBM's systeem hebben naar verluid tien miljoen dollar gekost om te ontwikkelen, en het beheer ervan zal verdeeld worden over twee stichtingen. Zo zal het deel dat zorgt voor het herkennen van eenvoudige woorden als data, tijd en locaties, ondergebracht worden bij de Apache Software Foundation, dat eerder ook al de database Cloudscape toegeworpen kreeg van Big Blue. Tweede begunstigde is de Eclipse Foundation, die de beschikking krijgt over software voor de bewerking van spraak.

Overigens heeft IBM tegelijkertijd een alliantie aangekondigd met Avaya, dat software levert voor gebruik in call-centers. De beide bedrijven zullen spraakgestuurde self-service applicaties gaan ontwikkelen, en daarnaast zal Avaya zijn applicaties gaan aanbieden op IBM's WebSphere-platform.

Reacties (25)

Verwijderd 13 september 2004 23:02

Ook fijn voor de mensen die met software voor gehandicapten bezig zijn denk ik dan maar. Die krijgen nu toegang tot technologie waar al heel veel moeite voor gedaan is. De markt hiervoor mag dan wel niet zo groot zijn maar de behoefte is er wel degelijk dus ideaal voor open source.

Verwijderd 13 september 2004 22:44

Typefout: "zou versnelt" moet zijn "zou versnellen".

Wat ik niet begrijp is dat men nu pas zo ver is. Iets van zes jaar terug had ik al spraak herkenningschips van ik dacht Philips in m'n GSM zitten, waartegen ik gewoon namen kon roepen. Wat is er nu zo verbeterd aan deze techniek dat het nu ineens "bruikbaar" is, ten opzichte van het jaren terug ook al bruikbare chippie in die oude telefoon van mij?

Verwijderd @Verwijderd • 13 september 2004 22:47

Wat je in je gsm had was geen 'spraakherkenning'. Het was meer vergelijken van een vooraf door jou opgenomen boodschap.

Verwijderd @Verwijderd • 14 september 2004 09:21

Vier jaar geleden testte ik bij IBM ViaVoice en het Philips pakket Freespeech. Beiden waren eigenlijk niet bruikbaar. Freespeech moest eerst een uur getraind worden door er een boek aan voor te lezen en dan alle fouten eruit te halen. Beide pakketten hadden een zeer beperkt vocabulaire dat zij herkenden. Onbekende woorden gingen fout en moeten eerst aan het vocabulaire worden toegevoegd. Verder zat in elke regel wel een herkenningsfout. Bij een positieve herkenning van 95% denk je dat je iets moois hebt, maar dat betekent dus dat van de 100 lettergrepen er 1 fout herkent wordt (in elke zin een fout dus).
De ontwikkeling van de processorkracht in de afgelopen jaren zorgt dat per miliseconde meer vergelijkingen binnen het vocabulaire kunnen worden gedaan, waardoor de accuratesse van de pakketten is toegenomen (zelfs zonder dat de software is verbeterd).
De software wordt vooral gebruikt in beroepen met een beperkt vocabulaire, zoals bij artsen die autopsies doen.

Admiral Freebee

@Verwijderd • 13 september 2004 22:45

Er is nog altijd ruimte voor verbetering in deze spullen. Zeker in situaties waarbij er veel omgevingsgeluiden zijn (zoals in de auto).

Beaves @Verwijderd • 13 september 2004 22:47

Wat ik niet begrijp is dat men nu pas zo ver is. Iets van zes jaar terug had ik al spraak herkenningschips van ik dacht Philips in m'n GSM zitten, waartegen ik gewoon namen kon roepen.

Ik kan ook namen roepen tegen mijn camera, alleen is de kans klein dat de camera ook daadwerkelijk iets gaat doen

Wat is er nu zo verbeterd aan deze techniek dat het nu ineens "bruikbaar" is, ten opzichte van het jaren terug ook al bruikbare chippie in die oude telefoon van mij?

In feite was de software inderdaad allang beschikbaar, alleen waren de CPU's lang niet krachtig genoeg om hele zinnen zo snel te "begrijpen" dat je ook hele verhalen kon dicteren tegen de pc. Een woord begrijpen is een ding, een hele paragraaf begrijpen in een normale tijdspanne is iets anders.

Pas sinds de strijd tussen Intel en AMD zijn de CPU's krachtig genoeg geworden om spraakherkening mogelijk te maken op een manier die ook bruikbaar is. Je kan nu dus complete verhalen tegen een PC vertellen die de PC ook nog eens begrijpt.

Verwijderd 13 september 2004 22:46

Zover ik weet is IBM al een paar jaar bezig met deze software. Wat ik me echter afvraag is of er ooit een consumenten aplicatie voor zal te vinden zijn.
Microsoft heeft ook een hele brok software 'Microsoft speech (sdk)'. Hiervan is ook nog niet veel nuttig van gemaakt voor de consument en de bedrijven. Volgens mij ligt het probleem nog steeds in het feit dat er geen AI kan ontwikkeld worden dat echt goed werkt.
Ik denk dat als ze niet snel iets voor de consument vinden, dat de hype ervan voorbei zal zijn en dat we in het jaar 3000 nog met een querty'tje werken.

Verwijderd @Verwijderd • 14 september 2004 09:25

Microsoft speech is geen spraakherkenningssoftware maar een voorlees programma....

The Lord @Verwijderd • 14 september 2004 12:23

De Microsoft speech SDK is wel degelijk voor spraakherkenning. Ik gebruik het nu een tijdje en het werkt redelijk goed.

Waar ik meer enthousiast over ben is de simpele mogelijkheid spraakherkenning in .NET applicaties in te bakken. Ik heb een eigen applicatie geschreven die bepaalde veel herhaalde taken voor me uitvoerd. En bij die applicatie gebruik ik het toetsenbord en de muis vrijwel niet. Ik zit lekker relaxed te babbelen door mijn bluetooth headset. Ideaal.

Verder heeft Microsoft ook nog de speech server. Dit is een (in verhouding met de concurrentie) zeer aangenaam geprijsd product om server applicaties te kunnen gebruiken i.c.m. spraakherkenning en besturing. Dit product wordt in Amerika door een aantal diensten al intensief gebruikt.

cyuen @Verwijderd • 13 september 2004 22:55

Consumenten applicaties zijn er genoeg.. Zoals Honda dat wou doen. Maar het is gewoon irritant om alles in te stellen, en dat nog wel per chauffeur dat te doen. Als je gewoon software had die dat kon doen zonder elke keer in te stellen en dus alles kan verstaan.... dan hebben ze de ei van columbus gevodnen haha

MossMan @Verwijderd • 14 september 2004 09:26

Opera zal binnenkort voice-XML en voice-control presenteren in de volgende versie. Deze is ontwikkeld samen met IBM en werkt heel goed!

De IBM site heeft een demo voice-XML pagina - pizza of chinees "bestellen" door gewoon met je PC te babbelen.

mjtdevries @MossMan • 14 september 2004 10:03

Maar ook dat is allemaal al hardstikke oud en nooit een succes geworden.

OS/2 Warp had al een zeer goede spraakherkenning voor zowel het dicteren van teksten, als voor navigatie door de desktop.

Werkte op zich prima. Maar de muis bleef gewoon handiger voor de desktop. En op kantoor wil je niet dat iedereen hardop zit te praten ipv te typen.

Volgens mij is men nu af van de gedachte dat het je toetsenbord en muis zal vervangen, maar zoekt men nu toepassingen voor aparaten die geen muis en toetsenbord hebben. Bv dus navigatiesystemen in auto's en GSMs etc.

jurrie 13 september 2004 23:22

hmmm, misschien dat de CSS3/voice support van Opera 7.60 nu dan ook in de niet-windows versie kan komen? Als IBM haar spul OSS maakt, zal er nl ook vast wel een linux versie van komen (hoop ik)? Of is dat weer iets anders van haar spraak-herkenningssoftware.

Johnny @jurrie • 14 september 2004 00:57

Ja, dat is iets anders.

Spraakherkenning kan door mensen gesproken tekst interpeteren.

De voorleesfunctie van Opera gebruikt de Narrator uit Windows om de computer de tekst op het beeldscherm te laten oplezen.

MossMan @Johnny • 14 september 2004 09:29

Nee, Opera 7.6 heeft wel degelijk spraak HERKENNING.

Browsen en interactie met webpaginas zonder te moeten trainen of wat dan ook.

Exploited 14 september 2004 02:35

De werkelijke reden van deze move is dat spraakherkenning al 30 jaar in een soort van impasse zit en maar niet verder wil komen.

In de jaren '70 wasm men al erg hoopvol over een spraakgestuurde computer binnen 5 jaar. We zijn nu weliswaar enorm opgeschoten, maar er zit de laatste 20 jaar eigenlijk geen echt serieuze vooruitgang meer in. Het wordt tijd dat er dus meer ontwikkelaars bij betrokken worden, want met de toegenomen miniaturizering van computers is het juist spraakherkenning die verdere ontwikkeling aan het tegengaan is.

Ids Lupo @Exploited • 14 september 2004 06:41

Naast dat je het in de softwareontwikkeling zoekt, heeft het ook met de beschikbaarheid van geschikte hardware te maken.
Vanaf een aantal jaren geleden heb je mobiele telefoons die spraakvergelijking doen, maar nog geen herkenning.
Nu heb je zo langzamerhand PC''s, met name PDA's (en meer) met a) voldoende processor power en b) een platform voor nuttige toepassingen, waarop zo'n software dan ook lekker soepel zal kunnen draaien.

Verwijderd @Exploited • 14 september 2004 07:19

Die impasse, bestaat die er uit dat als je een telefoonnummer op vraagt via het 0800 nummer van de KPN dat je dan dor een computer te woord gestaan wordt, waartegen jij zegt "Amsterdam, kalverstraat 14, de Groot" en dat die muts dan het goeie nummer oplepelt? want dat is al wel een poosje zo, en dat lijkt me toch een echt voorbeeldje van spraakherkenning in de praktijk.

Durandal @Verwijderd • 14 september 2004 12:05

jij denkt dat dat wordt herkend door een computer, maar de KPN heeft er slechts een computer _tussen_ gezet om de afhandelling sneller te laten verlopen.
Aan de andere kan luistert een mevrouw naar je verzoek en tikt het in. De computer handelt het verder af.

Verwijderd 13 september 2004 22:44

Het feit dat deze technologie ism de open source community verder ontwikkeld gaat worden betekent dat iedereen vrije toegang krijgt tot deze technologie.

Vooral ideaal voor dislectici als Open Office goede spraakherkenning krijgt.

Verwijderd @Verwijderd • 14 september 2004 00:42

Zo echt wel , dan zou een solicitatie brief geen enkel probleem meer zijn

cyuen 13 september 2004 22:53

Nou, als je echt wilt weten. Bel de amerikaanse Travelocity.com waar ze "spraakherkenning" gebruiken. Word hele tijd afgebroken omdat ik zogenaamd iets gezegd heb! Word er echt helemaal gek van!!

Wanneer een bedrijf software ontwikkeld dat bijv. van engels.. ELKE dialect kent, maar ook bijv mensen die Engels leren en mensen die mompelen ook nog de spraak kan herkennen.. dat is het een wonder

Verwijderd 14 september 2004 09:02

Niet alleen de open source software word hiermee uitontwikkeld, deze aanpak betekent ook dat er ontwikkelaars met een geheel andere kijk op de zaken met betrekking tot de diverse toepassingen dan IBM mee aan de slag gaan. meestal betekent dit dat er daadwerkelijk eindapplicaties gevonden worden die wel degelijk voordeel hebben van spraakherkenning. Kortom goede zaak mits IBM de regie niet al te strak in handen houd en ook vrijheid bied naar eindapplicaties die buiten IBM doelgebied liggen.

Verwijderd 14 september 2004 09:44

Spraakherkenningsoftware IBM wordt opensource...
IBM zal bepaalde delen van haar spraakherkenningssoftware open-source maken, juist, hoezo iemand een beetje blij maken met een dood

Verwijderd 14 september 2004 20:53

Spraakherkenning is tot nog toe altijd een doodgeboren kindje gebleken en idd alleen geschikt voor nauwkeurig omvatte toepassing zoals vivi sectie op doden.

Ik ben nu zelf een spraakherkenning engine aan het maken van de grond af aan, en ik weet echt zeker dat het bijna een heksenwerkje zal moeten worden...

Maar goed, als de pc dan dingen kan zoals 'sluit af' 'internet nu' 'speel muziek' dan is mijn programma goed genoeg, meer hoef ik ook niet, maar ik wil wel o.a. van microsoft zijn, want die Speech Server SDK daarbij moet je zoveel ongewenste troep installeren, dat je geen normaal downloadeble progamma meer kan maken.

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (25)

Sorteer op:

Weergave: