Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

IBM focust de komende periode op spraaktechnologie

Door , 42 reacties, bron: Automatisering Gids

Onder de naam Conversational Services zal IBM vanaf nu harder dan ooit tevoren gaan werken aan het verbeteren van de huidige spraaktechnologieŽn. Een naar mijn mening zeer goed idee is het plan om een camera te gaan maken die zal kunnen liplezen. Over twee jaar zal met deze techniek de accuratesse van spraakherkenning behoorlijk verbeterd zijn, als alles bij IBM volgens de planning gaat verlopen.

Behalve verhoogde accuratesse zal het ook mogelijk zijn dat het systeem doorheeft of iemand wel of niet de intentie heeft om iets te dicteren. Kijk je bijvoorbeeld even de andere kant op terwijl je iets tegen een huisgenoot zegt, geeft de camera door aan de software dat de dan gesproken woorden niet genoteerd moeten worden. Behalve dit meldt de Automatisering Gids ook nog een aantal andere leuke nieuwtjes over IBM's spraaktechnologievorderingen, waaronder implementering in PDA's:

IBM logoHet diensten- en productgamma dat IBM op het vlak van spraak- en taaltechnologie presenteert, houdt onder meer de automatische vertaling van stemmen in. Dat betekent dat IBM thans de combinatie kan maken tussen spraakherkenning, automatische machinevertalingen en spraaksynthese. Ook nieuw is het feit dat IBM over een add-on beschikt waarmee PDA's uitgerust kunnen worden. Daardoor wordt het mogelijk om bij voorbeeld een Palm Pilot te bedienen met de stem. Ook zou de Palm dan kunnen functioneren als GSM.

Door Mark Timmer

26-06-2001 • 13:39

42 Linkedin Google+

Bron: Automatisering Gids

Reacties (42)

Wijzig sortering
Hmm, spraakherkenning.

Zouden alle bedrijven die daar mee bezig zijn (geweest) er niet eens verstandig aan doen om hun kennis en ervaring te bundelen.

Dat voorkomt aan de ene kant dat je iedere keer het wiel opnieuw moet uitvinden en daarmee heb je wellicht iets meer kan om op een redelijke termijn met een topprodukt te komen.

Er wordt nu al zo lang ontwikkeld aan spraakherkenning, maar er is imo nog geen produkt waarvan je kunt zeggen: "dat is het!".

Ik denk overigens wel dat IBM er nu al goed aan doet om een visueel systeem er bij te betrekken, dat samen met je stem zal de herkenbaarheid alleen maar ten goede komen en fouten, omdat je verkouden bent, worden hiermee ook geŽlimineerd.
Zouden alle bedrijven die daar mee bezig zijn (geweest) er niet eens verstandig aan doen om hun kennis en ervaring te bundelen.
Als jij nou eens Intel, AMD en IBM opbelt dat ze nu eens 1 processor gaan maken....

zie je wat je zegt? :z
Ik zie wat je zegt, maar dat gaat voor jouw vergelijking niet helemaal op, waar ik op doelde was met name het steeds weer uit moeten vinden (of uit willen vinden) van het wiel.

Er is de afgelopen jaren al bijzonder veel tijd en geld geÔnvesteerd in ontwikkelingen van spraakherkenning, tot nu toe is er nog geen produkt wat je van het mag worden genoemd.

Waarom zouden die bedrijven hun kennis niet kunnen bundelen en in een joint venture met dat je van het produkt op de markt komen? Zo gek is dat niet binnen IT-land, er zijn wel meer situaties waarbij een aantal grote spelers huin krachten hebben gebundeld.

Jouw voorbeeld van de processormarkt ligt totaal anders, daar vallen weinig wielen opnieuw uitgevonden te worden.

:)
daar vallen weinig wielen opnieuw uitgevonden te worden.
Dus al die R&D van AMI/Intel/IBM is overbodig? AMD zet morgen ff een volledig 64bits cpu-tje op de markt? ;)

Wat ik bedoel: deze bedrijven aan de top zijn echte concurrenten: ze gaan _echt_ niet zomaal ff alles delen.

daarnaast zijn er al lang systemen op de markt die het redelijk doen, alleen de robustheid is een probleem: zodra er achtergrond ruis is zakt de performance dik in elkaar (of iig: snelle dan bij een menselijke luisteraar). Daar kan die camera erg goed bij helpen: uit testen/onderzoeken is gebleken dat mensen anderen beter kunnen verstaan als zij de mondbewegingen zien (en niet alleen liplezers).


Maar ook mensen zijn niet perfect: hoevaak komt het niet voor dat je iemand even niet verstaat?
Het probleem is dat mensen van een computer verwachten dat ie perfect is.

Als een herkenner 95% goed heeft lijkt dat mooi, maar dat is het niet: 1 op de 20 woorden zijn dan fout! (gelukkig zijn steeds meer herkenners uitgerust met syntactische analyse modules zodat de zinsbouw gecontrolleerd kan worden). Maar ook hier zit een probleem: mensen praten niet zoals ze schrijven: vaak is spreektaal zo ongramaticaal als het maar zijn kan.

Daarnaast is het probleem niet zozeer spreker afhankelijke herkenning (getraind op 1 persoon) maar vooral spreker onafhankelijke herkenning: een computer die een Fries, tukker of Limburger moet kunnen herkennen (bv bij een treinreisinformatiesysteem (scrabble++).
Er worden wel degelijk krachten gebundeld en de informatie wordt ook veel centraal opgeslagen, zeker in de academische cq onderzoeks wereld.

Nee eens een kijkje bij CGN en bij ISCS.

Bij bedrijven ligt dit echter anders, die zijn vooralsnog allemaal een beetje zelf aan het experimenteren (meer kun je de tot nu toe gepresenteerde systemen niet toeschrijven), maar ook zij zullen beseffen dat als ze een echt werkend spraakherkenningssysteem willen, dat ze dan vanuit een centraal punt moeten werken.
Dit centale punt zou bijv de CGN kunnen zijn, zij zijn al bezig met een uniek project in de wereld, namelijk het verzamelen en documenteren van 10 miljoen ! nederlandse woorden, dit moet een soort database worden waar andere instellingen en bedrijven dan uit kunnen putten.
hehe CGN: ik studeer Taal, Spraak en Informatica en CGN is 1 van de zaken die ze dus op de vakgroep in Nijmegen doen.

Ik had het idd ook niet over de academische wereld, waar btw ook erg veel onderzoek door bedrijven als Philips en KPN gesponsored wordt.
Als jij nou eens Intel, AMD en IBM opbelt dat ze nu eens 1 processor gaan maken....


Vroeger werkte AMD en Intel samen, pas bij de 486 begon AMD voor zich zelf
Krachten bundelen? Nee, ik denk op zich dat het wel goed is voor de concurentie. Of eigenlijk anders: concurentie is goed voor de ontwikkeling. Als er maar 1 soort spraakherkenning zou zijn, en "de manier" is verkeerd dan werkt het nog niet. Wanneer verschillende bedrijven afzonderlijk werken, heb je meer kans dat iemand het op de goede manier aanpakt.

Spraakherkenning is namelijk zo ingewikkeld, en je kunt het op verschillende manieren aanpakken ( "top down" of "bottom up", enz)
Goed werk !

Ik zit te denken aan het bellen met een Computer en zo je memo's direct uitgewerkt te krijgen.....ideaal !

en dan kan er ook een nieuwe generatie telefoonbeantwoorders komen. Nu gaat het nog voornaamlijk met druk op 1 voor....druk op 2 voor...etc...straks kun je gewoon helemaal spreken wat je wilt !!

ik wacht af !
Heb laatst gehoord dat dit systeem al is ontwikkeld. Kostte klauwen met geld, was voor de KPN, wilde dit snel in gebruik gaan nemen. Ik ben er niet zeker van, maar het lijkt me wel logisch. Spraakherkenning is trouwens al redelijk goed, ik heb zelf weleens zo'n pakketje gehad, en commando's geven ging wel, dicteren een stuk minder goed!
Het Ūs een gat in de markt, ik denk dat heel veel mensen interesse hebben in zoiets. Er zijn zoveel mensen die 1. niet kunnen typen, 2. niet willen typen en 3. (belangrijkste reden om spraakherkenning op je compu te zetten) RSI hebben.

Maar dan moet het helemaal perfect werken. Op dit moment bestaat dat nog niet, maar als IBM er genoeg geld en tijd in wil stoppen moet het lukken. Vooral die camera vind ik een interessante ontwikkeling.
Ik heb zo'n 3 jaar geleden een keer met spraak herkennings software gewerkt. Dat was FreeSpeech van Phillips. Dat werkt al best aardig! Het grappige was dat je ook je computer opdrachten kon geven.

"Start", "Programs", etc... best gaaf!!!

Omdat dat toch alweer een tijdje terug is ben ik benieuwd wat er tegenwoordig mogelijk is!
hmm, ik heb zelf bij L&H gewerkt, toen het bedrijf zich nog ietwat kon redden (ik ben dus een belg, ff ter info) en hun product, VoiceExpress, was, inzake spraakherkenning, vooruitstrevend en tegelijk erbarmelijk slecht.
Het probleem met spraakherkenning blijft dat een mens, zoals hiervoor reeds enkele malen gezegd, niet perfect is, terwijl de huidige programma's van het tegendeel uitgaan.

Wat betreft het samenwerken met andere bedrijven, L&H heeft indertijd een aanbod gehad van Philips om Freespeech en VoiceExpress 'aan elkaar te koppelen' (dit is interne keuken, gelieve voor jezelf te houden ;) ), maar als antwoord kreeg philips een volmondig 'nee'.
Dit is uiteraard bedrijfsgebonden, maar ik denk dat het er bij zowat elk bedrijf op deze manier aan toe gaat.
En nu moet ik weg, hoewel m'n reply niet af is, maar goed :)
Hmm, moet Picard dan elke keer in de camera kijken als 'ie tegen de computer kletst...? :)
Whooow een camera die kan liplezen....zal wel een behoorlijke processorkr8 8r zitten dan???
Minumum system requirements: P5-2,8Gighz + 2048MB QDR RAM...??? :Y)
Ach, over twee jaar zijn de processoren toch ook weer een behoorlijk stuk verder.
Je zal een echt supersysteem moeten draaien om dit aan te kunnen. Ik zie het nu al bij collega's die praten tegen hun computer :) .... het enigste wat ze terugkrijgen is het geratel van hun HD :Z
:) Ben benieuwd als ze die camera zouden gebruiken in de Adult Movie industry. Wat zou dat pakket er dan van bakken?
ze bedoelen de lippen in je hoofd denk ik ;)
Zou die camera het verschil zien dan?

//edit: wat nou dubbelpost???

Ik zie de laatste dagen wel vaker rare moderaties bij reacties. (4) Behulpzaam: bij zaken die absoluut 0 toe te voegen hebben aan een post.

Eerlijkheid gebied me te zeggen, dat ik al aardig wat van die reacties resoluut een aantal punten minder heb toebedeeld, dan ik ze in eerste instantie aantrof, maar ik weet niet wat er aan de hand is...
reuksensor...
Fouttolerantie ten top :)

//edit: weer een dubbelpost te pakken.
Beoordelingen: +1, -1: Dubbelpost, +1: Grappig, Totaal: 1 / 3x
Het zal wel aan mij liggen, maar kan de mod me uitleggen wat hier dubbelpost aan is??? :(
Zou die camera het verschil zien dan?

\[WŠy O.T.]
je bedoelt het verschil tussen mannen met een snor/sikkie en de gemiddelde vrouw? Tuurlijk! Tegen die tijd gooien we er ook een reuksensor in...
\[/WŠy O.T]
dat laatste zit al ingebakken in win2k...
Now tell me something I don't know ;)

Echter is de kwaliteit van deze applicatie ver beneden peil. De spraak is onherkenbaar en bovendien alleen in het Engels.
Ik heb ervaring in het werken met Windows voor visueel gehandicapten en ik kan je zeggen dat deze applicatie onbeduidend is als je hem vergelijkt met commerciele pakketten. Het enige wat in mijn ogen deze applicatie demonstreert is de Microsoft Speech API (waarvoor ik MS dankbaar ben).

\[off-topic]
In X windows bestaat er ook een dergelijke API en de aandacht voor dit soort zaken wordt gelukkig steeds groter.
\[/off-topic]
liplezen? Voor onderwatercomputers? Of voorzien ze een prijsstijging in microfoons? Kan iemand me het praktisch nut uitleggen? O ik begrijp het al: spionage! Het werkt vast beter dan een richtmicrofoon.
nee, het gaat om het verhogen van het percentage herkenning. Op dit moment ligt dat bij de geoefende gebruiker en voldoende training van de software op maximaal 98% ofsoow. Door het liplezen in te zetten, kan je wellicht die 2 procent er nog bijpakken.

Daarnaast is het handig in lawaaiige omgevingen zoals een kantoortuin..

En als ze deze techniek eenmaal geperfectioneerd hebben kunnen die vrouwen op de kermis geautomatiseerd handen laten lezen... :+ Maar dan praten we natuurlijk wel over 5 jaar vanaf nu ;)
Lijkt me vaag. Kom je terug van de tandarts met een getrokken kies, staat je gezicht anders. En dan? "Acces Denied"? Kun je weer naar de SysOp, "kun je mijn nieuwe gebit invoeren?"

Lijkt me trouwens idd wel nuttig wat TgF al zei, als al die bedrijven samen de schouders eronder zetten.

edit: [op Tjark Verhoeven] Jawel, maar ze hebben het hier ook over liplezende camera's.
spraakherkenning != sprekerverificatie

-ook edit-
precies: lip lezend is niet lip herkennend.

denk daar maar eens over na. ;)

Het gaat er niet om hoe de lippen an sich er uit zien, maar om de (relatieve) stand van de lippen.
Het gaat er dus niet om dat de compu kan herkennen dat die lippen van jou zijn of je buurman, maar of ze open (a,o), gespreid (e) of dicht (m) zijn b.v.
Okee, 'k heb erover nagedacht. ;)
Het gaat er dus niet om dat de compu kan herkennen dat die lippen van jou zijn of je buurman, maar of ze open (a,o), gespreid (e) of dicht (m) zijn b.v.
I stand corrected..
IBM is hier al lang mee bezig. Bij Warp zat al voicetype. Op haar intranet stond een bamba filmpje van Lucent labs met een demo. dat is herkenning van beweging en herkenning van spraak.
Helaas heb ik het niet meer (en die bamba - streaming video, helaas ook niet meer).
en ViaVoice??? nu verkrijgbaar voor Windows...

Op dit item kan niet meer gereageerd worden.


Apple iPhone X Google Pixel 2 XL LG W7 Samsung Galaxy S9 Google Pixel 2 Far Cry 5 Microsoft Xbox One X Apple iPhone 8

© 1998 - 2017 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Hardware.Info de Persgroep Online Services B.V. Hosting door True

*