Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 72 reacties
Bron: Opera, submitter: zeekoe

De webbrowser met spraakherkenning, die Opera ongeveer twee jaar geleden beloofde, is nu bijna gereed. In een persbericht laat Opera weten dat het gelukt is om IBM's Embedded ViaVoice-spraaktechnologie in te bakken in de nieuwe versie, waardoor gebruikers kunnen surfen via hun stem en zelfs de mogelijkheid krijgen om formulieren op deze manier in te vullen. Aangezien spraak een van de meest natuurlijke communicatiemiddelen is, verwacht Opera dat dit een opstapje is tot een betere communicatie met technologie. IBM vertelt dat de manier waarop er met internet wordt omgegaan binnenkort ook op andere terreinen, zoals mobiele telefoons en PDA's, richting de spraak gestuurd zal worden. Hierbij zal gebruikgemaakt worden van een door Motorola, IBM en Opera voorgestelde spraakopmaaktaal: XHTML+Voice (X+V). De al bestaande talen VoiceXML en XHTML blijven hiermee ondersteund, terwijl ook de combinatie mogelijk wordt:

Multimodal applications
Moderatie-faq Wijzig weergave

Reacties (72)

Great! Waar kunnen we em downloaden?
hmmm.....www.opera.com misschien? :*)

Maar het is nu nog maar een persbericht, maar hij zal uiteindelijk wel op de website te downloaden zijn.
Hier zijn trial tools en een testbrowser voor embedded devices te krijgen, maar in hoeverre je er nu al praktisch mee om kan gaan is het volgende. ;)

Overigens is het misschien de eerste keer dat er via Opera zo'n ophef over wordt gemaakt, maar dit multimodale feest ben ik vorig jaar al een keer in een mededeling van IBM tegengekomen.
Zo, dat is inderdaad zeer positief nieuws!

Dat gaat heel wat RSI tegen als je het mij vraagt.
Tegelijkertijd zal de tijd on-line wel weer groter worden...

Overigens: stel dat je met 3 man naast elkaar zit te internetten(spraakgestuurd), verstoord je buurman/vrouw dan niet je eigen browser?
Volgens mij wordt je horendol als iedereen tegelijkertijd zit te wauwelen tegen zijn/haar browser.
Misschien dat ie bepaalde commando's niet kan horen, maar waarschijnlijk zal het via spraakherkenning gaan. Iedereen heeft namelijk een unieke stem. :)
Ik denk ook dat dit slecht tot niet toegangelijk is voor mensen die stotteren of een duidelijk accent hebben.

Opzich is dit een mooie vooruit gang hoor, maar ik vraag mij af of dit wel nodig is bij de consument. Het is misschien leuk voor een keertje, maar als het systeem niet goed reageert dan gaat men waarschijnlijk toch wel weer over op het gebruikelijke typen.
Je zal ViaVoice moeten trainen, en dan is een dialect in ieder geval geen probleem. Viavoice zal dat wel herkennen.
Stotteren is een lastiger probleem, want stotteren doe je niet consequent even lang. In hoeverre je ViaVoice daarop kan trainen weet ik ook niet.

Collega's zijn eigenlijk geen probleem, tenzij ze wel heel erg schreeuwen. De microfoons zijn vaak niet zo gevoelig dat als input beschouwen.
stel dat je met 3 man naast elkaar zit te internetten(spraakgestuurd), verstoord je buurman/vrouw dan niet je eigen browser?
Ten eerste moet je dit soort programma's trainen om je eigen stem te herkennen, dus zal hier geen gebruik (vooralsnog) gemaakt kunnen worden in internetcafé's, scholen etc.

Verder bestaan er ook technieken met twee microfoons. Een bij de mond en op een andere plaats, bv bij het oorstuk v/d koptelefoon. Op die manier kan je het verschil er grotendeels uitfilteren, waardoor spraakherkenning ook beter werkt in een situatie met meer omgevingsgeluiden

Verder vind ik de ontwikkeling van deze technieken erg belangrijk. Niet alleen om het gebruiksgemak voor de gewone internetter te verbeteren, maar vooral om internet toegankelijker te maken voor mensen met een lichamelijke handicap, waardoor ze bv fysiek niet meer in staat zijn tot het bedienen van een toestenbord.
Dat gaat heel wat RSI tegen als je het mij vraagt.
Ik denk niet dat dit specifieke geval veel RSI zal verminderen. RSI zal niet snel veroorzaakt worden door een beetje surfen, maar meer door veel tekstverwerken etc. Nee, dan vind ik een verbeterde toegankelijkheid veel belangrijker.
Goed tegen RSI ja, maar krijg je daarna niet last van chronische keelpijn? ;)
Ja. Stemband problemen komen veel voor bij mensen die met spraakherkenning werken. Spreek uit eigen ervaring. Komt omdat je tegen een computer niet normaal kunt praten zoals tegen een mens. Het moet nog altijd geforceerd en dat zal nog wel jaren zo blijven.

Ik ben wel zeer benieuwd hoe je een hyperlink uit moet spreken.....
slashdot:
"Hi. I am your browser. What can I do for you?" asked a laptop with the demonstration versions of the browser. The message can be personalized, such as greeting users by name. The computer learns to recognize users' voices, accents and inflections by having them read a list of words into a microphone.
hij luistert dus alleen naar de goeie stem, en kan ook nog eens met accenten omgaan (* 786562 zeekoe
Dat gaat heel wat RSI tegen als je het mij vraagt.
Dat denk ik dus niet ... Je krijgt nu dus overbelaste stembanden --> RSI alleen op een andere plaats.
Wat moet ik me hier bij voorstellen? Dat de browser spraakcommando's accepteert als "Back." of "Go to: http://www.tweakers.net/" of iets dergelijks? Lijkt me eigenlijk vrij irritant eerlijk gezegd. Overigens staat er ook dat je zo formulieren kunt invullen. Maar hoe zou je dan bij zo'n volgend formulier moeten komen zonder te klikken? Misschien dat je het woord "tab" daarvoor gebruikt, maar wat als je "Tablet PC" moet zeggen?
M.a.w. in theorie klinkt het leuk, maar ik vraag me af of het functioneel is in praktijk. :)
een belangrijk antwoord zul je kunnen vinden in de XHTML+VOICE voorstel op W3C
http://www.w3.org/TR/xhtml+voice/
en gerelateerde technogieen als SSML, voiceXML SRGF (Speech grammar-module, een module die verschillende woordenschatten aankan).

het is voornamelijk een methode om events te koppelen aan gebruikersinput, zodat juist thin clients hiermee overweg kunnen (simpele apparaten, zonder uitgereide controle interfaces, juist hiervoor is stem-besturing zeer handig)

specifiek voor formulieren is dit handig, het formulier stelt de vragen en op basis van antwoorden wordt het formulier ingevuld (inclusief reprompts, verwijzingen naar andere elementen binnen het formulier, gebaseerd op eerdere input)

De uiteindelijke applicaties kunnen hiermee zeer internationaal functioneren (dmv van verschillende woordenschat-modules), zijn op verschillende vormen toegankelijk (zowel visueel of via spraak-interface)
Het lijkt me vooral fijn voor mensen met een handicap. Het zou nog leuker worden wanneer je browser terug begint te praten, over de content of eventuele problemen.
Wat je je daar bij voor moet stellen?

GEEF ME SEX!!!1

En vervolgens maakt je popup killer overuren en jij ook ;)
helemaal handig als je even je handen niet vrij hebt ;)
Bij het lezen van jou post voel ik enorm mee met motorisch gehandicapte mannen of anderen zonder handen.
passwords achterhalen wordt zo ook een stuk makkelijker en schelden tegen je computer is ook niet meer aan te raden. :Y)

Maar het lijkt me een mooie vooruitgang dit zou ee hoop input problemen met pda's oplossen. Dus nu afwachten of het echt goede resultaten laat zien
passwords achterhalen wordt zo ook een stuk makkelijker
Tenzij het password alleen herkend wordt als het door de juiste persoon wordt uitgesproken.

Ook kan ik me voorstellen dat je codewoorden gebruikt, waarbij de browser begrijpt dat niet de uitgesproken tekst maar een vooraf geprogrammeerde tekst moet worden gebruikt.
Tenzij het password alleen herkend wordt als het door de juiste persoon wordt uitgesproken.
Eén woord: bandrecorder ;)
Wat ouderwets ... kan dat niet digitaal? :)
Ach, nu gebruik je gewoon een keylogger.

Werkt prima :-)

Maar goed,

ik denk dat Bill Gates gelijk heeft en dat we allemaal richting smartcards en biometrsiche kenmerken gaan in plaats van passwords. Makkelijker in het gebruik en vrij lastig te kopieren. (Goed, je kan mijn hand afhakken maar ik denk dat ik dat wel merk :) )
Ik denk dat het voor PDA's zeker interresant is. Om nou te zitten pielen om een url in te voeren...

Darentegen, heb je ook favorieten natuurlijk...
Ik kan hier opzich wel handige opties bedenken:
20 keer close!
En in plaats van al die pop ups zelf af te moeten sluiten ramt ie gewoon zelf 20 keer op alt+f4

Maar ik denk dat vooral als je je pc als media pc hebt, en je bijvoorbeeld dat ding onder de tv hebt hangen. Als ze het goed doen, en je dus achter de comando's code kunt hangen, zou je gewoon doodleuk met "TV gids" of "News" ook tussen je tv en je pc kunnen wisselen en dus echt alles gebruiken.
Popup-killers zijn er al langer, dus ik zie weinig nut in "20 keer close".
Sterker nog, Opera heeft er een ingebouwd, dus als hij nog popups in Opera krijgt let hij niet goed op, ofwel hij kiest er bewust voor ;)
alsof daar spraakherkenings-software voor nodig is?
http colon slash slash astalavista dot box dot sk
...
...
close popup, close popup, close popup, close popup, close popup, close popup, close popup, close popup, close popup, close popup, close popup, close popup, close popup, close popup, close popup, close popup, close popup, close popup, close popup, close popup

:+

edit:
bedacht me opeens: volgens mij heb ik hier ooit een userfriendly van gezien... en dat klopt: http://www.userfriendly.org/cartoons/archives/01mar/uf002847.gif
Er is al zoveel onderzoek gedaan naar spraakbesturing van PC's. Het komt gewoon niet van de grond.

Inmiddels is de techniek redelijk ver. Door gebruik te maken van dictionaries (waardoor de computer 'weet' wat je eventueel zou kunnen zeggen, zoiets als T9) en meer rekenkracht werkt het redelijk goed.

Alleen lijkt het wel alsof er nooit iemand echt over heeft nagedacht over hoe het in de praktijk zou moeten werken. In je eentje op je kamer: prima, kan misschien best makkelijk zijn.

Maar het overgrote deel van de software wordt in bedrijven gebruikt. Ga je daar lekker met z'n 4-en op een kamer je PC met je stem besturen? Lekkere drukte wordt het dan.

Bovendien voelen mensen zich gewoon niet prettig bij het praten tegen een machine. Ik zie er voorlopig nog niets in, in ieder geval.
de kwaliteit was tot redelijk kort geleden nog niet goed genoeg. 95% precisie klinkt goed, maar in de praktijk ben je dan langer bezig met verbeteren, dan je tijd bespaart door te spreken.
Spraakherkenning lijkt me ook meer iets voor het besturingssysteem. Als elk individueel programma zijn eigen spraakherkenningsysteem gebruikt wordt het een chaos en duurt het super lang voordat alle programma's aan je stem 'gewend' zijn.
Ik vind het een leuke ontwikkeling, maar wat de andere heren als zeggen: Hoe ga je echt surfen? En ik speel wel eens online spellen, met headset, dus mijn vriendin zeurt nog wel eens over dat ik weer zit te spelen. Als er nu ook spraakgestuurd surfen komt is het hek helemaal van de dam :P :
-vriendin: Zit je nou alweer te gamen?
-ik: neej hoor ik surf
-zij: maar ik hoor je praten liegbeest :P
:+
Dingen die in de "bookmarks" staan zouden vrij snel gebruikt kunnen worden.

Open een pagina en gebruik daarna: "Show Links", "tweede link" .... ploep daar is íe. "Pagina down". "Pagina's die een next en previous link kennen (zoals bij zoekresultaten) zouden dan ook gewoon gebruikt kunnen worden. "Pagina next". Och, ik denk dat dit wel kan werken.

Eindelijk eens een fatsoenlijke toepassing voor spraakherkenning.
Wat er dan in de software moet komen is tekst herkenning die dus de layout van de webpagina uitleest en zoekt naar het gesproken woord.
Voice bookmarks zouden ook wel leuk zijn:
bv. je opent een nieuw venster en je zegt tweakers, en je bent meteen op tweakers.net
Als je dan vraagt om naar Microsoft.com te surfen, hoe belet je dan dat ie niet naar mikerowesoft.com gaat? ;)
Zoals bij veel spraaksoftware, is de computer van verschillende interpretaties op de hoogte en zegt hij iets van "twee mogelijkheden, welke wil je: 1) Microsoft of 2) MikeRoweSoft?". Waarop je dan met het respectievelijke nummer kunt antwoorden.
Dit is een zeer goede vooruitgang om van zowel muis als toetsenbord af te komen en dus tegen RSI, stel je deze technologie in samenhang met bijvoorbeeld touchscreen voor.

Nadeel is dat iedereen op commando- achtige wijze gaat praten. commando-stop, commando- pinkellen....

Einde Bericht. ;)
Lijkt mij zéér nuttig voor spelletjes

link Links LINKS LIIIIIIINKS GA NOU *&%%& NAAR LINKS

Lijkt mij erg leuk voor de buren

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True