Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Je kunt ook een cookievrije versie van de website bezoeken met minder functionaliteit. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , reacties: 34, views: 9.395 •

Google heeft een nieuwe bètaversie van zijn Chrome-browser uitgebracht waarin ondersteuning is toegevoegd voor de Web Speech-api. Hierdoor kunnen ontwikkelaars van websites en webapps ondersteuning voor stembesturing aan invoervelden toevoegen.

De Web Speech-api is gebaseerd op de public speech-api die momenteel in ontwikkeling is bij W3C en werkt op basis van JavaScript. Hoewel Google het niet expliciet vermeldt wordt de ingesproken tekst hoogstwaarschijnlijk eerst naar servers van Google verzonden waar de omzetting van spraak naar tekst plaatsvindt. Daarna wordt de tekstuele weergave van de ingesproken tekst teruggestuurd naar de browser. Een demo van Google toont een aangepast invoerveld met in de bovenhoek een icoontje van een microfoon. Als deze aangeklikt wordt kan begonnen worden met tekstinvoer via spraak.

De nieuwste bèta van Chrome brengt ook verbeteringen met zich mee rondom het installeren van extensies. Via een register-methode was het tot nu toe mogelijk om stilletjes extensies toe te voegen aan Chrome op Windows-machines. Die mogelijkheid was er om gebruikers een opt-in te bieden als ze software installeerden die additionele Chrome-extensies wilde toevoegen. De bèta van Chrome 25 maakt dit onmogelijk en deactiveert extensies die op deze wijze geinstalleerd zijn automatisch, waarbij de gebruiker de keuze krijgt deze handmatig weer te activeren. 

Reacties (34)

Goed nieuws! Misschien moet ik ook maar voor Chrome gaan ontwikkelen!
Het is momenteel de grootste browser wereldwijd, dus als je momenteel niet in chrome test dan is dat wel een goed idee ja.

Hoe dan ook, voor de programmeurs hier, dit is niet hetzelfde als de x-webkit-speech flag die je tot nu toe kon toevoegen aan velden, maar dit is een echte API waar je wat meer in controle bent. Persoonlijk heb ik wel een beetje vraag tekens in hoeverre dit in de browser thuishoort, want je kan op zich met de getUserMedia* dit net zo goed zelf bouwen. Het enige voordeel van het in de browser hebben is dat de browser versie ook offline zou kunnen werken, maar dat is tenminste bij Google's implementatie dus niet het geval.

* getUserMedia is de functie die het mogelijk maakt voor web applicaties om de microphone en webcam uit te lezen.

[Reactie gewijzigd door David Mulder op 15 januari 2013 08:19]

Dit maakt de mogelijkheden als ontwikkelaar nog heel wat breder. Ik ben benieuwd hoe die API eruit ziet. Ik ben altijd een grote fan van de documentatie van Google. Helder, duidelijk en 'straight2thepoint'. _/-\o_
Of de api zit na een update een keer in chrome gebakken. Het zou kunnen. En als je het zelf moet maken kost dit veel moeite als je het goed werkend wil hebben. Het zou waarschijlijk ook ruimte besparen. Als het ingebakken in Chrome zal zitten zal niet iedere keer spraakbediening in een app moeten zitten en dit scheelt ruimte. Dit zal betekenen dat Chromebooks minder in opslagcapiciteit te hoeven groeien
De grootste aanpassingen/vernieuwingen in Chrome 25 gaan gebeuren in WebRTC: VP9 en Opus audio.

Dit zijn echte next-gen audio en video-codec (royalty vrij en open source).
Beter ga je gewoon voor standaarden ontwikkelen.
http://9292.nl/ heeft dit ook al een tijdje. Dit werkt ook zonder de api :)

[Reactie gewijzigd door maarud op 15 januari 2013 08:48]

Helaas is goede spraakherkenning nog steeds vrij data-intensief. Er worden goede resultaten gehaald met HMM based speech recognition, maar ook die hebben veel data nodig om enigszins acceptabele resultaten te geven (denk hierbij aan de vaak tegenvallende resultaten van siri). Het is een beetje onzinnig om 100MB aan data mee te leveren bij een browser van 90MB, als het merendeel van je gebruikers het niet eens gebruikt. Bovendien is dat een bak data die je voor elke input-taal weer opnieuw zou moeten downloaden.

Overigens is er ook een W3C VoiceXML standaard die het ook mogelijk maakt om oa. formulieren in te vullen middels spraak; daarbij mist evenwel een grafisch component, m.a.w, daarmee maak je de welbekende bel-menu's. Ben benieuwd hoe spraak-input gaat werken als je het combineert met een normale browser.

[Reactie gewijzigd door FragFrog op 15 januari 2013 08:59]

Volgens mij begrijp ik iets niet; waarom hoort dit in de browser thuis? En zit dat soort software niet al ingebakken in het OS (e.g. Android), danwel kan geinstalleerd worden? Dat soort software kan dan toch ook textvelden invullen, net zoals je er emails mee kunt inspreken? Waarom moet hier dan een hele browser API voor gebakken worden?

Goed dit zijn alleen maar vragen, ik hoop dat ik geen steekjes heb laten vallen. Trouwens, is het niet zo dat goede resultaten met speech-to-text voornamelijk behaald worden na training op de stem van de gebruiker?

[Reactie gewijzigd door TheWickedD op 15 januari 2013 10:23]

Dit was al mogelijk vanaf minimaal versie 23 geloof ik..?
Standaarden ontwikkelen is niet in een ivoren torentje iets bedenken en via commissies naar voren duwen, het is zelf een techniek bedenken, het uittesten in de markt, en als het goed ontvangen wordt op een gegeven moment standaardiseren. "Embrace-and-extend" is het basisprincipe waarop het WWW gebouwd is.
Google's filosofie is dat *alles* de browser in gaat.
En dat die browser dus groter, lomper, trager en onveiliger wordt. Nee, dank je. Dit zie ik liever als een plug-in o.i.d.
Opus is een open standaard van de IETF.

VP9 zal weer een proprietary codec zijn die 100% eigendom is van Google.

Dat is een enorm verschil.
Mwah, ondanks dat er veelbelovend uitziet mag je nog de helft gaan aanklikken. Daarnaast mag je voor elke punt period gaan zeggen. Ik vraag me af of ik dan niet sneller klaar ben als ik ga typen. Gevaar is natuurlijk dat we er zo aan gewend zijn door in onze smartphones te spreken dat we straks in onze normale real life gesprekken ook de hele tijd period gaan zeggen als we aan t eind van een zin zijn (dubbele punt, haakje sluiten)
Ik heb de update, maar zie nergens een microfoon. Ik meen me zelfs te herinneren dat op google.com eerst wél een microfoontje getoond werd?
't Is eigenlijk erg, maar met het ten onder gaan van L&H (Lernout & Hauspie) is er veel goeie technologie ook verloren gegaan op vlak van spraak herkenning en besturing. Maar ik vind het geweldig dat we over enkele jaren gewoon e-mails kunnen dicteren aan de tablet of PC.

Dit zal voor veel mensen weer een nieuwe wereld openen, zoals bv. oudere mensen die niet zo handig zijn met een toetsenbord (of zeer traag), die kunnen dan alles gewoon dicteren en toch makkelijk e-mails versturen. Super!

Op dit item kan niet meer gereageerd worden.



Populair: Vliegtuig Luchtvaart Crash Smartphones Google Laptops Apple Games Politiek en recht Rusland

© 1998 - 2014 Tweakers.net B.V. onderdeel van De Persgroep, ook uitgever van Computable.nl, Autotrack.nl en Carsom.nl Hosting door True

Beste nieuwssite en prijsvergelijker van het jaar 2013