Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Je kunt ook een cookievrije versie van de website bezoeken met minder functionaliteit. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 34 reacties, 9.545 views •

Google heeft een nieuwe bètaversie van zijn Chrome-browser uitgebracht waarin ondersteuning is toegevoegd voor de Web Speech-api. Hierdoor kunnen ontwikkelaars van websites en webapps ondersteuning voor stembesturing aan invoervelden toevoegen.

De Web Speech-api is gebaseerd op de public speech-api die momenteel in ontwikkeling is bij W3C en werkt op basis van JavaScript. Hoewel Google het niet expliciet vermeldt wordt de ingesproken tekst hoogstwaarschijnlijk eerst naar servers van Google verzonden waar de omzetting van spraak naar tekst plaatsvindt. Daarna wordt de tekstuele weergave van de ingesproken tekst teruggestuurd naar de browser. Een demo van Google toont een aangepast invoerveld met in de bovenhoek een icoontje van een microfoon. Als deze aangeklikt wordt kan begonnen worden met tekstinvoer via spraak.

De nieuwste bèta van Chrome brengt ook verbeteringen met zich mee rondom het installeren van extensies. Via een register-methode was het tot nu toe mogelijk om stilletjes extensies toe te voegen aan Chrome op Windows-machines. Die mogelijkheid was er om gebruikers een opt-in te bieden als ze software installeerden die additionele Chrome-extensies wilde toevoegen. De bèta van Chrome 25 maakt dit onmogelijk en deactiveert extensies die op deze wijze geinstalleerd zijn automatisch, waarbij de gebruiker de keuze krijgt deze handmatig weer te activeren. 

Reacties (34)

Het is momenteel de grootste browser wereldwijd, dus als je momenteel niet in chrome test dan is dat wel een goed idee ja.

Hoe dan ook, voor de programmeurs hier, dit is niet hetzelfde als de x-webkit-speech flag die je tot nu toe kon toevoegen aan velden, maar dit is een echte API waar je wat meer in controle bent. Persoonlijk heb ik wel een beetje vraag tekens in hoeverre dit in de browser thuishoort, want je kan op zich met de getUserMedia* dit net zo goed zelf bouwen. Het enige voordeel van het in de browser hebben is dat de browser versie ook offline zou kunnen werken, maar dat is tenminste bij Google's implementatie dus niet het geval.

* getUserMedia is de functie die het mogelijk maakt voor web applicaties om de microphone en webcam uit te lezen.

[Reactie gewijzigd door David Mulder op 15 januari 2013 08:19]

Of de api zit na een update een keer in chrome gebakken. Het zou kunnen. En als je het zelf moet maken kost dit veel moeite als je het goed werkend wil hebben. Het zou waarschijlijk ook ruimte besparen. Als het ingebakken in Chrome zal zitten zal niet iedere keer spraakbediening in een app moeten zitten en dit scheelt ruimte. Dit zal betekenen dat Chromebooks minder in opslagcapiciteit te hoeven groeien
Helaas is goede spraakherkenning nog steeds vrij data-intensief. Er worden goede resultaten gehaald met HMM based speech recognition, maar ook die hebben veel data nodig om enigszins acceptabele resultaten te geven (denk hierbij aan de vaak tegenvallende resultaten van siri). Het is een beetje onzinnig om 100MB aan data mee te leveren bij een browser van 90MB, als het merendeel van je gebruikers het niet eens gebruikt. Bovendien is dat een bak data die je voor elke input-taal weer opnieuw zou moeten downloaden.

Overigens is er ook een W3C VoiceXML standaard die het ook mogelijk maakt om oa. formulieren in te vullen middels spraak; daarbij mist evenwel een grafisch component, m.a.w, daarmee maak je de welbekende bel-menu's. Ben benieuwd hoe spraak-input gaat werken als je het combineert met een normale browser.

[Reactie gewijzigd door FragFrog op 15 januari 2013 08:59]

Standaarden ontwikkelen is niet in een ivoren torentje iets bedenken en via commissies naar voren duwen, het is zelf een techniek bedenken, het uittesten in de markt, en als het goed ontvangen wordt op een gegeven moment standaardiseren. "Embrace-and-extend" is het basisprincipe waarop het WWW gebouwd is.
Dat zijn de facto standaarden die je beschrijft. "Echte" standaarden worden voordat ze worden geimplementeerd beschreven in standardisation bodies, en vervolgens gaan leveranciers dat implementeren. Zie bijv. 3gpp.
Dit maakt de mogelijkheden als ontwikkelaar nog heel wat breder. Ik ben benieuwd hoe die API eruit ziet. Ik ben altijd een grote fan van de documentatie van Google. Helder, duidelijk en 'straight2thepoint'. _/-\o_
De grootste aanpassingen/vernieuwingen in Chrome 25 gaan gebeuren in WebRTC: VP9 en Opus audio.

Dit zijn echte next-gen audio en video-codec (royalty vrij en open source).
http://9292.nl/ heeft dit ook al een tijdje. Dit werkt ook zonder de api :)

[Reactie gewijzigd door maarud op 15 januari 2013 08:48]

Volgens mij begrijp ik iets niet; waarom hoort dit in de browser thuis? En zit dat soort software niet al ingebakken in het OS (e.g. Android), danwel kan geinstalleerd worden? Dat soort software kan dan toch ook textvelden invullen, net zoals je er emails mee kunt inspreken? Waarom moet hier dan een hele browser API voor gebakken worden?

Goed dit zijn alleen maar vragen, ik hoop dat ik geen steekjes heb laten vallen. Trouwens, is het niet zo dat goede resultaten met speech-to-text voornamelijk behaald worden na training op de stem van de gebruiker?

[Reactie gewijzigd door TheWickedD op 15 januari 2013 10:23]

Google's filosofie is dat *alles* de browser in gaat.
Nee, je wilt geen plug-ins. Dan is er weer actie nodig van een eindgebruiker om bepaalde functionaliteit te willen gebruiken. Het hele idee van "alles in de browser" is juist dat je alles altijd en overal (ongeacht het device) werkt zonder dat je daar apps of wat dan ook voor moet installeren.

WebRTC bijvoorbeeld schept bijvoorbeeld de mogelijkheid om voice en video calls op te zetten zonder specifieke apps (zoals bijv. Skype).
Ik heb de update, maar zie nergens een microfoon. Ik meen me zelfs te herinneren dat op google.com eerst wél een microfoontje getoond werd?
't Is eigenlijk erg, maar met het ten onder gaan van L&H (Lernout & Hauspie) is er veel goeie technologie ook verloren gegaan op vlak van spraak herkenning en besturing. Maar ik vind het geweldig dat we over enkele jaren gewoon e-mails kunnen dicteren aan de tablet of PC.

Dit zal voor veel mensen weer een nieuwe wereld openen, zoals bv. oudere mensen die niet zo handig zijn met een toetsenbord (of zeer traag), die kunnen dan alles gewoon dicteren en toch makkelijk e-mails versturen. Super!
met het ten onder gaan van L&H (Lernout & Hauspie) is er veel goeie technologie ook verloren gegaan op vlak van spraak herkenning en besturing
Kun je een voorbeeld noemen? Ik lees namelijk dat de spraakafdeling gewoon overgenomen is door Scansoft.

Op dit item kan niet meer gereageerd worden.



Apple iPhone 6Samsung Galaxy Note 4Apple iPad Air 2FIFA 15Motorola Nexus 6Call of Duty: Advanced WarfareApple WatchWorld of Warcraft: Warlords of Draenor, PC (Windows)Microsoft Xbox One 500GBWebsites en communities

© 1998 - 2014 Tweakers.net B.V. Tweakers is onderdeel van De Persgroep en partner van Computable, Autotrack en Carsom.nl Hosting door True