Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 34 reacties

Google heeft een nieuwe bètaversie van zijn Chrome-browser uitgebracht waarin ondersteuning is toegevoegd voor de Web Speech-api. Hierdoor kunnen ontwikkelaars van websites en webapps ondersteuning voor stembesturing aan invoervelden toevoegen.

De Web Speech-api is gebaseerd op de public speech-api die momenteel in ontwikkeling is bij W3C en werkt op basis van JavaScript. Hoewel Google het niet expliciet vermeldt wordt de ingesproken tekst hoogstwaarschijnlijk eerst naar servers van Google verzonden waar de omzetting van spraak naar tekst plaatsvindt. Daarna wordt de tekstuele weergave van de ingesproken tekst teruggestuurd naar de browser. Een demo van Google toont een aangepast invoerveld met in de bovenhoek een icoontje van een microfoon. Als deze aangeklikt wordt kan begonnen worden met tekstinvoer via spraak.

De nieuwste bèta van Chrome brengt ook verbeteringen met zich mee rondom het installeren van extensies. Via een register-methode was het tot nu toe mogelijk om stilletjes extensies toe te voegen aan Chrome op Windows-machines. Die mogelijkheid was er om gebruikers een opt-in te bieden als ze software installeerden die additionele Chrome-extensies wilde toevoegen. De bèta van Chrome 25 maakt dit onmogelijk en deactiveert extensies die op deze wijze geinstalleerd zijn automatisch, waarbij de gebruiker de keuze krijgt deze handmatig weer te activeren. 

Reacties (34)

Reactiefilter:-134030+115+21+30
Moderatie-faq Wijzig weergave
Standaarden ontwikkelen is niet in een ivoren torentje iets bedenken en via commissies naar voren duwen, het is zelf een techniek bedenken, het uittesten in de markt, en als het goed ontvangen wordt op een gegeven moment standaardiseren. "Embrace-and-extend" is het basisprincipe waarop het WWW gebouwd is.
Dat zijn de facto standaarden die je beschrijft. "Echte" standaarden worden voordat ze worden geimplementeerd beschreven in standardisation bodies, en vervolgens gaan leveranciers dat implementeren. Zie bijv. 3gpp.
Het is momenteel de grootste browser wereldwijd, dus als je momenteel niet in chrome test dan is dat wel een goed idee ja.

Hoe dan ook, voor de programmeurs hier, dit is niet hetzelfde als de x-webkit-speech flag die je tot nu toe kon toevoegen aan velden, maar dit is een echte API waar je wat meer in controle bent. Persoonlijk heb ik wel een beetje vraag tekens in hoeverre dit in de browser thuishoort, want je kan op zich met de getUserMedia* dit net zo goed zelf bouwen. Het enige voordeel van het in de browser hebben is dat de browser versie ook offline zou kunnen werken, maar dat is tenminste bij Google's implementatie dus niet het geval.

* getUserMedia is de functie die het mogelijk maakt voor web applicaties om de microphone en webcam uit te lezen.

[Reactie gewijzigd door David Mulder op 15 januari 2013 08:19]

Of de api zit na een update een keer in chrome gebakken. Het zou kunnen. En als je het zelf moet maken kost dit veel moeite als je het goed werkend wil hebben. Het zou waarschijlijk ook ruimte besparen. Als het ingebakken in Chrome zal zitten zal niet iedere keer spraakbediening in een app moeten zitten en dit scheelt ruimte. Dit zal betekenen dat Chromebooks minder in opslagcapiciteit te hoeven groeien
Helaas is goede spraakherkenning nog steeds vrij data-intensief. Er worden goede resultaten gehaald met HMM based speech recognition, maar ook die hebben veel data nodig om enigszins acceptabele resultaten te geven (denk hierbij aan de vaak tegenvallende resultaten van siri). Het is een beetje onzinnig om 100MB aan data mee te leveren bij een browser van 90MB, als het merendeel van je gebruikers het niet eens gebruikt. Bovendien is dat een bak data die je voor elke input-taal weer opnieuw zou moeten downloaden.

Overigens is er ook een W3C VoiceXML standaard die het ook mogelijk maakt om oa. formulieren in te vullen middels spraak; daarbij mist evenwel een grafisch component, m.a.w, daarmee maak je de welbekende bel-menu's. Ben benieuwd hoe spraak-input gaat werken als je het combineert met een normale browser.

[Reactie gewijzigd door FragFrog op 15 januari 2013 08:59]

De grootste aanpassingen/vernieuwingen in Chrome 25 gaan gebeuren in WebRTC: VP9 en Opus audio.

Dit zijn echte next-gen audio en video-codec (royalty vrij en open source).
Mijn ervaring met spraakherkenning is dat het wel aardig werkt als je van tevoren weet wat je wilt gaan schrijven. Meestal weet ik dat niet precies en vormt een emailtje zich na een tijdje door te schuiven met zinnen, woorden aan te passen e.d.. Daar kan ik best een half uur mee bezig zijn om alles duidelijk in beeld te krijgen.
Met spraakherkenning werkt dat gewoon niet zo handig. Als je met spraak zinnen moet schuiven en aanpassen ben je veel langer bezig.
Simpele korte berichtjes heb je wel voordeel aan, maar goed, dat heb je ook binnen enkele minuten getypt.
Combineer dat met een interface die meestal niet spraakgestuurd is en je zit alsnog aan te toetsenbord en muis om dat emailtje te versturen.

Ik zie heel weinig voordelen hier.
Ik heb de update, maar zie nergens een microfoon. Ik meen me zelfs te herinneren dat op google.com eerst wél een microfoontje getoond werd?
http://9292.nl/ heeft dit ook al een tijdje. Dit werkt ook zonder de api :)

[Reactie gewijzigd door maarud op 15 januari 2013 08:48]

Dit maakt de mogelijkheden als ontwikkelaar nog heel wat breder. Ik ben benieuwd hoe die API eruit ziet. Ik ben altijd een grote fan van de documentatie van Google. Helder, duidelijk en 'straight2thepoint'. _/-\o_

Op dit item kan niet meer gereageerd worden.



LG Nexus 5X Apple iPhone 6s FIFA 16 Microsoft Windows 10 Home NL Star Wars: Battlefront (2015) Samsung Gear S2 Skylake Samsung Galaxy S6 edge+

© 1998 - 2015 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True