Oculus Rift en Gear VR krijgen ondersteuning voor stemcommando's

Vr-headsets Oculus Rift en de Samsung Gear VR krijgen spraakherkenning. Gebruikers kunnen met deze functie binnen Oculus Home door hun applicaties heen navigeren. In de toekomst krijgen de headsets nog meer functionaliteiten op dit gebied.

Het is waarschijnlijk voor het eerst dat Facebook, via zijn dochterbedrijf Oculus, dergelijke technologie implementeert in zijn producten terwijl het Amerikaanse bedrijf iets meer dan twee jaar geleden al spraakherkenningspecialist Wit.ai overnam. Hoewel op het moment alleen simpele navigatie- en zoekopdrachten in Oculus Home opgegeven kunnen worden, zou dit in de toekomst ook uitgebreid kunnen worden om in spellen te werken.

Gebruikers kunnen een commando opgeven door 'hey Oculus' te zeggen. De woorden zullen opgepikt worden door de ingebouwde microfoon van de Rift en de compatibele Samsung-telefoons. In beeld verschijnt ook een lijst met mogelijke commando's ter ondersteuning. Het 'luisteren' van de headset kan geannuleerd worden door 'cancel that' te zeggen. Ook kan de mogelijkheid tot stemcommando's ook volledig worden uitgeschakeld. Vooralsnog gaat het om een bèta-functionaliteit die alleen in het Engels werkt.

Wat niet ondenkelijk is, is dat deze functie uitgebouwd wordt tot een digitale assistent van Facebook, net zoals bijvoorbeeld Apple, Google en Amazon die nu bieden. Facebook opende namelijk zelf tegen eind 2013 het Facebook AI Research Lab, of FAIR.

Facebook-dochter Oculus maakt onder andere ook bekend dat het nu mogelijk is om met de Gear VR direct live te streamen naar Facebook. Of deze functie ook naar de Rift gaat komen, is niet duidelijk.

Door Mark Hendrikman

Redacteur

11-03-2017 • 12:52

18 Linkedin

Reacties (18)

18
15
9
0
0
0
Wijzig sortering
Het heeft een tijdje geduurd, maar dit is dus het moment dat Facebook naar buiten komt met een "eigen" speech recognition technologie. Ze zullen dit inderdaad voort willen zetten om een eigen virtuele assistent te maken.

De technologie achter de ASR van Wit.ai, zit goed in elkaar. Het één op één Engelse spraak vertalen naar tekst werkt goed. Achter wit.ai zitten natuurlijk ook een aantal indrukwekkende namen (Alex Lebrun van Nuance, and Willy Blandin, een machine learning en natural language processing expert).

Het VR platform leent zich naar mijn mening ook erg goed voor voice control, het maakt de omgeving nog meer "immersive", als het goed ingezet kan worden. Op een natuurlijke manier communiceren in VR is belangrijk om VR ook te laten slagen bij de consumenten. Een keyboard en knoppen gebruiken in deze wereld, doet enorm af aan de gehele ervaring en moet tot een minimum beperkt worden. Dit is een andere invalshoek dan het uit te rollen op de smartphone.

Het begrijpen omzetten van gesproken Engelse taal naar tekst gaat de software dus goed af, het uitvoeren van commando's hierbij is nog redelijk beperkt. Het verloopt ook allemaal via eigen servers, internet connectie is vereist. Het wordt interessant om in de gaten te houden hoe deze ontwikkelingen van Facebook vorderen en of ze de lat hoger kunnen leggen dan de huidige competitie (Siri, Cortana, Google, Alexa, ..)

[Reactie gewijzigd door Reynouts op 11 maart 2017 22:25]

Het begrijpen van Engelse taal gaat de software dus goed af
Ah, dus sterke AI is eindelijk een feit?

(dit is een vermomde i'm not buying it)

Ik geloof er geen sikkepit van. Ik heb met alle chat bots gekletst waar ik maar bij in de buurt kon komen en je hebt ze allemaal meteen door. Meestal al binnen een paar zinnen. Het wordt al snel duidelijk dat de gesprekspartner nogal aan geheugenverlies lijdt of zo...

Let ook op het woord 'begrijpen' dat je gebruikt. Was het maar waar! Zal eerder zijn 'verstaan', mits je voorspelbare dingen zegt, maar zelfs dat werkt niet echt goed in mijn ervaring. Wederom, als hij maar kan voorspellen wat je gaat zeggen (omdat je één uit drie opties moet kiezen of zo) dan werkt het vaak redelijk... ga je dicteren of iets van die aard waarbij vrijwel alle mogelijkheden open liggen dan houdt het meestal al snel op.

Zet voor de gein bij YouTube eens de automatische ondertiteling aan; dan zie je weer hoe 'goed' :X die spraak herkenning werkt.
Zeer verkeerde in mijn reactie woordkeuze wat betreft 'begrijpen'. Het ging me daar puur om het omzetten van spraak naar een interne representatie (tekst bijvoorbeeld).

Verder kan huidige ASR wel beter werken dan jij hier schetst. State-of-the-art modellen, eventueel gespecialiseerd op jouw stem/accent en akoestische eigenschappen van de ruimte door een trainingsessie, kan goed werken. Een generiek model werkt wel een stuk minder.

En het is natuurlijk niet waar dat wanneer een computer jouw spraak begrijpt (nee dat kan inderdaad nu niet), dat Strong AI een feit is.. Dat gaat nog een flink aantal stappen verder.
Het ging me daar puur om het omzetten van spraak naar een interne representatie (tekst bijvoorbeeld).
Check. Dat werkt inderdaad redelijk. Wel moet de context bekend zijn (bijvoorbeeld kiezen van opties uit lijsten e.d.). Helemaal free form werkt zelfs dicteren niet echt denderend, getuige de belachelijk slechte automatische ondertiteling die o.a. op YouTube beschikbaar is.
Daar heb je gelijk in. En dat terwijl de technologie die achter het captioningsysteem zit van YouTube erg state-of-the-art is op dit moment.

In ASR zijn veel parameters die het een moeilijk probleem maken in de setting waar YouTube het in deployed.

Het vocabulaire wat gebruikt kan worden in de filmpjes op YouTube is erg groot en onvoorspelbaar. Het herkennen van een simpele "ja" of "nee" of inderdaad een voorgedefinieerde lijst van opties is vele malen makkelijker en werkt dan ook een stuk betrouwbaarder. Dit is ook de manier waarop je het in dit stadium zal gebruiken in VR.

Als tweede is er veel variatie wat betreft de sprekers sprekers; spreektempo, accent, hoe vloeiend, etc. erg groot op YouTube en is het spontaneous of in elk geval continuous speech signal. Daarnaast kunnen er meerdere sprekers in een filmpje voorkomen, wat het nog ingewikkelder maakt.

Ook niet al het materiaal is netjes opgenomen en er kan ruis in de opname zitten, wat het bemoeilijkt.

Door het bovengenoemde is YouTube ook één van de moeilijkste problemen om op te lossen met ASR door de grote variatie. Het tunen van een model op jouw stem en omgeving zal ervoor zorgen dat het een stuk beter werkt. Ik denk dat het met de huidige techniek goed inzetbaar is voor VR, gecombineerd met een beperkt vocabulaire (hetgeen wat jij in je reactie al noemt), dit kan heus wel groter zijn dan 10 woorden, maar > 50.000 woorden wordt al een stuk lastiger.

Voor de technologie achter het captioning systeem van YouTube, kan je dit paper lezen over het gebruik van een groot vocabulaire (100.000 entries). En dit is een wat ouder paper over de onderliggende architectuur van het model.
Ik zie het al voor me: eerst zat iedereen in de trein een krant te lezen, nu zit iedereen op zijn telefoon te kijken, straks zit iedereen tegen zijn vr-bril te praten. :o
Als je er last van hebt moet je gewoon één keer heel hard 'TURN OFF!' roepen. De hint zal vast wel duidelijk zijn.
Ik kies liever voor "sudo shutdown -h now" Dan weet je zeker dat het niet in de slaapstand gaat :)
Tenzij er een windows systeem aan hangt, misschien hoort ie dan 'shutdown slash (ipv dash) h' en gaat hij in Hibernate.
Dit is gewoon puur nerd-goud :)
+1
Hoe verschillend is dat met mensen die nu met zo'n oording praten?
Heb er net toevallig gebruik van gemaakt op de gearvr.

Het is nu al beschikbaar alleen in de beta-vorm en werk verassend goed
Zit dit ook niet al in de PSVR? De PS4 kan in ieder geval met voicecommands overweg, en de PSVR heeft een ingebouwde microfoon, dus in theorie zou het moeten werken. Heeft iemand dit al getest?
Is dat niet een mooie vraag voor het topic wat daar over gaat?
Weer een microfoon voor de CIA om mee af te luisteren :X

Op dit item kan niet meer gereageerd worden.

Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee