Oculus Rift en Gear VR krijgen ondersteuning voor stemcommando's

Vr-headsets Oculus Rift en de Samsung Gear VR krijgen spraakherkenning. Gebruikers kunnen met deze functie binnen Oculus Home door hun applicaties heen navigeren. In de toekomst krijgen de headsets nog meer functionaliteiten op dit gebied.

Het is waarschijnlijk voor het eerst dat Facebook, via zijn dochterbedrijf Oculus, dergelijke technologie implementeert in zijn producten terwijl het Amerikaanse bedrijf iets meer dan twee jaar geleden al spraakherkenningspecialist Wit.ai overnam. Hoewel op het moment alleen simpele navigatie- en zoekopdrachten in Oculus Home opgegeven kunnen worden, zou dit in de toekomst ook uitgebreid kunnen worden om in spellen te werken.

Gebruikers kunnen een commando opgeven door 'hey Oculus' te zeggen. De woorden zullen opgepikt worden door de ingebouwde microfoon van de Rift en de compatibele Samsung-telefoons. In beeld verschijnt ook een lijst met mogelijke commando's ter ondersteuning. Het 'luisteren' van de headset kan geannuleerd worden door 'cancel that' te zeggen. Ook kan de mogelijkheid tot stemcommando's ook volledig worden uitgeschakeld. Vooralsnog gaat het om een bèta-functionaliteit die alleen in het Engels werkt.

Wat niet ondenkelijk is, is dat deze functie uitgebouwd wordt tot een digitale assistent van Facebook, net zoals bijvoorbeeld Apple, Google en Amazon die nu bieden. Facebook opende namelijk zelf tegen eind 2013 het Facebook AI Research Lab, of FAIR.

Facebook-dochter Oculus maakt onder andere ook bekend dat het nu mogelijk is om met de Gear VR direct live te streamen naar Facebook. Of deze functie ook naar de Rift gaat komen, is niet duidelijk.

Beeld: Venturebeat

Reacties (18)

Reynouts 11 maart 2017 20:19

Het heeft een tijdje geduurd, maar dit is dus het moment dat Facebook naar buiten komt met een "eigen" speech recognition technologie. Ze zullen dit inderdaad voort willen zetten om een eigen virtuele assistent te maken.

De technologie achter de ASR van Wit.ai, zit goed in elkaar. Het één op één Engelse spraak vertalen naar tekst werkt goed. Achter wit.ai zitten natuurlijk ook een aantal indrukwekkende namen (Alex Lebrun van Nuance, and Willy Blandin, een machine learning en natural language processing expert).

Het VR platform leent zich naar mijn mening ook erg goed voor voice control, het maakt de omgeving nog meer "immersive", als het goed ingezet kan worden. Op een natuurlijke manier communiceren in VR is belangrijk om VR ook te laten slagen bij de consumenten. Een keyboard en knoppen gebruiken in deze wereld, doet enorm af aan de gehele ervaring en moet tot een minimum beperkt worden. Dit is een andere invalshoek dan het uit te rollen op de smartphone.

Het begrijpen omzetten van gesproken Engelse taal naar tekst gaat de software dus goed af, het uitvoeren van commando's hierbij is nog redelijk beperkt. Het verloopt ook allemaal via eigen servers, internet connectie is vereist. Het wordt interessant om in de gaten te houden hoe deze ontwikkelingen van Facebook vorderen en of ze de lat hoger kunnen leggen dan de huidige competitie (Siri, Cortana, Google, Alexa, ..)

[Reactie gewijzigd door Reynouts op 22 juli 2024 18:07]

OddesE @Reynouts • 11 maart 2017 21:26

Het begrijpen van Engelse taal gaat de software dus goed af

Ah, dus sterke AI is eindelijk een feit?

(dit is een vermomde i'm not buying it)

Ik geloof er geen sikkepit van. Ik heb met alle chat bots gekletst waar ik maar bij in de buurt kon komen en je hebt ze allemaal meteen door. Meestal al binnen een paar zinnen. Het wordt al snel duidelijk dat de gesprekspartner nogal aan geheugenverlies lijdt of zo...

Let ook op het woord 'begrijpen' dat je gebruikt. Was het maar waar! Zal eerder zijn 'verstaan', mits je voorspelbare dingen zegt, maar zelfs dat werkt niet echt goed in mijn ervaring. Wederom, als hij maar kan voorspellen wat je gaat zeggen (omdat je één uit drie opties moet kiezen of zo) dan werkt het vaak redelijk... ga je dicteren of iets van die aard waarbij vrijwel alle mogelijkheden open liggen dan houdt het meestal al snel op.

Zet voor de gein bij YouTube eens de automatische ondertiteling aan; dan zie je weer hoe 'goed'

die spraak herkenning werkt.

Reynouts @OddesE • 11 maart 2017 22:38

Zeer verkeerde in mijn reactie woordkeuze wat betreft 'begrijpen'. Het ging me daar puur om het omzetten van spraak naar een interne representatie (tekst bijvoorbeeld).

Verder kan huidige ASR wel beter werken dan jij hier schetst. State-of-the-art modellen, eventueel gespecialiseerd op jouw stem/accent en akoestische eigenschappen van de ruimte door een trainingsessie, kan goed werken. Een generiek model werkt wel een stuk minder.

En het is natuurlijk niet waar dat wanneer een computer jouw spraak begrijpt (nee dat kan inderdaad nu niet), dat Strong AI een feit is.. Dat gaat nog een flink aantal stappen verder.

OddesE @Reynouts • 11 maart 2017 22:42

Het ging me daar puur om het omzetten van spraak naar een interne representatie (tekst bijvoorbeeld).

Check. Dat werkt inderdaad redelijk. Wel moet de context bekend zijn (bijvoorbeeld kiezen van opties uit lijsten e.d.). Helemaal free form werkt zelfs dicteren niet echt denderend, getuige de belachelijk slechte automatische ondertiteling die o.a. op YouTube beschikbaar is.

Reynouts @OddesE • 11 maart 2017 23:26

Daar heb je gelijk in. En dat terwijl de technologie die achter het captioningsysteem zit van YouTube erg state-of-the-art is op dit moment.

In ASR zijn veel parameters die het een moeilijk probleem maken in de setting waar YouTube het in deployed.

Het vocabulaire wat gebruikt kan worden in de filmpjes op YouTube is erg groot en onvoorspelbaar. Het herkennen van een simpele "ja" of "nee" of inderdaad een voorgedefinieerde lijst van opties is vele malen makkelijker en werkt dan ook een stuk betrouwbaarder. Dit is ook de manier waarop je het in dit stadium zal gebruiken in VR.

Als tweede is er veel variatie wat betreft de sprekers sprekers; spreektempo, accent, hoe vloeiend, etc. erg groot op YouTube en is het spontaneous of in elk geval continuous speech signal. Daarnaast kunnen er meerdere sprekers in een filmpje voorkomen, wat het nog ingewikkelder maakt.

Ook niet al het materiaal is netjes opgenomen en er kan ruis in de opname zitten, wat het bemoeilijkt.

Door het bovengenoemde is YouTube ook één van de moeilijkste problemen om op te lossen met ASR door de grote variatie. Het tunen van een model op jouw stem en omgeving zal ervoor zorgen dat het een stuk beter werkt. Ik denk dat het met de huidige techniek goed inzetbaar is voor VR, gecombineerd met een beperkt vocabulaire (hetgeen wat jij in je reactie al noemt), dit kan heus wel groter zijn dan 10 woorden, maar > 50.000 woorden wordt al een stuk lastiger.

Voor de technologie achter het captioning systeem van YouTube, kan je dit paper lezen over het gebruik van een groot vocabulaire (100.000 entries). En dit is een wat ouder paper over de onderliggende architectuur van het model.

Soldaatje 11 maart 2017 13:00

Ik zie het al voor me: eerst zat iedereen in de trein een krant te lezen, nu zit iedereen op zijn telefoon te kijken, straks zit iedereen tegen zijn vr-bril te praten.

sjettepetJR. @Soldaatje • 11 maart 2017 13:05

Als je er last van hebt moet je gewoon één keer heel hard 'TURN OFF!' roepen. De hint zal vast wel duidelijk zijn.

ard1998 @sjettepetJR. • 11 maart 2017 13:28

Ik kies liever voor "sudo shutdown -h now" Dan weet je zeker dat het niet in de slaapstand gaat

dj__jg @ard1998 • 11 maart 2017 15:30

Tenzij er een windows systeem aan hangt, misschien hoort ie dan 'shutdown slash (ipv dash) h' en gaat hij in Hibernate.

MrMonkE @dj__jg • 12 maart 2017 03:10

Dit is gewoon puur nerd-goud

SinergyX @Soldaatje • 11 maart 2017 13:52

Hoe verschillend is dat met mensen die nu met zo'n oording praten?

Verwijderd 11 maart 2017 14:31

Heb er net toevallig gebruik van gemaakt op de gearvr.

Het is nu al beschikbaar alleen in de beta-vorm en werk verassend goed

CSB 11 maart 2017 18:16

Zit dit ook niet al in de PSVR? De PS4 kan in ieder geval met voicecommands overweg, en de PSVR heeft een ingebouwde microfoon, dus in theorie zou het moeten werken. Heeft iemand dit al getest?

watercoolertje @CSB • 11 maart 2017 19:20

Is dat niet een mooie vraag voor het topic wat daar over gaat?

The Reeferman 12 maart 2017 04:47

Weer een microfoon voor de CIA om mee af te luisteren

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (18)

Sorteer op:

Weergave: