De lange geschiedenis van gebarenbesturing

Inleiding

Als je maar lang genoeg wacht, gaat de geschiedenis zich vanzelf herhalen, maar gebarenbesturing bij elektronica hebben we wel erg vaak zien verschijnen en verdwijnen. Het nieuwste hoofdstuk in het grote boek van 'gesture control' schrijft Sony dit jaar met zijn tv's.

Dat zit zo: voor tv's die Sony op elektronicabeurs CES presenteerde en die later dit jaar zullen uitkomen, kunnen gebruikers een losse webcam aanschaffen. Die is natuurlijk voor videobellen en Sony gebruikt het voor meer functies, zoals het aanpassen van het geluid op de plek waar iemand zit ten opzichte van de tv. Ook kan de tv zichzelf uitschakelen als er niemand meer zichtbaar is.

Maar er is ook gebarenbesturing. Je kunt het volume aanpassen, het beeld pauzeren en bij live tv kijken van kanaal wisselen door met je hand naar de tv te zwaaien. Het is voor het eerst dat Sony dit op tv's doet, maar we kunnen gebarenbesturing niet betitelen als een nieuwigheid.

Het is een element dat in sciencefiction vaak is uitgebeeld: het besturen van elektronica zonder daarvoor apparaten of aanraking te hoeven gebruiken. Dat ziet er futuristisch en tof uit, maar dat iets goed werkt in een fictieve wereld, betekent niet dat het in onze echte wereld ook een uitkomst is.

Daarom is het goed om even stil te staan bij de geflopte manieren van gebarenbesturing die we in het verleden al hebben gehad. Die lijst is lang en - spoileralert - mogelijk niet compleet. Het geeft wel een beeld van hoe vaak elektronicamakers al bij veel verschillende apparaten hebben geprobeerd om gebarenbesturing in te bouwen.

Afbeelding bovenaan: Getty Images

Sony tv gebarenbesturing 2022 — Gebarenbesturing bij Sony-tv 2022

Een geschiedenis vol gimmicks

"De gebruiker wijst op een plek op het grote scherm. Een kleine, witte x-cursor op het scherm geeft visuele feedback voor het wijzen. De gebruiker zegt: 'maak hier een blauw vierkant'. Een blauw vierkant verschijnt op de plek waar de gebruiker wijst."

Dit is de beschrijving van een set-up bij de Architecture Machine Group op de Amerikaanse universiteit MIT. Die set-up vond plaats in de Media Room, een kamer met een groot scherm, en geldt als het eerste experiment van besturing van een computer met gebaren. Richard A. Bolt van de Architecture Machine Group beschreef dat in een paper.

Doe eens een gooi naar wanneer deze set-up er stond? Intussen is nog te melden dat dit dus een combinatie van input via gebaren en spraak was. Die zou volgens de onderzoekers kunnen dienen als alternatieve manier van input tegenover een toetsenbord en muis.

Als je nagaat dat de grafische interface voor computers zoals we die nog steeds gebruiken, is uitgevonden rond 1968 en de muis in de jaren zeventig van de vorige eeuw is ontwikkeld, is het wonderlijk dat de eerste stappen voor gebarenbesturing al zo snel daarna kwamen. Dit experiment komt namelijk uit 1980.

Gebarenbesturing bestaat in meerdere vormen, maar in dit artikel richten we ons op de gebarenbesturing zonder extra apparaat in de hand: dus wel de Kinect en niet de Wii. Daarbij lukt het vermoedelijk niet om een totaaloverzicht te geven, maar met de voorbeelden krijg je een aardig inkijkje in hoe gebarenbesturing in de elektronicamarkt is gebruikt.

Het is natuurlijk essentieel voor gebarenbesturing dat een apparaat gebaren kan detecteren. Daarvoor zijn diverse manieren. De eerste die veel mensen wellicht nog op het netvlies staat, is de EyeToy voor de PlayStation 2.

EyeToy is een simpel systeem en werkt met een vrij reguliere webcam met een maximale vga-resolutie van 640x460 pixels die via de USB-poort op de console wordt aangesloten en beeldherkenning heeft om de gebaren waar te nemen. Daarbij neemt de software de beweging waar rond het midden van het scherm. Dat het nog vrij basaal is, blijkt al uit het introductiefilmpje. Je moet zelf de focus aanpassen en zorgen voor goed licht. EyeToy was redelijk succesvol en Sony heeft er meer dan tien miljoen exemplaren van versleten.

Zorgen voor goed licht was enkele jaren later niet meer nodig bij de Kinect van Microsoft, bedoeld voor de Xbox 360. Die heeft namelijk twee camera's aan boord: een reguliere rgb-camera en een infraroodcamera. Die lost niet alleen het probleem met belichting op, maar werkt ook als dieptemeting. Daardoor kan die naast bewegingen van links naar rechts ook bewegingen van voren naar achteren waarnemen.

De Kinect maakte een vliegende start in 2010 en Microsoft verkocht er meer dan 35 miljoen van, maar net als de EyeToy bleek het geen blijvend succes. Het aantal games dat goed gebruikmaakte van de techniek bleef achter en de interesse zakte snel in nadat de nieuwigheid eraf was.

Maar Microsoft maakt meer dan alleen gameconsoles en dus kwam er Kinect for Windows in 2014. Heb jij nu een Kinect boven je monitor staan of in je laptop zitten? Waarschijnlijk niet. Kinect for Windows ging in 2015 uit productie, de Xbox-versie stopte in 2017. Camera's die diepte kunnen waarnemen zitten nog steeds op Microsoft Surface-apparaten, maar die zijn alleen voor Windows Hello-authenticatie. We zitten niet massaal onze pc's te bedienen met gebaren. Ook de HoloLens maakt gebruik van de technologie die Microsoft ontwikkelde voor Kinect.

Microsoft was niet eens de enige die bezig was met gebarenbesturing voor Windows. Het bedrijf Leap Motion bracht in 2013 een apparaatje uit voor bewegingsbesturing. Het bedrijf ging zich al snel richten op vr-brillen. Het bestaat nog steeds, heet Ultraleap en je kunt de Leap Motion nog steeds te pakken krijgen voor 90 dollar. Het is onbekend hoe succesvol het is, maar er zijn niet veel toepassingen die het op desktop of laptop ondersteunen.

Leap Motion werkt met twee camera's die nabij-infraroodlicht opvangen op 850nm met een resolutie van 640x240 pixels. De camera's zitten vier centimeter van elkaar en werken op een afstand van maximaal tachtig centimeter om beweging waar te nemen.

Sowieso was de tijd rond 2012 een gouden tijd voor bewegingsbesturing, want je kon toen ook bepaalde Samsung-tv's met je handen bedienen, zonder afstandsbediening. Dat werkte net als de EyeToy met een webcam, maar deze keer zat die ingebouwd in de tv. Die activeerde de interface als gebruikers de hand omhoog hielden richting de camera. Daarna verscheen een overlay om opties te kiezen.

Daar zat gelijk het probleem, aldus onze review van een van de ondersteunde tv's. "Hoewel de herkenning veel soepeler gaat dan vorig jaar, zien we met de komst van de nieuwe touch-remote eigenlijk geen reden om de feature te gebruiken. De ingebouwde webcam vinden we vooralsnog vooral geschikt voor videobellen." Ook onze collega's van Hardware Info bleken destijds weinig enthousiast.

Samsung was niet alleen bezig met gebarenbesturing voor tv's. Zijn Galaxy S-telefoons ondersteunden dat ook een paar generaties lang, beginnend met de Galaxy S4. Die kreeg de functie Air Gestures. Dat werkt met een infraroodsensor die een hand kan detecteren. Zo is het mogelijk om zonder het toestel aan te raken de telefoon op te nemen, door foto's heen te scrollen of te wisselen tussen tabbladen in de browser. Het bleek leuk bedacht, maar had weinig praktisch nut en werkte niet foutloos. Het was daardoor geen lang leven beschoren.

Recente voorbeelden

Je zou denken dat gebarenbesturing zonder controllers ideaal is voor VR-brillen, maar dat blijkt niet zo te zijn. VR-games hebben ook input van knoppen nodig, naast de handtracking die door de VR-brillen ondersteund wordt. Daardoor hebben eigenlijk alle recente VR-headsets, zoals de Oculus Quest-modellen, HTC Vive-brillen en de nieuwe PS VR2, controllers.

Dat is anders bij augmented reality. Daarmee leg je immers beeld over de werkelijkheid heen. De besturing daarvan gebeurt bijvoorbeeld bij de HoloLens 2 met knoppen die de software in de lucht projecteert en die je kan indrukken. Ook is er een irisscanner die kan zorgen dat de software kan interpreteren waar je heen kijkt en bijvoorbeeld kan scrollen op een venster als je naar beneden kijkt.

Het punt is wel dat de HoloLens natuurlijk een zakelijk product is en bovendien al bijna zes jaar op de markt is, zonder dat er zicht is op een release voor consumenten. Sterker nog: de toekomst van de HoloLens is uiterst onzeker, zo bleek onlangs. Microsoft worstelt ermee, annuleerde naar verluidt de HoloLens 3 en gaat mogelijk samenwerken met Samsung om AR-brillen uit te brengen.

Samsung heeft natuurlijk al de nodige ervaring met gebarenbesturing, maar dat geldt ook voor zijn Zuid-Koreaanse concurrent LG. Die wilde zich onderscheiden met vernuftige functies en dat gebeurde in 2019 met gebarenbesturing voor zijn G8 ThinQ-smartphone.

LG gebruikt dan weer geen reguliere camera of zelfs geen reguliere infraroodcamera, maar een ToF-sensor. Die sensor is een variant op een infraroodcamera die diepte inschat door het afschieten en opvangen van laserstralen. Door te meten hoe lang het duurt voor het signaal weer terug is, kan de ToF-camera een beeld opbouwen met diepte.

Die ToF-camera is niet voorbehouden aan de LG-telefoon. Onder meer Apple gebruikt hem in iPhones voor Face ID en Memoji's, en hij heeft in veel Android-telefoons gezeten om portretfoto's te verbeteren. LG is echter de enige die hem op deze manier heeft ingezet.

Het is een patroon: in al deze voorbeelden werkte gebarenbesturing niet echt geweldig en vormde ze vooral geen verbetering op de reguliere manier van besturing van de telefoon. Zelfs de authenticatie door het scannen van de aderen in de handpalm bleek geen succes. Het concept van de 'Z Camera' keerde dan ook niet terug. LG stopte vorig jaar met smartphones maken.

Een andere telefoonmaker die het één generatie lang heeft geprobeerd met gebarenbesturing is Google. De Pixel 4 en 4XL uit 2019 kregen een mini-radarsysteem mee die Google Soli noemde.

Soli is een radar die zijn werk doet rond 60GHz. De radar zendt constant signalen op die hoge frequentie uit en meet hoe lang het duurt voor die signalen terugkomen. Soli gebruikt frequency modulated continuous wave, waarbij de radar wisselt tussen frequenties om afstanden goed te schatten. De andere techniek is Direct-Sequence Spread Spectrum, vermoedelijk voor het nauwkeurig waarnemen van bewegingen.

De toepassingen zijn beperkt gebleven. Zo kun je een wegwuivende beweging over de telefoon maken om een inkomend telefoongesprek tot zwijgen te brengen, een liedje te skippen of je wekker te snoozen. Soli keerde niet meer terug bij de Pixel-telefoons erna: de Pixel 5 en 6 hebben hem niet meer.

Toch heeft Google het niet opgegeven, want Soli keerde terug in enkele andere producten. De tweede generatie Nest Hub heeft Soli aan boord. Ook daarbij zijn de toepassingen beperkt. Wekkers kun je met een horizontale zwaai voor het scherm snoozen en bij het afspelen van muziek en video's kun je pauzeren en herstarten door je hand snel richting het scherm te bewegen met een slaande beweging. Swipen door muziek of videoplaylists kan niet en ook navigeren door de menu's van het apparaat of aanpassen van het volume met handgebaren is niet mogelijk. Er is ook een Nest-thermostaat met Soli, maar die heeft geen gebarenbesturing.

Een andere productcategorie waarbij gebarenbesturing een rol speelt, is de drone. Zo bracht DJI de kleine Spark uit die je kan laten landen door je hand gestrekt te houden. Ook zijn er gebaren om bijvoorbeeld bewegingen te controleren en foto's te maken. Dat gebeurt door beeldherkenning toe te passen op het beeld van de reguliere camera.

Tijdens de review waren we niet bijster onder de indruk van de gebarenbesturing. "Het uit de hand opstijgen en landen is zonder meer praktisch, maar de overige gebaren zijn dat niet echt. Je kunt er de show mee stelen tijdens een feestje of met een demonstratie op vakantie, maar met uitzondering van een snelle selfie zien we er niet veel in. Dat komt ook doordat de communicatie tussen je hand en de Spark niet altijd even betrouwbaar is. Vaak pikt hij een gebaar gewoon niet op, waardoor je het meer dan eens moet herhalen."

Tot slot

Besturing met handgebaren klinkt zo aantrekkelijk en natuurlijk. Misschien dat fabrikanten van elektronica er daarom zo vaak op terugkomen. Sony zei al bij de EyeToy dat je zelf de controller bent en dat idee is onweerstaanbaar: het is alsof je een barrière weghaalt tussen jou en het apparaat dat je probeert te bedienen.

Het is niet voor niets dat dit als concept al bijna net zo lang bestaat als besturing van computers met een muis en grafische interface. Gebarenbesturing is bovendien in veel soorten elektronica geprobeerd, van gamingconsoles tot laptops en van smartphones tot augmented reality.

Veel van die initiatieven zijn binnen een paar jaar alweer losgelaten door de fabrikanten. Van de producten die we hebben gereviewd bleek ook vaak dat het de status van gimmick niet kon ontstijgen. Het werkte vaak niet correct, de functionaliteit bleef veelal beperkt en, het belangrijkste nog, het werkte eigenlijk zelden beter dan het systeem dat het moest vervangen.

Zo blijken mensen het scherm van hun smartphone liever aan te raken dan dat ze er gebaren boven aan het maken zijn en is een tv bedienen met een afstandsbediening in de hand makkelijker dan het met de hand te moeten doen.

Nu gaat Sony het dus ook weer proberen. We hebben de nieuwe Sony-tv's nog niet getest, dus we hebben geen idee of het weer een gimmick is of dat Sony de handen op elkaar krijgt voor zijn nieuwe manier van besturen. Wie de geschiedenis van gebarenbesturing bekijkt, ziet dat we tot nu toe altijd deze futuristische manier van bediening van elektronica na enige tijd gedag konden zwaaien.