Door Arnoud Wokke

Redacteur Tweakers

Wegwerpgebaren

De lange geschiedenis van gesture control

10-03-2022 • 06:00

14

Multipage-opmaak

Inleiding

Als je maar lang genoeg wacht, gaat de geschiedenis zich vanzelf herhalen, maar gebarenbesturing bij elektronica hebben we wel erg vaak zien verschijnen en verdwijnen. Het nieuwste hoofdstuk in het grote boek van 'gesture control' schrijft Sony dit jaar met zijn tv's.

Dat zit zo: voor tv's die Sony op elektronicabeurs CES presenteerde en die later dit jaar zullen uitkomen, kunnen gebruikers een losse webcam aanschaffen. Die is natuurlijk voor videobellen en Sony gebruikt het voor meer functies, zoals het aanpassen van het geluid op de plek waar iemand zit ten opzichte van de tv. Ook kan de tv zichzelf uitschakelen als er niemand meer zichtbaar is.

Maar er is ook gebarenbesturing. Je kunt het volume aanpassen, het beeld pauzeren en bij live tv kijken van kanaal wisselen door met je hand naar de tv te zwaaien. Het is voor het eerst dat Sony dit op tv's doet, maar we kunnen gebarenbesturing niet betitelen als een nieuwigheid.

Het is een element dat in sciencefiction vaak is uitgebeeld: het besturen van elektronica zonder daarvoor apparaten of aanraking te hoeven gebruiken. Dat ziet er futuristisch en tof uit, maar dat iets goed werkt in een fictieve wereld, betekent niet dat het in onze echte wereld ook een uitkomst is.

Daarom is het goed om even stil te staan bij de geflopte manieren van gebarenbesturing die we in het verleden al hebben gehad. Die lijst is lang en - spoileralert - mogelijk niet compleet. Het geeft wel een beeld van hoe vaak elektronicamakers al bij veel verschillende apparaten hebben geprobeerd om gebarenbesturing in te bouwen.

Afbeelding bovenaan: Getty Images

Sony tv gebarenbesturing 2022
Gebarenbesturing bij Sony-tv 2022

Een geschiedenis vol gimmicks

"De gebruiker wijst op een plek op het grote scherm. Een kleine, witte x-cursor op het scherm geeft visuele feedback voor het wijzen. De gebruiker zegt: 'maak hier een blauw vierkant'. Een blauw vierkant verschijnt op de plek waar de gebruiker wijst."

Dit is de beschrijving van een set-up bij de Architecture Machine Group op de Amerikaanse universiteit MIT. Die set-up vond plaats in de Media Room, een kamer met een groot scherm, en geldt als het eerste experiment van besturing van een computer met gebaren. Richard A. Bolt van de Architecture Machine Group beschreef dat in een paper.

Doe eens een gooi naar wanneer deze set-up er stond? Intussen is nog te melden dat dit dus een combinatie van input via gebaren en spraak was. Die zou volgens de onderzoekers kunnen dienen als alternatieve manier van input tegenover een toetsenbord en muis.

Als je nagaat dat de grafische interface voor computers zoals we die nog steeds gebruiken, is uitgevonden rond 1968 en de muis in de jaren zeventig van de vorige eeuw is ontwikkeld, is het wonderlijk dat de eerste stappen voor gebarenbesturing al zo snel daarna kwamen. Dit experiment komt namelijk uit 1980.

Gebarenbesturing bestaat in meerdere vormen, maar in dit artikel richten we ons op de gebarenbesturing zonder extra apparaat in de hand: dus wel de Kinect en niet de Wii. Daarbij lukt het vermoedelijk niet om een totaaloverzicht te geven, maar met de voorbeelden krijg je een aardig inkijkje in hoe gebarenbesturing in de elektronicamarkt is gebruikt.

Het is natuurlijk essentieel voor gebarenbesturing dat een apparaat gebaren kan detecteren. Daarvoor zijn diverse manieren. De eerste die veel mensen wellicht nog op het netvlies staat, is de EyeToy voor de PlayStation 2.

EyeToy is een simpel systeem en werkt met een vrij reguliere webcam met een maximale vga-resolutie van 640x460 pixels die via de USB-poort op de console wordt aangesloten en beeldherkenning heeft om de gebaren waar te nemen. Daarbij neemt de software de beweging waar rond het midden van het scherm. Dat het nog vrij basaal is, blijkt al uit het introductiefilmpje. Je moet zelf de focus aanpassen en zorgen voor goed licht. EyeToy was redelijk succesvol en Sony heeft er meer dan tien miljoen exemplaren van versleten.

Zorgen voor goed licht was enkele jaren later niet meer nodig bij de Kinect van Microsoft, bedoeld voor de Xbox 360. Die heeft namelijk twee camera's aan boord: een reguliere rgb-camera en een infraroodcamera. Die lost niet alleen het probleem met belichting op, maar werkt ook als dieptemeting. Daardoor kan die naast bewegingen van links naar rechts ook bewegingen van voren naar achteren waarnemen.

De Kinect maakte een vliegende start in 2010 en Microsoft verkocht er meer dan 35 miljoen van, maar net als de EyeToy bleek het geen blijvend succes. Het aantal games dat goed gebruikmaakte van de techniek bleef achter en de interesse zakte snel in nadat de nieuwigheid eraf was.

Maar Microsoft maakt meer dan alleen gameconsoles en dus kwam er Kinect for Windows in 2014. Heb jij nu een Kinect boven je monitor staan of in je laptop zitten? Waarschijnlijk niet. Kinect for Windows ging in 2015 uit productie, de Xbox-versie stopte in 2017. Camera's die diepte kunnen waarnemen zitten nog steeds op Microsoft Surface-apparaten, maar die zijn alleen voor Windows Hello-authenticatie. We zitten niet massaal onze pc's te bedienen met gebaren. Ook de HoloLens maakt gebruik van de technologie die Microsoft ontwikkelde voor Kinect.

Leap Motion, 2013
Leap Motion, 2013

Microsoft was niet eens de enige die bezig was met gebarenbesturing voor Windows. Het bedrijf Leap Motion bracht in 2013 een apparaatje uit voor bewegingsbesturing. Het bedrijf ging zich al snel richten op vr-brillen. Het bestaat nog steeds, heet Ultraleap en je kunt de Leap Motion nog steeds te pakken krijgen voor 90 dollar. Het is onbekend hoe succesvol het is, maar er zijn niet veel toepassingen die het op desktop of laptop ondersteunen.

Leap Motion werkt met twee camera's die nabij-infraroodlicht opvangen op 850nm met een resolutie van 640x240 pixels. De camera's zitten vier centimeter van elkaar en werken op een afstand van maximaal tachtig centimeter om beweging waar te nemen.

Sowieso was de tijd rond 2012 een gouden tijd voor bewegingsbesturing, want je kon toen ook bepaalde Samsung-tv's met je handen bedienen, zonder afstandsbediening. Dat werkte net als de EyeToy met een webcam, maar deze keer zat die ingebouwd in de tv. Die activeerde de interface als gebruikers de hand omhoog hielden richting de camera. Daarna verscheen een overlay om opties te kiezen.

Daar zat gelijk het probleem, aldus onze review van een van de ondersteunde tv's. "Hoewel de herkenning veel soepeler gaat dan vorig jaar, zien we met de komst van de nieuwe touch-remote eigenlijk geen reden om de feature te gebruiken. De ingebouwde webcam vinden we vooralsnog vooral geschikt voor videobellen." Ook onze collega's van Hardware Info bleken destijds weinig enthousiast.

Samsung was niet alleen bezig met gebarenbesturing voor tv's. Zijn Galaxy S-telefoons ondersteunden dat ook een paar generaties lang, beginnend met de Galaxy S4. Die kreeg de functie Air Gestures. Dat werkt met een infraroodsensor die een hand kan detecteren. Zo is het mogelijk om zonder het toestel aan te raken de telefoon op te nemen, door foto's heen te scrollen of te wisselen tussen tabbladen in de browser. Het bleek leuk bedacht, maar had weinig praktisch nut en werkte niet foutloos. Het was daardoor geen lang leven beschoren.

Recente voorbeelden

Je zou denken dat gebarenbesturing zonder controllers ideaal is voor VR-brillen, maar dat blijkt niet zo te zijn. VR-games hebben ook input van knoppen nodig, naast de handtracking die door de VR-brillen ondersteund wordt. Daardoor hebben eigenlijk alle recente VR-headsets, zoals de Oculus Quest-modellen, HTC Vive-brillen en de nieuwe PS VR2, controllers.

Dat is anders bij augmented reality. Daarmee leg je immers beeld over de werkelijkheid heen. De besturing daarvan gebeurt bijvoorbeeld bij de HoloLens 2 met knoppen die de software in de lucht projecteert en die je kan indrukken. Ook is er een irisscanner die kan zorgen dat de software kan interpreteren waar je heen kijkt en bijvoorbeeld kan scrollen op een venster als je naar beneden kijkt.

Het punt is wel dat de HoloLens natuurlijk een zakelijk product is en bovendien al bijna zes jaar op de markt is, zonder dat er zicht is op een release voor consumenten. Sterker nog: de toekomst van de HoloLens is uiterst onzeker, zo bleek onlangs. Microsoft worstelt ermee, annuleerde naar verluidt de HoloLens 3 en gaat mogelijk samenwerken met Samsung om AR-brillen uit te brengen.

Samsung heeft natuurlijk al de nodige ervaring met gebarenbesturing, maar dat geldt ook voor zijn Zuid-Koreaanse concurrent LG. Die wilde zich onderscheiden met vernuftige functies en dat gebeurde in 2019 met gebarenbesturing voor zijn G8 ThinQ-smartphone.

LG gebruikt dan weer geen reguliere camera of zelfs geen reguliere infraroodcamera, maar een ToF-sensor. Die sensor is een variant op een infraroodcamera die diepte inschat door het afschieten en opvangen van laserstralen. Door te meten hoe lang het duurt voor het signaal weer terug is, kan de ToF-camera een beeld opbouwen met diepte.

Die ToF-camera is niet voorbehouden aan de LG-telefoon. Onder meer Apple gebruikt hem in iPhones voor Face ID en Memoji's, en hij heeft in veel Android-telefoons gezeten om portretfoto's te verbeteren. LG is echter de enige die hem op deze manier heeft ingezet.

Het is een patroon: in al deze voorbeelden werkte gebarenbesturing niet echt geweldig en vormde ze vooral geen verbetering op de reguliere manier van besturing van de telefoon. Zelfs de authenticatie door het scannen van de aderen in de handpalm bleek geen succes. Het concept van de 'Z Camera' keerde dan ook niet terug. LG stopte vorig jaar met smartphones maken.

Een andere telefoonmaker die het één generatie lang heeft geprobeerd met gebarenbesturing is Google. De Pixel 4 en 4XL uit 2019 kregen een mini-radarsysteem mee die Google Soli noemde.

Soli is een radar die zijn werk doet rond 60GHz. De radar zendt constant signalen op die hoge frequentie uit en meet hoe lang het duurt voor die signalen terugkomen. Soli gebruikt frequency modulated continuous wave, waarbij de radar wisselt tussen frequenties om afstanden goed te schatten. De andere techniek is Direct-Sequence Spread Spectrum, vermoedelijk voor het nauwkeurig waarnemen van bewegingen.

De toepassingen zijn beperkt gebleven. Zo kun je een wegwuivende beweging over de telefoon maken om een inkomend telefoongesprek tot zwijgen te brengen, een liedje te skippen of je wekker te snoozen. Soli keerde niet meer terug bij de Pixel-telefoons erna: de Pixel 5 en 6 hebben hem niet meer.

Toch heeft Google het niet opgegeven, want Soli keerde terug in enkele andere producten. De tweede generatie Nest Hub heeft Soli aan boord. Ook daarbij zijn de toepassingen beperkt. Wekkers kun je met een horizontale zwaai voor het scherm snoozen en bij het afspelen van muziek en video's kun je pauzeren en herstarten door je hand snel richting het scherm te bewegen met een slaande beweging. Swipen door muziek of videoplaylists kan niet en ook navigeren door de menu's van het apparaat of aanpassen van het volume met handgebaren is niet mogelijk. Er is ook een Nest-thermostaat met Soli, maar die heeft geen gebarenbesturing.

Een andere productcategorie waarbij gebarenbesturing een rol speelt, is de drone. Zo bracht DJI de kleine Spark uit die je kan laten landen door je hand gestrekt te houden. Ook zijn er gebaren om bijvoorbeeld bewegingen te controleren en foto's te maken. Dat gebeurt door beeldherkenning toe te passen op het beeld van de reguliere camera.

Tijdens de review waren we niet bijster onder de indruk van de gebarenbesturing. "Het uit de hand opstijgen en landen is zonder meer praktisch, maar de overige gebaren zijn dat niet echt. Je kunt er de show mee stelen tijdens een feestje of met een demonstratie op vakantie, maar met uitzondering van een snelle selfie zien we er niet veel in. Dat komt ook doordat de communicatie tussen je hand en de Spark niet altijd even betrouwbaar is. Vaak pikt hij een gebaar gewoon niet op, waardoor je het meer dan eens moet herhalen."

Tot slot

Besturing met handgebaren klinkt zo aantrekkelijk en natuurlijk. Misschien dat fabrikanten van elektronica er daarom zo vaak op terugkomen. Sony zei al bij de EyeToy dat je zelf de controller bent en dat idee is onweerstaanbaar: het is alsof je een barrière weghaalt tussen jou en het apparaat dat je probeert te bedienen.

Het is niet voor niets dat dit als concept al bijna net zo lang bestaat als besturing van computers met een muis en grafische interface. Gebarenbesturing is bovendien in veel soorten elektronica geprobeerd, van gamingconsoles tot laptops en van smartphones tot augmented reality.

Veel van die initiatieven zijn binnen een paar jaar alweer losgelaten door de fabrikanten. Van de producten die we hebben gereviewd bleek ook vaak dat het de status van gimmick niet kon ontstijgen. Het werkte vaak niet correct, de functionaliteit bleef veelal beperkt en, het belangrijkste nog, het werkte eigenlijk zelden beter dan het systeem dat het moest vervangen.

Zo blijken mensen het scherm van hun smartphone liever aan te raken dan dat ze er gebaren boven aan het maken zijn en is een tv bedienen met een afstandsbediening in de hand makkelijker dan het met de hand te moeten doen.

Nu gaat Sony het dus ook weer proberen. We hebben de nieuwe Sony-tv's nog niet getest, dus we hebben geen idee of het weer een gimmick is of dat Sony de handen op elkaar krijgt voor zijn nieuwe manier van besturen. Wie de geschiedenis van gebarenbesturing bekijkt, ziet dat we tot nu toe altijd deze futuristische manier van bediening van elektronica na enige tijd gedag konden zwaaien.

Reacties (14)

Sorteer op:

Weergave:

Ik vind gebaren op touchscreens al vreselijk. Op Android kun je bijvoorbeeld de drie knoppen onder in je scherm vervangen door gebaren. "Terug" is dan een swipe van rechts naar links. Maar een swipe van rechts naar links is exact ook wat je doet als je bijvoorbeeld door foto's heen zoekt. Het zit elkaar dus constant in de weg.

Wat ik ook vreselijk mis is de visuele cue van wat de bedoeling is. Je moet gebaren uit je hoofd leren. De apparaten laten je ook heel hulpvaardig de gebaren oefenen. Weet je wat je niet hoeft te oefenen? Gewoon knoppen. Je ziet iets, en je reageert er op. Heel interactief en intuïtief. Dit is overigens ook een bezwaar bij spraakassistenten. Ze claimen intuïtief te zijn maar ondertussen moet je de precieze commando's bij elkaar zoeken op internet om te weten wat er allemaal kan en hoe je dingen precies moet uitspreken. Ik kan bijvoorbeeld zeggen "Ok google, start met stofzuigen" en mijn Roomba gaat stofzuigen. Uitstekend! "Ok google, start met stofzuigen van de woonkamer", daar snapt hij niks van. Terwijl woonkamer een gelabelde zone is. Wat moet ik wel zeggen? Geen flauw idee. Hoe kom ik er achter wat ik moet zeggen? Mijn telefoon pakken (van waaruit ik heel simpel de woonkamer kan laten stofzuigen overigens) om te googlen welk commando exact nodig is.

En dat is het dus ook met gebaren. Door de aanraking er uit te halen neemt de precisie er van af. Misschien heb je het correcte gebaar wel goed gegokt maar niet duidelijk genoeg gemaakt? Of bedoelde je geen gebaar te maken maar gokte je apparaat van wel?

Kortom voor mij voegt het echt niks toe.
grappig, ik gebruik juist alleen nog maar swipe gestures op mijn pixel foon. Werk behoorlijk goed, ook tijdens foto's ed. Er zijn verschillende snelheden van swipen voor verschillende functies. T is even wennen maar behoorlijk intuitief. Veel beter dan software knoppen imo
idd je beschrijft een paar problemen met gebaren besturing:
  • welke gebaren doen wat (war dus ook met spraak nog een probleem is)
  • bij twijfel / overlap tussen gebaren / niet herkening raken aangever en apparaat elkaar 'kwijt'
  • en als dit allemaal wordt opgelost (dus je weet het juiste gebaar en het systeem kan het goed vaststellen); hoe geef je met een gebaar aan dat je het inderdaad bedoeld als besturing en niet dat je toevallig met je hand zwaait.
Al die problemen zijn aanraken van een item op een scherm opgelost:
  • het item is beschikbaar en herkenbaar (meestal leesbare tekst)
  • ernaast drukken heeft geen effect - dus ook geen onbedoeld effect
  • het aanraken is de bevestiging dat je niet enkel een element aanwijst maar ook actie verlangt (net zoals bij een muisklik)
Dus is de toegevoegde waarde dat je fysiek verder verwijderd kan zijn van een apparaat maar daarmee worden er nieuwe problemen geintroduceerd - die we al hadden opgelost met scherm-elementen.

Typisch gevalletje van: nog een lange weg te gaan. Want het aanraken van een scherm-element is nu eenmaal niet altijd toepasbaar. Dus als een oplossing wordt gevonden voor het wegvallen van 'bevestiging' en eenduidigheid, dan kan het wel bruikbaar zijn.
EyeToy heb ik leuke herinneringen aan. Het leidde ook tot een aantal flash games in die tijd die leuk gebruik wisten te maken van de webcam.
Dat deze (en Kinect?) wel redelijk succesvol waren ligt denk ik aan het feit dat doordat je jezelf op het scherm zag en dus directe feedback had op wat de camera van jou zag. Je zou de Snapchatfilters waar je een zonnebril op krijgt en dergelijke ook nog als voortvloeisel daarvan kunnen zien.
Maar voor serieuze toepassingen werkt het toch minder. Als je je hand voor de tv/boven je telefoon aan t zwaaien bent heb je eigenlijk geen idee vanaf welk moment het apparaat je input begint te registreren, en wanneer hij het heeft gezien en je kan stoppen met je beweging. Toch enigszins cruciaal voor t verwerken van input.
Maar het wordt steeds beter, dus wie weet dat het er op een dag van komt. De overstap van een fysiek toetsenbord op de telefoon tot touchscreen zag ik eerst mezelf ook niet doen, en inmiddels ben ik daar toch goed aan gewend, dus wie weet.

[Reactie gewijzigd door Jovatov op 23 juli 2024 10:21]

Ik had tot voor kort een domme Sony TV met een camera, een KDL-NX720-55. De camera had het doel bij te houden of je aan het kijken was en zo nee, het beeld uit te zetten. Ik heb omdat ik het domme smart gedeelte toch niet ging vertrouwen al vrij vroeg de TV volledig dom gemaakt door zowel WIFI als ethernet los te trekken.

Ik veronderstelde dat Sony de ‘ben je nog aan het kijken’ camera weghaalde ivm privacy issues, want sinds de nx720 hadden zover ik weet geen Sony TVs zo’n camera meer.

Mijn huidige 2021 Sony Android TV heeft gelukkig geen camera. Wel een microfoon, zowel in TV als afstandsbediening. Die staan mooi uit zodat Google, hopelijk, niet meeluistert. Blij toe dat er geen camera opzit!

[Reactie gewijzigd door Strebor op 23 juli 2024 10:21]

Je tv met gebaren besturen kan ik nog wel in komen, al is het vast irritant wanneer je even anders gaat zitten en het beeld verspringt plotseling.

Voor een pc zie ik minder nut, maar met een 49" ultrawide monitor zou je wel dezelfde techniek kunnen gebruiken om te detecteren waar de gebruiker kijkt en op basis daarvan het deel van het scherm waar je niet op focust kunnen versmallen. Je zou dan van de 3840 horizontale pixels bijvoorbeeld 5760 virtuele pixels kunnen maken waarbij het deel van het scherm waar je naar kijkt 1920 pixels op normale grote kunnen weergeven terwijl je de andere 3840 virtuele pixels verdeelt over de overige beschikbare 1920 pixels. Je hebt er dan "gratis" een derde scherm bij.
Stel, je hebt op een gegeven moment 2 of 3 apparaten in de kamer staan die op je gebaren letten. Je wilt zappen en ineens gaat de stofzuigrobot zijn gang.
Als secundaire besturing zijn gestures wellicht ok, maar te traag als main driver. Ook omdat je dan continu aandacht aan het apparaat moet schenken.
Toevallig vandaag een applicatie oplevering waarbij gebruik wordt gemaakt van de Leap Motion. Dit is bedacht als aanrakingsvrije input ivm corona. Werkt best aardig.
Leap Motion begon met een idee en crowd funding en was voor mij direct de laatste keer om geld uit te geven aan een gadget die nog niet bestaat. Op basis van de - misleidende - promotievideo die Tom Cruise in Minority report naar de pc bracht, raakte ik enthousiast over dit 3d alternatief voor de muis, en kocht ik er direct twee. Het gebruik was een total disaster en dat had ik vooraf ook al kunnen bedenken. Want het is contra-intuïtief als je in 3d met je hand iets gaat besturen op een 2d scherm. Daarbij komt het gebrek aan haptische feedback zoals je dit met de muis wel ervaart. Het kostte veel moeite en tijd om de gebaren goed in de pols en vingers te krijgen, maar hoeveel ik ook oefende, het gebruik bleef verkrampt en was doodvermoeiend. Ik heb één leap motion nog ongeschonden in de mooie - dat wel - verpakking in de kast staan als eeuwige waarschuwing voor mijn hebberigheid en domheid.
Voor mijn gevoel heeft het ook een beetje met privacy en overlast te maken. De reden dat ik niet pratend en gesticulerend achter mijn pc zit is niet omdat het niet handig zou kunnen zijn maar omdat ik mijn collega's niet lastig wil vallen met alles wat ik doe.

Soms is het fijn om een hands-free alternatief te hebben, in je eentje in de auto of tijdens het koken of afwassen bijvoorbeeld. Maar eerlijk gezegd werkt het tot nu toe nooit echt heel goed. En Google gaat natuurlijk nooit "Ok Google, skip ads" ondersteunen :)
*Gaat achter collega's PC staan*
[Gebaart]Sluit applicatie zonder saven
LOL
In de tekst staat "Besturing met handgebaren klinkt zo aantrekkelijk en natuurlijk". Hoe komen ze daarbij? Zowat alles wat je in het dagelijks leven gebruikt moet je daadwerkelijk aanraken.

Verderop: "het is alsof je een barrière weghaalt tussen jou en het apparaat dat je probeert te bedienen". Ik heb (die paar keer dat ik ermee gespeeld heb) het gebrek aan feedback juist altijd als extra barrière ervaren. Ik denk niet dat het gebruik van gebaren ooit een serieus bruikbare optie gaat worden.
Het idee van gesture control heeft me altijd enorm aangesproken en ook wel eens mee kunnen spelen in een geleende BMW waarbij je de media in de auto kon bedienen. Mijn ervaring was dat het enorm omslachtig is en ook heel erg afleid van het rijden. Vaak doe je net niet de juiste beweging en moet je m herhalen om het gewenste resultaat te krijgen. Het is leuk dat het kan maar ik blijf bij fysieke knoppen. Die kan je blind vinden. Het is net als typen op een tablet, fijn dat het kan maar prettig is het niet.

Op dit item kan niet meer gereageerd worden.