Google test machine learning aan de hand van lokale smartphonegegevens

Google test machine learning door gebruik te maken van lokale gegevens op de smartphones van gebruikers. Daarbij gaat het om gegevens over suggesties van het Google-toetsenbord Gboard. Dit moet gebeuren zonder dat de gegevens van individuele gebruikers inzichtelijk zijn.

Volgens Google is het met de methode, die het 'federated learning' noemt, niet nodig om gebruikersgegevens op een centrale server op te slaan om er analyses op uit te voeren. In plaats daarvan vindt het 'leren' op het toestel zelf plaats en worden de gegevens alleen lokaal gebruikt. De telefoon maakt daarvoor gebruik van een 'miniatuurversie van TensorFlow'. Zodat er geen prestatieverlies voor de gebruiker optreedt, claimt Google dat het leren alleen plaatsvindt als de telefoon aan de lader hangt, een wifi-verbinding heeft en niet wordt gebruikt.

Federated learning werkt doordat de smartphone een centraal prediction model downloadt en dit 'verbetert' aan de hand van lokale gegevens. De verbeteringen worden vervolgens in de vorm van wijzigingen als update teruggestuurd naar de server via een versleutelde verbinding. Daar wordt de update samengevoegd met de gegevens van andere gebruikers, waardoor het gedeelde model wordt verbeterd. Om ervoor te zorgen dat individuele data niet in te zien is, kan de server de geaggregeerde updates alleen ontsleutelen als er 'honderden of duizenden' gebruikers een update hebben verzonden.

De test met de methode vindt momenteel plaats aan de hand van Gboard. Als het toetsenbord een suggestie voor een zoekopdracht toont, wordt naast de context bijgehouden of de gebruiker van de suggestie gebruikmaakte. Die gegevens worden gebruikt om de volgende suggestie te verbeteren. In de toekomst moet de techniek gebruikt worden om taalmodellen te verbeteren en foto's te tonen op basis van gebruikershandelingen.

De techniek doet denken aan 'differential privacy', dat Apple voor het eerst toepaste in iOS 10. Daarbij maakt het bedrijf eveneens gebruik van gegevens om gebruikersgroepen te analyseren zonder te veel over individuen te weten te komen. Google verwijst in zijn eigen onderzoek over Secure Aggregation, zoals het de methode van het samenvoegen van gebruikersgegevens noemt, dan ook naar differential privacy.

A: aanpassen van het model op basis van lokale gegevens, B: aggregatie om een 'consensus change' op te stellen, C: deze wordt doorgestuurd naar het model

Door Sander van Voorst

Nieuwsredacteur

07-04-2017 • 20:57

30 Linkedin

Reacties (30)

30
30
19
2
1
1
Wijzig sortering
Beetje een vreemde titel. Google test geen machine learning.. ze gebruiken een andere methode om gebruikersdata te gebruiken om het predictiemodel van het toetsenbord te verbeteren, waarvan het resultaat gedeeld wordt met andere gebruikers. De nieuwigheid zit hem in dat de data direct op je telefoon verwerkt wordt in het model.

Als je je telefoon aan je lader hebt hangen en wifi staat aan, dan wordt het meest recente model gedownload naar je telefoon. Lokaal op je telefoon wordt jouw nieuwe data verwerkt en wordt het model geupdate en teruggestuurd. Jouw ruwe data blijft dus op jouw telefoon staan en is niet in handen van google, alleen de update van het model.

Dit is een hele goede stap voor de privacy van de gebruiker. Neem bijvoorbeeld Alexa, daar wordt je ruwe data direct gedeeld met Amazon. Je geeft dus alles weg en Amazon kan er van alles mee doen, je moet maar hopen dat ze er verder niets mee doen. Dit heet "online learning" en wordt veel toegepast bij dit soort services.

Het niet meer delen van de ruwe data is natuurlijk mooi, maar wat als Google een perfect predictiemodel (die ze wel hebben) kan maken aan de hand van jouw data (die ze niet hebben)? Ze hebben dan toch een goede voorspelling wat iemand doet en kunnen eigenlijk jouw data recreëren. Dus privacy lijkt me nog niet helemaal afgedekt op deze manier, maar we komen dichterbij door deze stappen.

De uitdaging van "Federated Learning" zit hem in het updaten van het model met een klein beetje data (normaal is dit veel meer data op één hoop, maar nu van maar één gebruiker) en dit uiteindelijk van alle gebruikers samenvoegen. Er komt veel bij kijken om dit werkbaar te maken, bij online learning heb je op een gegeven moment een bulk aan data en start je met trainen op de server. Nu heb je allerlei kleine stukjes data verspreid over miljoenen telefoons, die niet allemaal aan het trainen zijn. Ze moeten individueel dus een nuttige bijdrage kunnen geven aan het model, met relatief weinig trainingdata. Het nieuwe algoritme wat ze hiervoor bedacht hebben is beschreven in dit paper.

De oplossing is erg innovatief en ik denk dat dit een stap is die veel andere bedrijven zullen moeten volgen, aangezien privacy van data een actueel onderwerp is. Technisch gezien kan nog wat gewonnen worden in vergelijking met het klassieke "online learning" qua resultaat, maar het begin is er.

Dit idee wordt nu toegepast op Gboard, maar kan op veel meer services toegepast worden, waar op dit moment online learning voor gebruikt wordt.

[Reactie gewijzigd door Reynouts op 7 april 2017 23:23]

[....]Dit is een hele goede stap voor de privacy van de gebruiker. Neem bijvoorbeeld Alexa, daar wordt je ruwe data direct gedeeld met Amazon. Je geeft dus alles weg en Amazon kan er van alles mee doen, je moet maar hopen dat ze er verder niets mee doen. Dit heet "online learning" en wordt veel toegepast bij dit soort services. [...]
Nee, online learning is dat een model sequentieel met nieuwe data gevoerd word geüpdatet, in tegenstelling tot bij elke stukje nieuwe data een compleet nieuw model genereren op alle oude data + nieuwe data. Dat Amazon al je gegevens krijgt wil niet zeggen dat ze een online learning model gebruiken (al is het wel waarschijnlijk). Het kan best zo zijn dat ze die data laten rondhangen en elke maand opnieuw een nieuw model maken.

Ik hoop overigens dat dit nog steeds een opt-out is. Want als google het initiële model en de aangepaste variant heeft kunnen ze er nog steeds een boel data uit trekken over jouw specifieke voorkeuren. Het is dan niet meer zo accuraat als dat ze het direct opvragen, maar afhankelijk van waar ze het model op trainen kan het nog best privacy-gevoelig zijn.
Daar heb je helemaal gelijk in. Dit zou je in dat opzicht ook online (distributed) learning kunnen noemen, want alleen de nieuwe data wordt gebruikt om het model aan te passen en uiteindelijk worden de verschillende updates samengevoegd tot een nieuw shared model.

Wat privacy betreft staan ze met deze aanpassing wel voor op bijvoorbeeld SwiftKey. Dat soort toetsenborden zijn volgens mij ook opt-out, maar hebben je ruwe data wel in handen als je meedoet. Gboard heeft tot nu toe ook een opt-out functie.
Is dit opt-out of opt-in?
Gegevens doorsturen voor verbetering was altijd al opt-out. Je kunt het uitschakelen bij de instellingen van GBoard, onder geavanceerd.
dus normaal alles wat je typt gaat naar google servers om te analyseren.
nu doet je telefoon dat wanneer je gaat laden?
en die data is voor text voorspelling en andere dingen?
Nee het gaat over
gegevens over suggesties van het Google-toetsenbord Gboard
...
Als het toetsenbord een suggestie voor een zoekopdracht toont, wordt naast de context bijgehouden of de gebruiker van de suggestie gebruikmaakte
Ze houden dus bij wat er aan suggesties gegeven word, en of je daar iets van kiest.
(wat heel logisch is, want daarmee krijg je dan bijvoorbeeld eerder suggesties van woorden die je vaker gebruikt)
Check eens een even de voorwaarden van alle Android toetsenbord-apps en je weet direct dat je gegevens daadwerkelijk gebruikt mogen worden voor analyses.

In dit geval heb ik meer vertrouwen in Gboard dan de "externe" Apps.
Nu word je data direct gebruikt op je telefoon om het zogenaamde "predictiemodel" up te daten. Dit zorgt ervoor dat voorspellingen van het Gboard beter.
Jouw ruwe data wordt dus niet meer verzonden naar Google om dat model een update te geven, maar dat gebeurt lokaal op je telefoon als hij aan de lader ligt en via wifi verbonden is. Vervolgens gaat jouw nieuwe model wel terug naar Google en wordt dat gedeeld met andere gebruikers (dat gebeurt "normaal" ook).
En op deze manier mag je mijn gegevens dus wel gebruiken.
Doei Google toetsenbord :)
Lol... lees eens de voorwaarden van SwiftKey en andere apps.

Geen een is beter dan de Google toetsenbord
Kwestie van AFWall+ (of andere firewall) de internettoegang van je keyboard app te blokkeren.
Han Honso's Multiling O keyboard heeft standaard al geen internettoegang. Suggesties worden lokaal uitgevoerd. Dat doen Swiftkey et.al. trouwens ook.
Niks nieuws onder de zon.
Door deze vernieuwing word je privacy juist béter beschermd, dat is juist de reden van Google om dit te onderzoeken en door te voeren.
Google en privacy hahahahahaha |:(
Maar o wee als Microsoft, een bedrijf waarvan de core business niet bestaat uit het verkopen van advertenties op basis van profilering, dergelijke gegevens verstuurt voor het verbeteren van hun product, dan is ineens de wereld te klein.
Ja met google ligt je privacy standaard op straat, maar dat lijken de google fans allemaal prima te vinden.
Boeiend, Google zet een stap in de richting van AI waarbij je persoonlijke data beter beschermd wordt dan ooit en vervolgens verzandt de discussie dat Google toch vooral je privacy wil schenden. Echt Google is totaal niet geinteresseerd in onze persoonsgegevens als zodanig. Ze willen maximaal geld verdienen aan ons individueel (advertenties, producten, muziek, films etc.), als daarvoor de privacy moet worden beschermd dan doet Google dat graag. Daarom is deze ontwikkeling logisch. Dit soort algoritmes en hun opvolgers zijn wat mij betreft de toekomst. Het grootste risico is allang niet meer de privacy maar meer het monopolie op almachtige en alom aanwezige AI diensten door een te klein aantal partijen.
Alleen als de telefoon op de lader ligt en WiFi heeft... Leuk dus dan laadt ie slomer... Ook leuk gratis energie voor Google z'n berekeningen...
ze kunnen het ook niet op je telefoon doen maar dan moeten ze precies weten wat je doet en dat wordt dan op een centrale server bij google opgeslagen. Ik heb liever dat de berekeningen lokaal worden gedaan en het resultaat daarvan wordt vergeleken met andere resultaten om zo analyses te doen daarmee blijven mijn gegevens op mijn telefoon.
Ze kunnen het ook gewoon niet doen.
Ja want dat ze willen verdienen aan android is natuurlijk te gek voor woorden ;)
Je betaalt google met je privacy.
Weinig anders dan bij Apple of Microsoft hoor, die gebruiken je persoonlijke data ook, en uiteindelijk heb je bij alle 3 nog steeds zelf de touwtjes in handen, jij bepaald wat je aan privé data het internet op slingert, is altijd zo geweest en zal altijd zo blijven.

Hele generaties 'betalen' Facebook met hun privacy, maar dat Google iets vergelijkbaars doet (een stuk minder diepgaand als je geen google plus gebruik) is dan opeens verkeerd.
Daar zijn licentie kosten voor uitgevonden.

Edit:
-1 blijkbaar moeten we het maar voor lief nemen dat bedrijven meekijken met iedere toetsaanslag 8)7

[Reactie gewijzigd door Caayn op 8 april 2017 11:51]

Ja maar die licentie kosten vragen ze dan ook (bewust) niet van fabrikanten, dat is waarom Android zo'n grote speler is geworden (hier in NL gaat t nog vrij gelijk op momenteel, maar wereldwijd is android al meer dan 75% van de markt) ze zijn ook altijd duidelijk geweest over dat ze het geld gingen verdienen aan de data, zoals google altijd al doet.

En die -1 is inderdaad een beetje overdreven score voor je terechte reactie

[Reactie gewijzigd door 434365 op 8 april 2017 18:57]

En dan zeuren mensen over Windows 10 privacy -_-
In feite komt die op het volgende neer: Google geeft je wat privacy terug in ruil voor de rekenkracht van je smartphone.

Een slimme strategische zet lijkt me, een enorm potentieel aan rekenkracht terwijl je niet hoeft te betalen voor de hardware en energie.
Uberhaupt belachelijk dat ze op afstand in je telefoon kunnen.

Op dit item kan niet meer gereageerd worden.

Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee