Google test machine learning aan de hand van lokale smartphonegegevens

Google test machine learning door gebruik te maken van lokale gegevens op de smartphones van gebruikers. Daarbij gaat het om gegevens over suggesties van het Google-toetsenbord Gboard. Dit moet gebeuren zonder dat de gegevens van individuele gebruikers inzichtelijk zijn.

Volgens Google is het met de methode, die het 'federated learning' noemt, niet nodig om gebruikersgegevens op een centrale server op te slaan om er analyses op uit te voeren. In plaats daarvan vindt het 'leren' op het toestel zelf plaats en worden de gegevens alleen lokaal gebruikt. De telefoon maakt daarvoor gebruik van een 'miniatuurversie van TensorFlow'. Zodat er geen prestatieverlies voor de gebruiker optreedt, claimt Google dat het leren alleen plaatsvindt als de telefoon aan de lader hangt, een wifi-verbinding heeft en niet wordt gebruikt.

Federated learning werkt doordat de smartphone een centraal prediction model downloadt en dit 'verbetert' aan de hand van lokale gegevens. De verbeteringen worden vervolgens in de vorm van wijzigingen als update teruggestuurd naar de server via een versleutelde verbinding. Daar wordt de update samengevoegd met de gegevens van andere gebruikers, waardoor het gedeelde model wordt verbeterd. Om ervoor te zorgen dat individuele data niet in te zien is, kan de server de geaggregeerde updates alleen ontsleutelen als er 'honderden of duizenden' gebruikers een update hebben verzonden.

De test met de methode vindt momenteel plaats aan de hand van Gboard. Als het toetsenbord een suggestie voor een zoekopdracht toont, wordt naast de context bijgehouden of de gebruiker van de suggestie gebruikmaakte. Die gegevens worden gebruikt om de volgende suggestie te verbeteren. In de toekomst moet de techniek gebruikt worden om taalmodellen te verbeteren en foto's te tonen op basis van gebruikershandelingen.

De techniek doet denken aan 'differential privacy', dat Apple voor het eerst toepaste in iOS 10. Daarbij maakt het bedrijf eveneens gebruik van gegevens om gebruikersgroepen te analyseren zonder te veel over individuen te weten te komen. Google verwijst in zijn eigen onderzoek over Secure Aggregation, zoals het de methode van het samenvoegen van gebruikersgegevens noemt, dan ook naar differential privacy.

federated learning google A: aanpassen van het model op basis van lokale gegevens, B: aggregatie om een 'consensus change' op te stellen, C: deze wordt doorgestuurd naar het model

IT-banen

Reacties (30)

Reynouts 7 april 2017 23:09

Beetje een vreemde titel. Google test geen machine learning.. ze gebruiken een andere methode om gebruikersdata te gebruiken om het predictiemodel van het toetsenbord te verbeteren, waarvan het resultaat gedeeld wordt met andere gebruikers. De nieuwigheid zit hem in dat de data direct op je telefoon verwerkt wordt in het model.

Als je je telefoon aan je lader hebt hangen en wifi staat aan, dan wordt het meest recente model gedownload naar je telefoon. Lokaal op je telefoon wordt jouw nieuwe data verwerkt en wordt het model geupdate en teruggestuurd. Jouw ruwe data blijft dus op jouw telefoon staan en is niet in handen van google, alleen de update van het model.

Dit is een hele goede stap voor de privacy van de gebruiker. Neem bijvoorbeeld Alexa, daar wordt je ruwe data direct gedeeld met Amazon. Je geeft dus alles weg en Amazon kan er van alles mee doen, je moet maar hopen dat ze er verder niets mee doen. Dit heet "online learning" en wordt veel toegepast bij dit soort services.

Het niet meer delen van de ruwe data is natuurlijk mooi, maar wat als Google een perfect predictiemodel (die ze wel hebben) kan maken aan de hand van jouw data (die ze niet hebben)? Ze hebben dan toch een goede voorspelling wat iemand doet en kunnen eigenlijk jouw data recreëren. Dus privacy lijkt me nog niet helemaal afgedekt op deze manier, maar we komen dichterbij door deze stappen.

De uitdaging van "Federated Learning" zit hem in het updaten van het model met een klein beetje data (normaal is dit veel meer data op één hoop, maar nu van maar één gebruiker) en dit uiteindelijk van alle gebruikers samenvoegen. Er komt veel bij kijken om dit werkbaar te maken, bij online learning heb je op een gegeven moment een bulk aan data en start je met trainen op de server. Nu heb je allerlei kleine stukjes data verspreid over miljoenen telefoons, die niet allemaal aan het trainen zijn. Ze moeten individueel dus een nuttige bijdrage kunnen geven aan het model, met relatief weinig trainingdata. Het nieuwe algoritme wat ze hiervoor bedacht hebben is beschreven in dit paper.

De oplossing is erg innovatief en ik denk dat dit een stap is die veel andere bedrijven zullen moeten volgen, aangezien privacy van data een actueel onderwerp is. Technisch gezien kan nog wat gewonnen worden in vergelijking met het klassieke "online learning" qua resultaat, maar het begin is er.

Dit idee wordt nu toegepast op Gboard, maar kan op veel meer services toegepast worden, waar op dit moment online learning voor gebruikt wordt.

[Reactie gewijzigd door Reynouts op 23 juli 2024 19:42]

Caelorum @Reynouts • 8 april 2017 08:00

[....]Dit is een hele goede stap voor de privacy van de gebruiker. Neem bijvoorbeeld Alexa, daar wordt je ruwe data direct gedeeld met Amazon. Je geeft dus alles weg en Amazon kan er van alles mee doen, je moet maar hopen dat ze er verder niets mee doen. Dit heet "online learning" en wordt veel toegepast bij dit soort services. [...]

Nee, online learning is dat een model sequentieel met nieuwe data gevoerd word geüpdatet, in tegenstelling tot bij elke stukje nieuwe data een compleet nieuw model genereren op alle oude data + nieuwe data. Dat Amazon al je gegevens krijgt wil niet zeggen dat ze een online learning model gebruiken (al is het wel waarschijnlijk). Het kan best zo zijn dat ze die data laten rondhangen en elke maand opnieuw een nieuw model maken.

Ik hoop overigens dat dit nog steeds een opt-out is. Want als google het initiële model en de aangepaste variant heeft kunnen ze er nog steeds een boel data uit trekken over jouw specifieke voorkeuren. Het is dan niet meer zo accuraat als dat ze het direct opvragen, maar afhankelijk van waar ze het model op trainen kan het nog best privacy-gevoelig zijn.

Reynouts @Caelorum • 8 april 2017 09:54

Daar heb je helemaal gelijk in. Dit zou je in dat opzicht ook online (distributed) learning kunnen noemen, want alleen de nieuwe data wordt gebruikt om het model aan te passen en uiteindelijk worden de verschillende updates samengevoegd tot een nieuw shared model.

Wat privacy betreft staan ze met deze aanpassing wel voor op bijvoorbeeld SwiftKey. Dat soort toetsenborden zijn volgens mij ook opt-out, maar hebben je ruwe data wel in handen als je meedoet. Gboard heeft tot nu toe ook een opt-out functie.

Caayn 7 april 2017 22:52

Is dit opt-out of opt-in?

hcQd @Caayn • 8 april 2017 00:19

Gegevens doorsturen voor verbetering was altijd al opt-out. Je kunt het uitschakelen bij de instellingen van GBoard, onder geavanceerd.

raro007 7 april 2017 21:12

dus normaal alles wat je typt gaat naar google servers om te analyseren.
nu doet je telefoon dat wanneer je gaat laden?
en die data is voor text voorspelling en andere dingen?

Verwijderd @raro007 • 7 april 2017 22:22

Nee het gaat over

gegevens over suggesties van het Google-toetsenbord Gboard
...
Als het toetsenbord een suggestie voor een zoekopdracht toont, wordt naast de context bijgehouden of de gebruiker van de suggestie gebruikmaakte

Ze houden dus bij wat er aan suggesties gegeven word, en of je daar iets van kiest.
(wat heel logisch is, want daarmee krijg je dan bijvoorbeeld eerder suggesties van woorden die je vaker gebruikt)

Kiswum @raro007 • 7 april 2017 22:43

Check eens een even de voorwaarden van alle Android toetsenbord-apps en je weet direct dat je gegevens daadwerkelijk gebruikt mogen worden voor analyses.

In dit geval heb ik meer vertrouwen in Gboard dan de "externe" Apps.

Reynouts @raro007 • 7 april 2017 23:27

Nu word je data direct gebruikt op je telefoon om het zogenaamde "predictiemodel" up te daten. Dit zorgt ervoor dat voorspellingen van het Gboard beter.
Jouw ruwe data wordt dus niet meer verzonden naar Google om dat model een update te geven, maar dat gebeurt lokaal op je telefoon als hij aan de lader ligt en via wifi verbonden is. Vervolgens gaat jouw nieuwe model wel terug naar Google en wordt dat gedeeld met andere gebruikers (dat gebeurt "normaal" ook).

kuurtjes 7 april 2017 21:27

En op deze manier mag je mijn gegevens dus wel gebruiken.

Game_overrr @kuurtjes • 7 april 2017 21:27

Doei Google toetsenbord

Verwijderd @Game_overrr • 7 april 2017 22:11

Lol... lees eens de voorwaarden van SwiftKey en andere apps.

Geen een is beter dan de Google toetsenbord

MrFax @Verwijderd • 7 april 2017 23:38

AOSP keyboard

skatebiker @Verwijderd • 10 april 2017 12:51

Kwestie van AFWall+ (of andere firewall) de internettoegang van je keyboard app te blokkeren.
Han Honso's Multiling O keyboard heeft standaard al geen internettoegang. Suggesties worden lokaal uitgevoerd. Dat doen Swiftkey et.al. trouwens ook.
Niks nieuws onder de zon.

Reynouts @Game_overrr • 7 april 2017 23:28

Door deze vernieuwing word je privacy juist béter beschermd, dat is juist de reden van Google om dit te onderzoeken en door te voeren.

drakiesoft @Reynouts • 8 april 2017 08:16

Google en privacy hahahahahaha

Vexxon 8 april 2017 07:06

Maar o wee als Microsoft, een bedrijf waarvan de core business niet bestaat uit het verkopen van advertenties op basis van profilering, dergelijke gegevens verstuurt voor het verbeteren van hun product, dan is ineens de wereld te klein.

drakiesoft @Vexxon • 8 april 2017 08:23

Ja met google ligt je privacy standaard op straat, maar dat lijken de google fans allemaal prima te vinden.

ErikJonker 8 april 2017 11:02

Boeiend, Google zet een stap in de richting van AI waarbij je persoonlijke data beter beschermd wordt dan ooit en vervolgens verzandt de discussie dat Google toch vooral je privacy wil schenden. Echt Google is totaal niet geinteresseerd in onze persoonsgegevens als zodanig. Ze willen maximaal geld verdienen aan ons individueel (advertenties, producten, muziek, films etc.), als daarvoor de privacy moet worden beschermd dan doet Google dat graag. Daarom is deze ontwikkeling logisch. Dit soort algoritmes en hun opvolgers zijn wat mij betreft de toekomst. Het grootste risico is allang niet meer de privacy maar meer het monopolie op almachtige en alom aanwezige AI diensten door een te klein aantal partijen.

ManIkWeet 7 april 2017 21:01

Alleen als de telefoon op de lader ligt en WiFi heeft... Leuk dus dan laadt ie slomer... Ook leuk gratis energie voor Google z'n berekeningen...

k0enf0rNL @ManIkWeet • 7 april 2017 21:07

ze kunnen het ook niet op je telefoon doen maar dan moeten ze precies weten wat je doet en dat wordt dan op een centrale server bij google opgeslagen. Ik heb liever dat de berekeningen lokaal worden gedaan en het resultaat daarvan wordt vergeleken met andere resultaten om zo analyses te doen daarmee blijven mijn gegevens op mijn telefoon.

s_schimmel @k0enf0rNL • 7 april 2017 22:08

Ze kunnen het ook gewoon niet doen.

Verwijderd @s_schimmel • 7 april 2017 22:18

Ja want dat ze willen verdienen aan android is natuurlijk te gek voor woorden

drakiesoft @Verwijderd • 8 april 2017 08:15

Je betaalt google met je privacy.

Verwijderd @drakiesoft • 8 april 2017 18:52

Weinig anders dan bij Apple of Microsoft hoor, die gebruiken je persoonlijke data ook, en uiteindelijk heb je bij alle 3 nog steeds zelf de touwtjes in handen, jij bepaald wat je aan privé data het internet op slingert, is altijd zo geweest en zal altijd zo blijven.

Hele generaties 'betalen' Facebook met hun privacy, maar dat Google iets vergelijkbaars doet (een stuk minder diepgaand als je geen google plus gebruik) is dan opeens verkeerd.

Caayn @Verwijderd • 7 april 2017 22:48

Daar zijn licentie kosten voor uitgevonden.

Edit:
-1 blijkbaar moeten we het maar voor lief nemen dat bedrijven meekijken met iedere toetsaanslag

[Reactie gewijzigd door Caayn op 23 juli 2024 19:42]

Verwijderd @Caayn • 8 april 2017 18:56

Ja maar die licentie kosten vragen ze dan ook (bewust) niet van fabrikanten, dat is waarom Android zo'n grote speler is geworden (hier in NL gaat t nog vrij gelijk op momenteel, maar wereldwijd is android al meer dan 75% van de markt) ze zijn ook altijd duidelijk geweest over dat ze het geld gingen verdienen aan de data, zoals google altijd al doet.

En die -1 is inderdaad een beetje overdreven score voor je terechte reactie

[Reactie gewijzigd door Verwijderd op 23 juli 2024 19:42]

Verwijderd 7 april 2017 21:49

En dan zeuren mensen over Windows 10 privacy -_-

Fossielvrij 8 april 2017 11:43

In feite komt die op het volgende neer: Google geeft je wat privacy terug in ruil voor de rekenkracht van je smartphone.

Een slimme strategische zet lijkt me, een enorm potentieel aan rekenkracht terwijl je niet hoeft te betalen voor de hardware en energie.

Verwijderd 9 april 2017 03:22

Uberhaupt belachelijk dat ze op afstand in je telefoon kunnen.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (30)

Sorteer op:

Weergave: