Als Google over nieuwe maatregelen begint die de privacy van gebruikers beter zouden beschermen, dan mag je best sceptisch zijn. Privacy tegenover wie, is de eerste vraag die je dan moet stellen. Dat is precies de discussie die speelt rondom een nieuw initiatief van de internetgigant, Privacy Sandbox. Privacyvoorvechters, consumentenorganisaties en reguleerders buitelden de afgelopen weken en maanden over elkaar heen om hun kritiek daarover kenbaar te maken. Maar waar gaat die kritiek nou precies over?

Privacy Sandbox is een initiatief van Google dat inmiddels alweer uit 2019 stamt. Het bedrijf experimenteert er al een tijd mee, maar inmiddels begint het op stoom te komen. Daarin speelt één term een hoofdrol: FLoC. Om de kritiek op FLoC en Privacy Sandbox te bekijken moeten we eerst even terug naar wat die begrippen ook alweer betekenen. In de privacydiscussie gaat het namelijk vooral over FLoC, maar dat is slechts een klein deel van een veel groter plaatje.

FLoC

FLoC staat voor Federated Learning of Cohorts. Het is een onderdeel van een breed programma dat Privacy Sandbox heet. We beschreven eerder al in dit artikel wat Privacy Sandbox doet, hoe het technisch werkt en hoe FLoC daar binnen past. Een korte beschrijving is dat Privacy Sandbox bestaat uit een brede reeks api's die verschillende technologieën moeten gaan vervangen waar nu trackingcookies voor worden gebruikt.

Adverteerders gebruiken trackingcookies voor uiteenlopende redenen. Er is een verschil tussen cookies die worden gebruikt om metrics zoals sitebezoek te meten en cookies die gebruikers volgen over verschillende websites om een interesseprofiel op te stellen. Privacy Sandbox bestaat uit meerdere api's waarvan de een dat eerste vervangt; FLoC is een van de api's die precies dat laatste moet doen. Zoals de naam al een beetje voorspelt deelt Federated Learning of Cohorts gebruikers in 'cohorten' in. Zo'n cohort is gebaseerd op het surfgedrag van gebruikers. Ga je bijvoorbeeld iedere dag tien keer naar Tweakers en bekijk je vaak Linus op YouTube, dan is de kans groot dat je samen met andere techliefhebbers wordt ingedeeld in een cohort van 'mensen die van technologie houden'. Een adverteerder als Samsung kan dan zeggen dat het een nieuwe Galaxy-ad alleen wil tonen aan personen in dat cohort.

Theorie

In theorie is dat een privacyvriendelijke methode voor adverteerders om potentiële klanten te benaderen. Die worden dan namelijk niet meer individueel gevolgd met een trackingcookie, maar de adverteerder richt zich alleen op grote groepen vol naamloze gebruikers. Google heeft bovendien een paar belangrijke waarborgen ingebouwd om de methode nog privacyvriendelijker te maken. Zo word je als gebruiker lokaal op je systeem ingedeeld in een cohort op basis van een algoritme dat al zijn werk client-side doet en het identificatienummer wordt versleuteld naar Google gestuurd.

In theorie zou FLoC ervoor moeten zorgen dat je niet meer getracked kunt worden door cookies Het gevolg daarvan moet zijn dat gebruikers niet meer worden getrackt door cookies van onbekende partijen. Je blijft pseudoniem, als een nummer in een grote groep gebruikers, en als je Google gelooft zelfs onbekend voor dat bedrijf zelf.

In theorie dan.

Kritiek

Desondanks is er sinds de introductie al veel kritiek gekomen op FLoC. Die komt uit meerdere hoeken, vaak voorspelbare. Een van de eerste prominente stemmen is de Amerikaanse Electronic Frontier Foundation. Die noemde FLoC begin dit jaar 'een vreselijk idee'. Mozilla doet onderzoek met voorspelbare conclusies en uiteraard is de advertentie-industrie huiverig.

De kritiek komt ook uit eigen kringen. FLoC wordt onderdeel van Chromium en dus Chrome, maar de meeste andere grote op Chromium-gebaseerde browsers blokkeren de technologie al. Dat doet Microsoft met Edge, evenals Brave en Vivaldi. Eerlijk is eerlijk, die browsermakers hebben daar natuurlijk hun eigen belangen bij; Microsoft werkt aan een FLoC-alternatief genaamd Parakeet waarover op dit moment nog weinig bekend is, Brave en Vivaldi zetten zichzelf in de markt als privacyvriendelijke browsers, en Mozilla... Tsja, dat spreekt voor zich. Maar een ding mag duidelijk zijn, de weerstand tegen FLoC neemt toe.

Privacyvriendelijke browsers zoals Vivaldi hebben al aangegeven FLoC te gaan blokkeren.

Inmiddels hebben ook autoriteiten de ogen geopend. In het Verenigd Koninkrijk startte de mededingingswaakhond een onderzoek naar het initiatief. Dat heeft alleen niets te maken met de privacyaspecten van FLoC, maar met de machtspositie die het Google mogelijk geeft.

Machtspositie

Dat laatste is ook een beetje wat de discussie lastig maakt. Verschillende groepen hebben om verschillende redenen kritiek op FLoC. Aan de ene kant is er de discussie rondom mededinging. Daarover durfde Google zich vorige week wel uit te spreken. Het bedrijf deed aan de Britse CMA verschillende toezeggingen rondom FLoC waarmee het vertrouwen weer een klein beetje moest worden teruggewonnen - maar over privacy ging het nauwelijks. Google zegt dat het 'met de CMA in open, constructieve en continue dialoog blijft' en dat het 'zichzelf niet zal voortrekken' als het gaat om het tonen van advertenties. Voorlopig blijft het alleen bij beloftes en blijft het CMA doorgaan met het onderzoek naar de machtspositie die FLoC Google mogelijk oplevert. De toezeggingen van Google tegenover de CMA zijn overigens wel wettelijk bindend.

In het verlengde daarvan ligt het feit dat Google FLoC neerzet als een alternatief voor trackingcookies, zonder daarbij de vraag te stellen of gebruikers dat überhaupt wel willen. Veel tweakers zouden het misschien niet snel zeggen, maar in sommige gevallen vind je het misschien helemaal niet erg om tracking te delen met een website. Dat kan bijvoorbeeld als ze de website vertrouwen en willen ondersteunen zonder er bijvoorbeeld voor te betalen. En van alle miljoenen internetgebruikers zullen er vast wel een paar zijn die wél gewoon relevante advertenties via tracking verkiezen boven niet-gepersonaliseerde ads. Die groep mag dan wel in de minderheid zijn, ze hebben met FLoC in ieder geval geen zeggenschap meer over hun voorkeuren.

Van de privacyregen in de privacydrup

Naast het punt van mogelijk machtsmisbruik vallen critici ook over andere punten. In tegenstelling tot wat Google belooft, vinden ze FLoC helemaal niet privacyvriendelijker. Of, beter gezegd, FLoC neemt niet per se problemen weg, maar vervangt ze met andere potentiële privacyrisico's.

Allereerst is er de manier waarop Google FLoC opdringt. Je mag gerust over opdringen spreken, want de cijfers ondersteunen dat - met de kanttekening dat de technologie nog vroeg in de testfase zit. Sinds kort kunnen gebruikers van Canary-versies van Chrome een toggle oproepen om FLoC in de browser aan of uit te zetten. Tijdens die test staat de toggle voor een groep uit, maar voor een andere groep ook aan. Wat het effect is, bijvoorbeeld wie de toggle omzet, is niet bekend.

Ook websitebeheerders kunnen FLoC blokkeren door een policy aan hun headers toe te voegen. Dat doet bijna niemand. Google biedt de mogelijkheid expliciet aan in de documentatie voor FLoC, maar vooralsnog met weinig succes. Uit een onderzoek van Adalytics blijkt dat vooralsnog slechts 10 van de 100.000 populairste websites op internet dat doen. Daaronder vallen de websites van Brave, en DuckDuckGo, maar ook de krant The Guardian doet dat. Vooralsnog lijkt het blokkeren van FLoC dus niet echt op stoom te komen onder websites, al kun je daarvoor ook verwijzen naar het feit dat het nog om een bèta gaat.

Gevoelige informatie

Nog een probleem is dat van 'gevoelige cohorten'. In de documentatie is Google daar aan de ene kant stellig over: dat blokkeert het. Dat betekent in de praktijk dat bepaalde onderwerpen geen cohorten krijgen, zoals porno of gokken. Als je in Chrome dus pornografische websites bezoekt deelt Google gebruikers die bepaalde kinks of een gokverslaving delen niet in één cohort in. Als gebruikers naar zo'n site gaan dan verandert automatisch hun FLoC-id. Maar, merken sommige critici op, dat is op dit moment niet waterdicht. Ten eerste is niet duidelijk wat er precies 'gevoelig' is en wat niet. Google verwijst daarvoor naar een pagina met informatie over advertentiecategorieën, maar geeft op een pagina over FLoC ook meteen toe dat het 'niet kan voorkomen dat gevoelige informatie gelekt kan worden'. "Sommige mensen zijn wel of juist niet gevoelig voor bepaalde categorieën", zegt het bedrijf, dat toevoegt dat 'er geen breed erkende definitie van gevoelige categorieën' is.

Google neemt 'gevoelige websites' niet meer in cohorten, maar erkent dat dat niet waterdicht is Browsermaker Brave heeft moeite met het feit dat Google een arbiter wordt op dit moment. "Fundamenteel is het idee om een globale lijst van 'gevoelige categorieën' op te stellen onlogisch en immoreel", schrijft het bedrijf. Brave verwijst bijvoorbeeld naar zoekopdrachten over zwangerschappen. Voor een volwassene is dat misschien heel normaal, maar voor een tiener misschien helemaal niet. "In het algemeen kunnen interesses voor de ene persoon heel banaal zijn, maar gevoelig, privé of zelfs gevaarlijk voor de ander", stelt Brave.

Daar komt bij dat Google bepaalde technische problemen rondom die gevoelige onderwerpen nog niet heeft opgelost. Zo merkt privacyactivist Don Marti op dat er nog geen goede oplossing is voor wanneer gebruikers van een gevoelig cohort naar een niet-gevoelig cohort gaan en andersom.

Fingerprinting

Maar het grootste probleem van FLoC lijkt vooral te zijn dat het tracking helemaal niet volledig wegneemt. Sterker nog, FLoC zou tracking juist makkelijker kunnen maken. Dat kan via de id's die aan gebruikers worden toegekend. Cohorten krijgen een uniek identificatienummer en gebruikers kunnen in hun Chrome-instellingen zien wat dat nummer is, en dus in welk cohort ze zitten.

Het is niet bekend hoeveel gebruikers er in een cohort komen te zitten. Dat is een nauwe balans. Een te groot cohort is te algemeen, en voor adverteerders niet gericht genoeg. Maar als een cohort te klein is wordt het wel erg makkelijk om individuele gebruikers te achterhalen. Daar zit een risico. Google spreekt alleen algemeen over 'enkele duizenden', en zegt dat er minimaal 2000 gebruikers in een cohort komen te zitten, maar naar alle waarschijnlijkheid wordt er tijdens de bèta geëxperimenteerd met de groepsgrootte. Je wil immers de effectiviteit kunnen optimaliseren.

Evenmin is bekend hoeveel cohorten er zijn. Aanvankelijk werd SimHash gebruikt om gebruikers onder te verdelen in cohorten, maar sinds Chrome 89 is Google overgestapt op een eigen technologie dat het PrefixLSH noemt. Dat 'lijkt op SimHash-variant SortingLSH' en zorgde er in de eerste test voor dat er 33.872 mogelijke cohorten zijn waar gebruikers in kunnen zitten. Daarvan zouden er 792 zijn weggefilterd omdat het om die eerdergenoemde gevoelige categorieën ging. Maar, wederom, het is vooralsnog allemaal experimenteel.

Zo deelt Google in Privacy Sandbox gebruikers op in verschillende cohorten

Fingerprinting

Die cijfers kunnen ondersteunen waar critici voor waarschuwen, namelijk dat het mogelijk wordt om de pseudonimisering van gebruikers door FLoC terug te voeren naar individuele gebruikers. Het is een van de grootste kritiekpunten van de EFF: FLoC maakt fingerprinting mogelijk.

Fingerprinting betekent dat een softwarebouwer zoveel datapunten van een gebruiker verzamelt dat je zeker weet dat je maar één persoon voor je hebt. Als je iemands specifieke schermmaat hebt, zijn user agent, browser en browserversie en nog wat meer van die info, dan kun je uit grote groepen al snel specifieke gebruikers destilleren - en die vervolgens bestoken met toepasselijke reclames. Bij een cohort met 2000 gebruikers zou je niet veel informatie nodig moeten hebben om een individuele gebruiker op die manier te vinden.

De EFF, maar ook Brave en Vivaldi en andere critici waarschuwen dat sommige adverteerders FLoC-cohorten kunnen misbruiken om via fingerprinting individuele gebruikers te volgen. "In een FLoC-cohort hoeft een browser alleen onderscheid te maken tussen enkele duizenden anderen, in plaats van een paar honderd miljoen anderen", schreef Bennet Cyphers van de privacybeweging toen.

Dat is geen ongegronde angst, bleek eerder deze maand. Toen werd duidelijk dat verschillende grote advertentiebedrijven FLoC-id's verzamelden om die vervolgens te combineren met andere data zoals IP-adressen, bezochte URL's en timestamps. "Het idee dat FLoC-id's een additionele dimensie zijn voor hoe je achter identiteiten komt, is zeker correct", zei een van hen tegen Digiday.

Er zijn andere manieren naast fingerprinting om individuele gebruikers uit een cohort te achterhalen. Gebruikers die bijvoorbeeld meerdere bezoeken aan een website doen zijn te achterhalen. Ook laat Google in Privacy Sandbox sommige cookies toch toe onder bepaalde voorwaarden, bijvoorbeeld om single sign-ons aan te bieden. Ook die informatie kan worden misbruikt voor individuele tracking.

Tegenmethodes

Nu is ook dat probleem met fingerprinting weer niet zo zwart-wit als je misschien zou denken. Google heeft daar namelijk al lang over nagedacht, en de oplossing ligt niet verrassend ook in Privacy Sandbox. Dat moet namelijk meerdere api's krijgen die juist fingerprinting blokkeren. Zo is er de api User Agent Client Hints die useragent-strings blokkeert. Nog interessanter is Privacy Budget, waarbij adverteerders een beperkte hoeveelheid gebruikersinformatie kunnen verzamelen maar daarna alleen nog nietszeggende data krijgen als dat budget 'op is'.

Browsers als Tor proberen fingerprinting al langer tegen te gaan.

Het probleem is alleen dat User Agent Client Hints, Privacy Budget en de andere methodes nog lang niet klaar zijn. Sterker nog, de tekst van de voorstellen is vaak al maanden of jaren niet bijgewerkt. FLoC is op dit moment nog een van de enige api's uit Privacy Sandbox die actief getest wordt, maar tegenmaatregelen tegen bijkomende problemen zijn nog heel ver weg.

Tot slot

FLoC zelf mag dan wel getest worden, het initiatief staat nog in de kinderschoenen. Al vanaf de eerste dag dat het werd aangekondigd, is er kritiek op. Deels is dat terecht, deels ook ingegeven door angst voor een sterkere positie voor Google op de advertentiemarkt. FLoC doet iets dat in theorie goed zou moeten zijn voor alle internetgebruikers, namelijk het verbieden van vervelende trackingcookies. Een deel van de advertentie-industrie gaat daarin mee, want ook die sector beseft dat gebruikers die tracking meer dan zat zijn en dat er behoefte is aan een privacyvriendelijk alternatief. Maar je kunt je afvragen of FLoC problemen echt oplost, of er niet vooral nieuwe voor in de plaats brengt. De adverteerders die FLoC nu al misbruiken laten zien dat die industrie in ieder geval nog een lange weg te gaan heeft.

Foto: Michael Carroll / EyeEm / Getty Images