Er is een vrij grote kans dat jij sinds deze maand slachtoffer bent van een datalek en dat je daar niks van weet. Of misschien weet je wel dat Facebook je data heeft gelekt, maar komt dat omdat je Tweakers of andere nieuwssites leest. Het is in ieder geval niet Facebook zelf dat aan de 533 miljoen slachtoffers vertelt dat hun data is gescrapet en online is verschenen.
De reden dat Facebook niet vertelt over dit datalek is omdat het volgens het bedrijf helemaal niet gaat om een lek, maar om data die toch al publiekelijk beschikbaar was. Daarom hoeven gebruikers én toezichthouders niet te worden ingelicht, redeneert het bedrijf. Dat is natuurlijk alleen niet hoe het werkt.
Facebook is niet het enige bedrijf dat in april op een dergelijke wijze onder vuur kwam te liggen. Drie grote 'datalekken' volgden elkaar in snel tempo op. Het was wel het eerste. Op 4 april bleek dat een dataset met gegevens van 533 miljoen Facebook-gebruikers online stond. Een paar dagen later bleek een soortgelijke dataset van LinkedIn vandaan te komen, en nog eens een paar dagen erna ging het om de gegevens van 1,3 miljoen gebruikers van het recent veelbesproken Clubhouse. Goed, in dat laatste geval ging het om wat minder informatie, maar de respons van Clubhouse was precies hetzelfde als wat Facebook en LinkedIn zeiden: het zou gaan om gescrapete data van profielen die je bij de app kon zien of die via de api kon worden verzameld. Gewoon beschikbaar dus, het stond al online. LinkedIn zei ongeveer hetzelfde. De data kwam van verschillende openbare bronnen, al zegt het bedrijf er wel bij dat het scrapen van gebruikersdata niet is toegestaan.
Volgens Facebook was de data al oud en hoeft het gebruikers niet in te lichten
Natuurlijk is er nog Facebook zelf dat misschien wel de meest opvallende argumenten had om het incident te negeren. De data was immers 'al oud', en inmiddels is de specifieke misbruikte scrapingmethode sinds 2019 niet meer mogelijk, zegt het bedrijf in een reactie. Later ging het bedrijf nog een stap verder door tegen Reuters te verklaren dat het niet van plan was gebruikers te waarschuwen om die redenen, én omdat het niet duidelijk voor ogen had welke gebruikers precies allemaal getroffen waren. Van het bedrijf dat iedere muisklik van gebruikers registreert is dat lastig te geloven, maar wat de kroon spande was het verweer dat 'gebruikers nu eenmaal niks aan het probleem konden doen' omdat de data toch al beschikbaar was.
In Facebooks geval was er aanvankelijk nogal wat verwarring over het lek. Het is niet de eerste keer dat de gegevens van miljoenen gebruikers naar buiten komen, met als kers op die datalektaart het Cambridge Analytica-schandaal waarbij een dubieus databedrijf profielen wist te scrapen via een api. In 2019 ontdekte beveiligingsbedrijf Upguard een dataset online met 540 miljoen gegevens zoals likes, reacties, profielnamen, Facebook-id's en vrienden van gebruikers. Die was uitgelekt via een derde partij. In 2019 schreef TechCrunch over een niet-beveiligde server met daarin de telefoonnummers van 419 miljoen unieke gebruikers. Die waren door een andere partij gescrapet voor Facebook telefoonnummers uitsloot van de api. Zo bezien vallen de 80 miljoen gegevens die door Cambridge Analytica werden verzameld eigenlijk wel mee.
:strip_exif()/i/2004309208.jpeg?f=imagenormal)
Oude en nieuwe datasets
Ook nu nog is niet helemaal duidelijk waar de huidige dataset aan gegevens vandaan komt. Facebook verwijst in zijn blogpost naar een verhaal van Cnet uit september 2019. Dat is hetzelfde verhaal als waar Techcrunch eerder als eerste over schreef. Destijds zei Facebook al dat het om oude data ging, data die al in 2018 was gestolen. Daarbij kon specifiek de api van Instagram worden misbruikt door een bruteforce-aanval in te zetten met alle mogelijke telefoonnummers. In 2018 heeft Facebook daar al maatregelen op genomen. Het bedrijf sloot toen de toegang tot verschillende api's af om precies dit soort scraping tegen te gaan.
Maar dat is niet het hele verhaal. De hacker die de database online vond zegt dat het om een heel andere dataset gaat, namelijk om een kwetsbaarheid die begin 2020 nog ontstond. Bovendien klopt Facebooks verhaal ook niet: in zijn verweer zegt dat de toegang 'tot september 2019', ofwel tot aan de publicaties van Cnet en Techcrunch, beschikbaar was, maar in die publicaties verwijst het weer naar het beperken van de api-toegang in 2018. Het is dus niet helemaal bekend waar de specifieke dataset die nu online is verschenen vandaan komt.
Grote, gratis datasets hebben niet altijd een duidelijke oorsprong. Vaak gaat het om oude gegevens die aanvankelijk te koop werden aangeboden. Na een tijdje zijn ze zo vaak verspreid dat ze vaak gratis worden weggegeven. Andere hackers pakken dan de gegevens van meerdere bronnen bij elkaar en bieden die als geheel aan. Dat zou ook hier een mogelijkheid kunnen zijn, maar dat is dus niet bekend.
Publieke informatie
Het feit dat de data werd gescrapet uit een api is een van de redenen waarmee Facebook betoogt dat het dat niet hoeft te melden. "Scrapen is een veelvoorkomende methode waarbij vaak geautomatiseerde software wordt gebruikt om publieke informatie van internet te halen die dan op online forums kan verschijnen zoals in dit geval", schrijft het bedrijf in zijn blogpost. Publieke informatie. Je naam, je telefoonnummer, je relatiestatus, dat zijn nu eenmaal dingen die je zelf op je Facebook-profiel zet, redeneren Facebook en ook Clubhouse. Ook daar zouden de gebruikersnamen, aantal volgers, en gekoppelde Twitter-gegevens publieke informatie zijn, zegt het bedrijf in een tweet. Ook LinkedIn komt met dat verweer: de informatie was 'publiekelijk zichtbare profieldata'.
Geen van de drie bedrijven zegt het letterlijk, maar de mening van Facebook, LinkedIn en Clubhouse schemert door in de reacties: omdat het om publieke informatie gaat, denken ze dat de informatie niet erg schadelijk is. Dat is niet alleen juridisch irrelevant bij een datalek, maar ook onwaar. Osint-onderzoeker Henk van Ess ontdekte dat het mogelijk was Twitter- en Instagram-accounts van Clubhouse-gebruikers te achterhalen, ook als ze die helemaal niet hadden gekoppeld.
Scrapen ≠ hacken
Facebook lijkt dus te zeggen dat het scrapen van informatie niet hetzelfde is als het hacken van een systeem. Als het puur naar de Amerikaanse wetgeving kijkt heeft het misschien gelijk. In 2019 bepaalde het gerechtshof daar dat scrapen niet tegen de Amerikaanse Computer Fraud and Abuse Act was, een wet die een beetje lijkt op de Nederlandse Wet computercriminaliteit III. Maar het datalek gaat om veel meer dan alleen computervredebreuk en al helemaal om meer dan alleen Amerikaanse wetten. Zeker 5,4 miljoen Nederlanders zijn erdoor getroffen en miljoenen andere Europeanen. Dan komt die andere grote wet om de hoek kijken: de Europese AVG, ook bekend onder de Engelse afkorting GDPR.
'Het doet er niet toe of data openbaar is of niet'
Volgens Facebook zijn er meerdere redenen om geen melding te maken bij zowel slachtoffers als bij toezichthouders. Dat is niet hoe het werkt, zegt ict-jurist Arnoud Engelfriet. "Deze club kletst uit zijn juridische nek", zegt hij stellig. "Het doet er niet toe of de data openbaar is of niet." Context en proportionaliteit zijn daarbij belangrijk. Iets is een datalek, zegt hij, als het terecht komt bij mensen die het niet mogen hebben. "En als een bedrijf beveiliging hoort toe te passen maar men daarin tekort schiet."
Er zit daarom wel wat verschil tussen het scrapen van de écht publieke informatie zoals de profielnamen die Clubhouse lekte, of informatie zoals een telefoonnummer zoals Facebook dat lekte via de Find My Friend-optie. "Je zou verwachten dat dat laatste niet bekend wordt", zegt Engelfriet. De context is belangrijk. Het maakt bijvoorbeeld veel verschil of iemand zijn telefoonnummer aan Facebook geeft voor een bepaalde reden, of dat hij visitekaartjes uitdeelt waarop dat telefoonnummer staat. Juridisch speelt daar ook de impact mee, of in ieder geval de potentiële impact. Engelfriet maakt de vergelijking met een telefoonboek. "Een telefoonboek met mijn nummer erin dat in de bibliotheek ligt, daar heb ik niet veel last van. Maar als er een dataset online verschijnt waarin mijn nummer staat, kan dat wel grote gevolgen hebben." Een andere analogie is als je in de wachtkamer van een dokter gaat zitten en bijhoudt wie op een bepaald spreekuur komt. "Dat kun je doen en daar haal je dezelfde informatie uit als een medisch dossier maar het is wel wat anders als een medisch dossier op straat komt te liggen."
Wel of niet melden
Ook het andere argument van Facebook, dat de data nu eenmaal al online staat en gebruikers er toch niks aan kunnen doen, snijdt volgens Engelfriet geen hout. "Daar staat niks over in de AVG. Die laat er geen discussie over, je moet zo'n lek altijd melden." De privacywet kent wel een handvol uitzonderingen waarin je een datalek niet hoeft te melden, die Engelfriet eerder al op zijn blog beschreef. Die komen erop neer dat als er echt geen risico is voor gebruikers, een bedrijf dat data heeft gelekt dat niet hoeft te melden. Dat is in dit geval niet zo. "Je moet dat als bedrijf zo snel mogelijk melden aan gebruikers. Volgens de AVG moet dat 'onverwijld', dus zo snel mogelijk. Soms kun je er heel even mee wachten om bijvoorbeeld wat extra onderzoek te doen, maar ik kan geen enkel argument bedenken waarmee Facebook nu nog zou kunnen komen om dat goed te praten."
Dat is sowieso niet relevant, omdat het bedrijf dus al heeft laten weten dat het gebruikers niet gaat inlichten. Van LinkedIn en Clubhouse is niet bekend of ze dat nog gaan doen, maar ook daar lijkt het rijkelijk laat en bovendien laten de bedrijven in hun reacties doorschemeren er niet zo'n probleem mee te hebben dat niet te doen.
Onderzoek
Er is dus weinig twijfel over dat Facebook, en ook Clubhouse en LinkedIn, te maken hebben met een datalek. Dat zou in theorie kunnen leiden tot een boete voor het overtreden van de AVG. Zo'n boete zou kunnen zijn voor het feit dat de informatie niet goed genoeg beveiligd was, maar daarvoor moet een toezichthouder eerst een uitgebreid onderzoek afronden. Ook is het mogelijk een boete te krijgen voor het niet melden van een datalek aan slachtoffers. Daarvoor kreeg onlangs Booking.com een boete van de Autoriteit Persoonsgegevens. In Europa is inmiddels de Ierse privacywaakhond begonnen met een onderzoek naar Facebook. Dat onderzoek gaat over een mogelijke overtreding van zowel de Data Protection Act uit 2018, de Ierse voorloper van de AVG, als over een overtreding van de AVG zelf. De AVG werd pas in mei 2018 van kracht en actief gehandhaafd. De Ierse toezichthouder treedt daarmee ook gelijk op namens alle andere Europese toezichthouders, dus de Autoriteit Persoonsgegevens kan zelf niet óók nog een onderzoek uitvoeren. Er zijn nog geen onderzoeken aangekondigd naar LinkedIn en Clubhouse.
Gebruikers kunnen ondertussen terecht bij zoekmachine Have I Been Pwned om te zien of telefoonnummers uit het Facebook-datalek daarin zijn opgenomen. Oprichter Troy Hunt schrijft dat hij dat deed na een enorme stijging van de bezoekcijfers aan de database. Het is de eerste keer dat de zoekmachine telefoonnummers indexeert.
Foto: weerapatkiatdumrong / Getty Images