CBS gaat beleid voor toegang tot anonieme burgerdata verscherpen

Het Centraal Bureau voor de Statistiek gaat beter controleren wie toegang krijgt tot zijn data. Het CBS onderzocht hoe externe onderzoekers de data kunnen gebruiken. Dat voldoet aan privacy- en veiligheidsregels, maar zal worden verscherpt.

Het gaat om data die het CBS ter beschikking stelt via een beveiligde portal. Dat zijn 'administratieve data' van Nederlandse burgers en bedrijven. De gegevens zijn afkomstig uit overheidsdatabanken. Het CBS anonimiseert die gegevens en gebruikt ze voor eigen onderzoeken, maar stelt ze ook beschikbaar voor wetenschappelijk onderzoek. Het gaat om onderzoek door ruim tweehonderd wetenschappers en andere partijen. Het CBS liet onlangs een onafhankelijke commissie onderzoeken of die toegang voldeed aan regels rondom privacy en informatiebeveiliging, omdat er geanonimiseerde gegevens van Nederlanders in worden opgenomen.

Uit het eindrapport blijkt dat het beleid op dit moment voldoet. "De commissie heeft geconcludeerd dat het CBS de huidige IT-processen en privacybescherming op orde heeft", schrijft het bureau. Wel deed de onderzoekscommissie verschillende aanbevelingen voor de toekomst. Die draaien vooral om wie toegang krijgt tot de gegevens.

Het CBS zegt dat voortaan alleen nog 'universiteiten, kennisinstellingen en organisaties uit landen die eenzelfde niveau van privacybescherming kennen als de AVG' toegang mogen krijgen tot CBS-data. "Organisaties uit landen die geen dergelijk niveau van privacybescherming hebben, mogen hun huidige machtiging uitdienen maar komen dus niet meer voor een nieuwe machtiging in aanmerking", schrijft de dienst, al zegt het CBS niet om hoeveel partijen het dan gaat. Ook moeten wetenschappelijke instellingen 'voldoen aan wetenschappelijke normen' voordat ze toegang tot de data kunnen krijgen. Dat betekent vooral dat ze hun onderzoeksresultaten openbaar moeten maken. Die wijzigingen gaan per 1 augustus van dit jaar in.

Door Tijs Hofmans

Nieuwscoördinator

22-07-2021 • 14:57

34

Reacties (34)

34
34
19
6
0
11
Wijzig sortering
*anoniem*, hoe anoniem is dat precies? Goed dat ze dit aanscherpen, maar ik moet altijd aan dit artikel denken -> https://www.nytimes.com/i...ta-national-security.html als je ziet wat je met wat data kan (van 1(!) leverancier). Dit gaat dan weliswaar over locatie data, maar ik vraag me dan ook hierbij af hoe anoniem is dit daadwerkelijk . . .
Uit ervaring kan ik zeggen dat het CBS dit heel serieus neemt. Ze zijn al wat jaartjes bezig te kijken naar wat "anoniem" nou precies in houdt en hebben in hun data verwerking een aantal teams die alleen maar kijken naar hoe je er voor zorgt dat het ook écht anoniem is.

Dat betekend dus, onder andere, dat bepaalde data alleen op geagregeerd niveau beschikbaar is omdat van sommige soorten data (zoals, bijvoorbeeld, van een paar van de grootste bedrijven in Nederland) van specifieke data geen anonimisering mogelijk is. Die wordt dan ook alleen op branche niveau of provincie niveau (om maar eens wat te noemen) mee geteld.

Ik durf gerust te stellen dat de specialisten van het CBS weten wanneer iets "anoniem" te noemen is en niet, zoals in de link die je geeft, "pseudoniem".
Inderdaad, ze aggregeren data op (verschillende) postcodeniveaus en zelfs dan ondernamen ze altijd al extra actie om te voorkomen dat je aan de hand van hun data kunt achterhalen of iemand met bepaalde kenmerken de enige in dat gebied is door getallen altijd op vijftallen af te ronden.
Bij aantallen inwoners, huishoudens en woningen naar bv. leeftijdscategorieën, type huishouden of bouwjaarklassen worden alle in de verschillende publicaties opgenomen lege gebieden in Nederland en gebieden waarbij het aantal minder dan 5 bedraagt weergegeven als “0 -4 / geheim”.
Net als menig enquête over mdw tevredenheid. Laten we niet doen of het uitzonderlijk is :)
Maar vooral wel dat men goed bezig is!
Anoniem is relatief. Neem anonieme data uit verschillende bronnen, voeg ze samen en het kan ineens stukken minder anoniem worden.

Je verhaal klinkt leuk dat het cbs het serieus neemt maar vraag me af of ze ook kijken of hun data met andere data uit andere bronnen gecombineerd kan worden en hoe anoniem het dan nog is.
Dat is dus moeilijk aangezien ze waarschijnlijk geen toegang hebben tot die andere bronnen en ook niet kunnen zien of hun data met data uit andere bronnen gecombineerd wordt.

De betere vraag is dus of ze data, ok al is die "anoniem" überhaupt moeten delen.
Ik weet niet of je weet wat het CBS doet maar ik kan je één ding garanderen:
Er is geen partij in Nederland die meer data heeft.

Daarnaast;
Het CBS heeft, zonder enige twijfel, meer kennis in huis over annonimiseren van data dan welke andere partij in Nederland dan ook.

Dus om antwoord te geven op je vraag: Nee, anoniem is niet relatief. Het is enorm eenvoudig om data anoniem te maken, als je weet waar je mee bezig bent. En abstraheren is daar de meest eenvoudige manier voor. Leeftijdsdata over een provincie is zonder enige twijfel anoniem. Hetzelfde geld voor procentuele locatiedata, omzetdata over branchecategoriën, geloofsovertuigingdata voor een heel land. Alles staat of velt met abstractieniveau.
Ik zou me veel zorgen maken over allerlei (semi-)commerciële databoeren dan over het CBS, die in alle openbaarheid zijn processen laat reviewen. Echt veel meer en veel gevoeligere data ligt opgeslagen in databanken van partijen waar wij nauwelijks van weten.
De rest cbs meer kennis in huis leest als leuke marketing termen. Bij databoeren kan ik dan ook stellen zitten hele slimme kopen die als doel hebben zo veel mogelijk anonieme data te combineren en daaruit minder anonieme data te halen of juist wel data. Dat zijn grote internationale bedrijven die dat als bedrijfsmodel hebben. Dat gaat verder dan Nederland. Dus het is ook weer maar net hoe je het ziet.

Blijft nog steeds over als je niet weet met welke andere bronnen dit gecombineerd kan worden kun je ook niet zeggen hoe anoniem de data na combinatie werkelijk is.
Blijft nog steeds over als je niet weet met welke andere bronnen dit gecombineerd kan worden kun je ook niet zeggen hoe anoniem de data na combinatie werkelijk is.
Blijft nog steeds over dat als je data anoniem maakt, het ook echt anoniem blijft. Als data na combinatie niet meer anoniem is dan was het het al niet toen je begon. Vandaar ook dat we dat pseudonimisering noemen.
Ik denk persoonlijk, dat er geen anonieme data bestaat. Alleen maar hoe veel moeite er gedaan moet worden om de data te kunnen terug herleiden naar een persoon of groep.
Onzin. Als er data is over jouw persoon, en ik heb die data, samen met de rest van dat van jouw wijk, en ik vertel op basis daarvan alleen maar dat 17% van jouw wijk agnost is, kan jij met geen enkele moeite die data herleiden tot een persoon. Daar zul je andere bronnen voor nodig hebben, en dan is deze data overbodig. Dat is wat het CBS doet en poogt te waarborgen.
Klopt, maar als het aantal "Spaghetti monster"-aanhangers in die wijk "0" is, weet je al wel dat je dat niet bent. Als je vervolgens een aantal van die "anonieme"-datasets over elkaar heen kunt leggen, kun je al verbazend snel heel veel over individuen vaststellen...
Ik heb zo een keer een datalek gevonden bij de provincie Overijssel, waar het gemiddelde inkomen van alle zichtbare woonadressen werd getoond. Dit gemiddelde werd serverside berekend, en elke keer dat je de kaart verschoof geüpdatet. Had je dus in de linkerbovenhoek één woning staan en verschoof je de kaart net genoeg om die er af te laten vallen zonder dat er een ander bij kwam, kon je zo tot het inkomen van de mensen op dat adres komen.

Die kaart is trouwens na mijn melding offline gehaald maar ik betwijfel of de betreffende mensen ooit een excuusbrief hebben gehad.
Maar zoals @Skit3000 aan geeft: CBS data zal nooit stellen dat iets 0 is. In dat geval zal er " 0-4/geheim" staan en weet je dus nog niks....
Je weet niet "niks", je weet "iets met een bepaalde kans". En dat kan je mogelijk verder helpen...

https://www.researchgate....ive_on_Re-Identifiability

[Reactie gewijzigd door Tuxwielder op 30 juli 2024 18:31]

Ze hebben vast ook een categorie "overig".
En ja het idee van statistiek is wel dat je kan uitvinden of ergens veel spaghettimonsters wonen. Maar niet wie dat dan zijn.
Als je ook niet wil weten hoeveel ongeveer, dan moet je die statistiek niet maken.
Maar de clou bij anonimiseren is dat het echt anoniem is. En er tegelijk nog wel de statistiek overblijft.
Het cbs kan moeilijk zien of weten of je andere bronnen gebruikt om die met hun data te combineren. Aangezien ze dat niet kunnen weten weten ze ook niet of na combinatie met andere data hun data wel echt anoniem is.
Als de data echt zo anoniem is dan is het überhaupt de vraag wat andere partijen waarmee ze dat delen er nu mee kunnen doen.
Dat is nu juist de kunst van effectief anonimiseren: als de data werkelijk zijn geanonimiseerd, maakt het niet uit met welke andere data je combineert - de oorspronkelijke geanonimiseerde data zijn op geen enkele manier te herleiden tot één individu of instantie.

Om een voorbeeld te geven: stel dat ik geanonimiseerde data aanbied van het gemiddelde inkomen per woonwijk en daarbij alle data weglaat van woonwijken met minder dan 100 adressen. In dit voorbeeld zijn de data geanonimiseerd doordata van telkens 100+ adressen te combineren (aggregeren) tot één gemiddeld inkomen. Dat gemiddelde inkomen per wijk is heel nuttige informatie voor bijvoorbeeld een autodealer die een middenklasse automodel wil aanprijzen. Die weet namelijk in welke wijken hij het beste kan adverteren: de wijken waar de gemiddelde inkomens niet extreem laag of extreem hoog zijn. Hij kan echter op geen enkele wijze individuele adressen targeten, simpelweg omdat op geen enkele manier uit de geanonimiseerde data is te herleiden welk inkomen bij welk adres hoort.
CBS controleert met welke data je combineert. De data wordt enkel ter beschikking gesteld in hun eigen omgeving. Data importeren is mogelijk, maar de geïmporteerde data wordt door het CBS gecontroleerd. Ook alle output wordt handmatig door het CBS gecontroleerd.
Een tijdje terug gaf mijn werkgever aan gegevens te willen gaan delen met het CBS voor inzicht in "diversiteit":

"De <werkgever> ontvangt van het CBS alleen gegevens van de culturele diversiteit binnen... en functiegroepen, en deze gegevens zijn niet herleidbaar naar individuele personen. De <werkgever> zal zelf ook geen gegevens registreren of beheren van de culturele achtergrond van haar personeelsleden."

In een FAQ stond verder:

"Welke gegevens worden met het CBS gedeeld?
De <werkgever> deelt de volgende gegevens van... personeel uit de eigen personeelsadministratie: geboortedatum, geslacht, postcode, huisnummer, huisnummertoevoeging, ..., functiegroep ..."

Dus blijkbaar is het CBS in staat om mij op basis van bovenstaande kenmerken in te delen naar culturele achtergrond.

Goed dat ze daar wat voorzichtiger mee omgaan nu, maar nodeloos te zeggen dat ik bezwaar heb aangetekend tegen het delen van mijn gegevens...
Een tijdje terug gaf mijn werkgever aan gegevens te willen gaan delen met het CBS voor inzicht in "diversiteit"
Ik heb zelf enorme bezwaren in het verzamelen van dit soort info: zo is bij de overheid ooit bepaald dat ik tot een bepaald geloof behoorde (want ouders hadden geloof X), terwijl ik nog nooit een stap in die kerk gezet heb. Zelf vindt ik dit dan ook veel te ver gaan dat een overheid (de GBA) dit structureel adminstreert. Dat is ook de administratie die de Nazi's dankbaar misbruikten.

Anderzijds heeft dit soort info wel belangrijke waarde voor het huidige beleid: hoe kun je het bijvoorbeeld hebben over het probleem dat bepaalde bevolkingsgroepen ervaren in het krijgen van beter betaalde banen, als je de statistiek niet verzameld. Daar heeft in mijn beleving het CBS wel een belangrijke rol om dat op een verantwoorde manier te verzamelen.
Anderzijds heeft dit soort info wel belangrijke waarde voor het huidige beleid: hoe kun je het bijvoorbeeld hebben over het probleem dat bepaalde bevolkingsgroepen ervaren in het krijgen van beter betaalde banen, als je de statistiek niet verzameld. Daar heeft in mijn beleving het CBS wel een belangrijke rol om dat op een verantwoorde manier te verzamelen.
Daar kan ik een heel eind in meegaan, maar tegelijkertijd is dit een teken van de enorm armoedige situatie van onze maatschappij; Deze data zouden er namelijk helemaal niet toe moeten doen (en dus niet moeten _hoeven_ worden bijgehouden). Vanwege het feit dat je culturele achtergrond er wel toe doet, volgt de behoefte om het te gaan administreren zodat je erop kunt sturen (slechte managers willen graag dit soort tabelletjes kunnen maken).

We kunnen ons denk ik beter afvragen hoe we daadwerkelijk in de situatie komen dat je culturele achtergrond gewoon geen fluit uitmaakt. En dat begint bij de mensen zelf.
hoe we daadwerkelijk in de situatie komen dat je culturele achtergrond gewoon geen fluit uitmaakt
Juist. En dat het CBS met z'n administratie woede onderbouwing biedt dat sommige culturen worden gediscrimineerd is eigenlijk ook niet juist want de reactie is dat de overheid positieve discriminiatie gaat toepassen.
Maatschappelijke misstanden moeten door de maatschappij zelf aan het licht worden gebracht en publieke opinie zou dan moeten leiden tot verbetering.
Daar kan ik een heel eind in meegaan, maar tegelijkertijd is dit een teken van de enorm armoedige situatie van onze maatschappij; Deze data zouden er namelijk helemaal niet toe moeten doen (en dus niet moeten _hoeven_ worden bijgehouden).
Het alternatief is op buikgevoel en schreeuwlelijks gaan sturen. Dus als mensen een maatschappelijk probleem zien kun je op basis van data over de daadwerkelijke landelijke situatie, in plaats van N=1. Je kunt geen land besturen zonder informatie over populatieopbouw. Dom voorbeeldje: een besmettelijke ziekte raakt een specifieke leeftijdsgroep, maar hoeveel mensen zitten daar eigenlijk in en wat zou dat dan betekenen voor hun levensverwachting? En hoeveel mensen zijn er tijdens die pandemie eigenlijk doodgegaan? Allemaal statistieken die van belang zijn om eleid te vormen.

Soms gaat dat beleid over nationale maatregelen en lockdowns, soms over het aantal kankergevallen van een specifiek soort, soms over leerachterstanden bij bepaalde etnische groepen. Maar dan moet je die data wel hebben.
Dat snap ik wel, maar de vraag is of je dat zo institutioneel en gecentraliseerd zou moeten doen.

Mijn werkgever kan natuurlijk ook zelf een onderzoek doen, met een goede opt-in constructie en volledig transparant zowel tijdens als na afloop. Dat zou meer goodwill kweken en wellicht meer opleveren dan "tussen 2020 en 2021 is het aantal allochtone collegas met 0,1% toegenomen".

Blijft iets waar je enorm zorgvuldig mee moet omgaan (en ik heb de indruk dat dat niet gebeurt).
Je moet ook weten dat het probleem bestaat, en in welke situaties. En daarvoor heb je statistiek.
Ik heb zelf enorme bezwaren in het verzamelen van dit soort info: zo is bij de overheid ooit bepaald dat ik tot een bepaald geloof behoorde (want ouders hadden geloof X)
<knip>
terwijl ik nog nooit een stap in die kerk gezet heb. Zelf vindt ik dit dan ook veel te ver gaan dat een overheid (de GBA) dit structureel adminstreert.
Laat ik met het goede nieuws beginnen. Dit klopt niet. De overheid houdt niet bij welk geloof je hebt. Die les hebben we echt geleerd van WO2.

Wat er wel is, is het "SILA"-register dat de kerken zélf bijhouden. De overheid heeft er niks mee te maken. Het enige wat de overheid bijhoudt is dát je in dat register staat. Niet met welk geloof. In het GBA staat achter je naam alleen een zogenaamde "SILA stip" om aan te geven dat je in het register staat.

Het slechte nieuws is dat als je niet in dat register wil staan je dat bij je eigen kerk moet gaan melden... wat in praktijk best lastig is als je niet weet welke kerk dat is omdat je helemaal niet gelovig bent, kan ik je uit eigen ervaring vertellen. Ik heb het namelijk zelf meegemaakt dat ik op een gegeven moment ontdekte dat ik blijkbaar ergens bij een kerk ben ingeschreven. Ik heb nog even gedacht dat een van mijn ouders een zwak moment had en me stiekem heeft ingeschreven maar na enig onderzoek lijkt dat niet het geval. In mijn jeugd ben ik een keer verhuisd en het lijkt er op dat de pastoor van mijn nieuwe wijk me "voor de zekerheid" heeft ingeschreven omdat ik op een christelijke school zat. Fijn. Owja, kerken krijgen subsidie op grond van het aantal leden, dus er is motivatie om liever wat te veel mensen in te schrijven dan te weinig. En blijkbaar kunnen ze je inschrijven zonder jou zelf ooit iets te vragen.

En tja, de overheid staat er buiten dus die kunnen het ook niet tegenhouden...
Laat ik met het goede nieuws beginnen. Dit klopt niet. De overheid houdt niet bij welk geloof je hebt. Die les hebben we echt geleerd van WO2.

Wat er wel is, is het "SILA"-register dat de kerken zélf bijhouden. De overheid heeft er niks mee te maken. Het enige wat de overheid bijhoudt is dát je in dat register staat. Niet met welk geloof. In het GBA staat achter je naam alleen een zogenaamde "SILA stip" om aan te geven dat je in het register staat.
Thanks! Weer wat nieuws geleerd vandaag!
Het slechte nieuws is dat als je niet in dat register wil staan je dat bij je eigen kerk moet gaan melden... wat in praktijk best lastig is als je niet weet welke kerk dat is omdat je helemaal niet gelovig bent, kan ik je uit eigen ervaring vertellen. Ik heb het namelijk zelf meegemaakt dat ik op een gegeven moment ontdekte dat ik blijkbaar ergens bij een kerk ben ingeschreven.
Herkenbaar. Bij mij meldde de kerk zich vanzelf, door het frequent langssturen van "ouderlingen" om me welkom te heten. Na verschillende van die mensen weggestuurd te hebben heb ik gevraagd me uit te schrijven bij die kerk. Zij vinden dat je dan een gesprek van een uur met zo'n ouderling moet hebben om zeker te stellen dat je bij je volle verstand bent als je die krabbel zet (Opt-out zegt niet hoe moeilijk je opt-out is...). Dat gesprek heb ik aan mijn vrouw overgelaten, die is lid van de "concurrent", waardoor het gesprek beperkt werd tot 2 minuten :).
Let wel, dit is wat het CBS zelf aangeboden krijgt ter inzicht, niet wat het ter inzicht aanbiedt op aanvraag. Daar zit een verschil in.
Jawel, maar met enig historisch besef (https://onh.nl/verhaal/de...ngsregister-27-maart-1943) zou men zich toch ook moeten afvragen of dit wel zo zou moeten kunnen...
Een onafhankelijke commissie?
Ik had liever gezien dat ze een externe partij hadden ingeschakeld die een review zou moeten doen.
Uit het persbericht van het CBS: "De onderzoekscommissie onder voorzitterschap van Bibi van den Berg, hoogleraar Cybersecurity Governance aan de Universiteit Leiden..."
In het rapport staan alle auteurs genoemd: drie zijn werkzaam aan de Universiteit Leiden, twee aan de Universiteit Tilburg, en één aan de TU Delft.
Klinkt onafhankelijk genoeg, wat mij betreft.

bron: (rapport): https://www.cbs.nl/-/medi...drapport-onderzoek-ra.pdf
- laat maar, lijkt al aangepast

[Reactie gewijzigd door Alxndr op 30 juli 2024 18:31]

Tja, dus het UK zou volgend de Nederlandse wetgever en rechtbanken een gelijk niveau van AVG verplichtingen hanteren, ook al weet iedereen dat alle data lina recta naar de V.S. gaan, waarvan de rechter heeft bepaald dat die van geen enkele kant voldoet aan de Europesed normen. .... eh .... vrije interpretatie?

Op dit item kan niet meer gereageerd worden.