Gemeente Amsterdam anonimiseerde gegevens AirBnB-klagers niet goed

De gemeente Amsterdam heeft documenten met bezwaarschriften tegen nieuwe regels rondom AirBnB niet goed geanonimiseerd. Daardoor waren privégegevens in te zien van de mensen die het niet eens zijn met de regels.

Het ging in totaal om tien mensen, meldt AT5. De gemeente had de namen op de documenten onzichtbaar gemaakt met een zwart balkje over privégegevens, maar gebruikers konden de tekst erachter selecteren en plakken om zo achter de inhoud te komen. Data-analist Nico van Gog, die de fout ontdekte, claimde het gezien te hebben door de manier waarop het zwarte blokje in de tekst staat.

De klagers willen niet dat ze nog maximaal dertig nachten per jaar hun huis of appartement op AirBnB mogen verhuren, in plaats van zestig dagen. In de klachten staan naast gegevens ook persoonlijke verhalen, zo meldt AT5. De gemeente Amsterdam heeft het document tijdelijk offline gehaald en belooft het later weer online te zetten met nu wel de juiste manier van anonimisering.

Door Arnoud Wokke

Redacteur

12-12-2018 • 17:53

41 Linkedin

Reacties (41)

Wijzig sortering
Ik zeg altijd: anonimisering bestaat eigenlijk niet.

Je kunt alleen zeggen: "het is waarschijnlijk moeilijk terug te herleiden voor een X periode".

Als je maar genoeg datasets over elkaar heen legt dan kun je verrassend vaak terug herleiden wie iemand is.

Stel dat je zegt: "er zijn drie mensen in Terneuzen met blaaskanker, maar we zeggen niet welke". Dan is die dataset technisch gezien genanonimiseerd. Maar koppel die dataset aan andere datasets, bijvoorbeeld over facebook likes van mensen in Terneuzen. Dan is het feit at er 3 mensen met blaaskanker zijn ineens erg nuttig om je zoek algoritme in te stellen. Zelfs de meest geanonimseerde data kan je helpen bij het afbakenen van je zoekruimte.

Dit is in het verleden al erg vaak gebeurd met geanonimiseerde datasets. Een bekend voorbeeld is een geanonimiseerde Netflix dataset over de films die mensen bekeken. Die kon deels ge-de-anonimiseerd worden door die aan IMDB te koppelen: Anoniem persoon A die op moment X "The Matrix" keek liet dan twee uur later een review achter over die film op IMDB. En zo kon de anonieme persoon gekoppeld worden aan de IMDB gebruikersnaam. En vandaar was het een klein sprongetje naar de echte identiteit.

Dat waren slechts 2 datasets.

Stel je nu voor dat je een gemiddelde databroker bent met absurd veel data, of Google. Dan is dit een peulenschil. Des te meer data er lekt en rondzingt, des te fragieler wordt anonimisering.

Verdere bronnen:
https://www.cs.utexas.edu/~shmat/shmat_oak08netflix.pdf
En ook kritiek:
https://www.ftc.gov/sites...06-00097/544506-00097.pdf

[Reactie gewijzigd door unfold op 13 december 2018 00:33]

Zeer bekend verschijnsel. Bij mij op mijn werk is één van de eerste dingen die we mensen leren die ook maar enigzins met gevoelige data werken, dat dat niet makkelijk is.

Er zit altijd wel een josti (m/v) tussen die gevoelige data meent te kunnen censureren met balkjes en dan de fout in gaat.
Pfff eindelijk een tweaker die lijkt te praten uit de praktijk. Het is verdomd moeilijk om iedereen in een bedrijf dit soort dingen uit te leggen. Ik denk dat menig tweaker niet beseft zal hebben dat je met een zwart vlakje in een PDF file de originele tekst niet weghaalt. Natuurlijk zullen tweakers om het hardst oepen dat ze dit NOOOOIT zullen doen doet het gemiddelde niveau van spelling iets anders vermoeden.

Dit soort beveiliging is een kwestie van hele lange adem. Wij hebben iemand in dienst die retroactief checkt (dus wat al naar buiten is gegaan) en je houd soms je hart vast. Zeker jonge mensen, net uit school zijn bijzonder naïef, bij een marketing opleiding leren ze je wel om een pers bericht te schrijven maar niet om alle meta data te verwijderen. Ik herinner me al te goed dat er een keer een DOCX naar buiten is gegaan met mijn nogal sterke commentaar op sommige taalvormen. Je hoefde maar op de Word review button te drukken en daar was mijn 'zijn jullie nu helemaal van god los' te zien.

Ik zou ze geen 'josti' noemen (om meerdere redenen, om te beginnen omdat het naar diverse groepen uitermate respectloos is) maar gewoon mensen die dingen niet weten. Er was een tijd dat jij dit ook niet wist.
Als je hem print als pdf file, wordt het dan niet een soort foto? Nooit geweten dan het dan nog steeds een tekstbestand bleef als je hem print.
Inderdaad, als je een PDF hebt, daar balkjes op doet, en hem middels een PDF printer opnieuw 'print', dan worden de balkjes permanent en is de tekst weg.
Maar doe je in je PDF-programma gewoo Opslaan Als..., dan blijft de tekst erachter gewoon zichtbaar. Meestal kan een ander ook gewoon het zwarte balkje verplaatsen.
Hangt er alsnog vanaf hoe je het ‘print’. Een handige tool als Adobe Acrobat pro print dan alle elementen naar de pdf, dus schiet je er niks mee op. Alleen als je in de export/print settings aangeeft dat het een picture/bitmap moet worden zou het kunnen werken zoals in dit geval bedoeld.

Al eens meegemaakt dat een leverancier een ppt had geprint met een dataset van een andere klant. In de ppt een paar balkjes eroverheen gezet maar de data was in de pdf zo zichtbaar te maken door de balkjes weg te halen (en de zogenaamd onleesbaar gemaakte (heel kleine fonts van 1x1 pixel) data copy paste te doen dat je de originele getallen had).

We hebben maar aangegeven dat we hoopten dat ze met inze data secuurder om zouden gaan ...
In PDF kun je gewoon tekst selecteren als deze als tekst daarin is opgeslagen. Dat is juist een voordeel van PDF's (o.a. filesize en de mogelijkhwid tot ctrl + C). Dan moet je natuurlijk niet met zwarte blokjes gaan klooien. Pas als je dit daadwerkelijk fysiek uitprint dan is het geanonimiseerd, maar dan heb je natuurlijk altijd iemand die het toch online zet.
Er blijft snel data achter in een PDF inderdaad. Ook als je bijvoorbeeld een image gebruikt als 'balkje' en je die over de tekst heen dropt kan je in sommige gevallen simpelweg de image-layers weer verwijderen uit de PDF. Je moet er echt voor zorgen dat de tekst fysiek weg is uit het document.

Tweede grap is dat er vaak metadata achterblijft in het document, zoals informatie van de organisatie / medewerker / orginele titel en allemaal andere informatie die soms wel eens gevoelig kan zijn.

Bij Word Docs heb je inderdaad soms nog de geschiedenis van opmerkingen in het document of wat er bijgewerkt is.
Weet je wat het probleem is? IT'ers zijn over het algemeen niet zo goed in 'het hebben van een lange adem'... comes with the territory...

Maar ik herken heel goed wat je aangeeft. Noem mij naïef, maar ik had gehoopt met een 'security awareness' training medewerkers de goede kant op te duwen,... maar ik zie af en toe tenenkrommende dingen gebeuren.

Zen is het toverwoord hierin,....
Ironie is het tegenovergestelde zeggen van wat je meent, aannemend dat je publiek dit weet. Dan is er nog dramatische ironie, maar dat is een uitzondering.
Je hebt gelijk. Ik bedoelde het verdekt te benoemen als hypocriet, Tu quoque of jij-bak.
Wat ik meestal doe is een PDF bestand openen met Illustrator, de tekst aanpassen/verwijderen en PDF opslaan. Zo is de data ook echt uit het bestand, niet verstopt onder een zwart balkje en behoud het bestand zijn "digitale eigenschappen" (wat kom te vervallen bij print & scan).

Je moet dan alleen wel de juiste fonts geïnstalleerd hebben.
Serieus.. dus gewoon een kwestie van de achtergrond kleur zwart maken en dan maar hopen dat iemand niet door had dat je kon kopieeren en plakken? Volgende keer gewoon de letters vervangen door puntjes?
PDF's zijn niet makkelijk te manipuleren. Daarom zijn dingen die redacted zijn meestal ook hard redacted en opnieuw ingescand. Dit gaat meestal beter dan op software te vertrouwen...
Ja, maar wat ik doe met pdf de tekst selecteren en zwart maken en dan opnieuw afdrukken als pdf, dan werkt het meestal wel.
Wat ik altijd doe op kantoor (werk zelf met privacygevoelige informatie) is in PDF een zwarte balk over de tekst heen trekken. Daarna print ik het document en scan ik het in. Op die manier is de gelakte tekst niet te achterhalen.
Wij mogen niks printen (of scannen) omdat de printer een geheugen heeft of zoiets en dat weer een risico kan zijn. Ook moet er weer extra papier vernietigd worden door een bedrijf dat in de zoveel keer de bakken komt legen en dat is ook niet goedkoop. Dus de digitale manier heeft dan wel de voorkeur. Ook scheelt het tijd om niet naar de printer te hoeven lopen.
Moet je wel de goede driver hebben (of juist een slechte driver, net hoe je het bekijkt).

Mijn PDF printer sluist bestaande PDF bestanden gewoon zo door naar een nieuw PDF bestand
Zwarte stift er over...
Ook fout, soms toch nog te achterhalen door kleur/helderheid/contrast niveaus te variëren.
Beter met speciale tape afplakken en opnieuw scannen of origineel bewerken, zodat gevoelige gegevens er gewoon niet zijn, of software gebruiken hier hiervoor speciaal gemaakt is.
Dit is gewoon weer een individuele ambtenaar die het op z'n eigen manier doet. Hiervoor moeten richtlijnen zijn die nagevolgd moeten worden.
Sorry, maar dat gaat niet meer: bijna mijn hele scherm is al zwart gestift.
gewoon type-ex gebruiken om het weer wit te maken :+
[spoiler]Een soort spoiler-tag? :P [/spoiler]

:F Werkt alleen op GoT. :P

[Reactie gewijzigd door HMC op 12 december 2018 18:19]

Fouten worden gemaakt, ze zijn hier opgemerkt, excuses gemaakt, het document verwijderd.
Vroeger ging dat doordat iemand een doos met gegevens ergens achterliet (vaak in de tram!), nu op een website. Er is allemaal niet zoveel nieuws.

Maar het makkelijk anoniem schieten door tweakers word wel vermoeiend. Als je mij beloofd dit soort dingen absoluut te verhinderen in mijn bedrijf neem ik je graag in dienst en betaal je vorstelijk. Maar dan moet je wel; garanderen dat er nooit meer een fout als dit gemaakt word.
Nee, dit is geen 'Fouten worden gemaakt' situatie. Elke organisatie moet tegenwoordig in beeld hebben welke privacy-gevoelige informatie ze hebben en hoe ze hiermee omgaan. Bij het publiceren van stukken zijn extra risico's. De gemeente moet hiervoor een waterdichte procedure hebben om deze stukken te anonimiseren, zonder dat er maar enig risico kan bestaan (bij het volgen van de procedure uiteraard) dat er gevoelige informatie naar buiten komt.
Dit is geen 'jammer, volgende keer beter', maar een overtreding van de AVG die zelfs strafrechtelijke gevolgen kan hebben.
Joh, dit soort fouten zijn ook gewoon fouten en er is geen enkele toezichthouder die voor dit soort zaken boetes gaat uitdelen, tenzij het gaat om structurele nonchalance of opzettelijk negeren van voorschriften. De ambtenaren weten verdomd goed dat ze met gevoelige gegevens omgaan maar helaas gaat er soms weleens wat fout en dan ontstaan dit soort 'blunders'. Vaak zit hier ook veel politieke druk achter waardoor mensen worden opgejaagd waarbij checks vergeten of zelfs overgeslagen worden. Er zijn procedures maar mensen zijn ook maar mensen en wat is er nu helemaal aan de hand? Het gaat om de impact op de persoonlijke levenssfeer. Het gaat hier om mensen die zelf hun huis verhuren en klagen over de toegestane termijn. Niet goed dat hun gegevens te achterhalen zijn maar laten we wel een beetje realistisch blijven. Er vallen geen doden of de mensen dreigen niet gelyncht te worden. Ik ben absoluut voorstander van de AVG en het kan me niet streng genoeg om de persoonlijke levenssfeer van mensen te beschermen maar soms zijn we wel een beetje heel erg aan het doorslaan. Als het nu om gegevens van mensen zou gaan die geklaagd zouden hebben over een eigenaar van een airbnb dan zou het risico groter zijn geweest. De AVG is ook riskbased voor zover mensen dat vergeten en er moet heel goed naar de risico's gekeken worden die er zijn voor de persoonlijke levenssfeer en dat risico is hier verwaarloosbaar. Het zijn ook geen bijzondere persoonsgegevens dus ook daar zit geen risico. Als ik de gemeente was zou ik de mensen een excuus brief sturen en een bloemetje of een cadeaubon voor de 'geleden schade'.
Ik zie niet in waarom de procedures voor deze publicatie (waarbij blijkbaar geanonimiseerd moest worden) anders zouden moeten zijn dan een publicatie met minder of meer privacygevoelige informatie. En als de diverse afdelingen dat (blijkbaar) zelf niet kunnen, dan kan dit bv. gedaan kunnen worden door een afdeling (meer-ogen principe) die de documenten nog eens bekijkt op mogelijke lekken en of de nodig procedures zijn gevolgd voor werkelijke publicatie. Als je dodelijke gevolgen (of in die richting) als grens gaat aanhouden, dan zou er bijna nooit consequenties aan dergelijke acties zijn. Er is gewoon geen ondergrens aan gevoeligheid om maar geen of eigen regels toe te passen, dat is gewoon vragen om problemen. Maak het niet te complex (bv. een checklist/flow diagram), maar zorg wel dat altijd de juiste procedures gevolgd worden en sla dat bij elke nieuwe en oude medewerker er maar goed in. Zeker bij een organisatie als een gemeente, waar je als burger er niet omheen kan dat daar privacygevoelige informatie van je is opgeslagen en wordt gebruikt.
Omdat er altijd een afweging gemaakt moet worden tussen perfect en peperduur en slecht en goedkoop.
Grondige dubbelchecks kosten tijd. Dat betekent dat ander werk blijft liggen of dat er meer mensen aangenomen moeten worden. Meer mensen aannemen betekent minder geld voor andere zaken of hogere gemeentelasten voor bewoners.
Elke situatie in de realiteit is het resultaat van een afweging waarbij geprobeerd wordt iets goed genoeg te krijgen waarbij fouten zo veel mogelijk voorkomen worden en de gevolgen daarvan zo klein mogelijk zijn.
Voor kleine organisaties kan ik daar nog wel gedeeltelijk in meegaan, maar bij organisaties met honderden/duizenden werknemers kan het juist tijdsbesparend zijn dat er een gespecialiseerde afdeling is die een laatste check doet op externe publicaties en als vraagbaak kan dienen. Ze kunnen de kennis en juiste tools gebruiken om snel documenten te scannen. Ook bij de basis zouden gevoelige velden in documenten standaard al als privacygevoelig kunnen worden bestempeld, waardoor tijdsbesparing en minder kans op fouten kan worden gerealiseerd. Het zit hem alleen in de wil van de organisatie hoe ver ze hierin willen gaan, niet of het peperduur is of goedkoop, meestal het tegendeel zelfs, gezien de inefficiëntie die vaak in 'goedkope' organisaties zit.

[Reactie gewijzigd door friend op 13 december 2018 11:53]

Die blur op de foto van AT5 is ook relatief makkelijk weg te halen. Maargoed.
Anoniem: 310408
@slijkie12 december 2018 19:20
Laat dan eens zien wat daar staat? Ik kon er met Photoshop geen soep van maken maar geef graag toe dat ik geen held ben in die software.
Nee, lijkt mij niet slim om dat publiek te gaan posten; tip: github
Klopt, Github is inderdaad een afgeschermd iets.. Kom op zeg, je kunt hier heus wel een tooltje noemen!
Heb je dat al gemeld bij de redactie van AT5? ;) Mooi dat ze dezelfde fout maken op die site (of zou dit screenshot zijn geleverd door de persoon die het probleem heeft ontdekt).

Al met al een grove fout, wat weer eens laat zien wie de zwakste schakel is (de mens dus).
Nico van Gog, die de fout ontdekte, claimde het gezien te hebben door de manier waarop het zwarte blokje in de tekst staat.
...
Data-analyst Nico van Gog ontdekte de fout. 'Het viel meteen op hoe het zwarte blokje gekaderd is ten opzichte van de regeltekst', vertelt hij.
Bron: https://www.at5.nl/artike...-airbnb-klagers-zichtbaar
Anoniem: 426269
12 december 2018 18:54
Ongelofelijk. Kopieer/plak dan de gehele tekst van het bezwaarschrift, dus behalve naam en adres, in een nieuw document ofzo.

[Reactie gewijzigd door Anoniem: 426269 op 12 december 2018 19:55]

Dit is niet de eerste keer dat de gemeente Amsterdam deze fout maakt. Mij staat bij dat een paar jaar geleden de gegevens van een tiental burgers ook op straat lagen omdat er een balkje over de namen (en volgens mij ook bedragen?) zat.. kan het niet terugvinden.
Beetje off topic, maar misschien nuttige tip:
Met Libre office kan je pdf's bewerken op zo'n manier dat het origineel niet is terug te herleiden.

Kies score Let op: Beoordeel reacties objectief. De kwaliteit van de argumentatie is leidend voor de beoordeling van een reactie, niet of een mening overeenkomt met die van jou.

Een uitgebreider overzicht van de werking van het moderatiesysteem vind je in de Moderatie FAQ

Rapporteer misbruik van moderaties in Frontpagemoderatie.



Op dit item kan niet meer gereageerd worden.


Nintendo Switch (OLED model) Apple iPhone SE (2022) LG G1 Google Pixel 6 Call of Duty: Vanguard Samsung Galaxy S22 Garmin fēnix 7 Nintendo Switch Lite

Tweakers vormt samen met Hardware Info, AutoTrack, Gaspedaal.nl, Nationale Vacaturebank, Intermediair en Independer DPG Online Services B.V.
Alle rechten voorbehouden © 1998 - 2022 Hosting door True

Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee