Gemeente Amsterdam anonimiseerde gegevens AirBnB-klagers niet goed

De gemeente Amsterdam heeft documenten met bezwaarschriften tegen nieuwe regels rondom AirBnB niet goed geanonimiseerd. Daardoor waren privégegevens in te zien van de mensen die het niet eens zijn met de regels.

Het ging in totaal om tien mensen, meldt AT5. De gemeente had de namen op de documenten onzichtbaar gemaakt met een zwart balkje over privégegevens, maar gebruikers konden de tekst erachter selecteren en plakken om zo achter de inhoud te komen. Data-analist Nico van Gog, die de fout ontdekte, claimde het gezien te hebben door de manier waarop het zwarte blokje in de tekst staat.

De klagers willen niet dat ze nog maximaal dertig nachten per jaar hun huis of appartement op AirBnB mogen verhuren, in plaats van zestig dagen. In de klachten staan naast gegevens ook persoonlijke verhalen, zo meldt AT5. De gemeente Amsterdam heeft het document tijdelijk offline gehaald en belooft het later weer online te zetten met nu wel de juiste manier van anonimisering.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Arnoud Wokke

Redacteur Tweakers

Feedback • 12-12-2018 17:53 41

12-12-2018 • 17:53

Lees meer

EU-Hof: Airbnb is een informatiedienst en geen vastgoedbedrijf Nieuws van 19 december 2019

Amsterdam toont op kaart waar gemeente data verzamelt - update Nieuws van 1 maart 2019

Gemeente Amsterdam doorzocht inhoud Facebookprofielen hangjongeren Nieuws van 18 augustus 2018

AP: Amsterdam had jongeren moeten informeren over dataverzameling op Facebook Nieuws van 17 mei 2018

Meer producten en artikelen

Privacy Amsterdam Beveiliging Nederland

IT-banen

Meer vacatures

Reacties (41)

-Moderatie-faq

Wijzig sortering

unfold 13 december 2018 00:29

Ik zeg altijd: anonimisering bestaat eigenlijk niet.

Je kunt alleen zeggen: "het is waarschijnlijk moeilijk terug te herleiden voor een X periode".

Als je maar genoeg datasets over elkaar heen legt dan kun je verrassend vaak terug herleiden wie iemand is.

Stel dat je zegt: "er zijn drie mensen in Terneuzen met blaaskanker, maar we zeggen niet welke". Dan is die dataset technisch gezien genanonimiseerd. Maar koppel die dataset aan andere datasets, bijvoorbeeld over facebook likes van mensen in Terneuzen. Dan is het feit at er 3 mensen met blaaskanker zijn ineens erg nuttig om je zoek algoritme in te stellen. Zelfs de meest geanonimseerde data kan je helpen bij het afbakenen van je zoekruimte.

Dit is in het verleden al erg vaak gebeurd met geanonimiseerde datasets. Een bekend voorbeeld is een geanonimiseerde Netflix dataset over de films die mensen bekeken. Die kon deels ge-de-anonimiseerd worden door die aan IMDB te koppelen: Anoniem persoon A die op moment X "The Matrix" keek liet dan twee uur later een review achter over die film op IMDB. En zo kon de anonieme persoon gekoppeld worden aan de IMDB gebruikersnaam. En vandaar was het een klein sprongetje naar de echte identiteit.

Dat waren slechts 2 datasets.

Stel je nu voor dat je een gemiddelde databroker bent met absurd veel data, of Google. Dan is dit een peulenschil. Des te meer data er lekt en rondzingt, des te fragieler wordt anonimisering.

Verdere bronnen:
https://www.cs.utexas.edu/~shmat/shmat_oak08netflix.pdf
En ook kritiek:
https://www.ftc.gov/sites...06-00097/544506-00097.pdf

[Reactie gewijzigd door unfold op 22 juli 2024 23:28]

Verwijderd 12 december 2018 18:48

Zeer bekend verschijnsel. Bij mij op mijn werk is één van de eerste dingen die we mensen leren die ook maar enigzins met gevoelige data werken, dat dat niet makkelijk is.

Er zit altijd wel een josti (m/v) tussen die gevoelige data meent te kunnen censureren met balkjes en dan de fout in gaat.

Verwijderd @Verwijderd • 12 december 2018 19:29

Pfff eindelijk een tweaker die lijkt te praten uit de praktijk. Het is verdomd moeilijk om iedereen in een bedrijf dit soort dingen uit te leggen. Ik denk dat menig tweaker niet beseft zal hebben dat je met een zwart vlakje in een PDF file de originele tekst niet weghaalt. Natuurlijk zullen tweakers om het hardst oepen dat ze dit NOOOOIT zullen doen doet het gemiddelde niveau van spelling iets anders vermoeden.

Dit soort beveiliging is een kwestie van hele lange adem. Wij hebben iemand in dienst die retroactief checkt (dus wat al naar buiten is gegaan) en je houd soms je hart vast. Zeker jonge mensen, net uit school zijn bijzonder naïef, bij een marketing opleiding leren ze je wel om een pers bericht te schrijven maar niet om alle meta data te verwijderen. Ik herinner me al te goed dat er een keer een DOCX naar buiten is gegaan met mijn nogal sterke commentaar op sommige taalvormen. Je hoefde maar op de Word review button te drukken en daar was mijn 'zijn jullie nu helemaal van god los' te zien.

Ik zou ze geen 'josti' noemen (om meerdere redenen, om te beginnen omdat het naar diverse groepen uitermate respectloos is) maar gewoon mensen die dingen niet weten. Er was een tijd dat jij dit ook niet wist.

Horatius @Verwijderd • 12 december 2018 21:45

Als je hem print als pdf file, wordt het dan niet een soort foto? Nooit geweten dan het dan nog steeds een tekstbestand bleef als je hem print.

vrow @Horatius • 12 december 2018 23:29

Inderdaad, als je een PDF hebt, daar balkjes op doet, en hem middels een PDF printer opnieuw 'print', dan worden de balkjes permanent en is de tekst weg.
Maar doe je in je PDF-programma gewoo Opslaan Als..., dan blijft de tekst erachter gewoon zichtbaar. Meestal kan een ander ook gewoon het zwarte balkje verplaatsen.

mjl @vrow • 13 december 2018 01:10

Hangt er alsnog vanaf hoe je het ‘print’. Een handige tool als Adobe Acrobat pro print dan alle elementen naar de pdf, dus schiet je er niks mee op. Alleen als je in de export/print settings aangeeft dat het een picture/bitmap moet worden zou het kunnen werken zoals in dit geval bedoeld.

Al eens meegemaakt dat een leverancier een ppt had geprint met een dataset van een andere klant. In de ppt een paar balkjes eroverheen gezet maar de data was in de pdf zo zichtbaar te maken door de balkjes weg te halen (en de zogenaamd onleesbaar gemaakte (heel kleine fonts van 1x1 pixel) data copy paste te doen dat je de originele getallen had).

We hebben maar aangegeven dat we hoopten dat ze met inze data secuurder om zouden gaan ...

Jantimon @Horatius • 12 december 2018 22:27

In PDF kun je gewoon tekst selecteren als deze als tekst daarin is opgeslagen. Dat is juist een voordeel van PDF's (o.a. filesize en de mogelijkhwid tot ctrl + C). Dan moet je natuurlijk niet met zwarte blokjes gaan klooien. Pas als je dit daadwerkelijk fysiek uitprint dan is het geanonimiseerd, maar dan heb je natuurlijk altijd iemand die het toch online zet.

Basszje @Verwijderd • 13 december 2018 09:20

Er blijft snel data achter in een PDF inderdaad. Ook als je bijvoorbeeld een image gebruikt als 'balkje' en je die over de tekst heen dropt kan je in sommige gevallen simpelweg de image-layers weer verwijderen uit de PDF. Je moet er echt voor zorgen dat de tekst fysiek weg is uit het document.

Tweede grap is dat er vaak metadata achterblijft in het document, zoals informatie van de organisatie / medewerker / orginele titel en allemaal andere informatie die soms wel eens gevoelig kan zijn.

Bij Word Docs heb je inderdaad soms nog de geschiedenis van opmerkingen in het document of wat er bijgewerkt is.

all_by_myself @Verwijderd • 13 december 2018 10:22

Weet je wat het probleem is? IT'ers zijn over het algemeen niet zo goed in 'het hebben van een lange adem'... comes with the territory...

Maar ik herken heel goed wat je aangeeft. Noem mij naïef, maar ik had gehoopt met een 'security awareness' training medewerkers de goede kant op te duwen,... maar ik zie af en toe tenenkrommende dingen gebeuren.

Zen is het toverwoord hierin,....

Cerberus_tm

@Polydeukes • 12 december 2018 21:14

Ironie is het tegenovergestelde zeggen van wat je meent, aannemend dat je publiek dit weet. Dan is er nog dramatische ironie, maar dat is een uitzondering.

Polydeukes @Cerberus_tm • 12 december 2018 21:22

Je hebt gelijk. Ik bedoelde het verdekt te benoemen als hypocriet, Tu quoque of jij-bak.

OMEGA_ReD @Verwijderd • 13 december 2018 04:45

Wat ik meestal doe is een PDF bestand openen met Illustrator, de tekst aanpassen/verwijderen en PDF opslaan. Zo is de data ook echt uit het bestand, niet verstopt onder een zwart balkje en behoud het bestand zijn "digitale eigenschappen" (wat kom te vervallen bij print & scan).

Je moet dan alleen wel de juiste fonts geïnstalleerd hebben.

Webgnome 12 december 2018 18:09

Serieus.. dus gewoon een kwestie van de achtergrond kleur zwart maken en dan maar hopen dat iemand niet door had dat je kon kopieeren en plakken? Volgende keer gewoon de letters vervangen door puntjes?

Diamondo25

@Webgnome • 12 december 2018 18:18

PDF's zijn niet makkelijk te manipuleren. Daarom zijn dingen die redacted zijn meestal ook hard redacted en opnieuw ingescand. Dit gaat meestal beter dan op software te vertrouwen...

Soldaatje @Diamondo25 • 12 december 2018 18:23

Ja, maar wat ik doe met pdf de tekst selecteren en zwart maken en dan opnieuw afdrukken als pdf, dan werkt het meestal wel.

stutrecht @Soldaatje • 12 december 2018 19:01

Wat ik altijd doe op kantoor (werk zelf met privacygevoelige informatie) is in PDF een zwarte balk over de tekst heen trekken. Daarna print ik het document en scan ik het in. Op die manier is de gelakte tekst niet te achterhalen.

Soldaatje @stutrecht • 13 december 2018 02:18

Wij mogen niks printen (of scannen) omdat de printer een geheugen heeft of zoiets en dat weer een risico kan zijn. Ook moet er weer extra papier vernietigd worden door een bedrijf dat in de zoveel keer de bakken komt legen en dat is ook niet goedkoop. Dus de digitale manier heeft dan wel de voorkeur. Ook scheelt het tijd om niet naar de printer te hoeven lopen.

Verwijderd @Soldaatje • 12 december 2018 18:46

Moet je wel de goede driver hebben (of juist een slechte driver, net hoe je het bekijkt).

Mijn PDF printer sluist bestaande PDF bestanden gewoon zo door naar een nieuw PDF bestand

kameleon20 @Diamondo25 • 12 december 2018 18:30

Zwarte stift er over...

friend @kameleon20 • 12 december 2018 18:47

Ook fout, soms toch nog te achterhalen door kleur/helderheid/contrast niveaus te variëren.
Beter met speciale tape afplakken en opnieuw scannen of origineel bewerken, zodat gevoelige gegevens er gewoon niet zijn, of software gebruiken hier hiervoor speciaal gemaakt is.
Dit is gewoon weer een individuele ambtenaar die het op z'n eigen manier doet. Hiervoor moeten richtlijnen zijn die nagevolgd moeten worden.

Golodh @kameleon20 • 12 december 2018 22:41

Sorry, maar dat gaat niet meer: bijna mijn hele scherm is al zwart gestift.

mjl @Golodh • 13 december 2018 01:12

Ok, lol

ToolkiT @Golodh • 13 december 2018 10:52

gewoon type-ex gebruiken om het weer wit te maken

HMC @Webgnome • 12 december 2018 18:18

[spoiler]Een soort spoiler-tag?

[/spoiler]

Werkt alleen op GoT.

[Reactie gewijzigd door HMC op 22 juli 2024 23:28]

Verwijderd @Webgnome • 12 december 2018 18:51

Fouten worden gemaakt, ze zijn hier opgemerkt, excuses gemaakt, het document verwijderd.
Vroeger ging dat doordat iemand een doos met gegevens ergens achterliet (vaak in de tram!), nu op een website. Er is allemaal niet zoveel nieuws.

Maar het makkelijk anoniem schieten door tweakers word wel vermoeiend. Als je mij beloofd dit soort dingen absoluut te verhinderen in mijn bedrijf neem ik je graag in dienst en betaal je vorstelijk. Maar dan moet je wel; garanderen dat er nooit meer een fout als dit gemaakt word.

friend @Verwijderd • 12 december 2018 20:21

Nee, dit is geen 'Fouten worden gemaakt' situatie. Elke organisatie moet tegenwoordig in beeld hebben welke privacy-gevoelige informatie ze hebben en hoe ze hiermee omgaan. Bij het publiceren van stukken zijn extra risico's. De gemeente moet hiervoor een waterdichte procedure hebben om deze stukken te anonimiseren, zonder dat er maar enig risico kan bestaan (bij het volgen van de procedure uiteraard) dat er gevoelige informatie naar buiten komt.
Dit is geen 'jammer, volgende keer beter', maar een overtreding van de AVG die zelfs strafrechtelijke gevolgen kan hebben.

regmaster @friend • 12 december 2018 20:51

Joh, dit soort fouten zijn ook gewoon fouten en er is geen enkele toezichthouder die voor dit soort zaken boetes gaat uitdelen, tenzij het gaat om structurele nonchalance of opzettelijk negeren van voorschriften. De ambtenaren weten verdomd goed dat ze met gevoelige gegevens omgaan maar helaas gaat er soms weleens wat fout en dan ontstaan dit soort 'blunders'. Vaak zit hier ook veel politieke druk achter waardoor mensen worden opgejaagd waarbij checks vergeten of zelfs overgeslagen worden. Er zijn procedures maar mensen zijn ook maar mensen en wat is er nu helemaal aan de hand? Het gaat om de impact op de persoonlijke levenssfeer. Het gaat hier om mensen die zelf hun huis verhuren en klagen over de toegestane termijn. Niet goed dat hun gegevens te achterhalen zijn maar laten we wel een beetje realistisch blijven. Er vallen geen doden of de mensen dreigen niet gelyncht te worden. Ik ben absoluut voorstander van de AVG en het kan me niet streng genoeg om de persoonlijke levenssfeer van mensen te beschermen maar soms zijn we wel een beetje heel erg aan het doorslaan. Als het nu om gegevens van mensen zou gaan die geklaagd zouden hebben over een eigenaar van een airbnb dan zou het risico groter zijn geweest. De AVG is ook riskbased voor zover mensen dat vergeten en er moet heel goed naar de risico's gekeken worden die er zijn voor de persoonlijke levenssfeer en dat risico is hier verwaarloosbaar. Het zijn ook geen bijzondere persoonsgegevens dus ook daar zit geen risico. Als ik de gemeente was zou ik de mensen een excuus brief sturen en een bloemetje of een cadeaubon voor de 'geleden schade'.

friend @regmaster • 12 december 2018 21:30

Ik zie niet in waarom de procedures voor deze publicatie (waarbij blijkbaar geanonimiseerd moest worden) anders zouden moeten zijn dan een publicatie met minder of meer privacygevoelige informatie. En als de diverse afdelingen dat (blijkbaar) zelf niet kunnen, dan kan dit bv. gedaan kunnen worden door een afdeling (meer-ogen principe) die de documenten nog eens bekijkt op mogelijke lekken en of de nodig procedures zijn gevolgd voor werkelijke publicatie. Als je dodelijke gevolgen (of in die richting) als grens gaat aanhouden, dan zou er bijna nooit consequenties aan dergelijke acties zijn. Er is gewoon geen ondergrens aan gevoeligheid om maar geen of eigen regels toe te passen, dat is gewoon vragen om problemen. Maak het niet te complex (bv. een checklist/flow diagram), maar zorg wel dat altijd de juiste procedures gevolgd worden en sla dat bij elke nieuwe en oude medewerker er maar goed in. Zeker bij een organisatie als een gemeente, waar je als burger er niet omheen kan dat daar privacygevoelige informatie van je is opgeslagen en wordt gebruikt.

CivLord

Nederland

@friend • 13 december 2018 10:53

Omdat er altijd een afweging gemaakt moet worden tussen perfect en peperduur en slecht en goedkoop.
Grondige dubbelchecks kosten tijd. Dat betekent dat ander werk blijft liggen of dat er meer mensen aangenomen moeten worden. Meer mensen aannemen betekent minder geld voor andere zaken of hogere gemeentelasten voor bewoners.
Elke situatie in de realiteit is het resultaat van een afweging waarbij geprobeerd wordt iets goed genoeg te krijgen waarbij fouten zo veel mogelijk voorkomen worden en de gevolgen daarvan zo klein mogelijk zijn.

friend @CivLord • 13 december 2018 11:53

Voor kleine organisaties kan ik daar nog wel gedeeltelijk in meegaan, maar bij organisaties met honderden/duizenden werknemers kan het juist tijdsbesparend zijn dat er een gespecialiseerde afdeling is die een laatste check doet op externe publicaties en als vraagbaak kan dienen. Ze kunnen de kennis en juiste tools gebruiken om snel documenten te scannen. Ook bij de basis zouden gevoelige velden in documenten standaard al als privacygevoelig kunnen worden bestempeld, waardoor tijdsbesparing en minder kans op fouten kan worden gerealiseerd. Het zit hem alleen in de wil van de organisatie hoe ver ze hierin willen gaan, niet of het peperduur is of goedkoop, meestal het tegendeel zelfs, gezien de inefficiëntie die vaak in 'goedkope' organisaties zit.

[Reactie gewijzigd door friend op 22 juli 2024 23:28]

slijkie 12 december 2018 17:58

Die blur op de foto van AT5 is ook relatief makkelijk weg te halen. Maargoed.

Verwijderd @slijkie • 12 december 2018 19:20

Laat dan eens zien wat daar staat? Ik kon er met Photoshop geen soep van maken maar geef graag toe dat ik geen held ben in die software.

slijkie @Verwijderd • 12 december 2018 19:26

Nee, lijkt mij niet slim om dat publiek te gaan posten; tip: github

vrow @slijkie • 12 december 2018 23:33

Klopt, Github is inderdaad een afgeschermd iets.. Kom op zeg, je kunt hier heus wel een tooltje noemen!

Stefandepefan @slijkie • 12 december 2018 19:35

Heb je dat al gemeld bij de redactie van AT5?

Mooi dat ze dezelfde fout maken op die site (of zou dit screenshot zijn geleverd door de persoon die het probleem heeft ontdekt).

Al met al een grove fout, wat weer eens laat zien wie de zwakste schakel is (de mens dus).

Technomania

12 december 2018 18:16

Nico van Gog, die de fout ontdekte, claimde het gezien te hebben door de manier waarop het zwarte blokje in de tekst staat.

...

Data-analyst Nico van Gog ontdekte de fout. 'Het viel meteen op hoe het zwarte blokje gekaderd is ten opzichte van de regeltekst', vertelt hij.

Bron: https://www.at5.nl/artike...-airbnb-klagers-zichtbaar

Verwijderd 12 december 2018 18:54

Ongelofelijk. Kopieer/plak dan de gehele tekst van het bezwaarschrift, dus behalve naam en adres, in een nieuw document ofzo.

[Reactie gewijzigd door Verwijderd op 22 juli 2024 23:28]

dwizzy

13 december 2018 10:25

Dit is niet de eerste keer dat de gemeente Amsterdam deze fout maakt. Mij staat bij dat een paar jaar geleden de gegevens van een tiental burgers ook op straat lagen omdat er een balkje over de namen (en volgens mij ook bedragen?) zat.. kan het niet terugvinden.

denkster 13 december 2018 16:34

Beetje off topic, maar misschien nuttige tip:
Met Libre office kan je pdf's bewerken op zo'n manier dat het origineel niet is terug te herleiden.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (41)

Sorteer op:

Weergave: