Onderzoek: individuen in Australische open dataset zijn opnieuw te identificeren

Een groep wetenschappers van de universiteit van Melbourne hebben met een openbare database met medische gegevens de identiteit van verschillende mensen kunnen herleiden, nadat de database was ontdaan van identificerende gegevens.

De wetenschappers waarschuwen dat het verwijderen van die gegevens niet voldoende is als de database gedetailleerde gegevens over personen bevat, aldus The Register. In de bijbehorende paper schrijven de auteurs dat het opnieuw identificeren van personen in de dataset mogelijk is voor 'iedereen met de technische vaardigheden van een student computerwetenschappen'. Bij de dataset ging het om medische gegevens van 2,9 miljoen Australiërs die als open data zijn gepubliceerd door het ministerie van Volksgezondheid.

De database bevat gegevens over patiënten, zoals betaalgegevens, recepten en medische dossiers. Daarbij heeft elke patiënt een versleuteld identificatienummer, en zijn geboortedatum en geslacht gekoppeld, aldus de onderzoekers. Daarnaast waren alle behandeldata willekeurig gewijzigd binnen een maximale periode van twee weken voor of na de behandeling. Daarom is de data niet volledig geanonimiseerd, maar gaat het volgens de wetenschappers om de-identification.

Het onderzoek toont volgens hen aan dat het niet moeilijk is om de identiteit van personen in een dergelijke dataset opnieuw te achterhalen. Zo waren ze in staat om zeven bekende Australiërs te identificeren op basis van publiek beschikbare gegevens. De onderzoekers zeggen dat een kwaadaardige partij ook andere, misschien uitgelekte, databases kan combineren om meer personen te identificeren. Daardoor zou een 'sterke database' van nu in de toekomst wellicht meer informatie blootgeven in combinatie met nieuwe gegevens.

Ten slotte schrijven de wetenschappers dat hun bevindingen geen op zichzelf staande resultaten zijn, maar dat al langer duidelijk is dat het opnieuw identificeren van individuen in grote datasets tot de mogelijkheden behoort. Ze vermelden dat er verschillende aanbevelingen bestaan om dit soort gegevens op een veilige manier te publiceren. Daarbij verwijzen ze onder meer naar een EU-rapport dat vorig jaar uitkwam. Volgens The Register is in Australië momenteel een wet in de maak die onderzoek naar heridentificatie van individuen in datasets verbiedt.

IT-banen

Reacties (35)

Anonymoussaurus 18 december 2017 13:48

Voor den luie mensch: hier de direct-link naar de whitepaper: https://arxiv.org/ftp/arxiv/papers/1712/1712.05627.pdf

himlims_ @Anonymoussaurus • 18 december 2017 13:51

de EU had zon document; https://www.europeandatap...oncerns-when-opening-data

Anonymoussaurus @himlims_ • 18 december 2017 14:00

Die staat nu hier: https://www.europeandatap...rivacy_v1_final_clean.pdf

pe0mot 18 december 2017 13:52

Dus als de overheid nalaat om goed te anonimiseren, wordt er een wet aangenomen die analyses op de publieke dataset verbiedt.
Snap ik het niet, of zijn ze echt zo dom om te denken dat criminelen zich door een wet laten tegenhouden.

Verwijderd @pe0mot • 18 december 2017 13:56

Een wet is niet zozeer bedoeld om iets te voorkomen, maar om het aan te kunnen pakken als er misbruik wordt gemaakt. Een wet tegen moorden stopt het moorden niet, maar maakt het wel mogelijk om een moordenaar te veroordelen (en in dit voorbeeld denk ik dat er niet veel mensen maar niet gaan moorden omdat het strafbaar is, de meeste mensen zouden dat sowieso niet doen).

latka @Verwijderd • 18 december 2017 14:00

Een beetje symptoombestrijding dus. Als de oorzaak er niet is, dan is de wet niet nodig. Ergo: stop met de data verzamelwoede en ga het vooral niet opnieuw delen. Met de kennis van vandaag wellicht nog geen probleem, maar morgen heeft iemand een briljant idee en went dezelfde data aan voor een veel enger doel. We roepen overal en altijd dat het niet handig is om al je eieren in een mandje te doen, maar alle data op een hoop gooien is geen probleem.

verleemen @latka • 18 december 2017 14:44

Ik denk dat die datasets bedoeld zijn als input voor machine learning. Als je iedere keer helemaal bij t begin moet beginnen vorder je natuurlijk niet. Dat ze dat doen met zoiets gevoeligs als medische data is natuurlijk not done en daar heb je gelijk in. Hoewel ik denk dat het in dit geval juist werd gedaan omdat men vermoede dat dit gevaar bestond en daar zekerheid over wilde hebben.

Aan de andere kant vraag ik me af of dat verbieden van dit soort zaken zoveel zin heeft. Zelfs als dat systeem niet op t net staat aangesloten kunnen kwaadwillenden vast wel een manier bedenken om er toch bij te komen. En hoe zit het met fora’s waar menigeen discussieert over hun ziektes en problemen. Stel kwaadwillenden laten een deep learning algoritme los op de logs van chatboxen van de laatste 20 jaar.

Of ook leuk, kunnen we uit de twitter berichten van Donald trump analyseren hoe het me zijn gezondheid zit? Die zijn namelijk helemaal niet beveiligd, iedereen kan dat lezen n dus kan een computer dat ook. Als Facebook al aan je manier van posten kan zien dat je zwanger bent omdat je naar fotos van haring en augurken kijkt dan denk ik dat we op dat gebied nog wel t een en ander gaan zien gebeuren.

Heb je je wel eens afgevraagd hoeveel gevoelige gegevens gefilterd kunnen worden uit de posts die jij of ik op tweakers plaatsen? Als jij 4 jaar geleden de naam van je kat hebt genoemd en 2 jaar geleden het over de boom van je buren hebt gehad waar de bladeren in jou tuin vallen hebben ze misschien al genoeg om je adres te achterhalen.

[Reactie gewijzigd door verleemen op 24 juli 2024 08:29]

latka @verleemen • 18 december 2017 16:05

Er is een belangrijk verschil tussen data die ik zelf deel en data die ik verplicht moet afgeven/geregistreerd wordt en dan vervolgens zonder mijn EXPLICIETE toestemming gedeeld wordt. Zeker de overheid die op een berg aan data zit zou toch onderhand beter moeten weten dat ze dit niet goed kunnen doen. Dus data delen: ja, data voor me laten delen: nee.

robvanwijk

Privacy

@verleemen • 18 december 2017 17:49

Ik denk dat die datasets bedoeld zijn als input voor machine learning. Als je iedere keer helemaal bij t begin moet beginnen vorder je natuurlijk niet. Dat ze dat doen met zoiets gevoeligs als medische data is natuurlijk not done en daar heb je gelijk in.

Hoe wou je onderzoek doen (niet noodzakelijkerwijs machine learning, elke vorm van wetenschappelijk onderzoek) op medisch gebied zonder een dataset van medische gegevens? Deze data komt nu in het nieuws omdat ie niet goed geanonimiseerd is, maar het zou me niets verbazen als deze zelfde data ook is gebruikt in een heleboel medisch onderzoek (met een realistische kans dat daarmee levens gered zijn). Het probleem is niet dat deze gegevens openbaar zijn, het probleem is dat ze alsnog herleidbaar zijn naar specifieke personen.

Hoewel ik denk dat het in dit geval juist werd gedaan omdat men vermoede dat dit gevaar bestond en daar zekerheid over wilde hebben.

Bedoel je dat deze gegevens gepubliceerd zijn als "uitdaging" om te kijken of het lukt om mensen te identificeren? Dat is wel heel erg vergezocht.

Aan de andere kant vraag ik me af of dat verbieden van dit soort zaken zoveel zin heeft.

Nee, want de Australische overheid kan dit alleen verbieden op Australisch grondgebied en misschien voor mensen met een Australisch paspoort (zelfs als ze in het buitenland werken). Ik zie niet in hoe een Nederlandse onderzoeker aan een Nederlandse universiteit (die geen plannen heeft om zijn werk op een conferentie in Australië te presenteren) zich iets hoeft aan te trekken van zo'n verbod.

kunnen we uit de twitter berichten van Donald trump analyseren hoe het me zijn gezondheid zit?

Niet al te best. Al is dat gebaseerd op gezond verstand, niet kunstmatig verstand...

robvanwijk

Privacy

@Verwijderd • 18 december 2017 18:07

Een wet tegen moorden stopt het moorden niet

Zinloze vergelijking, hoe vaak staat iemand met een mes in zijn hand te denken of ie een x% pakkans op y jaar cel ervoor over heeft voordat ie zijn slachtoffer doodsteekt? Wetenschappers zullen namelijk wél van tevoren bedenken of ze bepaald onderzoek dusdanig belangrijk vinden dat ze er de wet voor willen breken om hun werk te kunnen doen.

Overigens is dit de paragraaf uit de bron waar het vermoedelijk over gaat:

quote: https://www.theregister.c...eaten_with_a_dash_of_sql/
who proposed legislation (not yet passed) to criminalise unauthorised research into re-identification

(emphasis added)
Als dat precies is wat ze willen doen dan is het idee misschien niet zo absurd als op het eerste gezicht lijkt. Elk legitiem onderzoek kan immers zo'n "authorisation" aanvragen. Hoewel je er criminelen niet mee tegenhoudt kun je de twee meest voor de hand liggende misbruikers wel voorkomen: zorgverzekeraars en roddelpers. In beide gevallen valt er flink geld te verdienen, dus je zult enorm hoge boetes moeten instellen om ze te "ontmoedigen" maar het zijn bedrijven, die de Australische overheid gewoon aan kan pakken als dat nodig is.

supersnathan94 @robvanwijk • 18 december 2017 22:28

Maar ff serieus. Stel dat een zorgverzekeraar zoiets zou doen. Denk je niet dat ze daar dan hoe dan ook wel een manier voor gaan vinden omdat via een omweg alsnog voor elkaar te boksen? Zo moeilijk lijkt me dat niet te zijn.

robvanwijk

Privacy

@supersnathan94 • 19 december 2017 00:41

De situatie die ik bedoel is deze:

Pietje Puk wil een zorgverzekering afsluiten.
De zorgverzekeraar probeert of ze Pietje Puk kunnen vinden in de dataset.
Zo niet, dan doen ze gewoon het standaard aanbod (niks aan de hand).
Zo ja, dan krijgt ie een hogere premie (hoeveel hoger is afhankelijk van welke "dure" ziektes ie heeft). Of misschien de-anonimiseren ze iemand die bij elke controle in perfecte gezondheid is en krijgt ie een net iets lagere premie in een poging een "goedkope" patiënt bij de concurrent weg te houden. Dit is illegaal.
Iemand die bereid is er flink wat tijd in te stoppen (een medewerker van een consumentenorganisatie bijvoorbeeld) kan echter aantonen dat dat gebeurt. Ook de programmeurs die het gebouwd hebben kunnen de boel verklappen (hetzij omdat ze hun mond voorbij praten, hetzij als klokkenluider). En dan heeft die zorgverzekeraar iets uit te leggen...

Ik weet niet of het in Australië toegestaan is om mensen verschillende premies te laten betalen afhankelijk van hun medische voorgeschiedenis. Als dat verboden is, dan voegt dit voorstel weinig toe (het doel is al verboden, dus dan maakt het weinig uit of je de methode ook nog verbiedt, toch?). Maar als het wel toegestaan is, dan is het misschien wel een goed plan om te zeggen "ja, het mag, maar niet op deze manier".

supersnathan94 @robvanwijk • 19 december 2017 08:21

Die zorgverzekeraar heeft niets uit te leggen. Ik kan nu al vier scenario’s bedenken die perfect vailde zijn en als bijzaak hebben dat ze van mensen kunnen weten hoe en wat (terwijl dat stiekem dus de hoofdzaak is) dus het is vrij eenvoudig om de mensen die het werk leveren te overtuigen van de goede bedoelingen.

robvanwijk

Privacy

@supersnathan94 • 19 december 2017 13:27

Ik kan nu al vier scenario’s bedenken die perfect vailde zijn en ...

... als je die even zou noemen wordt je punt een stuk sterker!

Edit: dankjewel voor de toevoeging.

[Reactie gewijzigd door robvanwijk op 24 juli 2024 08:29]

supersnathan94 @robvanwijk • 19 december 2017 13:35

1. De data buiten Australië analyseren. Lijkt perfect valide volgens het huidige voorstel
2. Een bedrijf opzetten wat met machine learning aan de gang gaat en die data gebruiken om een voorspellend model te maken (waarbij je niet de data de-anonimiseert).
3. Datzelfde als hierboven, maar dan met de huidige data en die koppelen met de ingediende verzekeringsgegevens (want dat is gewoon 1-op-1 koppelwerk). Dit is geen onderzoek naar het heridentificeerbaar maken van die personen aangezien je de anonieme data alleen maar koppelt aan jouw eigen niet anonieme data ter "verificatie"
4. Algoritme schrijven dat op basis van parameter input (gewone gegevens die je altijd moet aangeven) de match maakt met een paar gegevens in de DB en dan uit de volledige bijbehorende set een conclusie trekt.

Het punt is dat het inzetten van de data voor dit soort doeleinden helemaal niet strafbaar gaat worden. Het onderzoek naar alleen het herleidbaar maken zoals hierboven gedaan is is dat wel. Dat besteed je uit aan een extern niet nationaal bedrijf en het resultaat kan dan zijn welke parameters je moet gebruiken om de koppeling wel te kunnen maken. Alles wat je daarna doet, lijkt perfect valide te zijn.

Beilos @robvanwijk • 19 december 2017 07:12

De dataset is publiek en kan dus ook in een bananen republiek geanaliseerd worden. Resultaten terug naar de zorverzekeraar in Australie en klaar. De wet verbied de analyse niet het gebruik van het resultaat van die analyse voor zover ik kan zien.

matroosoft @Verwijderd • 18 december 2017 14:01

Om jouw analogie wat verder uit te werken: de overheid zou in jou geval het bezit van wapens niet verbieden, alleen het verkeerde gebruik ervan.

JackBol @matroosoft • 18 december 2017 14:38

Wat volgens mij ook de situatie is.

Ik kan (en jij ook als je een doorsnee inwoner bent) in Nederland namelijk gewoon een wapenvergunning krijgen en een wapen kopen.

JackBol @pe0mot • 18 december 2017 14:36

Snap ik het niet, of zijn ze echt zo dom om te denken dat criminelen zich door een wet laten tegenhouden.

Het grootste gevaar van de-anonimiseren zijn in dit geval niet de criminelen, maar de zorgverzekeraars. En ja, zie laten zich wel degelijk tegenhouden door een wet.

supersnathan94 @JackBol • 18 december 2017 22:30

Er zijn genoeg omwegen om wel degelijk op een legale manier dan alsnog autorhisatie te krijgenvia een extern bedrijf.

unfold @pe0mot • 22 december 2017 11:46

Anonimisering bestaat eigenlijk niet. Wat je eigenlijk moet vragen is "hoe lang kunnen we het anonimiseren".

Als je genoeg data bij elkaar sprokkelt dan wordt elk stukje data, hoe vaag ook, toch weer nuttig. Als je een heleboek grove visnetten over elkaar heen legt, dan kun je uiteindelijk toch best fijnmazig filteren.

Zelfs de allergrofste visnetten dragen een steentje bij. Voor degenen die begrijpen hoe entropie werkt: het is een nuttige lens om dit probleem door te begrijpen.

Voor wie meer wil leren:
-Bekende voorbeelden zijn het AOL en het Netflix schandaal.
-K-anonimity is ook een nuttig concept, van professor Latanya Sweeney. Deze bad-ass dame de-anonimiseerde als student gevoelige medische data, en schreef haar Phd vervolgens over hoe anonimisering wetenschappelijk aangepakt kon worden. Een vakgebied was geboren.

Gizmo_mokum 18 december 2017 14:04

http://www.theregister.co...eaten_with_a_dash_of_sql/

En inderdaad, er mag straks niet meer gecontroleerd worden of zo’n database inderdaad niet meer te de-anonimiseren is.
Gevaarlijke beweging.

kozue @Gizmo_mokum • 18 december 2017 14:31

Dat mag alleen niet in Australië, aangezien ze alleen daar die wet hebben. Verplaats je data naar de VS of EU en analyseer het daar. Probleem opgelost.

Verwijderd 18 december 2017 13:57

Nu nog machine learning aan social enginering + diverse (Medische) databases koppelen en je hebt een leuke moneymaker.

En ja ik weet dat het niet zo simpel is als het lijkt, echter als ik kijk naar de schrikbarende snelheid waarmee data hackers zich ontwikkelen en de tools die zij gebruiken.(Praktisch) toegepaste kennis is macht 101.

Verwijderd @Verwijderd • 18 december 2017 14:11

Het valt nog niet mee om daar meteen een verdienmodel aan te koppelen hoor.

Rexus @Verwijderd • 18 december 2017 16:11

Is het niet zorgelijk dat de grootste vraag is of er een markt voor is ipv of het technische echt zo haalbaar is?

Verwijderd @Rexus • 19 december 2017 07:18

Om kort te zijn ja. Hoe meer informatie er over 1 persoon te verkrijgen is hoe meer het waard is. Ik verdenk zelfs serieus bedrijven die bijvoorbeeld betalingsinformatie verzamelen en deze doorverkopen als rating/pakket ook medische informatie verzamelen. Afnemers kunnen dan bijvoorbeeld verzekeringsmaatschappijen zijn of de farmaceutische industrie ten behoeve van beoordeling levensverzekering tot marketing voor bepaalde medicatie. En mocht dat verzamel bedrijf negatief in nieuws komen of betrapt worden dan is dat collateral damage en in ergste geval wordt bedrijf opgedoekt echter de verzamelde informatie blijft bestaan.

En mocht je denken dat gebeurd niet of dat is niet ethisch, ik heb in al mijn jaren wel gemerkt dat ethiek bijzonder snel overboord wordt gegooid als men extra kan verdienen. Nu moet ik wel toegeven dat ik wel zeer cynisch qua persoonlijkheid ben hierin, echter mijn cynisme is tot op heden nog altijd minder erg gebleken dan de werkelijkheid.

Ter info in Nederland worden alleen de namen (Voor en achternaam en BSN nummer anoniem gemaakt (niet verwijderd) van medische data. De truc hier is om de dataset te pakken te krijgen, echter veel medische data wordt digitaal bewaard als pdf (niet pdf/A) dus doorzoeken is wat lastiger (Eerst OCR met medische scanpakket addon).

Verwijderd @Verwijderd • 18 december 2017 14:21

Een medische dataset is volgens de mensen die er verstand van hebben geld waard op de zwarte markt, zeker als er personen aan gekoppeld kunnen worden. Jelena Milosevic, bijnaam de hackende verpleegkundige noemt in haar presentaties 500 dollar als basisprijs voor een dataset. Hoe groot deze set dan is dat laat ik even in het midden.

AndromedaM31 @Verwijderd • 18 december 2017 15:41

Privacy bestaat in de toekomst niet meer.

supersnathan94 @Verwijderd • 18 december 2017 22:35

Nouja opzich heeft Australië wel iets bedacht tegen zwarte marktplaatsen voor dit soort data. Gewoon zelf de data gratis beschikbaar stellen. $_/-\o_$

Arietje 18 december 2017 14:19

Zeer apart. Medische gegevens wordt gezien als een van de meest gevoelige data die je als persoon kan hebben. En juist dit wordt in een grote database met wat pogingen tot identiteit verwijderen de wereld in geslingerd?

alexiooo @Arietje • 18 december 2017 21:07

Het zal je verbazen. Laatst nog een praatje bijgewoond van een Philips vertegenwoordiger, en ze zijn al druk bezig om een cloud te maken voor al je fitbit / smartphone, maar ook zeker ziekenhuisdata. Uiteindelijke doel is om op basis van die data te kunnen bepalen wie er (waarschijnlijk) een bepaalde ziekte zal krijgen.

Overigens hebben ook zij zon "geanonimiseerde" dataset, weet alleen niet zo snel of dat van Amerikaanse of Nederlandse patiënten was.

supersnathan94 @alexiooo • 18 december 2017 22:39

Ik gok beiden. Om variatie van leefomgeving en gewoontes te kunnen uitsluiten van false positives en dergelijke.

Maar waarschijnlijk ook omdat je dergelijke datasets heel makkelijk kan krijgen via bv Apple met bv healthkit. Hoef je alleen de app te schrijven die de data verzameld. Op dergelijke manieren is het voor de testpersonen ook makkelijker om de data aan te leveren. Daarnaast heeft Philips Healtcare ontzettend veel contacten bij nederlandse ziekenhuizen.

MaartenBW 18 december 2017 13:54

Hier een goed filmpje over 'anonieme' datasets.

https://www.youtube.com/watch?v=puQvpyf0W-M

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (35)

Sorteer op:

Weergave: