Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 33 reacties

Slechts vier ruwe gegevens op basis van metadata afkomstig van creditcardbetalingen zijn voldoende om een persoon te identificeren, zonder dat het gaat om concrete gegevens als naam, adres of creditcardnummer. Dat stellen onderzoekers van MIT.

Op basis van slechts vier basisgegevens, zoals de datum van een transactie en de locatie, zouden de onderzoekers tot 90 procent van de creditcardeigenaren kunnen herleiden. De onderzoekers van MIT maakten gebruik van een database met transacties van 1,1 miljoen houders van een creditcard. Het bestand besloeg transacties over een periode van drie maanden, meldt ZDnet.

Als het bedrag van de creditcardtransacties wordt meegenomen als een van drie metadatasets, zouden volgens de MIT-onderzoekers zelfs nog meer personen geïdentificeerd kunnen worden. Ook bij het 'afzwakken' van de hoeveelheid data of de bekeken periode zouden nog steeds veel personen te herleiden zijn op basis van de ruwe transactiedata, tot gemiddeld 70 procent.

Volgens de onderzoekers blijkt dat zelfs met basale gegevens van creditcardtransacties personen door bijvoorbeeld geheime diensten eenvoudig te herleiden zijn, ondanks dat op het eerste gezicht de anonimiteit gegarandeerd lijkt bij de betreffende metadata. De MIT-wetenschappers stellen dan ook dat het aan de politiek is om te bepalen hoe lang metadata zoals creditcardtransacties bewaard moet worden.

Moderatie-faq Wijzig weergave

Reacties (33)

Tweakers.net artikel is wat onduidelijk. Je hebt namelijk 4 stukken informatie van iemands uitgave patroon nodig van buiten om iemand te kunnen identificeren. Bijvoorbeeld omdat je iemand kent.

Hier het originele artikel van de onderzoekers: http://www.sciencemag.org/content/347/6221/536.full

Wat ik er van begrijp:
- Onderzoekers hebben dataset ontvangen met 3 maanden aan creditcard transacties. Hierin is wel te zien welke transacties dezelfde persoon zijn, maar niet wat zijn persoonsgegevens en creditcard nummer is.
- Vervolgens moet je van buitenaf tenminste 4 stukken informatie hebben van de transacties die iemand met zijn creditcard heeft gedaan. Bijvoorbeeld omdat je iemand kent. Je weet bijvoorbeeld dat een vriend afgelopen dinsdag (item 1) en donderdag (item 2) om 8:00 (item 3) bij starbucks (item 4) iets heeft gekocht. Dan is de kans groot dat je hem uniek kan identificeren in het transactie bestand.
- Vervolgens kan je zien wat hij nog meer heeft gekocht.

[Reactie gewijzigd door JB Zimmerman op 30 januari 2015 12:53]

Wacht: Is dat daadwerkelijk het onderzoek?
Want als ik een lijst heb met transacties en ik weet wanneer iemand iets heeft gekocht, dan is het toch niet verwonderlijk dat je dit vrij nauwkeurig kunt terug herleiden?
Dat is inderdaad het onderzoek.
For example, let’s say that we are searching for Scott in a simply anonymized credit card data set (Fig. 1). We know two points about Scott: he went to the bakery on 23 September and to the restaurant on 24 September. Searching through the data set reveals that there is one and only one person in the entire data set who went to these two places on these two days. |S(Ip)| is thus equal to 1, Scott is reidentified, and we now know all of his other transactions, such as the fact that he went shopping for shoes and groceries on 23 September, and how much he spent.
De publicatie verwijst ook naar een eerder studie / publicatie waar men aan de hand van een mobile dataset en bijvoorbeeld een tweet met locatie en tijd het complete patroon van die bepaalde persoon te herleiden is.
Yves-Alexandre de Montjoye, César A. Hidalgo, Michel Verleysen & Vincent D. Blondel
"Unique in the crowd: The privacy bounds of human mobility"

Het gaat dan ook voornamelijk om het punt, hoe anoniem is een dataset die "geanonimiseerd" is. Juist door die anonieme dataset te linken met andere datasets kan je toch een bepaalde persoon er uit herleiden.
Maar dat is toch niet iets nieuws? Lijkt me vrij logisch en vrijwel iedereen kon de uitkomst van dat onderzoek wel voorspellen.
Tja, dat is wel met meer dingen. Maar je kunt natuurlijk niet zomaar iets beweren zonder bewijs en hopen dat iedereen je gelooft. Als je iets duidelijk wilt maken is er altijd een soort (groot of klein, ingewikkeld of simpel) onderzoek voor nodig.
Dit vind ik al 100x helderder dan het artikel van Tweakers, dank. Inderdaad niet heel opzienbarend, maar wel goed dat het zo uitgebreid bevestigd wordt.
Die lijst bevat echter niet alle exacte gegevens. Het creditcard-nummer zelf is niet bekend, in plaats daarvan wel een ander (voor elke CC uniek) nummer. De datum is wel bekend, maar het tijdstip van de transactie niet, en ook het bedrag is niet exact bekend (wel in welke range het valt). Verder is bekend waar de transactie heeft plaatsgevonden.
Je hebt dus een lijst waaruit je dus niet meer gelijk kunt opmaken wie wat waar gekocht heeft, die dus enigszins ge-anonimiseerd is, en waarvan je je gebruikers wijs zou kunnen maken dat het geen kwaad kan om deze te publiceren (of te verkopen aan de hoogste bieder...).

En ja, dat was het doel van het onderzoek: Een met cijfertjes onderbouwd antwoord geven op de vraag "is zulke 'geanonimiseerde' data (nog steeds) privacy gevoelig?". Het antwoord is blijkbaar: ja.

Als je denkt van "ja, maar iemand moet dan nog steeds 4 of 5 dingen uit mijn betaalhistorie weten om ook de rest te achterhalen", bedenk dan ook dat diegenen die geïnteresseerd zijn, waarschijnlijk voldoende van dat soort "feitjes" al uit hun eigen administratie kunnen halen. De AH weet precies wat jij wanneer in welke van hun winkels betaald hebt, en bijvoorbeeld je verzekeraar weet wanneer jij hoeveel premie betaald hebt, .
Hier ben ik het ook mee eens.

De titel en het artikel suggereert echter dat je ook direct een naampje achter de anonieme gegevens kan plakken.
Al moet ik zeggen dat je het artikel op The Verge ook goed moet lezen om niet zelf de verkeerde dingen te gaan aannemen.
Op The Verge staat een uitgebreider artikel met interessante delen uit een interview met één van de onderzoekers (Yves-Alexandre de Montjoye). Interessant feitje: de database die ze kregen bestond enkel uit transacties in een bepaalde prijs-bandbreedte. Een transactie van een onbekende persoon in de database die bijvoorbeeld precies $3,21 bij Starbucks had uitgegeven, was namelijk nagenoeg direct te herleiden.
Ik vraag me dan nog steeds af hoe ze kunnen herleiden dat ik het was die 3,21 heeft uitgegeven, tenzij ze van te voren wisten dat ik ergens 3,21 heb uitgegeven. Ze kunnen toch mijn bank transactie geschiedenis niet inzien?
Lees het artikel. De Montjoye legt namelijk uit hoe de herleiding plaatsvindt, ook nadat de exacte prijzen zijn weggehaald uit de database:

But this proved a minor stumbling block. When the authors mapped locations, dates, and prices of someone's non-anonymous purchases against the whole database, it was usually easy to find a single, unique pattern. With three points or more, it was virtually a certainty. "You bought a coffee at that coffee shop, and you bought jeans at that shop, and then you bought a pizza," says de Montjoye, by way of example. There's a 94 percent chance that you're the only person who did so. Taking away price altogether made these matches harder to find. But with four purchases, it was back up to 90 percent.

Met "this" in de eerste zin verwijst hij naar het weghalen van de exacte prijzen en superhoge transacties (> $22.000). Het gaat er dus niet om dat ze van tevoren wisten dat je die $3,21 had uitgegeven, maar dat dit bedrag - na deze te matchen met de locatie, data etc. - de waarschijnlijkheid alleen maar verhoogt dat jij die bewuste persoon was die op dat moment de aankoop deed. Nu waren de precieze bedragen niet beschikbaar, maar dat bleek voor hun geen wezenlijk probleem: vanaf vier of meer aankopen wordt de waarschijnlijkheid dat jij het bent weer 90%.

[Reactie gewijzigd door Sky Lynx op 30 januari 2015 15:17]

Alle grote networks (MC/VISA/AMEX/DINERS) stappen langzaam maar zeker over op tokenization, zie het als een soort proxy voor je Credit Card gegevens. Je CC nummer is bij elke transactie anders en de vertaling wordt gedaan op de (secure) systemen van het netwerk zelf.
Nu zullen de Geheime Diensten daar ook wel toegang toe krijgen, maar voor een buitenstaander wordt het een stuk lastiger.. ook omdat een CC nummer maar bij 1 transactie en ook nog eens bij een specfieke merchant te gebruiken is.
Yup,  Pay werkt ook op basis van tokenization, lees er hier meer over: https://www.apple.com/pri...curity_Guide_Oct_2014.pdf
Niet helemaal waar; met tokenization is het een optie om steeds een andere PAN te gebruiken per transactie. Vaak wordt dit maar op een gelimiteerde manier gebruikt (bv 1 PAN per instrument).
ALs het met creditcards kan, dan zal het waarschijnlijk ook mogelijk zijn met normale bankpassen.
En dan te bedenken dat er verhalen zijn om bancaire gegevens open te stellen aan bedrijven zoals Google en Apple.
zie http://fd.nl/ondernemen/1...evens-met-google-en-apple

Ik snap die mensen in de EU raad totaal niet.
Welk voordeel levert dit op voor de consument ?
Ik snap de reden wel waaróm die metadata bewaard blijft voor een <x> periode. Stel, mijn creditcardgegevens lekken uit of worden gejat. En een of andere hackchinees gaat $1000 opnemen of spullen kopen met mijn kaartnummer. Dan kan ik bij de cc-maatschappij aankloppen dat dit niet klopt. Ik kom nooit in China, zie m'n historie maar..

Overigens heb ik wel eens een e-mail gehad van m'n creditcardmaatschappij dat ik in 1 dag tijd zowel in Duitsland als Denemarken als Noorwegen betaald had. En of dat wel klopte... ja, dat klopt, ik was op vakantie in Scandinavië en heb een paar keer getankt :) dus ja, die redenatie snap ik best.
Ik snap die mensen in de EU raad juist heel goed. De vraag is namelijk niet welk voordeel het oplevert voor de consument, maar welk voordeel het oplevert voor die mensen in de EU raad.

Trefwoord: Schnabbel

Zich de wetten voor laten schrijven (want dat is makkelijker dan ze zelf bedenken).
Met de toename van 'Big Data' wordt dit natuurlijk steeds sterker en zullen we het steeds vaker gaan tegenkomen.
Wat men hier heeft laten zien is dat het mogelijk is om aan de hand van enkele stukjes informatie over transacties van CC-houder X, andere transacties op te sporen die tot dezelfde CC-houder behoren.

Deze methode heeft in dat opzicht veel weg van hoe 'broser fingerprinting' wordt gedaan.
Als je maar de juiste stukjes info weet te bepalen, blijkt dat iedereen (iedere browser) een redelijk uniek patroon van die stukjes informatie bezit.
Het is dan natuurlijk niet vreemd dat dit ook geldt voor koopgedrag.

Een mooie uitleg over dit principe is terug te vinden bij de EFF.
Wat jij hier zegt klopt niet. Men heeft niet laten zien dat je met een paar transacties achter de rest kan komen. De lijst met gegevens hebben ze gekregen. Als je de hele lijst hebt hoef je al geen kunstjes uit te voeren om achter de lijst te komen :+
Zoals JB Zimmerman al zei: Als je van persoon X weet dat hij vanochtend bij de starbucks is geweest, vervolgens de AH to go inliep en in de avond bij Joop een patatje heeft gekocht, is het mogelijk om te zoeken op dit patroon.
Vier creditcard betalingen lijkt in Nederland uitzonderlijk,
In de rest van de wereld is het wat meer ingeburgerd.

En het is natuurlijk niet de enige factor waarop je iemand kan traceren. Het lijkt me ook niet moeilijk om heel dicht bij de honderd te komen met nog andere datasets.
Ik gebruik mijn cc anders regelmatig hoor, vooral bij online betalingen is het makkelijker omdat er minder handelingen nodig zijn dan bij bijvoorbeeld iDeal. Ik merk in mijn omgeving dat steeds meer mensen er gebruik van beginnen te maken, de eisen om er een aan te vragen lijken ook lager te worden dan dat ze vroeger waren en ze zitten tegenwoordig ook vaak "gratis" bij pakketten van de grote banken in NL.

En als je (zoals ik) vaak naar het buitenland reist is het zelfs noodzakelijk, want bij bijna elke aanbieder van vliegtickets kan je op geen enkele andere manier betalen.
Je vergeet als groot voordeel ook nog aan te halen dat, naast dat er minder handelingen nodig zijn dan voor iDeal, je ook vaak minder kosten moet betalen aan de webshop (als ze transactiekosten doorrekenen, wat vaker en vaker aan het gebeuren is), maar vooral dat je veel meer webshops hebt (elke webshop aanvaardt het. Ideal moet alweer van Nederlandse bodem zijn).
Met cc kosten van 2.75% zit je gauw boven de 30/40 cent die een ideal betaling kost bij een grote payment provider.
Lezen is een kunst, het gaat niet om vier betalingen, maar om vier gegevens.
Waar staat dat het om vier betalingen gaat? Er staat dat het om vier gegevens gaat zoals datum van betaling, de locatie en het bedrag.
Creditcard, pin, bonuskaart... het maakt allemaal niet zo veel uit zolang ze de juiste metadata maar bevatten. Denk bijvoorbeeld aan tijd, locatie, bedrag en (als ze veel data hebben) wat je koopt. Dus ook in Nederland gaat dit verhaal prima op.

Wat wel in dit hele verhaal mis is wat ze precies bedoelen met "het herleiden van de eigenaar". Weten ze welke transacties allemaal bij 1 persoon horen, of weten ze ook wie die ene persoon is, met naam en toenaam?

Ook mis ik in dit verhaal een ander belangrijk gegeven: wat voor data hebben ze van personen om deze metadata mee te matchen? Hoe meer data ik van een persoon heb hoe makkelijker het is om met andere (meta)data te achterhalen wat bij deze personen hoort. Als ik, zoals de gemiddelde persoon, niet dit soort gedetaileerde data heb dan kan ik daar ook niet metadata aan relateren.

Er zitten dus waarschijnlijk nog net iets meer haken en ogen aan dan dat ze in het artikel stellen ;).
Poeh, 4 creditcard betalingen? Dat haal ik bijna per week wel.. parkeren, iets via internet aanschaffen, even naar de Media Markt.. Waarom een CC? Vanwege de garantie :-)
Ja DUH! De mens is nu eenmaal een gewoontedier.
Als je die gewoontes in een database hebt, is de mens er makkelijk bij te vinden.
.
Ik gebruik zelf zeer spaarzaam een credit card, maar wel 1x per week op de zelfde dag voor een heel klein bedrag. 100% "pakkans".

[Reactie gewijzigd door Geekomatic op 30 januari 2015 12:21]

Tenzij er iemand is die ook eens per week hetzelfde koopt, dan is de pakkans gedaald naar 50%... Het gaat er juist om dat unieke aankooppatronen makkelijk te matchen zijn aan een persoon. Elke week dezelfde aankoop doen kan uniek zijn, maar die kans is al kleiner dan de voorbeelden die in het artikel gegeven worden.
Het schokkende van dit verhaal is dat deze gegevens beschikbaar zijn voor onderzoekers van MIT, het lijkt alsof tegenwoordig iedereen die één of andere kutsmoes vertelt toegang krijgt tot data waar hij/zij eigenlijk helemaal niets mee te maken heeft.

[Reactie gewijzigd door (id)init op 30 januari 2015 13:32]

Heb je dan liever dat we in onwetendheid blijven over de problemen van het proces van anonimiseren van gegevens? Ook als daar een legitieme noodzaak toe bestaat? Het werd geacht een veilige methode te zijn, maar opeens blijkt dat het niet zozeer om de gegevens an sich gaat, maar om patronen die een veel hardnekkiger vingerafdruk vormen dan de gegevens zelf. Uit dit en dergelijk onderzoek begint naar voren te komen dat dit gewoon een moeilijk onderwerp is.

En hoe weet jij zo zeker dat de onderzoekers van het MIT zich met 'één of andere kutsmoes' toegang hebben verleend tot de gegevens?
Privacy kun je alleen garanderen als je afziet van de gemakken van deze wereld die vanuit hele logische redenen sporen achterlaten. Internet, betaalpassen, cc, vlieg tickets, mobieltje....

Het is hetzelfde als IRL: de enige manier om geen voetsporen in de sneeuw achter te laten is door binnen te blijven.
Is toch niet zo vreemd dat het kan? Met goed uitgekozen data dat aan al even logische doch ruwe data is gekoppeld kan je al veel doen.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True