Wetenschappers in verleiding door AOL-zoekdata

De zoekdata die AOL onlangs online plaatste en na een storm van protest weer verwijderde - uiteraard niet voordat er verschillende mirrors van werden gebakken - heeft verschillende wetenschappers in gewetensnood gebracht. Dergelijke hoeveelheden gegevens over online-gedrag zijn van onschatbare waarde voor wetenschappelijk onderzoek, bijvoorbeeld naar algoritmes voor het clusteren van gebruikers in profielgroepen, die weer voor het verbeteren van zoekresultaten kunnen worden gebruikt. Ook taalkundig onderzoek naar vraag-antwoord-systemen zou kunnen profiteren van een moderne dataset van dergelijke omvang. Veel door onderzoekers gebruikte standaarddata zou inmiddels verouderd zijn; daarnaast zou de data die Microsoft en Yahoo soms delen met de wetenschappelijke gemeenschap volgens academici veelal te beperkt zijn, zowel in omvang als bruikbaarheid - Yahoo geeft bijvoorbeeld alleen bepaalde statistieken; de ruwe querydata wordt niet prijsgegeven. Googles beleid is om helemaal niets aan onderzoekers buiten de eigen campus te openbaren.

AOL zoekdata Jon Kleinberg, informaticaprofessor aan Cornell University, spreekt van de frustaties van het beroep van academisch onderzoeker in een wereld die uitermate commercieel van aard is geworden. Nadat AOL vier gigabyte aan querygegevens over een periode van drie maanden op het web had gezet aarzelde hij geen moment en hengelde de gegevens onmiddelijk binnen. Toen er vervolgens een ware storm van protest losbarstte nadat bleek dat er indirect privégegevens uit de dataset te distilleren waren, sloeg de professor aan het twijfelen. Uiteindelijk besloot hij de gegevens niet te gebruiken. 'Nu ligt het in de ijskast', zegt de wetenschapper, gespecialiseerd in de structuur van het internet en hoe die het beste te doorzoeken is. 'Er is teveel persoonlijke informatie uit te halen. Deze data is besmet, en daar wil je geen onderzoek op doen', aldus Kleinberg.

De academicus heeft de data evenwel niet vernietigd, er zijn immers mogelijkheden om de data te anonimiseren. Recent onderzoek heeft aannemelijk gemaakt dat data via cryptografie goed te 'behandelen' is. Wellicht kan de AOL-data het in geanonimiseerde vorm nog tot nieuwe benchmarkdataset schoppen voor allerhande onderzoek. Gegeven dat dat de oorspronkelijke data op straat ligt is het echter goed denkbaar dat dat de AOL-gegevens hooguit voor onderzoek binnen de muren van universiteiten zullen worden ingezet. In dat geval is de waarde ervan beperkt, omdat goede onderzoeksresultaten nu eenmaal schreeuwen om publicatie.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Mick de Neeve

Feedback • 23-08-2006 18:31 20

23-08-2006 • 18:31

Bron: NY Times

Lees meer

Drie rechtszaken tegen AOL vanwege lekken zoekgegevens Nieuws van 26 september 2006

Software beschermt privacy bij zoekmachinegebruik Nieuws van 31 augustus 2006

AOL ontslaat verantwoordelijken voor uitlekken zoekdata Nieuws van 22 augustus 2006

AOL geeft zoekdata gebruikers vrij; biedt excuses aan Nieuws van 7 augustus 2006

Hackers presenteren extra zwaar beveiligde IM-software Nieuws van 25 juli 2006

Cryptografie moet privacy waarborgen bij datamining Nieuws van 21 juni 2006

Zoekmachine Ixquick vernietigt alle gebruikersgegevens Nieuws van 6 juni 2006

WebAds gaat rekening houden met persoonlijke kenmerken Nieuws van 5 juni 2006

FBI wil bewaarplicht ook in de VS Nieuws van 3 juni 2006

Google bezorgd over privacywetgeving EU en VS Nieuws van 3 mei 2006

Toezichthouder privacy waarschuwt tegen opslagwetten Nieuws van 20 april 2006

Nederlandse overheid onderzoekt Google Nieuws van 30 maart 2006

Google moet zoekgegevens afstaan aan justitie VS Nieuws van 18 maart 2006

Justitie VS vecht afwijzing dataverzoek door Google aan Nieuws van 27 februari 2006

Privacybeleid Nederlandse zoekmachines uitgezocht Nieuws van 6 februari 2006

Politie vordert ip-adressen bezoekers Sévèke-site Nieuws van 31 januari 2006

Verdonk en Sony 'winnen' Big Brother Award Nieuws van 29 januari 2006

Meer producten en artikelen

Wetenschap

IT-banen

Meer vacatures

Reacties (20)

-Moderatie-faq

Wijzig sortering

Verwijderd 23 augustus 2006 18:37

Hier doen ze nooit wat mee... hoe verleidelijk het ook is voor ze.
Bronvermelding is verplicht, hij heeft het nu alleen maar in de kast liggen om er zelf mee te spelen en ongeveer dezelfde bevindingen uit de oude, wel toegestane date te extraheren

Iblies @Verwijderd • 23 augustus 2006 18:44

Bronvermelding voor een nieuwe algoritme?

Dat is net zoiets als je bij een patentaanvraag precies gaat uitleggen hoe je uitvinding werkt.

Je blijft daar vaag over.

CyBeR @Iblies • 23 augustus 2006 21:43

Het idee van een octrooi (Patenten bestaan hier niet) was ook altijd dat je precies uitlegde hoe je uitvinding werkte.

SED @CyBeR • 23 augustus 2006 23:19

zo is de koffer van okkie trooi nog steeds een raadsel voor me

Guru Evi 23 augustus 2006 18:40

Het probleem is om die zoekdata voldoende te anonymiseren zodat er geen gebruik meer kan gemaakt worden om het te herleiden naar een enkele gebruiker of persoon. Hier komt het ook weer op goede praktijk van de gebruiker aan. Als je iemand een bep. ID meegeeft ipv. naam of IP en de gebruiker googled zichzelf of een familielid zit je alsnog met een probleem dat dit in de query zit. En hoe ga je die namen filteren als je niet weet wat de gebruiker bedoelt?

Othello 23 augustus 2006 19:14

En het volgende: stel dat de data geannonimiseerd wordt en er een nieuw alogoritme mee ontwikkeld wordt, en dat dit inderdaad gepubliceerd wordt. Wat let je dan om hetzelfde algoritme over de niet-geannonimiseerde data heen te halen?

killercow @Othello • 24 augustus 2006 10:15

Jij hebt geen idee ey?

Als die man een nieuw algoritme bouwt aan de hand van de annonieme data dan is dat een algoritme dat bijvoorbeeld bepaalde woorden aan elkaar knoopt. of vertaling en suggesties kan doen.

Wat heb je daar aan als je dat over de minder annonieme data laat lopen, dat je weet dat gebruiker X een suggestie Y had gekregen?

Nuttig hoor.

roy-t 23 augustus 2006 18:53

Ik weet niet percies wat er nu instaat maar hoe willen ze dat er uit halen, ik bedoel delete de kolom "IP nummer" en niks is meer direct terug te leiden naar gebruikers, ook niet als ze bijv. een postcode of tel opzoeken (die van zichzelf of van iemand anders? of van een organistatie? Je weet het niet!?)

Vlink shuffelen met die gegevens en het ip verwijderen lijkt me geen probleem! Mijn data mogen ze hebben hoor! (met ip er bij zelfs

)

Blokker_1999

Wetenschap

@roy-t • 23 augustus 2006 19:02

nog nooit uit nieuwsgierigheid uw eigen (nick)naam eens ingevuld in een zoekmachine? Of andere termen die te maken hebben met het privé leven?

DJrDJ666 @Blokker_1999 • 23 augustus 2006 19:11

jawel

Resultaten 1 - 10 van circa 23.300 voor blokker_1999 (0,18 seconden)

Maurits van Baerle @Blokker_1999 • 23 augustus 2006 20:14

Stel nou dat ik ooit eens heb gezocht op Maurits van Baerle en verder op Gerard Joling, Anita Witzier en Jan de Boer. Wie ben ik dan? Maurits van Baerle? Gerard Joling? Anita Witzier? Jan de Boer? Of kan het zijn dat ik nooit op mijzelf heb gezocht maar vijf anderen wel, zijn dat dan allemaal Maurits van Baerles?

Verwijderd @Maurits van Baerle • 24 augustus 2006 12:29

Jij bent: Maurits van Baerle.

+1

Verwijderd 23 augustus 2006 19:52

Achter gesloten deuren zal er zeker en vast wel van deze set gebruik gemaakt worden. Wanneer ze dan met bevindingen naar buiten komen die uit onderzoek op zo'n grote set voortkomen, zullen die bevindingen ook wel toepasbaar zijn op de kleinere, verouderde sets waar ze wel mee 'mogen' werken.

Paultje3181 23 augustus 2006 19:31

waarom herleiden ze dan niet alles terug naar de personen en maken er een vragenlijst opzet van... Mag ik de gelekte informatie gebruiken voor onderzoek dit en dit... I.c.m. een beloning gok ik dat er een hoop mensen ja zeggen...

Parasietje @Paultje3181 • 23 augustus 2006 20:56

Erg interessante opmerking! Dan kunnen we misschien binnenkort een link "export user data" verwachten in google. In ruil voor een kleine betaling, kan je dan je eigen onderzoeksdata doorzenden naar onderzoeksbedrijven, die jou daar weer grof geld voor betalen!

engelbertus @Parasietje • 23 augustus 2006 22:21

ja, dit bied dus ook vooral perspectieven voor operators van pornosites. die dan eerst een heleboel gaan zoeken naar zichzelf op google. deze zoekgegevens dan vervolgens verkopen en daarna met een nieuw algoritme ook nog eens meer bezoekers of zoekresultaten voor je site!

inderdaad lijkt het me, nu al is gebleken dat de data niet anoniem is, dat de data eigenlijk verboden is om te gebruiken, ivm privacy schending.

maar ja in de upc / brein zaak gold volgens de rechter "eens gegeven blijft gegeven" en zodoende mag brein de namen die perongeluk niet van te voren door upc verwijderd waren, toch gebruiken en de personen vervolgen.

als je deze data wilt anonimiseren kun je er alleen statistische data mee genereren die ook weer anonieme rsultaten oplevert, dus personen p1 tot p999999 en sites s1 tot s99999
maar als je dan het origineel ernaast legt kun je ze vast wel weer aan elkaar knopen tot id 1 en beoemde sites, en daarmee weer de nu al (zogezegd) makkelijk te verkrigen prive gegevens opsporen.

in de kast en slechts voor illegaal gebruik toeestaan.
voor gebruik op een universiteit lijkt het me ook erg riskant, want op een universiteit heb je studenten en die hebben soms ook andere interesses dan uitsluitend studie....

killercow @engelbertus • 24 augustus 2006 10:18

Om privacy te kunnen eisen als gebruiker moet je zelf prive bezig zijn.

Je queries naar een publiek bedrijf / search engine sturen over een onbeveiligde lijn, die ze vervlgens op slaat, en dit ook meld in zijn bebruiksvoorwaarden is niet prive handelen.

personen p1 tot p99999, dat is nou precies wat er in die db staat, welke sites die mensen bezocht hebben staat er wel in, maar het gaat vooral om de keywords.

Mensen hebben naar hun eigen creditcard nummer en achternaam gezocht. Eigen schuld. (voer NOOIT je creditcard nummer in tenzij een betaling doet bij een bedrijf dat je vertrouwd.) Of kennen ze die regel niet in de vs?

Verwijderd @engelbertus • 24 augustus 2006 12:33

@killercow

Dus als je je eigen naam ingeeft in een zoekmachine, geef je je recht op privacy op?

Krom hoor...

J.J.J. Bokma 24 augustus 2006 04:33

Het allerbelangrijkste is dat men zich goed voor moet houden dat dit data is van *AOL* gebruikers. Het zegt dus iets over *die* groep. Zonder data van bijvoorbeeld Google om te vergelijken, is er weinig te zeggen over hoe algemeen uitspraken te doen zijn aan de hand van dit naar verhouding kleine setje gegevens van een naar verhouding kleine zoekboer.

Verwijderd @J.J.J. Bokma • 24 augustus 2006 12:35

vooral data over n00b gebruikers dus, niet heel representatief...

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (20)

Sorteer op:

Weergave: