Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 20 reacties
Bron: NY Times

De zoekdata die AOL onlangs online plaatste en na een storm van protest weer verwijderde - uiteraard niet voordat er verschillende mirrors van werden gebakken - heeft verschillende wetenschappers in gewetensnood gebracht. Dergelijke hoeveelheden gegevens over online-gedrag zijn van onschatbare waarde voor wetenschappelijk onderzoek, bijvoorbeeld naar algoritmes voor het clusteren van gebruikers in profielgroepen, die weer voor het verbeteren van zoekresultaten kunnen worden gebruikt. Ook taalkundig onderzoek naar vraag-antwoord-systemen zou kunnen profiteren van een moderne dataset van dergelijke omvang. Veel door onderzoekers gebruikte standaarddata zou inmiddels verouderd zijn; daarnaast zou de data die Microsoft en Yahoo soms delen met de wetenschappelijke gemeenschap volgens academici veelal te beperkt zijn, zowel in omvang als bruikbaarheid - Yahoo geeft bijvoorbeeld alleen bepaalde statistieken; de ruwe querydata wordt niet prijsgegeven. Googles beleid is om helemaal niets aan onderzoekers buiten de eigen campus te openbaren.

AOL zoekdata Jon Kleinberg, informaticaprofessor aan Cornell University, spreekt van de frustaties van het beroep van academisch onderzoeker in een wereld die uitermate commercieel van aard is geworden. Nadat AOL vier gigabyte aan querygegevens over een periode van drie maanden op het web had gezet aarzelde hij geen moment en hengelde de gegevens onmiddelijk binnen. Toen er vervolgens een ware storm van protest losbarstte nadat bleek dat er indirect privégegevens uit de dataset te distilleren waren, sloeg de professor aan het twijfelen. Uiteindelijk besloot hij de gegevens niet te gebruiken. 'Nu ligt het in de ijskast', zegt de wetenschapper, gespecialiseerd in de structuur van het internet en hoe die het beste te doorzoeken is. 'Er is teveel persoonlijke informatie uit te halen. Deze data is besmet, en daar wil je geen onderzoek op doen', aldus Kleinberg.

De academicus heeft de data evenwel niet vernietigd, er zijn immers mogelijkheden om de data te anonimiseren. Recent onderzoek heeft aannemelijk gemaakt dat data via cryptografie goed te 'behandelen' is. Wellicht kan de AOL-data het in geanonimiseerde vorm nog tot nieuwe benchmarkdataset schoppen voor allerhande onderzoek. Gegeven dat dat de oorspronkelijke data op straat ligt is het echter goed denkbaar dat dat de AOL-gegevens hooguit voor onderzoek binnen de muren van universiteiten zullen worden ingezet. In dat geval is de waarde ervan beperkt, omdat goede onderzoeksresultaten nu eenmaal schreeuwen om publicatie.

Lees meer over

Moderatie-faq Wijzig weergave

Reacties (20)

Hier doen ze nooit wat mee... hoe verleidelijk het ook is voor ze.
Bronvermelding is verplicht, hij heeft het nu alleen maar in de kast liggen om er zelf mee te spelen en ongeveer dezelfde bevindingen uit de oude, wel toegestane date te extraheren :P
Bronvermelding voor een nieuwe algoritme?

Dat is net zoiets als je bij een patentaanvraag precies gaat uitleggen hoe je uitvinding werkt.

Je blijft daar vaag over.
Het idee van een octrooi (Patenten bestaan hier niet) was ook altijd dat je precies uitlegde hoe je uitvinding werkte.
zo is de koffer van okkie trooi nog steeds een raadsel voor me ;)
En het volgende: stel dat de data geannonimiseerd wordt en er een nieuw alogoritme mee ontwikkeld wordt, en dat dit inderdaad gepubliceerd wordt. Wat let je dan om hetzelfde algoritme over de niet-geannonimiseerde data heen te halen? :Y)
Jij hebt geen idee ey?

Als die man een nieuw algoritme bouwt aan de hand van de annonieme data dan is dat een algoritme dat bijvoorbeeld bepaalde woorden aan elkaar knoopt. of vertaling en suggesties kan doen.

Wat heb je daar aan als je dat over de minder annonieme data laat lopen, dat je weet dat gebruiker X een suggestie Y had gekregen?

Nuttig hoor.
Het probleem is om die zoekdata voldoende te anonymiseren zodat er geen gebruik meer kan gemaakt worden om het te herleiden naar een enkele gebruiker of persoon. Hier komt het ook weer op goede praktijk van de gebruiker aan. Als je iemand een bep. ID meegeeft ipv. naam of IP en de gebruiker googled zichzelf of een familielid zit je alsnog met een probleem dat dit in de query zit. En hoe ga je die namen filteren als je niet weet wat de gebruiker bedoelt?
Ik weet niet percies wat er nu instaat maar hoe willen ze dat er uit halen, ik bedoel delete de kolom "IP nummer" en niks is meer direct terug te leiden naar gebruikers, ook niet als ze bijv. een postcode of tel opzoeken (die van zichzelf of van iemand anders? of van een organistatie? Je weet het niet!?)

Vlink shuffelen met die gegevens en het ip verwijderen lijkt me geen probleem! Mijn data mogen ze hebben hoor! (met ip er bij zelfs :P)
nog nooit uit nieuwsgierigheid uw eigen (nick)naam eens ingevuld in een zoekmachine? Of andere termen die te maken hebben met het privé leven?
Stel nou dat ik ooit eens heb gezocht op Maurits van Baerle en verder op Gerard Joling, Anita Witzier en Jan de Boer. Wie ben ik dan? Maurits van Baerle? Gerard Joling? Anita Witzier? Jan de Boer? Of kan het zijn dat ik nooit op mijzelf heb gezocht maar vijf anderen wel, zijn dat dan allemaal Maurits van Baerles?
Jij bent: Maurits van Baerle.


+1 :7
jawel :P

Resultaten 1 - 10 van circa 23.300 voor blokker_1999 (0,18 seconden)
waarom herleiden ze dan niet alles terug naar de personen en maken er een vragenlijst opzet van... Mag ik de gelekte informatie gebruiken voor onderzoek dit en dit... I.c.m. een beloning gok ik dat er een hoop mensen ja zeggen...
Erg interessante opmerking! Dan kunnen we misschien binnenkort een link "export user data" verwachten in google. In ruil voor een kleine betaling, kan je dan je eigen onderzoeksdata doorzenden naar onderzoeksbedrijven, die jou daar weer grof geld voor betalen!
ja, dit bied dus ook vooral perspectieven voor operators van pornosites. die dan eerst een heleboel gaan zoeken naar zichzelf op google. deze zoekgegevens dan vervolgens verkopen en daarna met een nieuw algoritme ook nog eens meer bezoekers of zoekresultaten voor je site!

inderdaad lijkt het me, nu al is gebleken dat de data niet anoniem is, dat de data eigenlijk verboden is om te gebruiken, ivm privacy schending.

maar ja in de upc / brein zaak gold volgens de rechter "eens gegeven blijft gegeven" en zodoende mag brein de namen die perongeluk niet van te voren door upc verwijderd waren, toch gebruiken en de personen vervolgen.

als je deze data wilt anonimiseren kun je er alleen statistische data mee genereren die ook weer anonieme rsultaten oplevert, dus personen p1 tot p999999 en sites s1 tot s99999
maar als je dan het origineel ernaast legt kun je ze vast wel weer aan elkaar knopen tot id 1 en beoemde sites, en daarmee weer de nu al (zogezegd) makkelijk te verkrigen prive gegevens opsporen.

in de kast en slechts voor illegaal gebruik toeestaan.
voor gebruik op een universiteit lijkt het me ook erg riskant, want op een universiteit heb je studenten en die hebben soms ook andere interesses dan uitsluitend studie....
Om privacy te kunnen eisen als gebruiker moet je zelf prive bezig zijn.

Je queries naar een publiek bedrijf / search engine sturen over een onbeveiligde lijn, die ze vervlgens op slaat, en dit ook meld in zijn bebruiksvoorwaarden is niet prive handelen.

personen p1 tot p99999, dat is nou precies wat er in die db staat, welke sites die mensen bezocht hebben staat er wel in, maar het gaat vooral om de keywords.

Mensen hebben naar hun eigen creditcard nummer en achternaam gezocht. Eigen schuld. (voer NOOIT je creditcard nummer in tenzij een betaling doet bij een bedrijf dat je vertrouwd.) Of kennen ze die regel niet in de vs?
@killercow

Dus als je je eigen naam ingeeft in een zoekmachine, geef je je recht op privacy op?

Krom hoor...
Het allerbelangrijkste is dat men zich goed voor moet houden dat dit data is van *AOL* gebruikers. Het zegt dus iets over *die* groep. Zonder data van bijvoorbeeld Google om te vergelijken, is er weinig te zeggen over hoe algemeen uitspraken te doen zijn aan de hand van dit naar verhouding kleine setje gegevens van een naar verhouding kleine zoekboer.
vooral data over n00b gebruikers dus, niet heel representatief...
Achter gesloten deuren zal er zeker en vast wel van deze set gebruik gemaakt worden. Wanneer ze dan met bevindingen naar buiten komen die uit onderzoek op zo'n grote set voortkomen, zullen die bevindingen ook wel toepasbaar zijn op de kleinere, verouderde sets waar ze wel mee 'mogen' werken.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True