Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 34 reacties
Bron: Techcrunch, submitter: GreatDictator

AOL heeft vandaag zijn excuses aangeboden voor het feit dat logfiles met zoekdata van 658.000 gebruikers openbaar waren gemaakt. De willekeurig geselecteerde data was tien dagen geleden op de recent gelanceerde AOL Research-website geplaatst. Na een download van een bestand dat uitgepakt ruim 2GB groot is, beschikt de gebruiker over enkele tekstbestanden met daarin de zoekgegevens van de honderduizenden gebruikers. In totaal gaat het om rond de 20 miljoen logentry's, die verzameld zijn in de maanden maart, april en mei van dit jaar. Naast ingegeven zoektermen, bevatten de logbestanden ook gegevens over bezochte websites, de locatie van een zoekresultaat op de webpagina en hoe vaak op 'next' is geklikt om op een volgende pagina met zoekresultaten te komen.

AOL logoDe AOL-userid's zijn in de tekstbestanden gewijzigd in een nummer, waardoor het in theorie niet mogelijk zou zijn om zoekresultaten terug te leiden naar een echt persoon. Op basis van het nummer kunnen de individuele zoekopdrachten echter wel gekoppeld worden. Door die gegevens te combineren, kan alsnog een beeld geconstrueerd worden van een bepaalde persoon. Aangezien veel internetters weleens bepaalde persoonlijke gegevens door een zoekmachine halen - AOL'ers vormen hierop geen uitzondering - is het in sommige gevallen zelfs mogelijk een groep logentry's te koppelen aan een echte persoon. AOL heeft de pagina inmiddels offline gehaald en aangegeven dat een dergelijke fout nooit meer gemaakt mag worden.

Moderatie-faq Wijzig weergave

Reacties (34)

"De AOL-userid's zijn in de tekstbestanden gewijzigd in een nummer, waardoor het in theorie niet mogelijk zou zijn om zoekresultaten terug te leiden naar een echt persoon."

- hoe zijn deze AnonIDs aangemaakt. Als er random 50,000+ screennames geselecteerd zijn, en die oplopend van 1 tot 50,000+ genummerd zijn, geen probleem. Zou mij niet verbazen, echter, als een "slimme" programmeur een hash functie of zo gebruikt heeft, en brute-force mogelijk is.

- wat sowieso werkt, http://johnbokma.com/ (mijn site) komt een paar keer voor. Ik kan even in de access_log gluren dankzij de time stamp die AOL er bij gestopt heeft (dom, dom) en hop, ik heb een paar IP adresjes.

edit: 17 verschillende gebruikers
Elke AOL screenname heeft een uniek userid, dat is geen hashfunctie maar gewoon opeenvolgende nummers.

De IP-adressen die AOL voor verkeer buiten haar netwerk gebruikt worden trouwens door ~ 20 miljoen AOL-abonnees gedeeld. Het is ook niet zo dat je tijdens je gehele sessie steeds het zelfde externe IP-adres gebruikt.
"Elke AOL screenname heeft een uniek userid, dat is geen hashfunctie maar gewoon opeenvolgende nummers."

Ik gok dat AnonID niet hetzelfde is als die userid. Bij wie is dat userid allemaal bekend?

"De IP-adressen die AOL voor verkeer buiten haar netwerk gebruikt worden trouwens door ~ 20 miljoen AOL-abonnees gedeeld. Het is ook niet zo dat je tijdens je gehele sessie steeds het zelfde externe IP-adres gebruikt."

Ik zie inderdaad dat die paar bezoekers die ik kreeg en die in de dataset staan via aol (cache) komen (nog niet allemaal nagelopen). Maar dan nog, als zo iemand b.v. een comment post op een blog entry? Of iets besteld?

Verder, gebruikers zullen wel op een of andere manier over al die caches verdeeld worden op een of andere manier, en niet totaal random (gokje).

Tenslotte, van een deel van de gebruikers zal meer na te trekken zijn dan veel mensen nu denken... Zeker het timestamp toevoegen was een erg domme zet van AOL.
"Ik gok dat AnonID niet hetzelfde is als die userid. Bij wie is dat userid allemaal bekend?"

Ik denk het wel. Het formaat is nog precies het zelfde als tijdens periode dat ik voor ze werkte. Wat natuurlijk niet wil zeggen dat het in die jaren niet aangepast is ;)
Het userid zelf is alleen binnen het bedrijf en middels een aangepaste HTTP-header op AOL-websites bekend.

"Verder, gebruikers zullen wel op een of andere manier over al die caches verdeeld worden op een of andere manier, en niet totaal random (gokje)."

In principe gaat elke request die via de AOL-software wordt gemaakt via de AOL-cache. Misschien dat je momenteel per sessie aan een bepaalde cache wordt toegewezen maar destijds kon dat vele malen per sessie wisselen.
En werkt AOL met vaste IP adressen? M.a.w., is er zonder de logfiles van AOL een koppeling te maken tussen die IP adressen en een persoon?
"is er zonder de logfiles van AOL een koppeling te maken tussen die IP adressen en een persoon?"

Hangt erg af van wat die persoon nog meer doet (dynamisch IP). Als die b.v. op Usenet post, of op een board post dat het IP adres publiek laat zien, en deze berichten in Google op laat slaan is het vrij eenvoudig.

Ik ben bang dat er meer uitgelekt is dan wat zoekwoordjes.

edit: ook omdat het mogelijk is om deze informatie aan te vullen
AOL, bedankt!

Met dat offline halen waren ze in ieder geval al te laat, aangezien er al zat mirrors zijn en er zelfs een BitTorrent bestand is: die file gaat never nooit meer weg dus.

Vreemd trouwens dat dit nieuws niet op T.net heeft gestaan, een ICT blunder van deze proporties is zeldzaam. Anyway, AOL heeft dit niet per ongeluk gedaan, maar express. Kijk zelf maar, hier in Google's cache.

Disclaimer: die mirrorpagina is de eerste link in het artikel dat als bron vermeldt staat, dus het lijkt me dat posten geen overtreding van de policy is.
Zo'n mega query-database is voor sommigen onder ons idd hardstikke handig voor testwerkzaamheden en algemene interesse.
Al klopt het qua privacy van geen kanten: Hulde aan AOL, ik overweeg een bloemetje te sturen ;)
eerlijk, gebruik jij AOL ?

quasi niemand hier in europa die dat gebruikt, of het moeten toeristen zijn :P
eerlijk, gebruik jij AOL ?

quasi niemand hier in europa die dat gebruikt, of het moeten toeristen zijn
AOL is in Nederland ook wel bekend onder de naam 'CompuServe' ;)
Laat me raden, dit was de info die de amerikaanse regering gevraagd had aan de zoekmachines. Laat die privacy discussie maar weer opwakkeren zou ik zo zeggen.
*verkeerd gelezen = verkeerd gereplied* excuses...
Wat had deze gast in gedachte?

17556639 how to kill your wife
17556639 how to kill your wife
17556639 wife killer
17556639 how to kill a wife
17556639 poop
17556639 dead people
17556639 pictures of dead people
17556639 killed people
17556639 dead pictures
17556639 dead pictures
17556639 dead pictures
17556639 murder photo
17556639 steak and cheese
17556639 photo of death
17556639 photo of death
17556639 death
17556639 dead people photos
17556639 photo of dead people
Wellicht bezig een boek te schrijven, en opzoek naar plots en afbeeldingen om zo realistisch mogelijk te schrijven?

Kortom, laten we geen heksenjacht openen :D
en waarom trekt dat jouw interesse uit tigduizenden regels? :*)
omdat er een blog is die probeerd iets te suggereren met deze regels?
Wat is er mis met

17556639 steak and cheese

??


:Y)
waarmee open je dat bestand. ik probeer het met wordpad. ik heb een 3 ghz HT met 1 gb-ram. is dit niet voldoende?
TextPad doet het aardig, tot je gaat zoeken :-) (Krijg geen virtueel geheugen meer meldingen).

Uiteraard is een Perl script veel leuker :o

edit @Black Piet

TextPad kan vrij goed met grote bestanden omgaan, maar zoeken, zeker met reguliere expressies vreet soms ineens heel veel geheugen. Goed nieuws:versie 5 schijnt gebundeld te worden met Duke Nukem Forever :-D.
Probeer het eens met UltraEdit 11 of TextPad 4.... Werkt hier perfect... Zijn maar bestanden van 212 per stuk

Of TextPipe als je een goede merge wilt toepassen en verdere analyse wilt uitvoeren op het geheel...

Edit @ J.J.J. Bokma
Idd....mijn PC vindt zoeken niet zo leuk met TextPad.... UltraEdit doet er hier niet zo moeilijk over
ik krijg met verschillende textviewers eerst inleidende tekst en dan alleen maar gare tekens..
@bokma: dat was het, het leek erop dat winRar e.e.a. correct uitpakt, maar helaas...
Even openen als dostekst...
check de MD5SUM van het tgz bestand, dit moet: 31cd27ce12c3a3f2df62a38050ce4c0a zijn.

tgz = gegzipt tar bestand, dus gzip -d en tar xvf. Vervolgens elk bestand in de directory nog een keer gzip -d.
Misschien had ie zin in Steak met Kaas. Vind het een beetje een vreemde in dat rijtje...
Niet eens een bloemetje voor de gedupeerden? :'(

Lijkt me ook niet makkelijk om als AOL klant hier evt. schadevergoeding voor te eisen aangezien de user ID's in nummers zijn gewijzigd.
Niet eens een bloemetje voor de gedupeerden?
Ik zou geen slapende honden wakker maken...
deze post geeft al mooi aan in welke richting mensen denken bij te weinig informatie.

1 regel, je weet niet wie het was, je weet niet waarom die het zocht.

Maar al wel gauw de gedachte er achter dat die gast ziek is en direct gecastreerd moet worden.

Zoals SirBlade al zei: mischien was dit de zedenpolitie wel.
Wie weet was dit de zedenpolitie wel..
toch wel handig zo'n bestandje

ik wed trouwens dat aol de eerste 2 maanden geen gezeur meer heeft met de riaa :9
Ik zal wel weer de enige zijn die dat normaal vind. Het gebeurt mij namelijk zo vaak dat ik een tekstbestand met zoekgegevens van 2 gig vrij downloadbaar neerzet (NOT)
Alle gegevens liggen op straat met elk een AOL-userid.
Straks komt er een lijst op straat te liggen met welke AOL-userid's de echte gebruikers hebben.

Al je gegevens liggen dan op straat en wat zeggen ze dan? Sorry :(
Dus als ik het goed begrijp is er nu een file in omloop met de zoekhistorie en namen.Tevens is er een versie waar de namen zijn vervangen door unique id's welke intern gebruikt worden bij AOL -> mijn breintje zegt nu dat je met deze informatie de unique id's kunt koppelen aan namen, en wanneer er weer bepaalde "anonieme" info uitlekt deze weer is te koppelen aan personen....way to o AOL..lekker denkwerk

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True