"De AOL-userid's zijn in de tekstbestanden gewijzigd in een nummer, waardoor het in theorie niet mogelijk zou zijn om zoekresultaten terug te leiden naar een echt persoon."
- hoe zijn deze AnonIDs aangemaakt. Als er random 50,000+ screennames geselecteerd zijn, en die oplopend van 1 tot 50,000+ genummerd zijn, geen probleem. Zou mij niet verbazen, echter, als een "slimme" programmeur een hash functie of zo gebruikt heeft, en brute-force mogelijk is.
- wat sowieso werkt,
http://johnbokma.com/ (mijn site) komt een paar keer voor. Ik kan even in de access_log gluren dankzij de time stamp die AOL er bij gestopt heeft (dom, dom) en hop, ik heb een paar IP adresjes.
edit: 17 verschillende gebruikers
En werkt AOL met vaste IP adressen? M.a.w., is er zonder de logfiles van AOL een koppeling te maken tussen die IP adressen en een persoon?
"is er zonder de logfiles van AOL een koppeling te maken tussen die IP adressen en een persoon?"
Hangt erg af van wat die persoon nog meer doet (dynamisch IP). Als die b.v. op Usenet post, of op een board post dat het IP adres publiek laat zien, en deze berichten in Google op laat slaan is het vrij eenvoudig.
Ik ben bang dat er meer uitgelekt is dan wat zoekwoordjes.
edit: ook omdat het mogelijk is om deze informatie aan te vullen
Elke AOL screenname heeft een uniek userid, dat is geen hashfunctie maar gewoon opeenvolgende nummers.
De IP-adressen die AOL voor verkeer buiten haar netwerk gebruikt worden trouwens door ~ 20 miljoen AOL-abonnees gedeeld. Het is ook niet zo dat je tijdens je gehele sessie steeds het zelfde externe IP-adres gebruikt.
"Elke AOL screenname heeft een uniek userid, dat is geen hashfunctie maar gewoon opeenvolgende nummers."
Ik gok dat AnonID niet hetzelfde is als die userid. Bij wie is dat userid allemaal bekend?
"De IP-adressen die AOL voor verkeer buiten haar netwerk gebruikt worden trouwens door ~ 20 miljoen AOL-abonnees gedeeld. Het is ook niet zo dat je tijdens je gehele sessie steeds het zelfde externe IP-adres gebruikt."
Ik zie inderdaad dat die paar bezoekers die ik kreeg en die in de dataset staan via aol (cache) komen (nog niet allemaal nagelopen). Maar dan nog, als zo iemand b.v. een comment post op een blog entry? Of iets besteld?
Verder, gebruikers zullen wel op een of andere manier over al die caches verdeeld worden op een of andere manier, en niet totaal random (gokje).
Tenslotte, van een deel van de gebruikers zal meer na te trekken zijn dan veel mensen nu denken... Zeker het timestamp toevoegen was een erg domme zet van AOL.
"Ik gok dat AnonID niet hetzelfde is als die userid. Bij wie is dat userid allemaal bekend?"
Ik denk het wel. Het formaat is nog precies het zelfde als tijdens periode dat ik voor ze werkte. Wat natuurlijk niet wil zeggen dat het in die jaren niet aangepast is

Het userid zelf is alleen binnen het bedrijf en middels een aangepaste HTTP-header op AOL-websites bekend.
"Verder, gebruikers zullen wel op een of andere manier over al die caches verdeeld worden op een of andere manier, en niet totaal random (gokje)."
In principe gaat elke request die via de AOL-software wordt gemaakt via de AOL-cache. Misschien dat je momenteel per sessie aan een bepaalde cache wordt toegewezen maar destijds kon dat vele malen per sessie wisselen.