De zoekdata die AOL onlangs online plaatste en na een storm van protest weer verwijderde - uiteraard niet voordat er verschillende mirrors van werden gebakken - heeft verschillende wetenschappers in gewetensnood gebracht. Dergelijke hoeveelheden gegevens over online-gedrag zijn van onschatbare waarde voor wetenschappelijk onderzoek, bijvoorbeeld naar algoritmes voor het clusteren van gebruikers in profielgroepen, die weer voor het verbeteren van zoekresultaten kunnen worden gebruikt. Ook taalkundig onderzoek naar vraag-antwoord-systemen zou kunnen profiteren van een moderne dataset van dergelijke omvang. Veel door onderzoekers gebruikte standaarddata zou inmiddels verouderd zijn; daarnaast zou de data die Microsoft en Yahoo soms delen met de wetenschappelijke gemeenschap volgens academici veelal te beperkt zijn, zowel in omvang als bruikbaarheid - Yahoo geeft bijvoorbeeld alleen bepaalde statistieken; de ruwe querydata wordt niet prijsgegeven. Googles beleid is om helemaal niets aan onderzoekers buiten de eigen campus te openbaren.
Jon Kleinberg, informaticaprofessor aan Cornell University, spreekt van de frustaties van het beroep van academisch onderzoeker in een wereld die uitermate commercieel van aard is geworden. Nadat AOL vier gigabyte aan querygegevens over een periode van drie maanden op het web had gezet aarzelde hij geen moment en hengelde de gegevens onmiddelijk binnen. Toen er vervolgens een ware storm van protest losbarstte nadat bleek dat er indirect privégegevens uit de dataset te distilleren waren, sloeg de professor aan het twijfelen. Uiteindelijk besloot hij de gegevens niet te gebruiken. 'Nu ligt het in de ijskast', zegt de wetenschapper, gespecialiseerd in de structuur van het internet en hoe die het beste te doorzoeken is. 'Er is teveel persoonlijke informatie uit te halen. Deze data is besmet, en daar wil je geen onderzoek op doen', aldus Kleinberg.
De academicus heeft de data evenwel niet vernietigd, er zijn immers mogelijkheden om de data te anonimiseren. Recent onderzoek heeft aannemelijk gemaakt dat data via cryptografie goed te 'behandelen' is. Wellicht kan de AOL-data het in geanonimiseerde vorm nog tot nieuwe benchmarkdataset schoppen voor allerhande onderzoek. Gegeven dat dat de oorspronkelijke data op straat ligt is het echter goed denkbaar dat dat de AOL-gegevens hooguit voor onderzoek binnen de muren van universiteiten zullen worden ingezet. In dat geval is de waarde ervan beperkt, omdat goede onderzoeksresultaten nu eenmaal schreeuwen om publicatie.