Uit een patentaanvraag van Microsoft blijkt dat het bedrijf een nieuw algoritme ontwikkeld heeft om zoekmachinespam, het fenomeen waarbij een pagina zo ontworpen wordt dat ze onterecht in de zoekresultaten van populaire termen terecht komt, tegen te gaan. Op basis van een ander onderzoek deed Microsoft enkele vaststellingen met betrekking tot eigenschappen van zoekmachinespam-pagina's. Zo leken deze pagina's heel vaak te wijzigen en werd er een grote aanwezigheid van pornografisch materiaal vastgesteld. De patentaanvraag werd in september 2004 ingediend, maar nu pas gepubliceerd. In de patentaanvraag wordt een algoritme beschreven waarmee dergelijke spamsites herkend kunnen worden om ze vervolgens uit de zoekresultaten te kunnen weren.
Evaluating content is described, including generating a data set using an attribute associated with the content, evaluating the data set using a statistical distribution to identify a class of statistical outliers, and analyzing a web page to determine whether it is part of the class of statistical outliers. [...] Another technique includes crawling a set of web pages, evaluating the set of web pages to compute a statistical distribution, flagging an outlier page in the statistical distribution as web spam, and creating an index of the web pages and the outlier page for answering a query.
Het onderzoek begon met ontwikkeling van 'Pageturner', een project waarbij gecontroleerd wordt hoe vaak een pagina aangepast wordt om op basis daarvan te besluiten hoe vaak de zogenaamde webcrawler de pagina moet bezoeken om ze te herindexeren. Daarnaast kan Pageturner naar (bijna) identieke pagina's op het internet zoeken. Tijdens dit onderzoek merkten onderzoekers op dat een groot aantal pagina's opmerkelijke inhoudelijke overeenkomsten vertoonden. De betreffende spampagina's waren namelijk opgebouwd uit grammaticaal correcte zinnen die willekeurig uit een database gehaald werden. Daarbij viel op dat een miljoen pagina's van ruim honderdduizend hostnames allemaal vanaf hetzelfde ip-adres gehost werden en beheerd werden door één organisatie. Door middel van een proces dat 'shingling' genoemd wordt, is het voor een computersysteem mogelijk om een pagina te herkennen die opgebouwd is uit zinnen van andere sites. Aangevuld met enkele extra kenmerken, is het hierdoor mogelijk deze spampagina's uit de zoekresultaten te filteren. De belangrijkste van deze kenmerken zijn:
- Lange hostnamen met veel karakters, punten, koppeltekens en cijfers;
- Veel verschillende hostnamen die naar hetzelfde ip verwijzen;
- Het aantal links naar de pagina in verhouding tot het aantal links op de pagina zelf;
- Veel spampagina's bevatten precies evenveel woorden, hoewel de woorden zelf verschillend kunnen zijn;
- Veel spampagina's wijzigen na elke download, wat veel frequenter is dan de gemiddelde website.
