Hoofdcategorieën
Device Settings

Nieuw algoritme moet zoekmachine-spam tegengaan

Door Yoeri Lauwers, vrijdag 7 april 2006 10:56
Bron: SEO by the sea, views: 22.369

Uit een patentaanvraag van Microsoft blijkt dat het bedrijf een nieuw algoritme ontwikkeld heeft om zoekmachinespam, het fenomeen waarbij een pagina zo ontworpen wordt dat ze onterecht in de zoekresultaten van populaire termen terecht komt, tegen te gaan. Op basis van een ander onderzoek deed Microsoft enkele vaststellingen met betrekking tot eigenschappen van zoekmachinespam-pagina's. Zo leken deze pagina's heel vaak te wijzigen en werd er een grote aanwezigheid van pornografisch materiaal vastgesteld. De patentaanvraag werd in september 2004 ingediend, maar nu pas gepubliceerd. In de patentaanvraag wordt een algoritme beschreven waarmee dergelijke spamsites herkend kunnen worden om ze vervolgens uit de zoekresultaten te kunnen weren.

ZoekmachinesEvaluating content is described, including generating a data set using an attribute associated with the content, evaluating the data set using a statistical distribution to identify a class of statistical outliers, and analyzing a web page to determine whether it is part of the class of statistical outliers. [...] Another technique includes crawling a set of web pages, evaluating the set of web pages to compute a statistical distribution, flagging an outlier page in the statistical distribution as web spam, and creating an index of the web pages and the outlier page for answering a query.

Het onderzoek begon met ontwikkeling van 'Pageturner', een project waarbij gecontroleerd wordt hoe vaak een pagina aangepast wordt om op basis daarvan te besluiten hoe vaak de zogenaamde webcrawler de pagina moet bezoeken om ze te herindexeren. Daarnaast kan Pageturner naar (bijna) identieke pagina's op het internet zoeken. Tijdens dit onderzoek merkten onderzoekers op dat een groot aantal pagina's opmerkelijke inhoudelijke overeenkomsten vertoonden. De betreffende spampagina's waren namelijk opgebouwd uit grammaticaal correcte zinnen die willekeurig uit een database gehaald werden. Daarbij viel op dat een miljoen pagina's van ruim honderdduizend hostnames allemaal vanaf hetzelfde ip-adres gehost werden en beheerd werden door één organisatie. Door middel van een proces dat 'shingling' genoemd wordt, is het voor een computersysteem mogelijk om een pagina te herkennen die opgebouwd is uit zinnen van andere sites. Aangevuld met enkele extra kenmerken, is het hierdoor mogelijk deze spampagina's uit de zoekresultaten te filteren. De belangrijkste van deze kenmerken zijn:

  • Lange hostnamen met veel karakters, punten, koppeltekens en cijfers;
  • Veel verschillende hostnamen die naar hetzelfde ip verwijzen;
  • Het aantal links naar de pagina in verhouding tot het aantal links op de pagina zelf;
  • Veel spampagina's bevatten precies evenveel woorden, hoewel de woorden zelf verschillend kunnen zijn;
  • Veel spampagina's wijzigen na elke download, wat veel frequenter is dan de gemiddelde website.
Keyword-spam
Volgende 11:57 Domeinextensie .eu beschikbaar voor iedereen
Vorige 10:54 Virtualisatiesoftware voor Intel-Mac aangekondigd
Advertentie

Reacties

«  1  2  »

De belangrijkste van deze kenmerken zijn (...).
Handig om te weten, ga ik vanavond nog mijn pagina's aanpassen :+

Ik hoop dat dit echt werkt en wordt doorgevoerd in alle zoekmachines. :)
Is gewoon weg irritant.
Zoek je op een bepaald onderwerp wordt je doodgegooid met reclame sites waar je geen reet aan hebt. :(

Helaas, het is gepatenteerd door Microsoft en komt dus waarschijnlijk alleen in MSN Search. Het lijkt me heel sterk dat Microsoft zijn enige voordeel boven Google wil opgeven door ze een licentie op deze techniek te verkopen :)

Anders vragen ze aan Google gewoon 1 cent per zoekactie. Dan is MS zo weer een miljard rijker.

Dan zou Google $53.568.000 per maand richting Microsoft moeten schuiven (uitgaande van 2000 searches/seconden, wat klopt). 8)7

En wie zegt dat google het nog niet heeft?

bigoldie:
En wie zegt dat google het nog niet heeft?
Atlantis95:
Dit is een algemeen verhaal dat al jaren bekend is. Weinig nieuws aan.
Dat zal het patentbureau wel uitmaken, als het niets nieuws is wordt het patent niet verleend en anders wel

Ik denk dat Google al soortgelijke methoden toepast om spam te voorkomen, aangezien ik met Google vooralsnog minder sites vind die erop gericht zijn om een zoekmachine te spammen.

Maar als Google meer concurrentie krijgt van MSN/Live search, dan is dat natuurlijk alleen maar goed voor de consument.

Eén van de onderdelen van het berekenen van je pagerank is een deling door het aantal links wat je naar buiten hebt. Een spamsite heeft vaak als enig doel een hoop links naar andere sites te maken die daar voor betalen, een dergelijke site komt op deze manier onderaan terecht in de resultaten.

Een gewone website kan gerust links plaatsen. Welliswaar wordt je deelfactor groter, maar als de sites waar je naar wijst naar je teruglinken, en dat is vaak het geval, promoot je hun pagerank, en zij de jouwe weer, waardoor je juist een positief effect krijgt.

Lijkt erop dat LiveSearch (dus met deze feature ingebakkeN) misschien toch iets kan gaan betekenen vs Google als ze dit soort dingen in gaan bouwen.

Veel verschillende hostnamen die naar hetzelfde ip verwijzen;
Wat dan met shared hosting ?? Ik heb bijvoorbeeld mijn eigen server, en dmv Plesk worden er een 10 tal domeinnamen (en daaronder nog eens een aantal, sommige domeinen tot 50subdomeinen, naar 1 en hetzelfde IP adres gestuurd. Maar de sites zijn wel steeds anders.

Dat maakt bij lange na niet de 100.000 die hier werden vernoemd.. Het is de factor 1000 die het spam maakt, nietwaar?

Nog steeds een veelvoud minder dan wat er in het artikel genoemd wordt..

als het een megahoster met duizenden domeinnamen per server is, zal die idd een hogere spamscore hebben. Maar dan nog zullen de andere facetten er moeten zijn om als spam bestempeld te worden.
Besides, MS kennende zullen ze het filter eerder te ruim afstellen dan te strak. (denk: html) Anders worden de grote bedrijven boos.

het gaat om websites die onder meerdere hostnames dezelfde feedback terug geven. Daar gaat het om. Goede zaak.

Het gaat om een ALGORITME, da's dus meer dan domweg kijken naar 'voldoet het aan deze regel: ja/nee?'.
Het gaat om een 'intelligente' beoordeling op basis van een combinatie van eigenschappen.

Dus het argument van shared hosting is niet zinvol, want je voldoet, zoals andere al stellen, niet aan de andere eisen van bijvoorbeeld gelijke inhoud, gelijk aantal woorden en/of regelmatige wijziging.

Het is geen OR, maar AND vergelijking.


Dat bedrijf uit redmond is dan ook een COMMERCIELE organisatie die WINST wil maken en NIET de wereld verbeteren.

Wanneer gaat iedereen dat nu eens begrijpen?

Ik zie het nut van een patent hier nog wel van in: ze hebben dit bij M$ verzonnen en het lijkt met nogal logisch dat ze niet willen dat het zomaar wordt overgenomen!

Dit is een algemeen verhaal dat al jaren bekend is. Weinig nieuws aan. Kan iedere webmaster uitpuzzelen.

Oke MS , kill the spam

Maar ik vraag me af als het in 2004 al bekend was en dus , hebben ze het al gebruikt ??
Gezien de bagger die we dagelijk krijgen zou je zeggen niet of nog veel erger.....

In 2004 hebben ze het aangevraagd. Dus het kan inderdaad betekenen dat ze het al hebben toegepast, maar het kan ook zijn dat het toen alleen nog maar theoretisch hadden.

Het ontwikkelen duurt ook wel iets langer dan een paar uur.

Dit voor MS natuurlijk een grote stap, zeker omdat google nog niet of in mindere mate over zo'n algoritme beschikt. Als dit echt werkt ga ik Live Search iig vaker gebruiken. Google is tegenwoordig namelijk best een zooitje aan het worden.

Ik veronderstel dat je google medewerker bent, als je weet dat google niet over een dergelijk algoritme beschikt?
Een bedrijf kan er namelijk voor kiezen om zen verworven kennis niet te patenteren en als bedrijfsgeheim te houden...

Wie zegt dat google dit ook al niet allang doet?
Ze hebben er alleen geen patent op aangevraagd gok ik.

google heeft een andere insteek omtremt development.
Google gaat er van uit dat alles wat ze ontwikkelen na een tijdje gemeengoed wordt (patenten en rechtzaken op triviale dingen en doorontwikkelde technieken kosten toch alleen maar bakken met geld)
Google houdt gewoon het tempo vernieuwingen ZO hoog dat ze hoe dan ook altijd voor op liggen, zelfs al zou iemand naar best inzicht heel google 1 op 1 kopieren.

Deze redenatie hebben ze ook tegen over advertentie software en het adsense platform, zie de 2006 financiele verwachting, het staat daar letterlijk in.


Voor MS is het echter heel belangrijk om zich voor te doen als innovator, ook al zijn ze dat nog nooit geweest. Als ze niet heel hard roepen (in voor normale mensen moeilijk te begrijpen technische termen) aka een patent, dat ze iets vreselijk stoers ontwikkeld hebben stapt natuurlijk niemand over.

Gewoon roepen dat ze beter zijn / worden / etc werkte het afgelopen jaar namenlijk niet, niemand vindt de ms search beter, en niemand is overgestapt.

Hoe weet je zo zeker dat het er nog niet is. Het feit dat het nog niet bekend is betekent niet dat het er nog niet is. Misschien is het inmiddels wel al ingebakken in Google en al heel lang beschikbaar.

Het feit is dat dit een vrij grote stap voor Microsoft kan zijn is het feit dat ze op dit moment nog vrij ver achter liggen op de concurrentie.

En waarom is google zo'n zooitje aan het worden? Of zoek je vaak op porno?

Ik zie al weer een patenten oorlog aankomen...

Ik vind dit een enorm gunstige ontwikkeling, alleen is het jammer dat dit algorithme al zo oud is en (blijkbaar) nog niet geimplementeerd.

De vraag is nu of het openbaar maken van dit algorithme de bouwers van die spamsites in de kaart speelt. Hopelijk maakt dat niet uit; ik kan mij bv. voorstellen dat duizenden pagina's van die sites niet eenvoudig volgens een volkomen andere structuur opgebouwd kunnen worden (de patent-beschrijving lijkt behoorlijk generiek), en dan is deze aanpak levensvatbaar.

OF Microsoft gaat hiermee een krachtige zoekmachine opzetten, OF Google koopt zich in op het patent, OF Google is nu op het juiste pad gewezen en probeert een nog veel beter algorithme te maken, OF... maar hoe dan ook, dit inzicht kan ons van heel wat rotzooi in de zoekresultaten afhelpen.

/typo

Natuurlijk maakt het uit dat die criteria gepubliceerd zijn. Een aantal van die zaken (lange hostnamen, links verhouding, aantal woorden, wijzigings frequentie) zijn heel simpel en zonder investeringen aan te passen. De alertere zoekmachine spammers zijn waarschijnlijk al bezig.

Het is net zoiets als email spam of virussen, het is een constante wedloop waarop beide partijen zich steeds aan elkaar aanpassen. De bestrijders spelen alleen met zwart ...
«  1  2  »

Op dit item kan niet meer gereageerd worden.

Volgende 11:57 Domeinextensie .eu beschikbaar voor iedereen
Vorige 10:54 Virtualisatiesoftware voor Intel-Mac aangekondigd
VNU Media logo Hosted by True

© 1998 - 2012 Tweakers.net B.V. - Alle rechten voorbehouden - Contact - Jouw privacy - Algemene Voorwaarden

Uitgever van:

Website van het jaar 2011