Nieuw algoritme moet zoekmachine-spam tegengaan

Uit een patentaanvraag van Microsoft blijkt dat het bedrijf een nieuw algoritme ontwikkeld heeft om zoekmachinespam, het fenomeen waarbij een pagina zo ontworpen wordt dat ze onterecht in de zoekresultaten van populaire termen terecht komt, tegen te gaan. Op basis van een ander onderzoek deed Microsoft enkele vaststellingen met betrekking tot eigenschappen van zoekmachinespam-pagina's. Zo leken deze pagina's heel vaak te wijzigen en werd er een grote aanwezigheid van pornografisch materiaal vastgesteld. De patentaanvraag werd in september 2004 ingediend, maar nu pas gepubliceerd. In de patentaanvraag wordt een algoritme beschreven waarmee dergelijke spamsites herkend kunnen worden om ze vervolgens uit de zoekresultaten te kunnen weren.

Evaluating content is described, including generating a data set using an attribute associated with the content, evaluating the data set using a statistical distribution to identify a class of statistical outliers, and analyzing a web page to determine whether it is part of the class of statistical outliers. [...] Another technique includes crawling a set of web pages, evaluating the set of web pages to compute a statistical distribution, flagging an outlier page in the statistical distribution as web spam, and creating an index of the web pages and the outlier page for answering a query.

Het onderzoek begon met ontwikkeling van 'Pageturner', een project waarbij gecontroleerd wordt hoe vaak een pagina aangepast wordt om op basis daarvan te besluiten hoe vaak de zogenaamde webcrawler de pagina moet bezoeken om ze te herindexeren. Daarnaast kan Pageturner naar (bijna) identieke pagina's op het internet zoeken. Tijdens dit onderzoek merkten onderzoekers op dat een groot aantal pagina's opmerkelijke inhoudelijke overeenkomsten vertoonden. De betreffende spampagina's waren namelijk opgebouwd uit grammaticaal correcte zinnen die willekeurig uit een database gehaald werden. Daarbij viel op dat een miljoen pagina's van ruim honderdduizend hostnames allemaal vanaf hetzelfde ip-adres gehost werden en beheerd werden door één organisatie. Door middel van een proces dat 'shingling' genoemd wordt, is het voor een computersysteem mogelijk om een pagina te herkennen die opgebouwd is uit zinnen van andere sites. Aangevuld met enkele extra kenmerken, is het hierdoor mogelijk deze spampagina's uit de zoekresultaten te filteren. De belangrijkste van deze kenmerken zijn:

Lange hostnamen met veel karakters, punten, koppeltekens en cijfers;
Veel verschillende hostnamen die naar hetzelfde ip verwijzen;
Het aantal links naar de pagina in verhouding tot het aantal links op de pagina zelf;
Veel spampagina's bevatten precies evenveel woorden, hoewel de woorden zelf verschillend kunnen zijn;
Veel spampagina's wijzigen na elke download, wat veel frequenter is dan de gemiddelde website.

IT-banen

Reacties (45)

Rekcor 7 april 2006 11:02

De belangrijkste van deze kenmerken zijn (...).

Handig om te weten, ga ik vanavond nog mijn pagina's aanpassen

Cameleon73 7 april 2006 11:46

Kan iemand mij uitleggen hoe patenten in dit geval voor innovatie zorgen (zoals ik meerdere malen gelezen heb)?

Microsoft trapt een redelijk open deur dicht voor alle andere zoekmachine's, met als enige doel hun eigen product te promoten. Ik weet het: welkom in de harde zakenwereld.

Maar ik zie niet hoe we hier met z'n allen profijt van hebben.

voodooless @Cameleon73 • 7 april 2006 14:06

De innovaties die van dit soort patenten uitgaat zijn enkel en alleen te vinden bij de advokaten die dergelijke zaken voor hun neus krijgen.

Dit patent is weer niks nieuws. Iedere halfgare zool had dit ook wel kunnen verzinnen. Prima van Microsoft om dat dan te doen, maar om het dan meteen te patenteren.. Tja, er is denk ik ook niet veel keuze. Als ze het niet doen, doet iemand anders het wel.

@ Abom, ja je hebt deels gelijk, maar op de manier zoals men momenteel in de US patenten weggeeft bij pakjes boter, is het wel degelijk een grote belemmering. Men patenteert alles wat los en vast zit, en ik durf best te zeggen dan 80 tot 90 % van die patenten onzin, prio-art, of veel te voor de hand liggens zijn! Er is iets duidelijk mis met het systeem, en daar wordt grof gebruik van gemaakt. Met innovatie heeft dat niks te maken.

Abom @voodooless • 7 april 2006 19:44

Ik ben het met je eens dat het geen perfect systeem is, maar roepen dat patenten de innovatie tegenhouden is gewoon onzin.

Men patenteert alles wat los en vast zit, en ik durf best te zeggen dan 80 tot 90 % van die patenten onzin, prio-art, of veel te voor de hand liggens zijn!

Daar is niets mis mee, wanneer achteraf blijkt dat er prior-art was, dan stelt een rechter je gewoon in het gelijk en kun je een berg geld verwachten (zie Eolas). Voor de hand liggend, maar geen prior-art is nog atlijd terecht. Iets wat simpel, maar doeltreffend is, kan heel erg innovatief zijn.

Abom @Cameleon73 • 7 april 2006 13:02

Patenten zorgen voor innovatie doordat bedrijven durven te investeren in research, de investeringen worden gewaarborgd door de verkregen patenten. Wanneer er geen patenten zouden zijn, zou dit de innovatie belemmeren doordat grote bedrijven minder snel willen investeren in research, aangezien alle uitvindingen vrij gebruikt zouden kunnen worden door andere partijen.

Veel open-source fans zien deze dingen van patenten niet, die denken dat alles public-domain zou moeten zijn (wat ook z'n voordelen kent).
Probleem met patenten voor bijvoorbeeld algoritmes of software patenten, is dat de investering relatief goedkoop is itt high-tech research.

Nog iets, wist je dat Google's page-ranking systeem ook gepatenteerd is en dus ook niet gebruikt mag worden door de andere zoekmachines?

Verwijderd @Abom • 7 april 2006 13:48

ik vind dat open-source een beetje hetzelfde probleem heeft (zij het in mindere mate) als communisme: het werkt prima, mits iedereen er aan meedoet en menselijke hebzucht (en de behoefte een individualiteit in het geval van communisme) geen factor zou zijn. Open-source zou pas goed tot z'n recht komen als alle software ter wereld 't is en iedereen a la sourceforge overal aan mee kan werken. Technologie zou zoveel harder vooruit gaan (software iig, ik weet niet zo goed wat er met de hardware markt zou gebeuren, moeilijk...) omdat iedereen aan 't werk is om technologie vooruit te duwen, niet om een bedrijf aan winst te helpen.

Verwijderd @Verwijderd • 7 april 2006 14:07

Wat jij beschrijft is hoe het communisme in de praktijk werkte, en dat is precies wat ik bedoel: in theorie werkt 't heel goed, maar in de praktijk kreeg niet iedereen wat ie nodig had, omdat er na de 'regering' gewoon te weinig overbleef. Open-source kan zoveel meer zijn dan het nu is, alleen werkt 't gewoon in de praktijk niet zo. Ik wou helemaal geen vergelijking trekken tussen de twee, ik wil gewoon even ventileren dat ze allebei hetzelfde probleem hebben: in theorie werkt het veel beter dan het in de praktijk doet.

killercow @Verwijderd • 7 april 2006 13:56

zie je toch verkeerd denk ik.

Opensource is heel anders dan communisme.

Bij communisme namen enkele personen een overgroot deel van de geproduceerde fysieke goederen en diensten op waardoor er fiysiek minder over bleef voor de mensen die er met z'n alles even hard voor werken.

bij software kun je hoe dan ook allemaal gebruik maken van ieder z'n werk.
Of je nu 1 of 100 bugs oplost, je lost ze op voor je eigen gemak. en je kunt altijd even veel gebruik maken van de software die er is.

Of maak jij als niet developper de software op?

Verwijderd @Verwijderd • 7 april 2006 21:00

Alleen er is wel 1 fundamenteel verschil! Je kan hier en daar een open source programma gebruiken, als dat beter voldoet. Communisme is per land. Je kan niet 'een beetje communisme' hebben waar je het nodig hebt.

Verwijderd @Verwijderd • 9 april 2006 12:32

nogmaals: ik trek geen vergelijking tussen communisme en open-source, ik zeg alleen dat ze 1 probleem gemeen hebben: door menselijke factoren werken ze in de praktijk gewoon minder goed dan in de theorie [topic closed bij deze, volgens mij is 2 keer duidelijk zat]

bartgabriels 7 april 2006 11:05

Veel verschillende hostnamen die naar hetzelfde ip verwijzen;

Wat dan met shared hosting ?? Ik heb bijvoorbeeld mijn eigen server, en dmv Plesk worden er een 10 tal domeinnamen (en daaronder nog eens een aantal, sommige domeinen tot 50subdomeinen, naar 1 en hetzelfde IP adres gestuurd. Maar de sites zijn wel steeds anders.

sab @bartgabriels • 7 april 2006 11:37

als het een megahoster met duizenden domeinnamen per server is, zal die idd een hogere spamscore hebben. Maar dan nog zullen de andere facetten er moeten zijn om als spam bestempeld te worden.
Besides, MS kennende zullen ze het filter eerder te ruim afstellen dan te strak. (denk: html) Anders worden de grote bedrijven boos.

Verwijderd @bartgabriels • 7 april 2006 11:39

het gaat om websites die onder meerdere hostnames dezelfde feedback terug geven. Daar gaat het om. Goede zaak.

AxiMaxi @Verwijderd • 7 april 2006 12:20

Het gaat om een ALGORITME, da's dus meer dan domweg kijken naar 'voldoet het aan deze regel: ja/nee?'.
Het gaat om een 'intelligente' beoordeling op basis van een combinatie van eigenschappen.

Dus het argument van shared hosting is niet zinvol, want je voldoet, zoals andere al stellen, niet aan de andere eisen van bijvoorbeeld gelijke inhoud, gelijk aantal woorden en/of regelmatige wijziging.

Het is geen OR, maar AND vergelijking.

Verwijderd @bartgabriels • 7 april 2006 11:10

Dat maakt bij lange na niet de 100.000 die hier werden vernoemd.. Het is de factor 1000 die het spam maakt, nietwaar?

Garyu @bartgabriels • 7 april 2006 11:10

Nog steeds een veelvoud minder dan wat er in het artikel genoemd wordt..

M.Koers 7 april 2006 11:02

Ik hoop dat dit echt werkt en wordt doorgevoerd in alle zoekmachines.

Is gewoon weg irritant.
Zoek je op een bepaald onderwerp wordt je doodgegooid met reclame sites waar je geen reet aan hebt.

Gerco

@M.Koers • 7 april 2006 11:05

Helaas, het is gepatenteerd door Microsoft en komt dus waarschijnlijk alleen in MSN Search. Het lijkt me heel sterk dat Microsoft zijn enige voordeel boven Google wil opgeven door ze een licentie op deze techniek te verkopen

bigoldie @Gerco • 7 april 2006 13:52

En wie zegt dat google het nog niet heeft?

Cowboy op zee @bigoldie • 7 april 2006 17:40

bigoldie:

En wie zegt dat google het nog niet heeft?

Atlantis95:

Dit is een algemeen verhaal dat al jaren bekend is. Weinig nieuws aan.

Dat zal het patentbureau wel uitmaken, als het niets nieuws is wordt het patent niet verleend en anders wel

Blaise @Gerco • 7 april 2006 18:42

Ik denk dat Google al soortgelijke methoden toepast om spam te voorkomen, aangezien ik met Google vooralsnog minder sites vind die erop gericht zijn om een zoekmachine te spammen.

Maar als Google meer concurrentie krijgt van MSN/Live search, dan is dat natuurlijk alleen maar goed voor de consument.

dmantione @Blaise • 8 april 2006 09:25

Eén van de onderdelen van het berekenen van je pagerank is een deling door het aantal links wat je naar buiten hebt. Een spamsite heeft vaak als enig doel een hoop links naar andere sites te maken die daar voor betalen, een dergelijke site komt op deze manier onderaan terecht in de resultaten.

Een gewone website kan gerust links plaatsen. Welliswaar wordt je deelfactor groter, maar als de sites waar je naar wijst naar je teruglinken, en dat is vaak het geval, promoot je hun pagerank, en zij de jouwe weer, waardoor je juist een positief effect krijgt.

ajpohv @Gerco • 7 april 2006 11:07

Anders vragen ze aan Google gewoon 1 cent per zoekactie. Dan is MS zo weer een miljard rijker.

kamerplant @ajpohv • 7 april 2006 11:20

Dan zou Google $53.568.000 per maand richting Microsoft moeten schuiven (uitgaande van 2000 searches/seconden, wat klopt).

Jeroen87 7 april 2006 11:11

Dit voor MS natuurlijk een grote stap, zeker omdat google nog niet of in mindere mate over zo'n algoritme beschikt. Als dit echt werkt ga ik Live Search iig vaker gebruiken. Google is tegenwoordig namelijk best een zooitje aan het worden.

killercow @Jeroen87 • 7 april 2006 13:50

Wie zegt dat google dit ook al niet allang doet?
Ze hebben er alleen geen patent op aangevraagd gok ik.

google heeft een andere insteek omtremt development.
Google gaat er van uit dat alles wat ze ontwikkelen na een tijdje gemeengoed wordt (patenten en rechtzaken op triviale dingen en doorontwikkelde technieken kosten toch alleen maar bakken met geld)
Google houdt gewoon het tempo vernieuwingen ZO hoog dat ze hoe dan ook altijd voor op liggen, zelfs al zou iemand naar best inzicht heel google 1 op 1 kopieren.

Deze redenatie hebben ze ook tegen over advertentie software en het adsense platform, zie de 2006 financiele verwachting, het staat daar letterlijk in.

Voor MS is het echter heel belangrijk om zich voor te doen als innovator, ook al zijn ze dat nog nooit geweest. Als ze niet heel hard roepen (in voor normale mensen moeilijk te begrijpen technische termen) aka een patent, dat ze iets vreselijk stoers ontwikkeld hebben stapt natuurlijk niemand over.

Gewoon roepen dat ze beter zijn / worden / etc werkte het afgelopen jaar namenlijk niet, niemand vindt de ms search beter, en niemand is overgestapt.

losealot @Jeroen87 • 7 april 2006 11:47

Ik veronderstel dat je google medewerker bent, als je weet dat google niet over een dergelijk algoritme beschikt?
Een bedrijf kan er namelijk voor kiezen om zen verworven kennis niet te patenteren en als bedrijfsgeheim te houden...

bigoldie @Jeroen87 • 7 april 2006 13:51

Hoe weet je zo zeker dat het er nog niet is. Het feit dat het nog niet bekend is betekent niet dat het er nog niet is. Misschien is het inmiddels wel al ingebakken in Google en al heel lang beschikbaar.

Het feit is dat dit een vrij grote stap voor Microsoft kan zijn is het feit dat ze op dit moment nog vrij ver achter liggen op de concurrentie.

En waarom is google zo'n zooitje aan het worden? Of zoek je vaak op porno?

Verwijderd 7 april 2006 11:04

Lijkt erop dat LiveSearch (dus met deze feature ingebakkeN) misschien toch iets kan gaan betekenen vs Google als ze dit soort dingen in gaan bouwen.

Verwijderd 7 april 2006 11:25

Ik vind dit een enorm gunstige ontwikkeling, alleen is het jammer dat dit algorithme al zo oud is en (blijkbaar) nog niet geimplementeerd.

De vraag is nu of het openbaar maken van dit algorithme de bouwers van die spamsites in de kaart speelt. Hopelijk maakt dat niet uit; ik kan mij bv. voorstellen dat duizenden pagina's van die sites niet eenvoudig volgens een volkomen andere structuur opgebouwd kunnen worden (de patent-beschrijving lijkt behoorlijk generiek), en dan is deze aanpak levensvatbaar.

OF Microsoft gaat hiermee een krachtige zoekmachine opzetten, OF Google koopt zich in op het patent, OF Google is nu op het juiste pad gewezen en probeert een nog veel beter algorithme te maken, OF... maar hoe dan ook, dit inzicht kan ons van heel wat rotzooi in de zoekresultaten afhelpen.

/typo

TheekAzzaBreek @Verwijderd • 7 april 2006 13:58

Natuurlijk maakt het uit dat die criteria gepubliceerd zijn. Een aantal van die zaken (lange hostnamen, links verhouding, aantal woorden, wijzigings frequentie) zijn heel simpel en zonder investeringen aan te passen. De alertere zoekmachine spammers zijn waarschijnlijk al bezig.

Het is net zoiets als email spam of virussen, het is een constante wedloop waarop beide partijen zich steeds aan elkaar aanpassen. De bestrijders spelen alleen met zwart ...

Verwijderd 7 april 2006 12:59

De 'shingels' waar MSN gebruik van maakt, een manier om patronen in tekst te ontdekken, zijn gebaseerd op onderzoek van Andrei Broder. Alle grote zoekmachines hebben algoritmes om tekst te doorzoeken die grotendeels gebaseerd zijn op zijn onderzoek. Zie bijvoorbeeld:
http://www.google.com/search?q=Andrei+Broder+filetype:pdf

bartgabriels @Verwijderd • 7 april 2006 11:08

Dat bedrijf uit redmond is dan ook een COMMERCIELE organisatie die WINST wil maken en NIET de wereld verbeteren.

Wanneer gaat iedereen dat nu eens begrijpen?

maurad3r

@Verwijderd • 7 april 2006 11:10

Ik zie het nut van een patent hier nog wel van in: ze hebben dit bij M$ verzonnen en het lijkt met nogal logisch dat ze niet willen dat het zomaar wordt overgenomen!

Verwijderd @maurad3r • 7 april 2006 12:04

Dit is een algemeen verhaal dat al jaren bekend is. Weinig nieuws aan. Kan iedere webmaster uitpuzzelen.

dj.verhulst 7 april 2006 11:09

Oke MS , kill the spam

Maar ik vraag me af als het in 2004 al bekend was en dus , hebben ze het al gebruikt ??
Gezien de bagger die we dagelijk krijgen zou je zeggen niet of nog veel erger.....

bigoldie @dj.verhulst • 7 april 2006 13:45

In 2004 hebben ze het aangevraagd. Dus het kan inderdaad betekenen dat ze het al hebben toegepast, maar het kan ook zijn dat het toen alleen nog maar theoretisch hadden.

Het ontwikkelen duurt ook wel iets langer dan een paar uur.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (45)

Sorteer op:

Weergave: