Spidergedrag zoekmachines vergeleken

Het domein DrunkMenWorkHere.org is het afgelopen jaar geheel gewijd geweest aan het onderzoeken van zoekmachines. Op het domein was een site geplaatst van liefst 2.147.483.647 pagina's, die in een binaire-boomstructuur aan elkaar geknoopt waren. Door een jaar lang het gedrag van de bots van Google, Yahoo en MSN op deze site te bestuderen, hebben de Drunk Men geprobeerd om de methodes waarvan zoekmachines zich bedienen om een site in kaart te brengen, wat beter inzichtelijk te maken. En passant werd ook nog even gekeken welke andere robots de pagina's bezochten, en met een invulveldje werden zulke bots uitgenodigd om een opmerking achter te laten. Het bleek dat ruim de helft van de bots die automatisch teksten op de site achterlieten, reclame maakte voor geneesmiddelen.

DrunkMenWorkHere-onderzoek: pageviews per maand, cumulatief Van de 2³¹ aanwezige pagina's werden er door Yahoo's Slurp-bot meer dan honderdduizend opgevraagd, wat nog steeds niet meer dan een schamele 0,0049% van het totale aantal pagina's was. De Googlebot bleek benieuwd naar 7556 verschillende pagina's, terwijl de zoekmachine van Microsoft het na 1390 pagina's voor gezien hield. MSN Search rapporteerde dan ook niet meer dan één enkele pagina, terwijl Google beweerde 554 pagina's te hebben ontdekt, wat neerkomt op ruim zeven procent van de gespiderde pagina's. Yahoo deed zozeer zijn best om alle gevonden materiaal te laten zien, dat het zelfs meer gevonden pagina's rapporteerde dan het in feite had bekeken, maar dat ligt eerder aan een erg optimistische afronding dan aan moedwillige fraude.

DrunkMenWorkHere-onderzoek: bezochte nodes per niveau De binaire-boomconstructie maakte het verder mogelijk om vast te stellen hoe lang de spiders linkjes bleven volgen. Elke pagina van de testsite verwees naar twee 'dieper' gelegen pagina's, en tot vijf linkjes diep wist elke zoekmachine elke pagina te vinden. Google bleef het langst volledig: hun engine indexeerde alle pagina's tot het tiende niveau. Zowel MSN als Google lieten het daarna flink afweten, terwijl Yahoo pas na 27 van de 31 niveaus iets van zijn belangstelling verloor. Ook het aantal opgevraagde pagina's werd onderzocht, en weer bleek Yahoo het vasthoudendst: elke pagina die werd gespiderd, werd gedurende het jaar rond de tien keer opgevraagd, terwijl Google en MSN elk op ongeveer drie pageviews per gevonden pagina bleven steken. Voor een volledig verslag van alle bevindingen hebben we deze keer écht geen ruimte, want elk van de 2.147.483.647 pagina's bevat een grafische weergave van het gedrag van de zoekmachines vanaf die pagina. Voor wie graag met grafiekjes, statistieken en natuurlijk zoekmachines bezig is, is een bezoekje aan de site dan ook verplichte kost.

DrunkMenWorkHere-onderzoek: grafische weergave van de gevolgde zoekpaden

Grafische weergave van de gevolgde zoekpaden, van links naar rechts: Yahoo, Google, MSN

Vorig nieuwsartikel Volgend nieuwsartikel

Door René Wichers

Eindredacteur

Feedback • 04-05-2006 18:22
28 • submitter: Verwijderd

04-05-2006 • 18:22

Submitter: Verwijderd

Bron: DrunkMenWorkHere

Lees meer

Google kampt met indexeringsproblemen Nieuws van 5 mei 2006

Nieuw algoritme moet zoekmachine-spam tegengaan Nieuws van 7 april 2006

Microsoft zwakt claims over groei zoekmachine af Nieuws van 6 maart 2006

Gebruik zoekmachines in 2005 met 39 procent gestegen Nieuws van 6 maart 2006

Europese uitgevers willen geld van Google News Nieuws van 1 februari 2006

Namen websites meest voorkomende zoekopdracht Nieuws van 22 januari 2006

Google nog steeds populairste zoekmachine voor Yahoo Nieuws van 19 januari 2006

Wired-oprichter verklaart succes Google Nieuws van 26 december 2005

Zoeken op internet steeds populairder Nieuws van 21 november 2005

Controversieel onderzoek relativeert macht zoekmachines Nieuws van 19 november 2005

Meer producten en artikelen

Bedrijfsnieuws

IT-banen

Meer vacatures

Reacties (28)

-Moderatie-faq

Wijzig sortering

ram.con 4 mei 2006 18:32

Is het nu dom of slim van een zoekmachine om zo veel mogelijk pagina's te indexeren. Eerste reactie was: yahoo doet beter zijn best. Maar helpt het ook om zoveel mogelijk alles te willen hebben, of heeft het op een gegeven moment praktisch geen zin meer, wordt het ook voor de zoekalgoritmes te ingewikkeld, zoveel pagina's van een site?

En verder: zouden google en msn 'nadenken' over wanneer ze afhaken: ik bedoel, deze pagina's bevatten relatief weinig zinnige info, dus het kan zijn dat de bot denkt, laat ook maar zitten, hier hebben gebruikers niets aan. Zoekmachinekundige iemand?

[off-topic]Ram.con moet denken aan die super-logo turtle boomcreaties uit vroeger tijden een vist een logo-progje uit de krochten van z'n pc tevoorschijn[/off-topic]

Edit: deze grafiek doet (gezien dat haakje bovenin) vermoeden dat er toch wat willekeurigheid in het spel is. De grafiek van yahoo is veel regelmatiger. Dommer? Of gewoon meer=beter?

Verwijderd @ram.con • 4 mei 2006 19:16

Nou, vorig jaar presenteerde Yahoo heel trots het resultaat dat zijn index een stuk groter was dan die van Google.

Dat beide 30-50% spam/"automatically generated content" bevatten werd onder de mat geveegd, en dat de zoekalgoritmes die *daarna* bij een search op deze index gebruikt worden het eigenlijke "nut" van de index zijn, werd ook niet verder belicht.

[related] De afgelopen week echter schijnt er bij Google iets mis te zijn, waarbij soms 99% van de index van sites verdwenen is [/related]

iKiddo @ram.con • 4 mei 2006 22:46

Ik doe een beetje dit soort dingen voor school...
Het kan heel goed zijn dat Google het heeft.

Dan stop je iets van een content-based filter in het index-algoritme. Dan sla je de aantallen van woorden in pagina's op, en dan moet je die aantallen vergelijken. Als dan de indexen (en dus de pagina's) teveel op elkaar lijken, dan moet je stoppen met de vertakkingen van de website af te gaan.

Denk ik

TromboneFreakus @iKiddo • 5 mei 2006 13:40

En in aanvulling: ik zou als spider de betrekkelijke lege pagina's eerder negeren dan de goed gevulde, al was het maar omdat de kans dat op een pagina met veel tekst meer trefwoorden staan groter is dan op een pagina met weinig tekst. En zo is de kans bij het indexeren van die pagina's op succesvolle treffers voor de klant die uiteindelijk zoekt ook groter

Sp00n 4 mei 2006 18:51

Ontdek de fout: "Google bleef het langst volledig: hun engine indexeerde alle pagina's tot het tiende niveau. Zowel MSN als Google lieten het daarna flink afweten, terwijl Yahoo pas na 27 van de 31 niveaus iets van zijn belangstelling verloor."

Hoe kan Google het langst volledig zijn terwijl Yahoo pas na 27 van de 31 niveaus iets van zijn belangstelling verloor ?

Of lees ik het nou fout ?

jbvo @Sp00n • 4 mei 2006 19:01

Er wordt bedoelt dat Google tot op het hoogste niveau alle pagina's had bekeken. Dat valt ook op te maken uit http://www.drunkmenworkhe...e/nodes_crawled_depth.png, je kan hier zien dat op niveau 10 google nog steeds praktisch alle 2¹⁰ pagina's had bekeken, terwijl Yahoo toen al een beetje afgezakt was. Dat Yahoo daarna nog steeds veel pagina's bezoekt zegt natuurlijk niks over wat daarvoor is gebeurt, Yahoo laat in het begin ook al pagina's links liggen.

skralan @Sp00n • 4 mei 2006 19:03

omdat google ALLE pagina's tot 10 verdiepen diep heeft geindexeerd. Yahoo heeft wel meer verdiepen bezocht, maar niet alle pagina's ervan geindexeerd...

dat zie je ook op grafiek 2, de groene lijn (google) buigt minder snel af (tot op het punt waar hij in elkaar zakt).

Jack Flushell

@Sp00n • 4 mei 2006 18:58

Klopt is fout. K zalt even melden op he forum

martijnvanegdom 5 mei 2006 09:35

Als je goed de bomen bestudeerd (en dan voor al de animaties op de website) kun je wel wat zeggen over de algoritme van de drie zoekmachines.

Google lijk level-orderr traversal te gebruiken. Bij Google zie je vrij goed dat het laagje voor laagje waarbij volgt. Yahoo lijkt ook een level-order algortime te gebruiken, al viel het mij heel erg op dat de yahoo boom de neiging heeft uit te waaieren. Ik weet niet of dat aan de animatie ligt of aan de data.

Msn Search lijkt heeft een apart stukje boom plots staan. Msn lijkt dan ook een preorder traversal te gebruiken. Maar ook dat lijkt niet helemaal de goede te zijn.

Echter eigenlijk zijn de boom onnauwkeruig. Tijd om dus meer stastistieken door te spitten..

Verder lijkt het stoppen met zoeken mij gebaseerd op de content. Persoonlijk vind ik dat google het meest 'menselijke' gedrag heeft. Ik persoonlijk klik niet verder door dat 10 linkjes als ik niet vind wat wat ik zoek.

Verwijderd 4 mei 2006 19:32

Ik ben wel benieuwd wat voor interessant pagina'tje MSN op het einde van zijn zoektocht tegenkwam, dat de bot toch nog eventjes het pad een heel eind verder volgde.

Het zou ook leuk zijn om d.m.v. een dergelijke testsite te kijken in hoeverre zoekmachines pagina's met vermelding van de naam van die zoekmachine bevoordelen t.o.v. andere pagina's.

General_Failure @Verwijderd • 4 mei 2006 21:20

Ik ben wel benieuwd wat voor interessant pagina'tje MSN op het einde van zijn zoektocht tegenkwam, dat de bot toch nog eventjes het pad een heel eind verder volgde.

Dat stuk is ooit gelinkt vanaf een andere site, daarom staat het ook helemaal los van de rest.

Razwer 4 mei 2006 19:02

Mjah, er was een tijd dat yahoo de grootste searcher was. Toen verloren ze dik marktaandeel aan google, en willen kosten wat het kost het weer terug. In plaats van agressief adverteren proberen ze de kwaliteit omhoog te krikken.
Heel goed van ze, Al blijft Yahoo een kut bedrijf (vooral hoe ze in china bezig zijn en de kont kussen van de chineze overheid).

Verwijderd @Razwer • 4 mei 2006 20:38

In plaats van agressief adverteren proberen ze de kwaliteit omhoog te krikken.

Door alle mogelijke irrelevante bagger op een website mee te nemen in de index?

aardkwak @Razwer • 4 mei 2006 19:37

Vergeet niet dat google óók in china bezig is.

Dat tot nu toe alleen Yahoo in opspraak is geraakt is een heel ander verhaal

Superstoned @aardkwak • 4 mei 2006 21:52

awel, maar google MELD op haar chinese zoeksite dat er resultaten zijn weggelaten (als dat zo is), ze sturen je NIET door naar de pagina met gecleande resultaten wanneer je google.com bezoekt (dus je kunt nog steeds makkelijk zien wat google.cn weglaat), en google heeft geen blogs en mail zodat ze geen persoonlijke gegevens hoeven te geven aan de chinese overheid -> en dat is ook de reden (zeggen ze, tenminste) dat ze die niet hebben.

in tegenstelling hiertoe, yahoo heeft al zeker 5 mensen in de cel laten belanden, en microsoft gaf zelfs de gegevens van een gast die op een AMERIKAANSE server stonden - buiten de jurisdictie van china, dus dat hadden ze helemaal niet hoeven geven - kortom, yahoo en MS werken volop en met plezier mee met de chinese overheid, terwijl google hun nek riskeert door overduidelijk op hun site aan tegeven dat ze door de chinese overheid gedwongen worden hun resultaten te censureren.

ze hadden dat sowieso niet gedaan wanneer google.com binnen china niet vaak slecht of totaal niet bereikbaar was dankzij het blokkeren door de chinese overheid. ze vinden dat de chinezen meer hebben aan een gecensureerde google dan aan geen google.

kijk, het zijn vast geen engeltjes, maar wel een klasse beter dan de wolven van yahoo en microsoft. die gaan overduidelijk over lijken...

Verwijderd 4 mei 2006 23:59

De "boom" van Yahoo ziet er het mooist uit, vindik.
Lekker belangerijk voor de zoekresulataten is dat. Vroeger gebruikte ik Yahoo, nu Google. Werkt veel sneller, en minder opdringerige ads.

Verwijderd 5 mei 2006 00:11

uit eigen ervaring kan ik zeggen dat ik van de 4 grootste de meeste overlast vindt van yahoo, msn, ask, google (in die volgorde). voornamelijk yahoo en msn zijn uitermate irritant met indexeren. Ask en google gebruiken 1 client die sessions goed afhandeld, yahoo en msn niet.

Blokker_1999

Bedrijfsnieuws

@StGermain • 4 mei 2006 19:05

Zowat iedereen die de dag van vandaag anonieme comments toestaat heeft er last van. En ook meer en meer geregistreerde systemen liggen onder vuur. Op een forum waar ik modereer mogen we wekelijks wel een postje verwijderen met zulke gerobotiseerde spam. Sommige registratiesystemen die met afbeeldingen werken houden hen ook al niet meer tegen.

Verwijderd @Blokker_1999 • 4 mei 2006 19:09

ik heb gister een bedrijf uit Witrusland geblokked in de firewall.
Ze spamden meer dan 50.000 sites, door gastenboeken, fora's, en statistieken (webalizer) te bevuilen!

Priet @Verwijderd • 4 mei 2006 20:36

Mogen wij daar wat meer informatie van, zodat ook wij onze firewalls aan kunnen passen?

mxcreep @Blokker_1999 • 4 mei 2006 21:22

Beetje eigen schuld...een gegenereerde image waarvan je de tekst moet invoeren en dan het liefst vage lettertypen voorkomt het meeste van dit soort ellende.