Controversieel onderzoek relativeert macht zoekmachines

Onderzoek naar het effect van zoekmachines op de hoeveelheid verkeer richting een website heeft een verrassend resultaat opgeleverd. Uit een omstreden onderzoek blijkt namelijk dat de gangbare aanname dat Google en consorten ervoor zorgen dat bekende websites exponentieel toenemende bezoekersaantallen mogen verwelkomen en daarom steeds beter vindbaar worden, niet waar is. Zoekmachines blijken juist een nivellerend effect te hebben op de bereikbaarheid van websites. Nieuwe en onbekende websites hebben vanwege zoekmachines een grotere ontdekkingskans dan het geval is wanneer de vindbaarheid alleen veroorzaakt zou worden door onderlinge links tussen websites. De gangbare ‘Googlearchy’-hypothese dat bekende sites vanwege hun hoge notering in zoekmachines alsmaar beter bezocht worden ten koste van minder bekende websites, wordt door dit onderzoek dan ook afgewezen. Volgens de wetenschappers van de Indiana University in de VS en de Duitse Bielefeld universiteit zorgen zoekmachines juist voor verkeer richting minder populaire websites dat daar anders nooit terecht zou komen.

Onder leiding van Santo Fortunato vergeleken de onderzoekers het aantal websites dat naar een bepaalde locatie linkt en de hoeveelheid verkeer die naar de website toegaat. Dit werd gedaan voor bijna dertigduizend websites. Vervolgens werd er een model opgesteld dat de factoren combineert die van toepassing zijn tijdens het zoeken naar informatie op internet. Deze factoren waren onder andere de zoektermen die mensen gebruiken, de manier waarop zoekmachines resultaten verkrijgen en ordenen en de manier waarop mensen met die resultaten omgaan. Dit model werd vervolgens vergeleken met het gemeten verkeer naar websites toe. In tegenstelling tot hun hypothese dat er een exponentiële relatie zou bestaan tussen het aantal hyperlinks naar de website toe en de hoeveelheid verkeer, bleek deze relatie gewoon lineair te zijn. Het eindigt daarom met de conclusie dat de ‘rich-get-richer’-aanname geen bestaansrecht heeft.

Relatie inkomende hyperlinks en hoeveelheid verkeer websites
Relatie tussen het aantal links dat naar een website verwijst (horizontale schaal) en de gemeten hoeveelheid verkeer die de website bereikt (verticale schaal). De paarse grafiek ('searching model') geeft het aantal bezoekers weer dat in het gebruikte model theoretisch via zoekmachines de website zou bezoeken; de zwarte lijn ('surfing model') geeft aan hoeveel dit er theoretisch zouden zijn als het verkeer alleen door onderlinge hyperlinks veroorzaakt wordt. De rode punten ('empirical data') geven het daadwerkelijk gemeten verkeer weer.

De uitkomsten van het onderzoek blijken niettemin verre van onomstreden. De conclusies zouden namelijk verkregen zijn op basis van een experimentele opzet die meerdere oorzaken voor het gemeten effect toestaat. Volgens Matthew Hindman van de Arizona State University staat het bijvoorbeeld niet vast dat zoekmachines ervoor zorgen dat het exponentiële model tegengesproken wordt door het daadwerkelijke verkeer naar grote websites toe. Ook is er onderzoek dat juist het tegenovergestelde beweert (.pdf-formaat) en claimt data te hebben die bewijst dat het rich-get-richer-effect wél optreedt. Ook zouden de methodes voor het bepalen van het aantal links naar een website toe en de belangrijkheid van een website, namelijk via het ‘link:’-commando in Google en de website-classificatie van Alexa, verre van foutloos zijn. Het blijft dus gissen naar de impactfactor van de zoekmachinekolossen op de richting van het internetverkeer.

Door Inge Janse

19-11-2005 • 19:34

22

Reacties (22)

22
22
13
8
4
2
Wijzig sortering
lijkt mij redelijk logisch.

Zonder zoekmachines vind je alleen de bekende sites

Met zoekmachines kom je op sites die je niet kent. Tuurlijk als je naar 'auto' zoekt zal je niet op de homepage van iemand die een auto heeft komen (gelukkig maar), maar als je heel gericht zoekt zal je juist op sites komen waar je anders nooit zou komen
Ik denk toch dat er waarheid in zit. De meeste mensen komen op mn site terecht dankzij google. Terwijl ik helemaal geen 'grote' site heb. En de zoektermen waarmee men op mn site terecht komt toch niet zo uniek zijn.
Grootste reden hier is volgens mij hetgeen waarop men klikt bij de resultaten. Ik zie aan de korte samenvatting doorgaans of de site de moeite is om te bezoeken. Voorkomen op de eerste pagina is dan wel een voordeel, en in die optiek gaat het wel op dat de eerste 10 treffers zich wel zullen onderscheiden van de andere.
Uiteindelijk blijken zowat al die onderzoeken wel omstreden te zijn.

In het artikel dat de basis vormt van dit bericht zijn de conclusies te makkelijk getrokken; omdat in het grafiekje hierboven de getallen grafisch een trend suggereren, mag je niet zomaar concluderen dat die trend er ook is.

Het artikel dat vermeldt staat als tegenwerping doet omstreden aannamen. De auteurs nemen aan dat een zoektocht zonder zoekmachine een even grote kans geeft op iedere internetpagina. Ik denk echter dat wat zoekmachines doen (gebruik de pagerank = aantal links naar een pagina toe) een abstracte weergave is van wat we voor de zoekmachines ook al deden.

Wat die Hindman doet weet ik niet, 42 pagina's waren mij te veel :-).

In het algemeen vind ik dit probleem eigenlijk helemaal niet erg. So what als goeie paginas niet makkelijk ' van de troon' te stoten zijn? Ze zijn niet voor niets zo hoog geklommen; een nieuwe pagina die goed is komt er toch wel. Vergelijk het maar met aspirant-politici; willen we dan zo graag dat iedere sukkel met een mening zomaar in de Tweede Kamer terecht komt? Ikke niet.

@ Pietje Puk -

Ik doe onderzoek in de ontwikkeling van statistiek, en ben niet zo maar onder de indruk als mensen met formules smijten. Om de discussie niet te lang te maken het volgende:

* Ja, we kunnen trends testen op significantie. Maar dan alleen heel specifieke trends, op grond van grondig onderzocht modellen (regressie, sem, multi-level). Dat is hier niet het geval, en heel terecht kwam ik in dat artikel nergens iets tegen over significantie. Dus kunnen ze geen harde uitspraken doen, en is dat zeker niet zo makkelijk als jij stelt.

* In simpele vorm stellen ze dat ze *verwachten* dat 'als *theorie* rich-get-richer klopt dan moet in de *praktijk* dit in hun dataset terug te vinden zijn. Echter, (1) deze theorie is nog niet zeker; zijn er ook andere invloeden? (2)Ze ontwikkelen daarvoor eigen berekeningen - waarvan het resultaat niet gelijk doorzichtig is; een risoco is altijd dat je vindt wat je wilt concluderen. Daarnaast maken ze (3) gebruik van 1 dataset die (4) blijkbaar ook nog eens omstreden is. Dat noem ik 'te makkelijk conclusies trekken'; wanneer je gangbare theorieen wilt ondergraven moet je wat dieper gaan (5). Zoals blijkt uit Hindman's reactie. Ik tel dus zo 5 redenen waarom ik de conclusie te makkelijk vind.

Al met al een leuk idee, ga lekker zo door, maar wees wat voorzichtiger voor je wilt publiceren.

Verder moet je wel goed lezen. Het citaat "The random-surfer model ... just following links." wordt later preciezer gemaakt door oa. proposition 2: "Any visit to a page can be done by any Web user with equal probability". Kijk, en dan hang je. Ik denk namelijk dat dat gewoon niet klopt, en dat de werkelijkheid veel dichter bij de google-machine ligt dan de onderzoekers wensen. Wat het meten van 'rich-get-richer' veel moeilijker meetbaar maakt.

Verder hoop ik dat jij, net als iedere andere ervaren internetonderzoeker, google slechts als deel van je zoekgedrag gebruikt.

/Off-topic: waarom scoor ik met mijn verhaal 'overbodig'? Vreemd.
omdat in het grafiekje hierboven de getallen grafisch een trend suggereren, mag je niet zomaar concluderen dat die trend er ook is.
Dit is wel erg makkelijk. Als je een trend denkt te signaleren in een grafiek kun je héél makkelijk via statistische tests controleren of je daadwerkelijk ook met een trend te maken hebt.

In het artikel:
We used the Yahoo and Alexa services to estimate in-degree and traffic for a total of 28,164 Web pages. Of these, 26,124 were randomly selected using Yahoo’s random page service. The remaining 2,040
pages were selected among the sites that Alexa reports as the ones with highest traffic. The resulting density plot is shown in Fig. 4A.
To ensure the robustness of our analysis, we collected our data twice at a distance of two months. While there were differences in the numbers (for example Yahoo increased the size of its index significantly in the meanwhile), there were no differences in the scaling relations. We also collected indegree data using Google [12], again yielding different numbers but the same trend.
Te makkelijk getrokken lijkt mij dan ook een erg "makkelijke" uitspraak en niet gebaseerd op het artikel :)

Ook met
Het artikel dat vermeldt staat als tegenwerping doet omstreden aannamen. De auteurs nemen aan dat een zoektocht zonder zoekmachine een even grote kans geeft op iedere internetpagina. Ik denk echter dat wat zoekmachines doen (gebruik de pagerank = aantal links naar een pagina toe) een abstracte weergave is van wat we voor de zoekmachines ook al deden.
kan ik het niet eens zijn. Het empirisch onderzoek (Hoofdstuk 3) gaat uit van 2 snapshots: Als rich-get-richer opgaat zijn de populaire sites uit snapshot 1 op het tweede moment relatief pupulairder geworden. Vrij simpel, je verklaart dan niet waarom het gebeurt maar wel dat het gebeurd. (in dat sample)
In Hoofdstuk 4 gaat men dan de situatie zonder searchengines vergelijken met die met searchengines
The random-surfer model captures the case when the users are not in uenced by search engines.
In this model, Web users discover new pages simply by surf-ing the Web, just following links.
Dus een site waar veel naar toe gelinkt wordt, wordt (in tegenstelling tot jou interpretatie) wél vaker gevonden dan een pagina zonder veel links. De omstreden aanname is dus van jezelf, niet van de auteurs :)
Wel is dit tweede onderzoek betrekkelijk kleinschalig van opzet (154 sites) dus niet zo heel erg betrouwbaar.

En de vraag, is het erg dat een klein aantal sites het internet domineren? mag iedereen zelf beantwoorden. Zelf wil ik de "beste" informatie vinden via een zoekmachine. En populair is simpelweg ongelijk aan goed. De beste informatie kan op een kleine specialistische site staan en niet op een grote, bekende site over een onderwerp. Als een zoekmachine dat soort kleine sites weg drukt ten faveure van de grote sites wordt het internet snel een eenheidsworst waar de beste informatie niet meer te vinden is via zoekmachines. Ik wordt er dus niet echt gelukking van als search engines Rich-gets-richer bevorderen. Search engines zouden juist ook met verrassende andere resultaten moeten komen dan de bekende grote sites.

Anders zouden we net zo goed een top 100 van beste sites voor een onderwerp kunnen gebruiken (denk aan www.startpagina.nl en consorten)
Ik denk dat het ind e praktijk er een beetje tussenin ligt. het is namelijk afhankelijk van het algoritme van de zoekmachine, de zoekwoorden die bezoekers gebruiken, en de inhoud van de website die elkaar hier allemaal beinvloeden.
Toelichting op plaatje:
staande as is de hoeveelheid verkeer die een website krijgt,
liggende as is het aantal verwijzingen vanuit websites (zoals links pagina's en google&co).
Dus als elke link een hit zou opleveren zou er een keurige diagonale lijn schuin over de grafiek lopen (van 0,0 naar oneindig, door 100,100 zeg maar). De 'emperical data' volgt deze lijn vrij netjes, maar ligt iets hoger. Deze begint ongeveer bij de 10 tot de -8e, oftewel, elke 100.000.000e link leverde een hit op.
De drie schuine ingetekende lijnen met ertussen het paarse vlak stellen het theorietje van de schrijvers voor. Zijn testen twee (en een derde) hypotheses:
1. mensen zouden enkel websites vinden die hen al bekend zijn.
2. mensen zouden enkel websites vinden via links op zoekmachines.
3. mensen zouden enkel op de top-links van de zoekmachines klikken
theorie 1. is het "surfing model 1-k"
theorie 2. is het rechter deel van het paarse vlak,
theorie 3. is het linker deel van het paarse vlak.
Uit de hoek/afstand tussen de emperical data en de drie lijnen die de 3 theorieen voor stellen is 'af te lezen' dat het surfing model nog de beste van de drie is. Maar daar is dus ook nog heea op af te dingen.
Grootste kritiek punt van conculega's: de emperische data is niet gemeten, maar berekend. Het is dus een model dat een model analyseerd...
Succes! (en dat met minder dan 1000 woorden).
-edit- typo's
Ik denk dat het veel uitmaakt of mensen een beetje slim zijn bij het kiezen van hun zoektermen of niet. Wil je naar de nieuwe Harry Potter film en je typt op google alleen maar Harry Potter in, dan krijg je een flinke lijst grote internationale sites. Ben je net dat kleine beetje slimmer en geef je op Harry Potter Utrecht, goh, dan krijg je ineens wel bioscopen in Utrecht waar de film gaat draaien (en boekhandels natuurlijk ook); sites dus die je zonder zoekmachine niet makkelijk had kunnen vinden.

Wil dit onderzoek dus zeggen dat mensen een heel klein beetje intelligentie gebruiken bij het zoeken, of is dat weer te optimistisch geinterpreteerd?
Anoniem: 127386 19 november 2005 19:36
ik denk het plaatje alles zegt |:(
: O+ heerlijk verwoord!

maar mijn visie op het hele zaakje is devolgende:
de meest populaire sites zijn vaak ook de beste, en die geeft google ook als eerste aan; dus als een site de moeite is, dan krijgt hij van vele andere sites verwijzingen naar zichzelf, waardoor google automatisch zal denken "dit is de beste site want hij wordt het meeste vermeld en ik kom hem het vaakst tegen in mijn index"
Dat het plaatje voor sommigen misschien onbegrijpelijk is dat maakt natuurlijk niet zoveel uit. Het punt is dat een goed gekwantificeerd onderzoek meer waard is dan 'mijn visie op het hele zaakje'. En dit ziet er uit als een gedegen onderzoek.
Een echte Jedi doorziet de Empirical data.
Een plaatje zegt meer dan 1000 worden :P
Toch denk ik dat we meer hebben aan die 1000 woorden, dus wie biedt zich aan? ;)
We moeten niet te ver zoeken naar een uitleg van het plaatje. Het is simpel:

Het gaat om de knikkers en niet om het spel, we zien immers geen potje.

+ 985 x bla bla
Zoals je ziet treed er verzadiging op, op een gegeven moment vind iedereen die je zoekt jou en hebben meer links simpelweg geen zin meer.
Ja, idd, statistische groei, en daarna vanwege teveel populariteit, teveel commercialisering of fanboys, of verkwanseling wegens verwaandheid door de populariteit, of een nieuwe concurrent, ook weer statistische afname (het geheel lijkt een klokmodel).

Voorbeelden hiervan zijn Altavista, en mijns inziens mogelijk ook slashdot.

Op dit item kan niet meer gereageerd worden.