Volgens de afstudeerscriptie van Maurice de Kunder, student Bedrijfscommunicatie en Digitale Media aan de Universiteit van Tilburg, beslaat het wereldwijde web minstens 14,3 miljard pagina's. Dat aantal, dat volgens De Kunders onderzoek de meest betrouwbare schatting is, bepaalde de student aan de hand van woord- en documentfrequenties zoals die uit verschillende tekstverzamelingen kunnen worden afgeleid. Indien een gegeven woord bijvoorbeeld in dertig teksten op een verzameling van dertigduizend voorkomt, dan is de documentfrequentie op 1 : 1000 te stellen. Geeft een bepaalde zoekmachine vervolgens voor dat woord negen miljoen resultaten terug, dan zijn er naar schatting negen miljard webpagina's met het bewuste woord. De Kunder bepaalde een representieve woordverzameling om deze som te herhalen, en deed dat vervolgens op de zoekmachines van Ask, Google, MSN en Yahoo. Gecorrigeerd voor de geschatte overlap tussen de door deze zoekmachines geïndexeerde pagina's kwam de student tot het aantal van 14,3 miljard. Het Nederlandse deel van de digitale snelweg werd door De Kunder becijferd op 291 miljoen pagina's. Het wereldwijde web zou een groei van rond de twee procent per maand kennen.
Volgens De Kunder vormt de zoekmachine van Yahoo de meest betrouwbare basis om het aantal www-pagina's mee te schatten. Aan de hand van Google bleken binnen een maand schattingen van tussen de 25 en 45 miljard webpagina's naar voren te komen; stagebegeleider Antal van den Bosch vermoedt dat dit komt doordat Google op drukke momenten een kleinere database inzet.
De resultaten van De Kunder zijn opvallend te noemen in het licht van de vorig jaar gevoerde strijd 'wie de grootste heeft' tussen Google en Yahoo. Vorige zomer gaven beide zoekmachines het aantal geïndexeerde pagina's nog weer, en stond de teller bij Google op 8,2 miljard webpagina's. Yahoo, dat een jaar eerder van Google's zoektechnologie was afgestapt om zich onafhankelijker te kunnen profileren, gaf 19,2 miljard webdocumenten weer - significant meer dan De Kunder nu heeft gemeten. Mogelijk bevonden zich in de Yahoo-index pagina's die volgens de methode van de student niet met goed fatsoen tot 'tekst' zijn te rekenen, zoals linkfarms, pornomateriaal en e-commercesites. Het is ook mogelijk dat de index van Yahoo indertijd werd bevuild door 'zoekmachinespamsites'; veelal dezelfde pagina's die slechts bedoeld zijn om een site van een hogere zoekmachineranking te voorzien. De Kunders schatting geeft vermoedelijk het aantal unieke pagina's dat met het wereldwijde web verbonden is. De student moet zijn scriptie overigens nog presenteren; geïnteresseerden kunnen daarvoor op woensdag 19 juli om 11 uur terecht in zaal A187 van de Universiteit van Tilburg.
The End of the Internet
Congratulations! This is the last page.
Thank you for your visit. There are no more links.
You must now turn off your computer and go do something productive.
Go read a book, for pete's sake.