'Web is minstens 14 miljard pagina's groot'

Volgens de afstudeerscriptie van Maurice de Kunder, student Bedrijfscommunicatie en Digitale Media aan de Universiteit van Tilburg, beslaat het wereldwijde web minstens 14,3 miljard pagina's. Dat aantal, dat volgens De Kunders onderzoek de meest betrouwbare schatting is, bepaalde de student aan de hand van woord- en documentfrequenties zoals die uit verschillende tekstverzamelingen kunnen worden afgeleid. Indien een gegeven woord bijvoorbeeld in dertig teksten op een verzameling van dertigduizend voorkomt, dan is de documentfrequentie op 1 : 1000 te stellen. Geeft een bepaalde zoekmachine vervolgens voor dat woord negen miljoen resultaten terug, dan zijn er naar schatting negen miljard webpagina's met het bewuste woord. De Kunder bepaalde een representieve woordverzameling om deze som te herhalen, en deed dat vervolgens op de zoekmachines van Ask, Google, MSN en Yahoo. Gecorrigeerd voor de geschatte overlap tussen de door deze zoekmachines geïndexeerde pagina's kwam de student tot het aantal van 14,3 miljard. Het Nederlandse deel van de digitale snelweg werd door De Kunder becijferd op 291 miljoen pagina's. Het wereldwijde web zou een groei van rond de twee procent per maand kennen.

WWW-toetsen Volgens De Kunder vormt de zoekmachine van Yahoo de meest betrouwbare basis om het aantal www-pagina's mee te schatten. Aan de hand van Google bleken binnen een maand schattingen van tussen de 25 en 45 miljard webpagina's naar voren te komen; stagebegeleider Antal van den Bosch vermoedt dat dit komt doordat Google op drukke momenten een kleinere database inzet.

De resultaten van De Kunder zijn opvallend te noemen in het licht van de vorig jaar gevoerde strijd 'wie de grootste heeft' tussen Google en Yahoo. Vorige zomer gaven beide zoekmachines het aantal geïndexeerde pagina's nog weer, en stond de teller bij Google op 8,2 miljard webpagina's. Yahoo, dat een jaar eerder van Google's zoektechnologie was afgestapt om zich onafhankelijker te kunnen profileren, gaf 19,2 miljard webdocumenten weer - significant meer dan De Kunder nu heeft gemeten. Mogelijk bevonden zich in de Yahoo-index pagina's die volgens de methode van de student niet met goed fatsoen tot 'tekst' zijn te rekenen, zoals linkfarms, pornomateriaal en e-commercesites. Het is ook mogelijk dat de index van Yahoo indertijd werd bevuild door 'zoekmachinespamsites'; veelal dezelfde pagina's die slechts bedoeld zijn om een site van een hogere zoekmachineranking te voorzien. De Kunders schatting geeft vermoedelijk het aantal unieke pagina's dat met het wereldwijde web verbonden is. De student moet zijn scriptie overigens nog presenteren; geïnteresseerden kunnen daarvoor op woensdag 19 juli om 11 uur terecht in zaal A187 van de Universiteit van Tilburg.

The End of the Internet

Congratulations! This is the last page.

Thank you for your visit. There are no more links.
You must now turn off your computer and go do something productive.
Go read a book, for pete's sake.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Mick de Neeve

Feedback • 12-07-2006 20:09
88 • submitter: Ateq

12-07-2006 • 20:09

Submitter: Ateq

Bron: Universiteit Tilburg

Lees meer

Universiteiten Twente en Tilburg ontwikkelen virtuele rechtshulp Nieuws van 10 mei 2010

Google doorbreekt grens van 1 biljoen geïndexeerde url's Nieuws van 26 juli 2008

Google wil webpagina's achter formulieren indexeren Nieuws van 15 april 2008

Amerikaanse pornospammers krijgen celstraf opgelegd Nieuws van 15 oktober 2007

'Internet voor 99 procent vrij van porno' Nieuws van 15 november 2006

Rechter: 'zaak over Google-ranking niet ontvankelijk' Nieuws van 14 juli 2006

Google kampt met indexeringsproblemen Nieuws van 5 mei 2006

Nieuw algoritme moet zoekmachine-spam tegengaan Nieuws van 7 april 2006

Yahoo heeft grotere zoekindex dan Google Nieuws van 9 augustus 2005

Yahoo stapt af van Google-zoektechnologie Nieuws van 18 februari 2004

Google grootste index van allemaal Nieuws van 18 februari 2004

Meer producten en artikelen

Bedrijfsnieuws

IT-banen

Meer vacatures

Reacties (88)

-Moderatie-faq

Wijzig sortering

Bitage 12 juli 2006 21:20

Wat mij nou echt gaaf lijkt, is om alle pagina's van het internet te downloaden

Voor het geval dat TechEddie er weer eens koffie over de server morst...

(http://img113.imageshack.us/img113/3949/techeddie0166bj.gif)

Het is denk ik veel handiger om bijvoorbeeld op de letter a of e ofzo te zoeken, omdat op bijna elke pagina wel een van die klinkers staat, das dan tog veel handiger, google komt dan al met pakweg 24.14 miljard paginas annzetten, ff naar yahoo! kijke

Of wat nog beter is: gewoon zoeken op bv. .nl / .be / .com / etc. / etc.

Zo krijg je, als je een lijst hebt met alle mogelijke "extensies" toch zo'n beetje alle pagina's, lijkt mij

*wat ben ík toch slim

Greyh0und @Bitage • 12 juli 2006 23:29

Volgens mij heeft Google dat al gedaan, met de "google cache"

oke, niet alle bestanden (a la *.zip e.d.) maar wel alle *.html files

thegve @Greyh0und • 13 juli 2006 00:04

http://web.archive.org/web/*/tweakers.net

Zij doen hun best in ieder geval. Bedrijf met geld teveel...

kamerplant @thegve • 13 juli 2006 09:34

Ze worden oa gesponsord door Xs4all. Zie http://www.xs4all.nl/overxs4all/sponsoring/ .

Janus Bier 13 juli 2006 00:56

beslaat het wereldwijde web minstens 14,3 miljard pagina's.

LOL

http://www.google.nl/search?hl=nl&q=http&meta=

Ik kan het ook

Darude1234 @Janus Bier • 13 juli 2006 01:31

Het grappige is dat Google.nl meer resultaten vindt dan google.com

google.nl vind 14,41 miljard pagina's
google.com vind 14,39 miljard pagina's

Pascal @Janus Bier • 13 juli 2006 12:22

ik ook
http://www.google.nl/search?q=www
circa 25.270.000.000 voor www

Verwijderd 12 juli 2006 20:22

welja. we nemen een stel onzekerheden, plakken daar wat niet te bewijzen conclusies aan vast, rotzooien een end aan met een stel zoekmachiens waarvan al gesteld wordt dat een wellicht af en toe een kleinre database gebruikt en dan is er weer een student van UVT die een partij onzin als afstudeerscriptie op papier vertrouwt.

en dat doet dan bedrijfscommunicatie en digitale media....

*zucht*

ATS @Verwijderd • 12 juli 2006 20:28

Ik ga er van uit dat je de scriptie gelezen hebt? Zo nee, dan zijn jouw conclusies over deze scriptie zo goed als zeker ongefundeerder dan de conclusies in deze scriptie.

mjtdevries @ATS • 12 juli 2006 21:01

Dat zou je mogen hopen ja...

Helaas blijkt dat wanneer je een beetje meer weet van het universitaire wereldje dat de opmerking van imapbox waarschijnlijk veel dichter bij de waarheid zit dan jij durft te denken.

engelbertus @Verwijderd • 12 juli 2006 21:02

ja die studeert bedrijfscommunicatie en digitale media.

dat beteket dus dat hij het antwoord moet vinden en formuleren op vragen van mensen die geen verstand hebben van digitale media en dat naar hen toe moet communiceren
dit is dus precies het soort werk dat hij straks zal moeten gaan doen, omdat hij nogal rare vragen van zijn bazen zal krijgen, zoals bijvoorbeeld hoe groot i het internet. en ga zo door. daarover moet de beste man dan proberen en gefundeerd antwoord te verzinnen, en hier heeft ie dus blijkbaar al een aardig stukje geschreven ;-)

klokop @engelbertus • 13 juli 2006 20:59

Als je naar iemand toe kan communiceren, kan je dan ook van iemand af communiceren?

ocdaan 12 juli 2006 21:33

het goede antwoord is: 42

dfr0st @ocdaan • 12 juli 2006 23:20

We weten alleen nog niet wat de vraag is.

mheikens @dfr0st • 12 juli 2006 23:29

Jawel hoor. Het is ... The Answer to The Ultimate Question Of Life, the Universe and Everything.

Wiki

Google_rekenmachine

jasperwillem @ocdaan • 12 juli 2006 23:59

Alles is 4

als je neemt 20 = twintig = 7 = zeven = 5 = vijf = 4

2.500.000.000 = veel = 4

YStec @jasperwillem • 13 juli 2006 01:35

4?

Er staat dus duidelijk 42, wat een "grap" afkomstig is van the hitchhikers guide to the galaxy.

42 is het antwoord op de vraag van mheikens...

klokop @YStec • 13 juli 2006 21:03

klok......................................klepel.

FReNsJ 12 juli 2006 21:33

Wat ik hieruit begrijp is dat hij al zoveel paginas telt ZONDER porno...

Neem dus nog maar eens 14 miljard paginas voor porno alleen erbij dus.

Mogelijk bevonden zich in de Yahoo-index pagina's die volgens de methode van de student niet met goed fatsoen tot 'tekst' zijn te rekenen, zoals linkfarms, pornomateriaal en e-commercesites.

edit:quote toegevoegd

Bitage @FReNsJ • 12 juli 2006 21:34

Weird, hij wou toch ALLE pagina's weten ?

Verwijderd 12 juli 2006 20:13

http://www.shibumi.org/eoti.htm

AW_Bos

12 juli 2006 20:14

http://tweakers.net/stats/?Action=Pageviews

Verwijderd @AW_Bos • 12 juli 2006 20:16

Dat is het Einde van Tweakers.

Daimanta @Verwijderd • 12 juli 2006 23:24

Voor mij is het einde van Tweakers, het einde van de wereld(en dus internet)

Captain Pervert @Daimanta • 13 juli 2006 02:16

Als dat jouw einde is, heb jij nooit een begin gehad lijkt me zo...

Damic @AW_Bos • 13 juli 2006 17:52

Hahahahaha

mjtdevries 12 juli 2006 21:00

Ben benieuwd hoeveel pagina's ie geteld heeft voor japans...
En chinees..... EN spaans, EN portugees, EN indische.

Je moet dan namelijk voor ALLE talen relevante woorden gaan opzoeken.

Typisch zo'n onderzoek waarbij er iets verzonnen moest worden, waarbij de methode belangrijker is dan het resultaat.
Anders had je bij Google Yahoo etc moeten informeren, want die weten daadwerkelijk hoeveel pagina's ze indexeren. Er is geen enkele reden om zo'n omslachtige methode te selecteren. (tenzij je er vanuit gaat dat die zoekmachines het aantal pagina's geheim wil houden)

ram.con 12 juli 2006 21:03

Indien een gegeven woord bijvoorbeeld in dertig teksten op een verzameling van dertigduizend voorkomt, dan is de documentfrequentie op 1 : 1000 te stellen. Geeft een bepaalde zoekmachine vervolgens voor dat woord negen miljoen resultaten terug, dan zijn er naar schatting negen miljard webpagina's met het bewuste woord.

Moet dat laatste niet 'in totaal' zijn, of lees ik de analogie tussen het voorbeeld en het principe van de documentfrequentie nu verkeerd?

1 op de 1000 appels is rot. Er zijn 9 miljoen rotte appels in de wereld. Hoeveel appels heeft de hele wereld?
(Jantje en de meester

)

Edit: bron:

Wanneer Google vervolgens meldt dat er 9 miljoen webpagina's bestaan waarop dat woord voorkomt, dan is dit getal te extrapoleren naar een totaal van 9 miljard webpagina's

Inhoudelijk: er was laatst een bericht met mooie boompjes over hoe zoekmachines indexeren. En ze doen zeker niet alles. Gevolg: deze schatting moet op zoveel punten gecorrigeerd worden dat je er zo een paar miljard naast kunt zitten. Nou ja goed, ik heb geen zin om de hele argumentatie van meneer student te gaan lezen, maar mij dunk dat er nog wel wat op het resultaat af te dingen valt.

Verwijderd 12 juli 2006 22:08

Dit is een heel klassieke schattingsmethode.

Bvb. Hoeveel zalm zit er in de zee ? Je vangt een paar zalmen, zet er met viltstift een streep op, en laat ze weer los. Na een tijdje vang je weer zalmen, en je kijkt of er veel of weinig tussen zitten die een streep dragen. Weinig hervangsten --> in totaal veel zalm in de zee. Het exacte getal kan je berekenen obv kansrekening die geen rocketscience is.

In het artikel staat het inderdaad foutief : het moet zijn 9 miljard pagina's in het totaal, niet met dat woord.

Op dit item kan niet meer gereageerd worden.

The End of the Internet

Congratulations! This is the last page.

Lees meer

IT-banen

Reacties (88)

Sorteer op:

Weergave: