Hoofdcategorieën

'Web is minstens 14 miljard pagina's groot'

Door Mick de Neeve, woensdag 12 juli 2006 20:09
Bron: Universiteit Tilburg, submitter: Ateq, views: 22.925

Volgens de afstudeerscriptie van Maurice de Kunder, student Bedrijfscommunicatie en Digitale Media aan de Universiteit van Tilburg, beslaat het wereldwijde web minstens 14,3 miljard pagina's. Dat aantal, dat volgens De Kunders onderzoek de meest betrouwbare schatting is, bepaalde de student aan de hand van woord- en documentfrequenties zoals die uit verschillende tekstverzamelingen kunnen worden afgeleid. Indien een gegeven woord bijvoorbeeld in dertig teksten op een verzameling van dertigduizend voorkomt, dan is de documentfrequentie op 1 : 1000 te stellen. Geeft een bepaalde zoekmachine vervolgens voor dat woord negen miljoen resultaten terug, dan zijn er naar schatting negen miljard webpagina's met het bewuste woord. De Kunder bepaalde een representieve woordverzameling om deze som te herhalen, en deed dat vervolgens op de zoekmachines van Ask, Google, MSN en Yahoo. Gecorrigeerd voor de geschatte overlap tussen de door deze zoekmachines geïndexeerde pagina's kwam de student tot het aantal van 14,3 miljard. Het Nederlandse deel van de digitale snelweg werd door De Kunder becijferd op 291 miljoen pagina's. Het wereldwijde web zou een groei van rond de twee procent per maand kennen.

WWW-toetsen Volgens De Kunder vormt de zoekmachine van Yahoo de meest betrouwbare basis om het aantal www-pagina's mee te schatten. Aan de hand van Google bleken binnen een maand schattingen van tussen de 25 en 45 miljard webpagina's naar voren te komen; stagebegeleider Antal van den Bosch vermoedt dat dit komt doordat Google op drukke momenten een kleinere database inzet.

De resultaten van De Kunder zijn opvallend te noemen in het licht van de vorig jaar gevoerde strijd 'wie de grootste heeft' tussen Google en Yahoo. Vorige zomer gaven beide zoekmachines het aantal geïndexeerde pagina's nog weer, en stond de teller bij Google op 8,2 miljard webpagina's. Yahoo, dat een jaar eerder van Google's zoektechnologie was afgestapt om zich onafhankelijker te kunnen profileren, gaf 19,2 miljard webdocumenten weer - significant meer dan De Kunder nu heeft gemeten. Mogelijk bevonden zich in de Yahoo-index pagina's die volgens de methode van de student niet met goed fatsoen tot 'tekst' zijn te rekenen, zoals linkfarms, pornomateriaal en e-commercesites. Het is ook mogelijk dat de index van Yahoo indertijd werd bevuild door 'zoekmachinespamsites'; veelal dezelfde pagina's die slechts bedoeld zijn om een site van een hogere zoekmachineranking te voorzien. De Kunders schatting geeft vermoedelijk het aantal unieke pagina's dat met het wereldwijde web verbonden is. De student moet zijn scriptie overigens nog presenteren; geïnteresseerden kunnen daarvoor op woensdag 19 juli om 11 uur terecht in zaal A187 van de Universiteit van Tilburg.


The End of the Internet


Congratulations! This is the last page.


Thank you for your visit. There are no more links.
You must now turn off your computer and go do something productive.
Go read a book, for pete's sake.

Volgende 23:47
Vorige 18:33

Reacties

«  1  2  3  4  5  »

Waar staat die pagina? "The End of the Internet"? :+


Dat is het Einde van Tweakers.

Voor mij is het einde van Tweakers, het einde van de wereld(en dus internet) ;)

Als dat jouw einde is, heb jij nooit een begin gehad lijkt me zo...


Dubbele typfout bij jou, webbapina's? Ik zie toch duidelijk webpapina's staan.

Het zijn in ieder geval nogal wat pagina's die er zijn. Nou vraag ik me af of elke pagina van nieuws ook een aparte is. Als dat zo is, dan zal het gros wel van het nieuws zijn.

ik denk toch echt dat het gros van porno is ...

Opzich wel een zeer slimme methode die de beste man heeft bedacht, maar wat ik niet helemaal begrijp is hoe hij de overlap tussen de verschillende zoekmachines heeft kunnen corrigeren. Heeft hij gewoon gemiddeldes genomen? lijkt me wel.

Kun je eigenlijk ook niet gewoon de DNS dingen langslopen en dan alle pagina's tellen?

En die pagina "the End of The Internet" is best een leuk grapje, moet je ook maar weer net op komen. Maar dan vraag ik me nu meteen ook af, wat is dan "The beginning of the internet" en dan doel ik dus op een pagina ;)

ff googlen, die staat hier: http://merkey.net/beginning/

Lekker handig dat er geen enkele hyperlink in die pagina staat. Kom je nog nergens met dat internet. :)

Al Gore's homepage is toch het begin? :Y)

edit: te laat.
hier kan je het internet uitzetten:
http://www.turnofftheinternet.com/

"Firefox heeft verkomen dat er een pop-up opende." :+

"Pop-up blocked, so stop bitching about Firefox." zegt IE7.

;)

Heeft niemand je ooit geleerd dat je nooit op rode knoppen mag drukken? :9

Maar dan vraag ik me nu meteen ook af, wat is dan "The beginning of the internet" en dan doel ik dus op een pagina
Hmmm...aan de reacties te zien weinig historisch besef hier... De oorsprong van het web, en daarmee de eerste site, ligt bij Cern:
The first Web site built was at http://info.cern.ch/ [2] and was first put online on August 6, 1991. It provided an explanation about what the World Wide Web was, how one could own a browser and how to set up a Web server. It was also the world's first Web directory, since Berners-Lee maintained a list of other Web sites apart from his own.
Just to put an end to the flauwe grapjes... ;)

Verder zie ik werkelijk het nut van een dergelijke studie niet in. Hoe groot is het internet? Lekker belangrijk. Je kunt volgens mij niet eens zeggen hoeveel pagina's er zijn, want er worden heel veel sites/pagina's gegenereerd door CMS'en. Vaak krijg je een pagina voorgeschoteld aan de hand van een zoekterm of voorkeuren, en dus is er voor elke bezoeker een unieke pagina. Tellen heeft wat dat betreft weinig zin. En dan nog...hoeveel domeinen kwamen er wereldwijd per maand erbij? Lekker tellen...laat die knaap een taakstraf uitzitten aub...wieldoppen tellen op de A2 oid...doet ie tenminste iets nuttigs... ;)

ik ben ook wel benieuwd naar de clou van het verhaal

De clou van het verhaal is dat er een onderwerp verzonnen moest worden waarop iemand op kon afstuderen.

En het zegt genoeg over de studie dat zoiets onnozels als dit een afstudeer onderwerp kan worden. (bedenk dat zoiets normaal gesproken 9 maanden werk is)

Dat verschilt nogal per studie. Zeker bij studies met een 1-jarige Master is voor het afstudeeronderzoek vaak slechts een maand of drie ingeroosterd.

Nou, die tijd zal hij ook wel nodig hebben gehad :Y)

Een éénjarige Master opleiding? Waar heb je die dan?

Is een Master titel niet beschermd of zo?

Veel MBA studies zijn maar één jaar, maar vereisen dan bijvoorbeeld wel een Bachelor titel en een jaar of 3 werkervaring.

Doet me denken aan een wiskundige berekening die iemand die ik ken gedaan had met betrekking tot het verkeer. De berekeningen waren aardig ingewikkeld(voor leken), de conclusie des te simpeler. "Als een stoplicht langer op groen staat, dan kunnen er meer auto's door". :Y)

wel een jaar om af te studeren, dat is dan 11 maanden, 3 weken en 6 dagen bier drinken en feesten en 1 dag om je studie af te ronden :+

Opzich wel een zeer slimme methode die de beste man heeft bedacht, maar wat ik niet helemaal begrijp is hoe hij de overlap tussen de verschillende zoekmachines heeft kunnen corrigeren. Heeft hij gewoon gemiddeldes genomen? lijkt me wel.
Gecorrigeerd voor de geschatte overlap tussen ...
Het is dus een schatting, hoe ze aan die schatting gekomen zijn kan je met een beetje geluk in de bron lezen.
stagebegeleider Antal van den Bosch vermoed dat dit komt doordat Google op drukke momenten een kleinere database inzet.
Eenzelfde search kan je dus beter enkele keren herhalen, op verschillende (tijden van de) dag(en)? Spijtig...

welja. we nemen een stel onzekerheden, plakken daar wat niet te bewijzen conclusies aan vast, rotzooien een end aan met een stel zoekmachiens waarvan al gesteld wordt dat een wellicht af en toe een kleinre database gebruikt en dan is er weer een student van UVT die een partij onzin als afstudeerscriptie op papier vertrouwt.

en dat doet dan bedrijfscommunicatie en digitale media....

*zucht*

Ik ga er van uit dat je de scriptie gelezen hebt? Zo nee, dan zijn jouw conclusies over deze scriptie zo goed als zeker ongefundeerder dan de conclusies in deze scriptie.

Dat zou je mogen hopen ja...

Helaas blijkt dat wanneer je een beetje meer weet van het universitaire wereldje dat de opmerking van imapbox waarschijnlijk veel dichter bij de waarheid zit dan jij durft te denken.

ja die studeert bedrijfscommunicatie en digitale media.

dat beteket dus dat hij het antwoord moet vinden en formuleren op vragen van mensen die geen verstand hebben van digitale media en dat naar hen toe moet communiceren
dit is dus precies het soort werk dat hij straks zal moeten gaan doen, omdat hij nogal rare vragen van zijn bazen zal krijgen, zoals bijvoorbeeld hoe groot i het internet. en ga zo door. daarover moet de beste man dan proberen en gefundeerd antwoord te verzinnen, en hier heeft ie dus blijkbaar al een aardig stukje geschreven ;-)

Als je naar iemand toe kan communiceren, kan je dan ook van iemand af communiceren?

Kan dit wel kloppen?

Een forum/nieuwssite/weblog en zulke websites hebben namelijk veel paginas. Die worden niet een voor een geteld..

Als je het echt wil tellen, zou je ook elke reactie (die worden namelijk gecreerd door tweakers) ook als een pagina tellen..

En uitgaan van "correcties" en "goede bronnen" en "schattingen" lijkt me niet echt slim...

Kan dit wel kloppen?
Nee: veel sites genereren dynamische content en andere sites hebben hidden of beveiligde content.

Een betere vraag is: maakt het uit dat het niet klopt?
Het antwoord daarop is: nee, maar als iemand je ervoor betaalt om het uit te zoeken dan zoek je het het toch uit?
«  1  2  3  4  5  »

Op dit item kan niet meer gereageerd worden.

Volgende 23:47
Vorige 18:33
VNU Media logo Powered by True

© 1998 - 2008 Tweakers.net - Alle rechten voorbehouden

Uitgever van: