Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 88 reacties
Bron: Universiteit Tilburg, submitter: Ateq

Volgens de afstudeerscriptie van Maurice de Kunder, student Bedrijfscommunicatie en Digitale Media aan de Universiteit van Tilburg, beslaat het wereldwijde web minstens 14,3 miljard pagina's. Dat aantal, dat volgens De Kunders onderzoek de meest betrouwbare schatting is, bepaalde de student aan de hand van woord- en documentfrequenties zoals die uit verschillende tekstverzamelingen kunnen worden afgeleid. Indien een gegeven woord bijvoorbeeld in dertig teksten op een verzameling van dertigduizend voorkomt, dan is de documentfrequentie op 1 : 1000 te stellen. Geeft een bepaalde zoekmachine vervolgens voor dat woord negen miljoen resultaten terug, dan zijn er naar schatting negen miljard webpagina's met het bewuste woord. De Kunder bepaalde een representieve woordverzameling om deze som te herhalen, en deed dat vervolgens op de zoekmachines van Ask, Google, MSN en Yahoo. Gecorrigeerd voor de geschatte overlap tussen de door deze zoekmachines ge´ndexeerde pagina's kwam de student tot het aantal van 14,3 miljard. Het Nederlandse deel van de digitale snelweg werd door De Kunder becijferd op 291 miljoen pagina's. Het wereldwijde web zou een groei van rond de twee procent per maand kennen.

WWW-toetsen Volgens De Kunder vormt de zoekmachine van Yahoo de meest betrouwbare basis om het aantal www-pagina's mee te schatten. Aan de hand van Google bleken binnen een maand schattingen van tussen de 25 en 45 miljard webpagina's naar voren te komen; stagebegeleider Antal van den Bosch vermoedt dat dit komt doordat Google op drukke momenten een kleinere database inzet.

De resultaten van De Kunder zijn opvallend te noemen in het licht van de vorig jaar gevoerde strijd 'wie de grootste heeft' tussen Google en Yahoo. Vorige zomer gaven beide zoekmachines het aantal ge´ndexeerde pagina's nog weer, en stond de teller bij Google op 8,2 miljard webpagina's. Yahoo, dat een jaar eerder van Google's zoektechnologie was afgestapt om zich onafhankelijker te kunnen profileren, gaf 19,2 miljard webdocumenten weer - significant meer dan De Kunder nu heeft gemeten. Mogelijk bevonden zich in de Yahoo-index pagina's die volgens de methode van de student niet met goed fatsoen tot 'tekst' zijn te rekenen, zoals linkfarms, pornomateriaal en e-commercesites. Het is ook mogelijk dat de index van Yahoo indertijd werd bevuild door 'zoekmachinespamsites'; veelal dezelfde pagina's die slechts bedoeld zijn om een site van een hogere zoekmachineranking te voorzien. De Kunders schatting geeft vermoedelijk het aantal unieke pagina's dat met het wereldwijde web verbonden is. De student moet zijn scriptie overigens nog presenteren; ge´nteresseerden kunnen daarvoor op woensdag 19 juli om 11 uur terecht in zaal A187 van de Universiteit van Tilburg.


The End of the Internet


Congratulations! This is the last page.


Thank you for your visit. There are no more links.
You must now turn off your computer and go do something productive.
Go read a book, for pete's sake.
Moderatie-faq Wijzig weergave

Reacties (88)

beslaat het wereldwijde web minstens 14,3 miljard pagina's.
LOL :9

http://www.google.nl/search?hl=nl&q=http&meta=

Ik kan het ook :Y)
Het grappige is dat Google.nl meer resultaten vindt dan google.com

google.nl vind 14,41 miljard pagina's
google.com vind 14,39 miljard pagina's
ik ook
http://www.google.nl/search?q=www
circa 25.270.000.000 voor www :Y)
Wat mij nou echt gaaf lijkt, is om alle pagina's van het internet te downloaden :7
Voor het geval dat TechEddie er weer eens koffie over de server morst... :o
(http://img113.imageshack.us/img113/3949/techeddie0166bj.gif)

Het is denk ik veel handiger om bijvoorbeeld op de letter a of e ofzo te zoeken, omdat op bijna elke pagina wel een van die klinkers staat, das dan tog veel handiger, google komt dan al met pakweg 24.14 miljard paginas annzetten, ff naar yahoo! kijke :9

Of wat nog beter is: gewoon zoeken op bv. .nl / .be / .com / etc. / etc.

Zo krijg je, als je een lijst hebt met alle mogelijke "extensies" toch zo'n beetje alle pagina's, lijkt mij :Y) *wat ben Ýk toch slim :*) *
Volgens mij heeft Google dat al gedaan, met de "google cache"

oke, niet alle bestanden (a la *.zip e.d.) maar wel alle *.html files :P
http://web.archive.org/web/*/tweakers.net

Zij doen hun best in ieder geval. Bedrijf met geld teveel...
Ze worden oa gesponsord door Xs4all. Zie http://www.xs4all.nl/overxs4all/sponsoring/ .
welja. we nemen een stel onzekerheden, plakken daar wat niet te bewijzen conclusies aan vast, rotzooien een end aan met een stel zoekmachiens waarvan al gesteld wordt dat een wellicht af en toe een kleinre database gebruikt en dan is er weer een student van UVT die een partij onzin als afstudeerscriptie op papier vertrouwt.

en dat doet dan bedrijfscommunicatie en digitale media....

*zucht*
Ik ga er van uit dat je de scriptie gelezen hebt? Zo nee, dan zijn jouw conclusies over deze scriptie zo goed als zeker ongefundeerder dan de conclusies in deze scriptie.
Dat zou je mogen hopen ja...

Helaas blijkt dat wanneer je een beetje meer weet van het universitaire wereldje dat de opmerking van imapbox waarschijnlijk veel dichter bij de waarheid zit dan jij durft te denken.
ja die studeert bedrijfscommunicatie en digitale media.

dat beteket dus dat hij het antwoord moet vinden en formuleren op vragen van mensen die geen verstand hebben van digitale media en dat naar hen toe moet communiceren
dit is dus precies het soort werk dat hij straks zal moeten gaan doen, omdat hij nogal rare vragen van zijn bazen zal krijgen, zoals bijvoorbeeld hoe groot i het internet. en ga zo door. daarover moet de beste man dan proberen en gefundeerd antwoord te verzinnen, en hier heeft ie dus blijkbaar al een aardig stukje geschreven ;-)
Als je naar iemand toe kan communiceren, kan je dan ook van iemand af communiceren?
het goede antwoord is: 42
We weten alleen nog niet wat de vraag is.
Jawel hoor. Het is ... The Answer to The Ultimate Question Of Life, the Universe and Everything.

Wiki

Google_rekenmachine
Alles is 4

als je neemt 20 = twintig = 7 = zeven = 5 = vijf = 4

2.500.000.000 = veel = 4
4?

Er staat dus duidelijk 42, wat een "grap" afkomstig is van the hitchhikers guide to the galaxy.

42 is het antwoord op de vraag van mheikens...
klok......................................klepel.
Wat ik hieruit begrijp is dat hij al zoveel paginas telt ZONDER porno...

Neem dus nog maar eens 14 miljard paginas voor porno alleen erbij dus.
Mogelijk bevonden zich in de Yahoo-index pagina's die volgens de methode van de student niet met goed fatsoen tot 'tekst' zijn te rekenen, zoals linkfarms, pornomateriaal en e-commercesites.
edit:quote toegevoegd
Weird, hij wou toch ALLE pagina's weten ?
Dat is het Einde van Tweakers.
Voor mij is het einde van Tweakers, het einde van de wereld(en dus internet) ;)
Als dat jouw einde is, heb jij nooit een begin gehad lijkt me zo...
Ben benieuwd hoeveel pagina's ie geteld heeft voor japans...
En chinees..... EN spaans, EN portugees, EN indische.

Je moet dan namelijk voor ALLE talen relevante woorden gaan opzoeken.

Typisch zo'n onderzoek waarbij er iets verzonnen moest worden, waarbij de methode belangrijker is dan het resultaat.
Anders had je bij Google Yahoo etc moeten informeren, want die weten daadwerkelijk hoeveel pagina's ze indexeren. Er is geen enkele reden om zo'n omslachtige methode te selecteren. (tenzij je er vanuit gaat dat die zoekmachines het aantal pagina's geheim wil houden)
Indien een gegeven woord bijvoorbeeld in dertig teksten op een verzameling van dertigduizend voorkomt, dan is de documentfrequentie op 1 : 1000 te stellen. Geeft een bepaalde zoekmachine vervolgens voor dat woord negen miljoen resultaten terug, dan zijn er naar schatting negen miljard webpagina's met het bewuste woord.
Moet dat laatste niet 'in totaal' zijn, of lees ik de analogie tussen het voorbeeld en het principe van de documentfrequentie nu verkeerd?

1 op de 1000 appels is rot. Er zijn 9 miljoen rotte appels in de wereld. Hoeveel appels heeft de hele wereld?
(Jantje en de meester O+ )

Edit: bron:
Wanneer Google vervolgens meldt dat er 9 miljoen webpagina's bestaan waarop dat woord voorkomt, dan is dit getal te extrapoleren naar een totaal van 9 miljard webpagina's
Inhoudelijk: er was laatst een bericht met mooie boompjes over hoe zoekmachines indexeren. En ze doen zeker niet alles. Gevolg: deze schatting moet op zoveel punten gecorrigeerd worden dat je er zo een paar miljard naast kunt zitten. Nou ja goed, ik heb geen zin om de hele argumentatie van meneer student te gaan lezen, maar mij dunk dat er nog wel wat op het resultaat af te dingen valt.
Dit is een heel klassieke schattingsmethode.

Bvb. Hoeveel zalm zit er in de zee ? Je vangt een paar zalmen, zet er met viltstift een streep op, en laat ze weer los. Na een tijdje vang je weer zalmen, en je kijkt of er veel of weinig tussen zitten die een streep dragen. Weinig hervangsten --> in totaal veel zalm in de zee. Het exacte getal kan je berekenen obv kansrekening die geen rocketscience is.

In het artikel staat het inderdaad foutief : het moet zijn 9 miljard pagina's in het totaal, niet met dat woord.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True