Google doorbreekt grens van 1 biljoen geïndexeerde url's

Google heeft bekendgemaakt dat zijn zoekindex meer dan 1 biljoen geïndexeerde url's bevat. Het internet is echter vele malen groter, omdat een groot aantal pagina's niet geïndexeerd zal worden vanwege een gebrek aan relevantie.

In 1998 begon Google met een index van 26 miljoen url's. In 2000 was dit aantal gegroeid naar 1 miljard en inmiddels zijn het er 1 biljoen, oftewel 1.000.000.000.000. Op internet zijn echter nog veel meer pagina's te vinden, aldus twee Google-engineers op de Google-weblog. Een deel daarvan bevat exact dezelfde content als reeds geïndexeerde url's en wordt daarom niet meegeteld. Een ander deel bevat content die niet relevant is en is daarom niet opgenomen in de index.

Op basis van deze linkjesbrei wordt een graaf gemaakt, die de basis vormt voor Googles Pagerank-algoritme. In 1998 duurde het doorrekenen van het algoritme enkele uren op een gewoon werkstation. Inmiddels wordt het algoritme door de Google-servers meerdere malen per dag bijgewerkt. Het doorrekenen van een graaf bestaande uit 1 biljoen elementen is, aldus Google, vergelijkbaar met het onderzoeken van elke kruising van elke weg in de VS. Er is echter een klein verschil: het gaat om een kaart die 50.000 keer groter is dan Amerika en – alsof dat niet genoeg is – ook nog eens 50.000 keer meer kruisingen en wegen bevat.

Hoe groot het internet werkelijk is kan ook Google ons niet vertellen. De zoekindex mag inmiddels meer dan 1 biljoen url's bevatten, een deel van het internet wordt door Google welbewust niet opgenomen in deze index. Daarnaast groeit het internet met enkele miljarden pagina's per dag en komt er nog eens bij dat er bijvoorbeeld digitale kalenders zijn met linkjes naar 'de volgende dag', waardoor er in feite oneindig grote websites bestaan. Hoe groot het internet werkelijk is, kan derhalve niet exact bepaald worden.

IT-banen

Reacties (66)

El Cid 26 juli 2008 21:20

"Het internet is echter vele malen groter, omdat een groot aantal pagina's niet geïndexeerd zal worden vanwege een gebrek aan relevantie."

Gaat niet een nog groter deel schuil achter sites waar je je eerst moet registreren? Zo is bijvoorbeeld veel content van The New York Times wel gratis toegankelijk, maar niet zonder je eerst te registreren. Alhoewel er bij dit voorbeeld (voor de zoekbots) mischien wel een samenvatting vrij toegankelijk wordt gemaakt.

Cafe Del Mar

@El Cid • 26 juli 2008 21:38

Die sluiten een deal met Google. De Google-bot mag wél door de registratieprocedure gaan, om zo de content die beschikbaar is nà registratie ook in de zoekmachine opgenomen te krijgen.
Er circuleerde een tijd een code om FF zich voor te laten doen als de Google-bot om zo door de meeste registraties te raken. Google heeft de identificatie van zijn bot dan veranderd. Of er nadien nog zo'n gevallen zijn geweest, weet ik niet, tis niet dat ik dat op de voet volg

Verwijderd @Cafe Del Mar • 26 juli 2008 22:19

Je bedoelt de user agent switcher addon, erg handig inderdaad, effe installeren en dan een xml importeren met googlebot en wat andere bots en je komt de meesta fora en andere sites zoals NY Times zo binnen wandelen, en mocht dat allemaal niet helpen dan heb je bugmenot nog

Verder zoals al eerder genoemd staan een heleboel sites niet in de google index omdat ze of niet relevant genoeg zijn, of gewoon niet in de index willen. Ken een aantal sites die koste wat kost niet in de index willen worden opgenomen, gelukkig werkt robots.txt prima om google ervan te weerhouden je site of delen ervan te indexen.

BastiaanN @Cafe Del Mar • 27 juli 2008 10:38

Wat ik mij dan afvraag, zijn dit soort sites dan een uitzondering op de richtlijnen van google? Volgens mij werden sites die dit soort praktijken handhaafden wel degelijk verwijdert uit de index.

De richtlijnen zeggen dan ook dat je bezoekers geen andere content moet voorschuiven dan de google bot. Wat ze in principe wel doen, want wil je dezelfde content als de google bot zien, dan moet je betalen.

Verwijderd @BastiaanN • 27 juli 2008 11:22

Ja maar voor de links die jij bedoelt krijgt Google niet betaald. Die mogen dus niet, en de grote kranten e.d. wel...

Vaak gaat het bij die sites overigens ook over 'gratis registreren' wat natuurlijk niet gratis is, omdat je ze betaalt met allerlei gegevens.

[Reactie gewijzigd door Verwijderd op 26 juli 2024 02:28]

Verwijderd @El Cid • 26 juli 2008 21:50

Met google webmastertools kan je de bot automatisch laten inloggen als je de gegevens en de POST gegevens geeft dacht ik.

Verwijderd 27 juli 2008 15:59

En google zou nog veel groter kunnen worden door databasen te indexeren.

J.J.J. Bokma @Verwijderd • 27 juli 2008 18:19

Deep web: daar wordt al in beperkte mate aan gewerkt, zie: http://googlewebmastercen...g-through-html-forms.html

J.J.J. Bokma 26 juli 2008 22:40

waardoor er in feite oneindig grote websites bestaan.

Onzin natuurlijk. De maximale lengte van een URL is beperkt, en dus kunnen er geen oneindig grote websites bestaan , hoe spannend het ook klinkt. Even nadenken voor je iets vertaald.

dcm360

@J.J.J. Bokma • 26 juli 2008 23:01

Tja, maar je kan wel gigantisch veel verschillende parameters aan een script doorgeven. Om maar even een voorbeeld te geven: mijn gastenboek kan maximaal 214.74.83.648 berichten aan, wat al onvoorstelbaar veel is (o jee als ik mijn gastenboek ooit vol krijg). Vervolgens kan ik een ander soort index gaan gebruiken met als maximum 18*10^18 Combineer ik die beiden is het nog gigantisch veel meer, wat al onmogelijk op de huidige opslagmedia past. En dan heb ik nog zoveel plaatsen voor tekens in mijn URL over...

Maar ik moet toegeven dat de beschijving onmogelijk groot misschien passender is dan oneindig groot.

J.J.J. Bokma @dcm360 • 27 juli 2008 01:15

Op den duur loop je op tegen dat het versturen van de URL naar de webserver niet meer lukt in een mensenleven, omdat die zo veel bytes in beslag neemt (ik neem even aan dat je 'm nog wel op je computer kan opslaan/genereren). En dan nog heb je geen oneindig veel URLs.

Het wordt al onpraktisch als een URL meer dan 1.000.000 tekens bevat; je moet dan eerst 1 MB (we verwaarlozen even wat headers)) uploaden om de pagina te kunnen downloaden. En als we even voor het gemak aannemen dat een teken 256 mogelijke waarden heeft en dat alles kan, dan kan je dus maximaal 256 tot de macht 1.000.000 URLs aanmaken. Wat niet oneindig is. Wel veel, maar niet oneindig.

Tenslotte: nog even voor de duidelijkheid, het is niet noodzakelijk om over "parameters voor een script" te praten om zo erg lange URLs te maken. Je kan in plaats van:

http://example.com/eenscript.pl?dit=1&dat=ook1

ook gewoon:

http://example.com/eenscript/dit/dat/ook1

doen (en dat op de webserver naar een script laten verwijzen).

[Reactie gewijzigd door J.J.J. Bokma op 26 juli 2024 02:28]

Kolky1 @J.J.J. Bokma • 27 juli 2008 03:11

Ik vindt het een zware opmerking die je maakt over dat oneindig niet mogelijk is. Want oneindig is juist oneindig; het heeft geen einde, het heeft geen invloed op hardware het heeft geen invloed op tijd omdat je oneindig bezig zult zijn met uitzoeken waar het einde is. Oneindig is een raar begrip iets waar je zelfs met de meest geavanceerde wiskundige berekeningen geen houvast aan kunt knopen.

Zoals ik al eerder zei; je kunt oneindig gebruiken om iets te omschrijven waar je gewoon niet weet waar het einde is en daarvoor is deze stelling prima geschikt.

J.J.J. Bokma @Kolky1 • 27 juli 2008 17:07

Oneindig is niet mogelijk, punt. In het stuk van Google gaat het over "out there", en niet over een theoretische web server en ditto browser.

En het is prima mogelijk om een bovengrens te vinden die stukken minder dom klinkt dan: er zijn oneindig veel web pagina's.

Left @J.J.J. Bokma • 27 juli 2008 10:12

Nee, je loopt niet tegen de maximumlengte van een URL aan. Neem het voorbeeld uit het bericht: De url 'de volgende dag' zal in zijn levensduur naar een oneindig aantal verschillende pagina's verwijzen.
Een wat directer voorbeeld: Ik maak een site met als URL 'random nummer' en ik laat mijn webserver bij iedere page request een pagina genereren met een nieuw random nummer erop.

Verwijderd @J.J.J. Bokma • 27 juli 2008 23:16

Nee, de moderator heeft zich niet vergist. Jij wel. Je bent veel te veel bezig met de URLs. Op de Google Blog staat toch al het voorbeeld gegeven van de kalender, met een knopje volgende of vorige maand. Stel je draait een website met zo'n kalender die steeds uit een database gehaald wordt. Voor de webspider heeft jouw website nu een oneindig aantal pagina's, want steeds als hij de link volgende volgt, krijgt hij een de nieuwe maand, met opnieuw weer een link naar de volgende maand enz. De URL hoeft helemaal niet te steeds groter te worden (database die de kalender steeds naar boven tovert). Voor de webspider is deze pagina nu dus oneindig. Hij kan toch het oneindige de link 'next' steeds blijven volgen (en telkens een nieuwe andere kalender)krijgen). Zorg eens dat je het hele idee van URL als beperking op het aantal pagina's uit je hoofd haalt..

J.J.J. Bokma @Verwijderd • 28 juli 2008 03:45

Holoris: ik leg het nog 1 keer uit (hoewel ik nu al weet dat je mij gewoon wegmod, omdat je niet kan "winnen")

Als je op een website een kalender hebt, dan moet je dus elke kalenderpagina uniek met je browser kunnen benaderen. Dat doe je normaal met een URL. Maar hoe je het ook went of keert, je browser moet bij het bezoeken van die bewuste site dus netjes aan kunnen geven welke kalenderpagina precies teruggegeven moet worden door de webserver.

Als Google gelijk zou hebben, dan zijn er een oneindig aantal kalenderpagina's op die webserver. Om precies te zijn een aftelbaar oneindig aantal webpagina's. Dat wil zeggen dat we elke kalenderpagina af kunnen beelden op de verzameling van natuurlijke getallen. Dat wil ook zeggen dat we voor pagina 1 x 10^99 een tekenreeks over moeten sturen die nogal erg lang is zelfs als we het efficient coderen. En voor kalenderpagina 1 x 10^100000000000000 is dat een hele erge lange string. Die codes zijn zo groot dat er geen computer systeem is die dat over kan sturen zonder uit elkaar te vallen. Kortom, er kunnen "out there" praktisch nooit en te nimmer een oneindig aantal pagina's zijn.

[Reactie gewijzigd door J.J.J. Bokma op 26 juli 2024 02:28]

J.J.J. Bokma @Verwijderd • 28 juli 2008 03:46

Holoris: het zou je sieren als je eens uitlag hoe dat "volgende maand" knopje van jou precies werkt, misschien kan ik het dan aan je uitleggen zonder dat je mij domweg weg blijft modereren. Of anders, je mag mij ook gewoon emailen. Ik vind het prettig om dingen aan mensen uit te leggen. Niet om te winnen, maar omdat ik het ook ooit allemaal heb moeten leren.

Verwijderd @J.J.J. Bokma • 27 juli 2008 08:48

Anderen vertellen dat ze moeten nadenken, terwijl je dat zelf niet doet of niet goed genoeg is lame. Bovenal omdat je nog eens toevoegd: "onzin NATUURLIJK". Als je dit soort uitingen doet kun je maar beter met een sterke onderbouwing komen, en daar rammelt het aan bij jouw stelling. Je maakt een categorale denkfout. Jouw argument is:

1. De maximale lengte van de URL is beperkt.
2. (impliciet) Websites bestaan alleen via een URL
3. Dus kunnen er geen oneindig grote websites bestaan.
--

Ten eerste, kunnen er heel websites bestaan zonder dat die bereikbaar zijn via een URL (zoals de nieuwe versie van mijn website die op mijn HD staat waar Google lekker nog niet bij kan).
Ten tweede, is de grootste fout dat je de URL vereenzelfd met een website. Ook al is het aantal URL's beperkt, maakt nog niet dat het aantal websites dat ook is: denk aan dynamische websites die iedere dag, uur enz. andere content hebben. Zo kan je ook wat wel vaker gebeurt op 1 URL 2 websites draaien: een script checkt wel IP-block je vandaan komt en geeft dan ofwel de EU ofwel de US versie van de website. 1 URL, 2 (of oneindig) websites.

Er kan misschien een andere reden bestaan waarom er geen oneindig grote websites bestaan, maar de reden die jij geeft - dat de maximale lengte van een URL beperkt is, blijkt in ieder geval onjuist.

J.J.J. Bokma @Verwijderd • 27 juli 2008 16:40

1) de maximale lengte van een URL is beperkt simpelweg omdat een browser om een pagina op te halen die URL moet oversturen.
2) websites bestaan inderdaad alleen via een URL, inderdaad
3) en mijn conclusie is dus juist

Jouw website op jouw HD gebruikt ook URLs, dat terzijde. Maar zodra jouw pagina's niet beschikbaar zijn op het Internet hebben we het over een andere verzameling web pagina's natuurlijk. Maar dan nog, zelfs als je elk bestandje op elke computer in de wereld mee wilt tellen, kom je nooit op een oneinding aantal paginas, simpelweg volgens dezelfde redenatie: de bestandsnamen worden te groot. En als je overlap toestaat, dan loop je al snel op tegen het feit dat opslagruimte (relatief) beperkt is.

Dat je op 1 URL op basis van een andere header meerdere pagina's kan hebben doet er niet toe: aantal is dan nog steeds niet oneindig.

En dat geld ook simpelweg voor tijd.

Kortom, je zit er naast.

edit: ik probeer het verder uit te leggen, want ik gok dat je deze niet makkelijk meer weg kan modereren zoals je met mijn andere reakties doet.

denk aan dynamische websites die iedere dag, uur enz. andere content hebben.

Zelfs als ze elke pico seconde andere content hebben op dezelfde URL, dan nog kan je geen oneindig aantal van die pagina's maken. Zie entropie in Wikipedia.

een script checkt wel IP-block je vandaan komt en geeft dan ofwel de EU ofwel de US versie van de website. 1 URL, 2 (of oneindig) websites.

Nee, helaas pindakaas. Je browser moet dan extra informatie naast de URL meesturen. Je kan dan zeggen dat de URL lekker kort is, maar die extra informatie om aan te geven welke versie je wilt hebben doet je op den duur de das om (je IP adres zit ook in het verzoek naar de webserver, anders weet die server niet waar de pagina heen moet). En dus kan je ook zo geen oneindig aantal webpagina's maken.

Kortom, je focust te veel op mijn URL, ik kan het ook zo stellen: als er n pagina's op een website zijn, moeten er n unieke codes zijn zodat een browser kan aangeven welke van de n pagina's de gebruiker wilt zien. Als je n groot neemt, wordt automatisch de lengte van de code erg groot. En daarom is een site met een oneindig aantal pagina's verre van praktisch mogelijk, hoe mooi het ook klinkt in een Google persbericht.

[Reactie gewijzigd door J.J.J. Bokma op 26 juli 2024 02:28]

tomhagen @J.J.J. Bokma • 26 juli 2008 22:51

Kun je mij aangeven wat de maximale lengte voor een URL dan is? Volgens mij zwijgen de RFCs daar namelijk over.

J.J.J. Bokma @tomhagen • 27 juli 2008 01:08

Ik weet het ook niet, de exacte lengte, maar: er is een limiet, en daardoor kan je nooit oneindig grote websites maken.

Ik leg het (hopelijk) beter uit (in het Engels) hier: http://johnbokma.com/mexi...-number-of-web-pages.html

In (kort) Nederlands: stel de maximale lengte is 1000,000,000,000 tekens, en stel een teken 1 byte is. Dan moet je webbrowser 1 terrabyte aan data versturen naar een webserver om die pagina op te vragen.... En dan kan je nog niet eens een site maken die oneindig groot is.

[Reactie gewijzigd door J.J.J. Bokma op 26 juli 2024 02:28]

Kolky1 @J.J.J. Bokma • 27 juli 2008 03:04

Het gebruik van het begrip oneindig in een dergelijke bericht duid denk ik eerder op het feit dat de limiet niet te omschrijven is. Je kan nou eenmaal niet omschrijven waar het einde is, zelfs als daar ergens een (technisch) limiet aan zit.

Verwijderd @Kolky1 • 27 juli 2008 16:16

Kolky, je hebt gelijk.
Oneindig betekent niet hetzelfde als geen limiet hebben. Dat haalt John Bokma door elkaar.
Het heelal is bijvoorbeeld niet oneindig, maar heeft geen grens (limiet), net zoals de aarde geen einde kent (je kunt oneindig één richting oplopen), maar er is toch een limiet (aan het oppervlakte).

Natuurlijk is dit niet hetzelfde als bij Google, maar ik hoop dat je het eens bent, dat er weldegelijk verschil tussen beide is.

J.J.J. Bokma @Verwijderd • 27 juli 2008 16:48

Kan je mij het verschil uitleggen tussen: er is geen limiet aan het aantal web paginas en het aantal web pagina's is oneindig?

J.J.J. Bokma @Kolky1 • 27 juli 2008 16:44

Natuurlijk kan je een praktische bovengrens stellen.

QkE @J.J.J. Bokma • 27 juli 2008 01:22

Ik heb je stukje even gelezen en het overtuigt me nog steeds niet waarom er fundamenteel geen oneindig veel websites kunnen bestaan. Je hebt wel een punt dat het praktisch niet handig of nuttig is, maar het is theoretisch wel mogelijk om een oneindige URL te maken en dus oneindig veel websites.

TheJTE @QkE • 27 juli 2008 01:51

Om een oneindig aantal websites of een oneindig lange URL op te slaan heb je ook oneindig veel opslagruimte nodig. Een oneindig grote schijf is simpelweg niet mogelijk en daarom is het fundamenteel onmogelijk om een oneindig aantal websites online te zetten.

Sisko @TheJTE • 27 juli 2008 04:14

Je hebt geen oneindig grote harde schijf nodig, wel oneindig veel harde schijven. Of dat haalbaar is valt te bezien maar doet er totaal niet toe wanneer we het over theoretische mogelijkheden hebben

J.J.J. Bokma @Sisko • 27 juli 2008 16:47

Strictly speaking, the number of pages out there is infinite

Lees ik zeer zeker niet als theoretisch.

En nee, een oneindig aantal harde schijven is niet mogelijk. Waar haal jij de energie vandaan om die te maken?

J.J.J. Bokma @QkE • 27 juli 2008 02:04

TheJT geeft een prima antwoord daarop, praktisch loop je altijd tegen beperkingen op.

Theoretisch mogelijk, maar praktisch onmogelijk. En

Strictly speaking, the number of pages out there is infinite

(van Google's blog) is dus klinkklare onzin.

musiman

@tomhagen • 27 juli 2008 08:01

Een DNS naam mag maximaal 255 karakters bevatten.

Ook RFC 2181 geeft aan dat 255 het maximum is, waarbij UTF karakters die meerdere octetten bevatten, er niet voor kunnen zorgen dat het langer is, want het aantal octetten staat gewoon vast.

Maar wanneer je een url maakt en er m.b.v. een / (=slash) symbool een verwijzing maakt naar een plek binnen de site, dan is het aantal mogelijkheden wel onbeperkt:
Als voorbeeld deze manier van het maken van homepages:

http://www.providernaam.nl/~klantnaam

J.J.J. Bokma @musiman • 27 juli 2008 16:50

*zucht* natuurlijk zijn de mogelijkheden beperkt. De maximale lengte van een URL is beperkt (hoeveel bytes dat is, doet er niet eens toe, op den duur kan je er praktisch niet meer mee werken).

Verder, gebruik voor voorbeelden example.com, dat is er speciaal voor gereserveerd.

Verwijderd @tomhagen • 27 juli 2008 21:05

Bij mijn weten hebben de browsers maxima gesteld aan de lengte van een URL, maar stellen de RFC's geen maximum. Het aantal mogelijke URL's is dus oneindig.

Nog afgezien van pagina's die server-side gegenereerde random content hebben, pagina's die worden opgebouwd op basis van forms, pagina's die andere pagina's (deels) includen.

MadEgg @J.J.J. Bokma • 27 juli 2008 15:27

Dat je oneindig veel pagina's hebt betekent niet dat ze steeds langer moeten worden... En 'oneindig' is natuurlijk altijd metaforisch.

Maar als je een kalender hebt als

http://www.site.com/calen...day=01&month=01&year=2008

dan kan je een bijna oneindig aantal pagina's maken door de parameters te variëren. Voordat je URL-string dan dermate lang is geworden dat het er niet meer oppast, ben je heel wat millenia verder...

J.J.J. Bokma @MadEgg • 27 juli 2008 16:43

Het gaat niet om de lengte van de pagina's zelf, maar om de URL. Hoe meer pagina's er zijn, hoe langer die URL moet worden om ze allemaal uniek te kunnen adresseren. En op den duur wordt die URL dus te lang.

En wat is bijna oneindig?

Verwijderd @J.J.J. Bokma • 26 juli 2008 22:51

Er zit toch echt een verschil tussen een pagina en een website....

Verwijderd @Verwijderd • 26 juli 2008 23:47

En er zit toch echt een verschil tussen een website, een URL en een domeinnaam. Daarom zegt een TLD ook niks.

Vraag me ook af wat ze nu precies als URL tellen. Want als ik ergens www.dit.nl/dat/file.html?dit=1&dat=ook1 heb staan, en dat wordt ook als URL geteld, dan kunnen ze inderdaad oneindig doorgaan..

XIU @Verwijderd • 27 juli 2008 01:07

Maar als er een maximum op de totale url zit is dit niet oneindig

J.J.J. Bokma @Verwijderd • 27 juli 2008 01:11

Nee, dat kunnen ze dus niet. Simpelweg omdat er een limiet is aan de lengte van een URL. En als daar een limiet aan zit, kan je geen oneindig aantal URLs maken.

edit: verder nog een verzoek: voor voorbeelden gebruik je example.com (dat is speciaal voor voorbeelden gereserveerd). Nu heb je een URL gemaakt die een 404 geeft op iemand anders zijn server.

[Reactie gewijzigd door J.J.J. Bokma op 26 juli 2024 02:28]

J.J.J. Bokma @Verwijderd • 27 juli 2008 01:10

Een oneindig aantal pagina's is niet mogelijk, een oneindig aantal websites is niet mogelijk, simpelweg omdat het onmogelijk is om een oneindig aantal URLs te maken.

Verwijderd @J.J.J. Bokma • 27 juli 2008 08:31

Fout! Een oneindig aantal pagina's is wél mogelijk ! Als ik iedere seconden een scriptje draai die random wat op mijn website zet kan ik een oneindig aantal pagina's serverren aan mijn bezoekers.

[Reactie gewijzigd door Verwijderd op 26 juli 2024 02:28]

Marcx77 @Verwijderd • 27 juli 2008 13:30

Dan heb je in theorie over een oneindige tijdsduur een oneindig aantal pagina's. De discussie ging over een oneindig aantal pagina's *op een bepaald moment*.
Dit is ook in theorie niet mogelijk, omdat opslagruimte gekoppeld is aan materie en er een beperkte hoeveelheid materie aanwezig is in het universum (volgens de gangbare theorieen).

J.J.J. Bokma @Verwijderd • 27 juli 2008 17:04

Oneindig is niet hetzelfde als het grootste getal dat je rekenmachine kan weergeven.

Als je random elke seconde een nieuwe URL aanmaakt, loop je tegen het probleem aan wat ik al aangaf: op den duur worden je URLs te lang.

Als je bedoelt dat je elke seconde nieuwe content aanmaakt, en dat als een nieuwe pagina telt (mag) dan loop je tegen entropie op, lang, lang, voor je maar in de buurt kan komen van het grootste getal dat je rekenmachine kan weergeven.

Verwijderd 26 juli 2008 21:12

Volgens mij heeft google toch 1 biljoen url's geindexeerd, en veel minder paginas... aangezien meerdere urls verwijzen naar 1 pagina. Zo heb ik het iig gelezen op andere websites...

[Reactie gewijzigd door Verwijderd op 26 juli 2024 02:28]

Verwijderd @Verwijderd • 26 juli 2008 21:16

Zoals op de blog staat, unieke URLs, dus niet meerdere urls naar 1 pagina, maar 1 url naar die pagina. Oftewel het aantal pagina's staat gelijk aan het aantal unieke urls. Correct me if I'm wrong.

Verwijderd @Verwijderd • 26 juli 2008 21:41

Dat ligt aan hoe je "pagina" definieert. Omdat veel internetpagina's dynamisch gegenereerd worden aan de hand van gegevens in de URL is er een verschil tussen de dynamische pagina (dus de software die de pagina genereert, zoals http://url.nl/pagina.asp) en alle gelinkte URL's naar deze pagina (zoals http://url.nl/pagina.asp?lang=nl en http://url.nl/pagina.asp?lang=en).

Aangezien zoekengines indexeren aan de hand van URL's is dat de maatstaf voor Google. Vanwege URL-rewriting, dat vaak wordt gebruikt voor o.a. SEO, is het ook niet echt mogelijk te achterhalen hoeveel van deze URL's werkelijk afzonderlijke stukken software zijn.

[Reactie gewijzigd door Verwijderd op 26 juli 2024 02:28]

Verwijderd @Verwijderd • 26 juli 2008 22:17

Daar heb je zeker gelijk in, maar het komt op mij over dat Google dynamische pagina lichter meerekent (doordat ze zeggen dat het web oneindig is door een volgende dag in een kalender bijvoorbeeld). Dus dan beperk je het aantal pagina's (je hebt nog steeds gelijk over hoe je pagina definieert) wel deels, tenzij dit niet klopt wat ik zeg natuurlijk.

bbob

Google

@Verwijderd • 27 juli 2008 12:28

leuk uniek en hoeveel verwijzen er naar spam sites waar puur reclame op staat ?

Was het grootste probleem niet juist vervuiling van de database met onzinnige sites. Het aantal pagina's zegt derhalve niets over de kwaliteit.

Soldaatje 26 juli 2008 21:31

Ja oneindig aantal URL's is lekker nuttig, geef mij maar het aantal TLD's.
Dat geeft een betere schatting hoe 'groot' het internet is.

Verwijderd @Soldaatje • 26 juli 2008 21:37

Hmm als jij met het aantal TLD's beter kan inschatten hoe groot het internet is dan Google doet met een zoekmachine met een biljoen geïndexeerde pagina's, dan verdien jij een applaus

the_stickie @Soldaatje • 26 juli 2008 21:40

het aantal TLD's is wel bekend: http://nl.wikipedia.org/wiki/Top-level-domein

Het aantal geregistreerde domeinen zou ook nog wel te bepalen zijn, maar geeft ook geen beeld over de "grootte" van het internet. Er zijn domeinen met duizenden subdomains, je hebt er met één html-etje achter...

Navi 26 juli 2008 21:34

aantal domeinen zegt niets over de grootte van het internet, en ook niet over het aantal sites, veel sites hebben meerdere domeinnamen.

Malarky @Navi • 26 juli 2008 22:02

Wat te denken van de vele vele ip adressen zonder TLD?

dcm360

@Malarky • 26 juli 2008 22:53

En hoe definieer je 'een IP-adres met een TLD' dan? TLD's zijn niet gekoppeld aan IP-adressen namelijk. Ik neem wel aan dat je een domeinnaam bedoeld ipv TLD...

Maar meer ontopic: Het is natuurlijk wel waarschijnlijker dat een IP met domein een webserver draait dan 1 zonder. Dus de kans is kleiner dat je op de overige adressen een webserver vind, omdat gigantisch veel computers er geen draaien.

RoyK 26 juli 2008 22:15

Wat een aantallen. Mensen mensen, 1 miljard pagina's per dag. Zulke aantallen duizelen een gewoon mens toch!

Verwijderd 27 juli 2008 00:00

Een biljoen pagina's (of URL's) gedeeld door het aantal mensen op aarde is ongeveer 150 pagina's per persoon. Dat valt nog best mee.

Vyo @Verwijderd • 27 juli 2008 01:53

Waarvan een significant deel geen toegang tot een PC, laat staan internet heeft, juist in de landen waar de bevolkingsaantallen veel hoger liggen. Grote delen van China en India in ieder geval.

m4-io @Vyo • 27 juli 2008 02:47

Afaik ging recent 't bericht rond dat China het grootste aantal intergebruikers (absoluut gezien) heeft.

http://www.marketingfacts.nl/berichten/20080119_china_dit_jaar_het_land_met_de_meeste_internet_gebruikers/

Het aantal internetters in China ligt daarmee op ongeveer 16% van de totale bevolking, iets minder dan het wereldwijde gemiddelde van ruim 19%. In steden als Shanghai en Beijing is echter al bijna de helft van de inwoners online.

Vyo @m4-io • 2 augustus 2008 22:18

juist, en dat bedoel ik dus. het is geen biljoen pagina's gedeeld door 6.5 miljard, maar (1 biljoen) / [(16% van bevolking china)+(19% van de rest van de wereld)]

het is vrij significant als dat ene land bijna 20 procent van de bevolking is, en dan ook nog eens maar 16% van dat land online zit.

Fiber 27 juli 2008 01:34

Wie bepaalt er dan wat relevant is of niet?

Verwijderd @Fiber • 27 juli 2008 15:51

http://www.google.com/technology/pigeonrank.html

terracide 27 juli 2008 07:48

Wat verwarrend. Een "billion" betekend in het nederlands gewoon miljard. Het gaat volgens mij over een engelse billion, en niet een nederlandse biljoen.
http://nl.wikipedia.org/wiki/Biljoen

Verwijderd @terracide • 27 juli 2008 07:57

Het helpt enorm als je leest - dat is al een stuk minder verwarrend.
Ten eerste wordt het getal in cijfers beschreven op T.net (lees hierboven) en dan staat er in de bron ook nog:

We've known it for a long time: the web is big. The first Google index in 1998 already had 26 million pages, and by 2000 the Google index reached the one billion mark. Over the last eight years, we've seen a lot of big numbers about how much content is really out there. Recently, even our search engineers stopped in awe about just how big the web is these days -- when our systems that process links on the web to find new content hit a milestone: 1 trillion (as in 1,000,000,000,000) unique URLs on the web at once!

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (66)

Sorteer op:

Weergave: