Crawler Google bezoekt 20 miljard websites per dag

Elke dag 'crawlt' Google 20 miljard websites. Dat blijkt uit een interview dat de lead designer van Googles zoekmachine heeft gegeven aan Bloomberg. In totaal zijn er volgens Google 30 biljoen unieke adressen te vinden op het web.

GoogleNaast het aantal van 20 miljard websites dat per dag wordt gecrawled, noemt lead designer John Wiley in het interview nog een aantal statistieken. Zo is 15 procent van de zoekopdrachten die Google binnenkrijgt, nog nooit eerder binnengekomen in de geschiedenis van de zoekmachine. Dat komt neer op 500 miljoen nieuwe zoekqueries per dag.

Per maand ontvangt Google daarnaast 100 miljard zoekopdrachten, zo zegt Wiley. Het internet wordt nog steeds groter; volgens Google zijn er op dit moment 30 biljoen unieke adressen op het internet. Waarschijnlijk bedoelt het bedrijf daarmee url's en geen domeinnamen, maar geheel duidelijk is dat niet.

Door Joost Schellevis

Redacteur

14-05-2013 • 10:03

72

Reacties (72)

72
70
53
6
1
7
Wijzig sortering
http://www.google.com/ins...works/thestory/index.html
"Search starts with the web. It's made up of over 30 trillion individual pages and it's constantly growing."

30 billioen in het nederlands dus. En dat zijn dus aparte pagina's (urls) en niet domeinen.
500 miljoen nieuwe zoekopdrachten per dag is ook bijzonder te noemen, betekend dat de mens nog best wel creatief is met zijn zoekopdrachten.
Google is nog geen 5500 dagen oud.
Stel dat ze even populair waren al die dagen (ja, een zeer ruime overschatting), dan zouden ze 2.75 biljoen unieke vragen hebben gekregen. (5.500 * 500 miljoen).

De gemiddelde woordenschat van een Nederlander is 100.000 woorden.
Gemiddeld kunnen we dus in het Nederlands:
10 miljard combinaties van twee worden
1 biljoen drie letter combinaties.

Daarnaast kent Nederland meer dan 20.000 voornamen en 300.000 achternamen.

Alleen al alle mogelijke zoekopdrachten op Nederlanders gecombineerd met twee woorden (>3 biljoen) geven meer unieke zoekopdrachten dan Google ooit zou kunnen hebben ontvangen.

Er zijn 6800 levende talen (exclusief dialecten uitgesloten).


Het is dus helemaal niet zo raar dat ze zo veel unieke vragen krijgen. :)

[Reactie gewijzigd door djwice op 24 juli 2024 20:20]

Anoniem: 315909 @Ultimation14 mei 2013 11:02
500 miljoen nieuwe zoekopdrachten per dag is ook bijzonder te noemen, betekend dat de mens nog best wel creatief is met zijn zoekopdrachten.
Ik ken veel mensen die, als ze bijvoorbeeld naar de telegraaf oid willen, bovenaan in Chrome (of een andere browser met auto search) gewoon 'telegraaf' intypen en vervolgens de bovenste hit nemen. Dit zijn uiteraard geen techneuten maar het merendeel van de wereld is dit nu eenmaal niet :). Zo telt de teller wel snel op natuurlijk.
Verkeerde interpretatie. ;) Die 500 miljoen zijn uniek, elke dag weer. Dus 'Telegraaf ' telt al niet meer mee sinds 1995 (of zo).
Als je nou Googled op "Telegraag 14 mei 2013 voorpagina om 12 uur en 16 minuten" is de kans wel redelijk groot dat je een +1 doet op die 500 miljoen. Maar hoeveel mensen zouden dat doen? :+

Overigens tellen die 'telegraaf' zoekopdrachten wel gewoon meer voor de ~3,3 miljard zoekopdrachten die Google er elke dag door ramt.
Een significant gedeelte daarvan zullen mensen zijn die bijvoorbeeld foutmeldingen in google pasten, zonder het 'gepersonaliseerde' deel er uit te halen. Zoals ip nummer/hostnames.

Er zijn vast nog tal van andere meldingen te bedenken die in dezelfde catagorie vallen.
Waarop baseer je dat het om een significant gedeelte gaat?
Hehe dat is wel erg uit jezelf als Tweaker gedacht. Ik geloof niet dat de meerderheid van de mainstream nou zo actief bezig is met het debuggen van z'n systeem.
Veel meer nog misschien wel doordat iemand kan zoeken op 'Weer Amsterdam' of 'Amsterdam weer', 2 verschillende opdrachten met hetzelfde doel, namelijk hinformatie vinden over het weer in amsterdam
Ook dat, maar ik denk ook gewoon zoekopdrachten die te maken hebben met nieuws en andere ontwikkelingen.
Dat is eigenlijk oneindig, er zijn zoveel manieren om een zin op te bouwen, en dan heb je de mensen met spelfouten.

Ik denk dat het aantal zelfs veel hoger wordt, nieuwe generatie mensen die pc / mobiel / tablet gebruiken, dus meer plekken waar je internet gebruikt en dus ook grotere kans dat je met Google even wat gaat zoeken.
Daar horen ook de mensen bij die hotmail.com in het zoekveld intikken in plaats van in het adresveld van hun browser.
Dit maakt me toch wel nieuwschierig hoe deze getallen bij de concurenten zijn :) 20 miljard per dag, zal best een aardige hap zijn van het totaal!

[Reactie gewijzigd door Com. Hunter op 24 juli 2024 20:20]

20 Miljard is 2/3 van het totaal, totaal is 30 miljard sites. Althans uitgaande van de Amerikaanse Biljoen = Miljard.
30 miljard? Je bedoelt dus dat Google om de 3 dagen het internet 2 maal volledig heeft uigekamd? Nee, het zijn er 30 triljoen. Dus Google doet in ongeveer 2/3000 per dag, oftewel 1/1500.
Volgens mij wordt hierboven door meerdere mensen een vergissing gemaakt.

Gegeven is:
1) 20 miljard web sites worden per dag geïndexeerd.
2) 30 biljoen web pagina's staan er in de index.
= 30.000 miljard web pagina's

Mijn redenatie
Een website bestaat uit meer dan 1 pagina (over het algemeen).
Er staan dus (aanzienlijk) minder dan 30 biljoen web sites in de index van Google.
En dus bezoekt Google meer dan 1/1500 van alle websites per dag.
Dat moet ook wel want anders zouden ze meer dan 4 jaar nodig hebben om hun bestaande index te updaten.

Stel dat een gemiddelde website uit 1.500 pagina's bestaat, dan kan het zijn dat Google alle web pagina's elke dag bekijkt.

Wellicht is dit niet een rare aanname, een klein energie bedrijf heeft dit al (1550), laat staan als je kijkt naar nu.nl (meer dan 400.000) of tweakers.net (meer dan een miljoen).

Extra info:
  • Een http-header check (200 , content date , content size, of een met spdy server hint) kost weinig bandbreedte en zeer weinig tijd.
    Daarmee weet Google of de index moet worden bijgewerkt en of een pagina crawl nodig is.
    De meeste van de 30 biljoen pagina's zijn ongewijzigd.
    De index bijwerken kost dus voor de meeste pagina's een verwerkingstijd vergelijkbaar met Ping tijden.
  • Als je op een zoekresultaat klikt, gaat dat via Google, die link kan er voor zorgen dat naast de ranking, ook de indexering wordt aangepast.
    Zo wordt de meest relevante/gebruikte informatie snel geupdate. (aanname)

[Reactie gewijzigd door djwice op 24 juli 2024 20:20]

IPv4 provides approximately 4.294 billion addresses
Dit is dus 4.294 miljard.

30 biljoen is 30000 miljard in het engels zou het dan 30 trilion moeten zijn.
Dell 30000 miljard / 4.294 ip adress dan heb je dus 6986 pagina's per ip als je het zo gaat bekijken.
Gelukkig heeft men dan ook virtual hosting bedacht en de HTTP Host-header.
Er is dus geen directe correlatie tussen het aantal IP adressen en het aantal sites of URL's.

Wat namelijk ook niet duidelijk wordt, is hoe Google rekent met sites die onder verschillende URL's benaderbaar zijn. Dus niet via redirects, maar direct op hostnaam.
Ik heb geen idee over hoeveel sites dat zou gaan, maar het zullen er vast veel zijn.
De totale hoeveelheid data blijft via deze constructie gelijk, maar het aantal unieke URL's neemt wel toe.
@ bbob1970
Ik heb 1 IP en 10 websites. Volgens jouw beredenatie kan er maar 1 website op 1 ip adres.
http://www.worldwidewebsize.com/

Het is toch echt miljard en niet biljoen en dan gaat het om webpagina's en niet om domeinnamen.

Raar, want Google heeft het blijkbaar toch over een trillion, oftewel een biljoen.

http://www.google.com/ins...works/thestory/index.html

[Reactie gewijzigd door NSG op 24 juli 2024 20:20]

Ik heb de video(in de bron) niet bekeken, maar dit lijkt me compleet uit de lucht gegrepen... Waarom zouden ze de 20 miljard wel goed vertalen, en 30 biljoen niet...?

dus; 20 miljard is 'slechts' één vijtienhonderdste (1/1500) van het totaal.

Edit: typo

Edit 2: Na het bekijken van de video blijkt dat de vertalingen inderdaad goed gedaan zijn, in het engels wordt gesproken over 30 trillion adressen, dus 30 biljoen adressen in het nederlands.

[Reactie gewijzigd door Kraay89 op 24 juli 2024 20:20]

Wel verwarrend dan dat in dit stukje miljard en biljoen wordt genoemd... Ik denk dat urls dan inderdaad bedoeld wordt i.p.v. domein namen...
In het filmpje wordt 30 trillion genoemd of te wel 30 biljoen in het Nederlands.
20 billion oftewel 20 miljard hiervan word per dag afgezocht.

[Reactie gewijzigd door My-life op 24 juli 2024 20:20]

Het artikel is gewoon Nederlands en biljoen is gewoon een Nederlandse eenheid, dus er hoeft niets omgerekend te worden. Volgens het artikel is het totaal 30 biljoen. Een orde van 1000 groter dan de 20 miljard crawls dus.

[Reactie gewijzigd door Grauw op 24 juli 2024 20:20]

Nee fout. 20 miljard van de 30 biljoen. Niet 30 miljard.
Als ik op jouw comment zoek --> https://www.google.com/se...&sourceid=chrome&ie=UTF-8


Dan vind google het meteen ... soms kan ik mijn eigen FP post terug vinden op google binnen de 10 minuten. Best wel knap.
Hebben ze meteen weer een nooit eerder gebruikte querry voor hun kiezen gekregen ;)
Hoe veel belasting van het internet genereert alleen dit al....
Als je een kleine website hebt kan het zomaar zijn dat Google je grootste dataverbruiker is :+

Ook interresant dat Google per dag bijna 7 keer meer websites indexeerd dan dat er zoekopdrachten zijn. Zou daar ooit nog eens een omslagpunt in komen? Websites met dynamische content worden continu gewijzigd en willen vaak geindexeerd worden om goed over te komen in de zoekresultaten.
Een interresante vraag zou dan ook zijn hoeveel nieuwe pagina's Google vind per dag.

[Reactie gewijzigd door 3raser op 24 juli 2024 20:20]

Maar dat kan je ook omzeilen als je dat niet zou willen, ik zag wel vaker op mijn website vreemde ip's, toen ik dit ging opzoeken zag ik inderdaad dat het Crawlers waren, heb bepaalde delen van de website met een metaname robots - nofollow geplaatst, want ze komen echt overal zodra je iets van je website toont. Beste is ook een Iframe hiervoor
Gelukkig stelt Google z'n crawler bij wanneer die merkt dat er weinig updates worden gedaan. Op Tweakers zal die bijv. om de X minuten langskomen, op een simpele hobby site (zonder pagina updates) 1 keer per dag, week of maand.

Dit kun je trouwens ook (lichtelijk) beïnvloeden via Google Webmastertools.
Of ontneemt? Als je hierdoor zelf 20 pagina's per dag minder hoeft te bezoeken x 2 miljard internetters = 40 miljard pagina's is 2x zo veel als Google :)
Internet gebruiken zonder zoekmachines lijkt me ook geen pretje.
Absoluut. Juist dat zorgt ervoor dat er ook bezoekers komen. Zonder goede zoekmachine was het internet naar mijn idee nooit zo groot geweest. Ook kan een webmaster de belasting die Google uitvoert op je website prima regelen.

http://support.google.com...wer.py?hl=en&answer=48620
Waarom heeft google geen last van ddos en de banken/(amerikaanse) overheid wel???

[Reactie gewijzigd door danda op 24 juli 2024 20:20]

Om de doodeenvoudige reden dat google zelf van meerdere servers data opvraagt.

Bij een ddos komen alle requests op 1 punt terecht.
Hier worden de requests vanuit 1 punt verstuurd. Dus als die server het te druk krijgt verstuurd ie minder.

Daar moet wel bij aangetekend worden dat Google niet 1 server gebruikt natuurlijk. Het zal om wereldwijde statistieken gaan lijkt me. Dus die requests worden verstuurd vanaf meerdere servers verdeeld over meerdere serverparken.
Omdat Google meer capaciteit heeft dan welk botnet dan ook? Daarbij hebben ze hele goede/slimme netwerkstructuur, waardoor je hooguit ergens een serverpark down zou kunnen krijgen, daar zal je als bezoeker vrijwel nooit last van hebben, want dan stuurt ie je gewoon naar een ander serverparkje...

Het is niet simpel 1 server of ip wat je moet aanvallen maar een IP range van 100.000+ oid :D

[Reactie gewijzigd door watercoolertje op 24 juli 2024 20:20]

Omdat in tegenstelling tot Google de banken/overheid geen paar dozijn dedicated datacenters over heel de wereld hebben staan.
Ik vraag me af hoe ze al die adressen vinden.

Aan de ene kant kun je gewoon ergens beginnen en blijven "doorklikken" waardoor je allerlei boomstructuren krijgt.

Maar zouden ze ook gewoon random woorden aan elkaar plakken en kijken of dat toevallig een geldig DNS is?

Of hebben ze een eigen DNS-systeem?
Google heeft meerdere eigen dns servers, hiervan kunnen ze natuurlijk bij de adressen komen. Als scant google ook wel voor random zooi, je kan namelijk ook camera's vinden via google.
Als scant google ook wel voor random zooi, je kan namelijk ook camera's vinden via google.
Welnee, die worden dan gewoon ergens vandaan gelinkt en die website waar de link staat is dan gecrawled...

Random dingen gaan proberen slaat nergens op, en is weggegooide capaciteit.
Google vind websites voornamelijk via links van andere websites. Daarnaast kun je websites aanmelden bij Google zodat de bot ze gaat indexeren.

Ik betwijfel of Google ook random url's genereerd om te zien of daar een website achter zit. Er zijn genoeg websites die niet gevonden willen worden, bijvoorbeeld persoonlijke pagina's of beheer pagina's. En bij Google geldt ook dat als je niet gevonden wilt worden dat ze je ook met rust laten. Een robots.txt file zou daarbij echter doorslaggevend zijn, omdat het niet te voorkomen is dat iemand per ongeluk een link naar je prive pagina plaatst.
Ik weet niet of ze het ook daadwerkelijk doen; maar wat dacht je van Chrome? Elke URL die je intikt zouden ze kunnen gaan indexeren omdat het hun eigen browser is en er vast wel ergens in de gebruiksvoorwaarden staat (zoals bij alle Google online diensten ook het geval is) dat ze jouw data mogen gebruiken.
En hij doet het zelfs ongevraagd... Ik heb robots.txt op een nieuwe website zo ingesteld dat Google bot de site niet moet crawlen. Met verbazing zie ik dat mijn site toch is opgenomen in de zoekresultaten, en in de omschrijving staat: A description for this result is not available because of this site's robots.txt
Anoniem: 221563 @biglia14 mei 2013 10:21
Dan zal je robots.txt misschien wel fout staan?

Hoe dan ook, je kunt altijd een melding doen bij google om je site uit de resultaten te laten komen. Zelf houden we google van de dev sites af door robots.txt en werkt tot nu toe altijd.
Anoniem: 127111 @biglia14 mei 2013 20:51
Er zal wel ergens een link naar die website staan op een locatie die google wel mag bekijken. Google neemt die link dan op in de zoekresultaten met de context van de pagina waar de link staat. De omschrijving zoeken ze bij jou, maar daar kunnen ze niet bij.
Klopt, zo staat het ongeveer ook in de help pagina van de Google Webmasterhulpprogramma's.
Hoewel Google de inhoud van pagina's die zijn geblokkeerd door robots.txt niet crawlt of indexeert, kunnen we de URL's wel indexeren als we deze op andere webpagina's tegenkomen. Hierdoor kunnen de URL van de pagina en mogelijk andere openbare informatie, zoals ankertekst in links naar de site of de titel van het Open Directory Project (www.dmoz.nl), worden weergegeven in de zoekresultaten van Google.
Heb het net even geprobeerd met een pagina die geblokkeerd wordt door robots.txt en dat werkt inderdaad naar verwachting. Als ik enkele woorden uit de url invoer krijg ik inderdaad een link naar de pagina zonder omschrijving, als ik een paar woorden van die pagina aan de zoekopdracht toevoeg krijg ik de url niet meer terug.
per maand 100 miljard zoekopdracht, dat zijn er dus 3 miljard (en een beetje) per dag. Als je dat wereldwijd bekijkt, valt dat aantal me eigenlijk nog reuze mee... Als ik kijk hoeveel ik zelf eigenlijk dagelijks nog in Google loop te zoeken. Ik had het aantal wel hoger verwacht.
Die aantal nieuwe queries vind ik daarentegen redelijk aan de hoge kant, zeker omdat dat dus 15 miljard nieuwe opdrachten per maand is, dus 180 miljard nieuwe unieke zoekopdrachten per jaar...
Anoniem: 449893 14 mei 2013 11:10
Hoeveel data verkeer genereert dat wel niet?

Een aantal Terrabit per seconde
Ik kan mij niet eens meer herinneren hoe het internet was zónder Google, of zijn 'voorloper' Altavista... Altavista was voor mij de eerste zoekmachine.
Stel je eens voor dat er geen zoekmachine zou zijn voor de talloze websites die het internet rijk is. Hoe vindt je dan wat je zoekt??
Anoniem: 225842 @roboreaper14 mei 2013 10:21
Vraag je je toch af waarom die site nog bestaat?
Sterker nog, Sanoma/Startpagina was laatst nog reclame aan het maken op tv voor Startpagina.nl ... al is het tegenwoordig meer een betaalde linkdump geworden.
Mee eens...des te meer dat het mij verbaast hoe hoog startpagina.nl vaak nog staat in de zoekresultaten. Het is echt een superonhandige en onoverzichtelijk site, maar lijkt vanuit het verleden goed te ranken. Ongelooflijk dat Google dit nog goed rankt IMO.
Vergis je niet, die pagina pakt nog heel wat pageviews. Ik zie regelmatig familieleden etc op startpagina zitten (veelal 50+'ers)
edit:
as we speak zitten er 21.641 mensen op startpagina.nl

[Reactie gewijzigd door Papa Roach op 24 juli 2024 20:20]

Omdat Sanoma Media ooit veel geld voor de site betaald heeft in de hoop er geld mee te kunnen verdienen. Het laatste zal wel nooit meer gebeuren omdat Sanoma en Telegraaf wel vaker dingen koopt die over hun hoogte punt heen zijn (Startpagina, Hyves, SBS6 etc...) :+
Niet mijn startpagina, maar nog zeker de startpagina van velen. Al zal de startpagina meer en meer Google zoeken worden.
Oh, kun je dan ook een andere pagina als startpagina.nl hebben dan? 8)7

(Die vraag werd mij echt een keer gesteld)
Dat is inderdaad ook een handige site, alleen jammer dat Tweakers er niet op staat ;)
Anoniem: 221563 @roboreaper14 mei 2013 10:19
Hoewel zn antwoord als grapje bedoeld is heeft hij wel een punt. Via Portal sites ;)

Op dit item kan niet meer gereageerd worden.