Googles zoekindex bijna verdubbeld

Google art Onderaan de indexpagina van 's werelds bekendste zoekmachine op internet staat al sinds jaar een dag een getalletje. Zoals veel tweakers zullen weten, geeft dit getal aan hoeveel pagina's in de zoekindex van Google staan en dus doorzoekbaar zijn. Sinds woensdag is dat getal bijna verdubbeld van 4.285.199.774 naar 8.058.044.651. Volgens Googles eigen weblog waar dit gemeld wordt, gaat het echter niet alleen om de omvang van de zoekindex. De omvang van de database kan interessant zijn wanneer er gezocht wordt naar weinig voorkomende termen, omdat dan de kans op resultaat groter is. In de meeste gevallen is het vinden van relevante sites echter veel nuttiger. In de zoekindex van Google is veel informatie terug te vinden, "but hardly all of it." Google ziet deze vergroting van de zoekindex dan ook niet als het einde van weg, maar als een van de belangrijke mijlpalen. "We'll keep improving that too", aldus het bedrijf op het weblog.

IT-banen

Reacties (36)

Verwijderd 11 november 2004 22:21

En de reden dat de index bijna verdubbeld is binnen een paar dagen??

Verwijderd @Verwijderd • 11 november 2004 22:26

Bij google werkt 't nu eenmaal zo dat ze de index in 1 x updaten. Ze doen eerst een grote crawl, dan verwerken ze dat, en dan updaten ze hun database. Ongeveer elke maand gebeurt zoiets. Dus als ze een nieuw algoritme implementeren wat 2 x zo veel sites crawlt, dan wordt dat bij de nieuwe update in 1 x zichtbaar.

Oh ja, daarnaast crawlen ze sites waarvan ze weten dat de inhoud heel vaak verandert (nieuwssites dus) continu, en die updaten ze ook continu, maar da's een ander mechanisme. (die eerste robot heet deepbot, die andere heet freshbot. In je Apache logfiles zien ze er overigens hetzelfde uit).

Verwijderd @Verwijderd • 11 november 2004 22:23

illusie wekken dat het nog beter gaat om zo hun aandelen op de beurs de hoogte in te jagen??

Of misschien gewoon een update van het cijfertje, misschien wordt het niet elke keer echt geüpdate

Verwijderd @Verwijderd • 12 november 2004 00:03

Ik had het getal nog niet opgemerkt, maar ik dacht nu dat het "SELECT COUNT(*) FROM INDEX" was. Maar dat is het dus niet.

TheLunatic @Verwijderd • 12 november 2004 09:38

Dat zou dan bij elke hit op google.com moeten worden opgevraagd en zou een doodsteek zijn voor je database.

Verwijderd @Verwijderd • 12 november 2004 12:25

dit zou toch 1 keer per dag gedaan kunnen worden (low priority, heeft geen haast) en dan op de site geupdate worden

Verwijderd @Verwijderd • 12 november 2004 14:15

En de reden dat de index bijna verdubbeld is binnen een paar dagen??

De vorige index zat met 4.285.199.774 verdacht dicht bij het bereik van de standaard 'integer'. (Om precies te zijn van -2.147.483.648 t/m 2.147.483.647, dus samen 4.294.967.296 mogelijke waarden.) Deze index zal als sleutelindex een belangrijke rol spelen in het achterhalen van de zoekresultaten. Voor een zo goed mogelijke performance dient deze sleutel zo klein mogelijk te zijn, in dit geval dus 32 bitjes.

Waarschijnlijk hebben ze bij deze sleutelindex een bitje erbij weten te 'googlelen', om hiermee de capaciteit (ongeveer) te verdubbelen. Grote kans natuurlijk dat we in de toekomst nog vaker zo'n verdubbeling van de capaciteit zullen zien.

Dat deze capaciteitsuitbreiding samenvalt met de introductie van MSN Search ligt om marketing-technische redenen voor de hand.

edit:
Verwante informatie:
http://www.tweakers.net/nieuws/27511

edit2:
@gijoke:
Mijn reactie gaat dus niet over het 'Google Dance Syndrome'. (Dit was trouwens de eerste keer dat ik hier van hoorde.) Het gaat om de reden waarom Google ineens in staat is tot het indexeren van veel meer pagina's.

Het betreft inderdaad een moeilijk onderwerp waarbij wat inzicht in de technische aspecten van databases is vereist. Dat het zo belangrijk is om de hier bedoelde index zo klein mogelijk te houden, kan ik verduidelijken met het volgende voorbeeld:

Neem de term 'tweaker' als ingang om te zoeken na informatie. Om deze term te indexeren, moeten bij deze ingang referenties worden opgezet naar alle pagina's waar deze term in voorkomt, natuurlijk gesorteerd naar page-rank, wel/niet in titel, etc. Google geeft bij 'tweaker' aan over ongeveer 584.000 referenties te beschikken.

De Google-database zal voor het overgrote gedeelte uit dit soort referenties bestaan, en deze referenties bestaan dus uit 32-bits getallen. (of zoals ik heb gesteld: vanaf heden uit nog meer bits, waarschijnlijk 40 omdat geheugen nu eenmaal bytes als eenheden heeft. 33 bits is wel mogelijk maar dan moeten bytes door verschillende refs gedeeld worden, maar of dat de performance ten goede komt? Hierbij ook interessant: welke rol speelt 64bits computing?) Zowel qua processing, opslag als verkeer zullen deze referenties beslag nemen op het overgrote gedeelte van de beschikbare capaciteit.

Ik hoop dat je je nu kunt voorstellen dat het heel belangrijk is dat de index uit zo weinig mogelijk bitjes bestaat. Over mijn reactie heb ik dus wel degelijk nagedacht. Volgende keer dus beter opletten, gijoke.

Verwijderd @Verwijderd • 12 november 2004 17:25

Dit is echt bloat.
die google dance syndrome is zooo zwaar achterhaald.
http://searchenginewatch.com/sereport/article.php/2216081

edit: je referentie link op tweakers gaat wel degelijk over die hoax.

Verwijderd @Verwijderd • 12 november 2004 23:59

Klopt, maar hier moet je wel onderscheid maken tussen de (voormalige) capaciteitsbeperking van de maximaal 4 miljard geïndexeerde pagina's en personen die de constatering van dit probleem hebben verward met de door jou bedoeld hoax.

Verwijderd @Verwijderd • 11 november 2004 23:11

De reden zou er weleens in kunnen liggen dat Microsoft haar zoektechnologie vandaag heeft geintroduceerd. Oftewel dit is gewoon een potje blufpoker van Google.

ProfPi @Verwijderd • 12 november 2004 10:05

En de reden dat de index bijna verdubbeld is binnen een paar dagen??

Dat heeft natuurlijk alles te maken met de aankondiging van Microsoft om zijn eigen zoekmachine te introduceren:

http://www.tweakers.net/nieuws/35012

In de Volkskrant stond vandaag het volgende:

Bij de introductie van de opgevoerde MSN Search zei het Amerikaanse softwarebedrijf vijf miljard documenten op internet te hebben geïndexeerd, achthonderd miljoen meer dan zijn concurrent uit het Californische Mountain View.

http://www.volkskrant.nl/economie/1100154176350.html

Kortom, gewoon een reactie van Google om meer geindexeerde documenten op te geven dan MSN.

factor15 11 november 2004 22:43

Mijn site wordt dagelijks en soms 2 keer per dag door Google bekeken. Als ik iets verander is dat meestal al de volgende dag verwerkt in de resultaten van Google

Verwijderd @factor15 • 12 november 2004 02:07

Ik wou maar even zeggen. Ik snap niet waar ze het vandaan halen dat het 3 weken zou duren

Ze crawlen met een aantal servers het internet af, updaten om de 12 uur (ofzo?) de hoofddatabase. Paginarankings zullen natuurlijk wel om de week / maand gedaan worden, dat is iets "zwaarder" om te berekenen.

DataGhost

@Verwijderd • 12 november 2004 06:57

het hele internet is helaas IETSJES groter dan wat jij je voorstelt... je hebt ongetwijfeld wel eens van die 'download het internet'-linkjes gezien waar je een download schermpje ziet met 4000 jaar remaining? vind ik het knap dat ze in 3 weken 10% daarvan kunnen scannen om maar een getal te noemen
http://www.onzin.nl/internetdownload/

Verwijderd 11 november 2004 22:31

Ik zou het fijner vinden als de database van google wat vaker upgedate werd...

Je kan er altijd op rekenen dat minimaal de helft van de url's niet meer bestaan van google's resultaten.

Mij eigen ervaring is dat de googlebot er minimaal 3 weken over doet om een pagina opnieuw te controleren. Het zou natuurlijk 3 dagen moeten zijn.

Ik begrijp dat google dat niet graag zou willen, het kost hun veel meer bandbreedte en computergebruik en ze zijn de helft van hun database kwijt. Maar de zoekresultaten zouden wel veel beter zijn.

Het lijkt mij overigens dat google ons dat wel 'verplicht' is aangezien ze aardig wat centjes aan ons door middel van advertenties verdienen.

Verwijderd @Verwijderd • 11 november 2004 23:36

Sorry dat ik het zo bot zeg maar je zit hier echt uit je nek te lullen. Het crawlen en het bouwen van die database duurt gewoon lang. Alleen al die pagerank. Het is nogal een groot sommetje he? Je hebt 8.000.000.000 pagina's, en die linken naar elkaar. "reken de pagerank uit". Nou begin maar. Die pagerank is gedefinieerd als het aantal links wat je krijgt, gewogen naar de pagerank van de pagina die linkt. Ik vind het al een superprestatie dat ze het ueberhaupt voor elkaar krijgen binnen een week. Voor dat crawlen geldt hetzelfde, wil jij in 1 dag het hele internet crawlen? Beetje veel verkeer genereert dat he? Kan me ook voorstellen dat daar niet elke systeembeheerder op zit te wachten. En dan nog het updaten van de database zelf. Nu is het zo dat ze die eerst heel ff testen op integreteit.

Dan hebben ze nog meerdere databases naast elkaar lopen. Ze gooien er eentje offline, ze updaten 'm, en dan gooien ze 'm online. Op dat moment draaien er dus meerdere naast elkaar en kun je dus van minuut tot minuut andere resultaten krijgen, tis maar net in welke database je kijkt. Dat verschijnsel heet "google dance".

Nu hebben ze al tienduizenden computers aan elkaar geschakeld. Als ze dat naar 400.000 computers zouden "upgraden", zou het vast sneller gaan ja. Maar laten we het ff praktisch houden.

Ik durf te stellen dat het op IT gebied het meest geavanceerde bedrijf ter wereld is. Het is dus echt niet zo dat het een paar slaapkoppen zijn die zeggen:"mwa, we vinden 3 weken wel snel genoeg".

Je hebt gelijk als je zegt: "het zou fijn zijn als het sneller gaat", maar te roepen dat ze dat verplicht zijn aan jou, dat vind ik echt gelul.

n4m3l355

Bedrijfsnieuws

@Verwijderd • 12 november 2004 01:25

uiteraard een service is je niets verplicht maar hij heeft wel gelijk. niet zozeer in links die ik vind dat de helft dood is maar in foto's is wel dus een gigantisch groot gedeelte wat niet naar behoren functioneerd.
verder dat je het indexeren van 8 miljard pagina's een gigantische klus vindt.. ja natuurlijk het is best groot maar gigantisch is anders en dat duurt absoluut geen 3 weken. mijn idee is dat ze eerder om de 3 weken een ietsjes getweakte versie van de algoritme proberen en dat ze dat laten zien.
verder zijn die tienduizende computers aan elkaar geschakeld maar deels om als db te fungeren het merendeel is ter toegankelijkheids voorziening. die hebben niets te maken met het indexeren van het geheel.

Verwijderd @n4m3l355 • 12 november 2004 10:27

foto's werkt op dit moment totaal niet, dat klopt. Die database is meer dan een half jaar oud of zo. Ik heb me laatst een ongeluk zitten optimaliseren voor een site die ik beheer, maar geen resultaat. Tot ik vorige week op Slashdot lees dat het images-gedeelte op dit moment gewoon niet werkt. Aaaargh! Google schijnt gezegd te hebben dat ze het aan het fixen zijn en dat 't binnenkort weer werkt.

kamerplant @Verwijderd • 12 november 2004 08:58

Google update zijn database vaker dan om de drie weken.

2 november, een uur naar de moord van Van Gogh: 30.200 resultaten op Google.
6 november, zondag: 200.000 resultaten op Google.

Tussen 6 en 2 november zitten geen 3 weken verschil.

Munters @kamerplant • 12 november 2004 09:21

De database wordt constant bijgewerkt.
De crawler is 24 uur per dag bezig, maar loopt niet alle sites steeds af. Een site met een hoge pagerank wordt vaker bezocht.
Je kunt het gewoon nalezen ergens op de google site. Destijds (jaartje geleden ofzo) werden sites bezocht tussen eens-in-de-drie-weken en vier-keer-per-dag.

Het aantal sites in de index is natuurlijk niet van het ene op het andere moment zoveel groter. Het aantal sites loopt gewoon op, tot het moment van publiceren.

Maar gezien de enorme toename denk ik eerder aan een andere manier van tellen.
Het is ook moeilijk: de site www.xs4all.nl is er natuurlijk 1.
Maar www.xs4all.nl/~gebruiker1 is een aparte website. Maar hoe ziet de spider het verschil tussen een aparte website en een (sub)pagina van de hoofdsite?
Je kunt natuurlijk stellen dat wanneer er een link heen wijst, er sprake is van een aparte site, maar dan worden alle deeplinks weer als sites geteld.

Ik weet niet hoe google het doet, maar vermoed dat ze een andere methode hebben om te bepalen of iets een aparte site is, waardoor de telling ineens veel hoger (beter?) is.

Verwijderd @Verwijderd • 11 november 2004 22:45

hmm, op mijn website komt googlebot (en msnbot) ongeveer elke dag langs, dus niet eens om de 3 weken.

Hier denk ik dat je wat fout zit.

Krekker @Verwijderd • 11 november 2004 22:49

Oh ja, daarnaast crawlen ze sites waarvan ze weten dat de inhoud heel vaak verandert (nieuwssites dus) continu, en die updaten ze ook continu, maar da's een ander mechanisme. (die eerste robot heet deepbot, die andere heet freshbot. In je Apache logfiles zien ze er overigens hetzelfde uit).

Dus waarschijnlijk heb jij een site die regelmatig veranderd.

De dode links waar Desktop het over heeft zijn daarentegen waarschijnlijk pagina's die normaal niet veranderen en dan plotseling opeens worden weggehaald. Die worden dan een hele tijd niet opnieuw geindexeerd.

Verwijderd @Verwijderd • 11 november 2004 23:50

Het kan wel zijn dat de helft van de sites niet meer werkt maar je hebt nog wel de cached versie, die heeft me ook al veel geholpen

Verwijderd 11 november 2004 22:23

ik denk omdat er nu misschien meer pagina's geindexeerd worden die eerst overgeslagen werden.

Dus bv pagina's die "vroeger" niet relevant waren of HTML fouten hadden, nu wel.

Dus dat googlebot gewoon wat soepeler is geworden met indexeren?

Cyberamp @Verwijderd • 11 november 2004 22:25

Je kan van dezelfde site meerdere indexen maken.

Dreams 12 november 2004 10:16

Klopt het dat nu ook Flash geïndexeerd wordt? Dat was vroeger toch nooit het geval?

Of wel?

In ieder geval zou dat een zeer handige toevoeging zijn voor al die moderne Flash-only (

) sites van tegenwoordig. Ze zijn wel mooi, maar soms wordt ik er zo moe van.

Veel film sites, DJs, artiesten en "hippe" restaurantjes hebben alleen maar Flash op hun sites staan, die zouden dan nu hopelijk ook gevonden worden door Google...

FireWood 12 november 2004 21:40

Het is inderdaad uitgebreid, aangezien ik laatst iets zocht wat ik niet vond op google maar wel op altavista, nu vind ik het wel op google, dit gaat trouwens om een oude site

TgR_KILLER 11 november 2004 22:21

Google verdubbeld zijn zoekindex wanneer Microsoft de nieuwste beta versie van msn search online zet. valt wel op

bogy @TgR_KILLER • 11 november 2004 22:39

hoe noemde dat spelletje dat men vroeger speelde met google nu alweer ???

je weet wel; met 3 woorden een enkel resultaat krijgen...

MaximusTG @bogy • 11 november 2004 22:41

Googlebashen, met 2 woorden

Krekker @MaximusTG • 11 november 2004 22:52

offtopic:
pneumatische sinaasappelboom

Verwijderd @MaximusTG • 11 november 2004 23:52

ik dacht "google whack"

Intrepidity @MaximusTG • 12 november 2004 18:45

@Krekker:
Of bloemkooltaart maker

Verwijderd @bogy • 12 november 2004 23:06

Dat heette idd "Google Whacking".
Het aantal zoektermen dat je gebruikte maakte dacht ik niet uit....

Krekker 11 november 2004 22:29

Ik heb er geen twijfel over dat dat cijfer regelmatig wordt geupdate. In ieder geval zullen ze het niet zo lang onveranderd laten blijven dat het opeens verdubbeld moet worden.

Ik denk zelf dat ze met de komst van microsoft's zoekmachine hun eigen zoekmachine willen verbeteren en dat ze daarom opeens meer sites gaan indexeren.

homernt 12 november 2004 08:35

Ik denk wel dat het klopt want google vind nu email adressen van mij die hij tijdje geleden niet meer vond en afgelopen zomer nog wel. Maar ook nog niet alles ik sta ergens op het Internet met naam en toenaam genoemd en altavista vind die wel en google niet en dat was voorheen wel zo.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (36)

Sorteer op:

Weergave: