En de reden dat de index bijna verdubbeld is binnen een paar dagen??
De vorige index zat met 4.285.199.774 verdacht dicht bij het bereik van de standaard 'integer'. (Om precies te zijn van -2.147.483.648 t/m 2.147.483.647, dus samen 4.294.967.296 mogelijke waarden.) Deze index zal als sleutelindex een belangrijke rol spelen in het achterhalen van de zoekresultaten. Voor een zo goed mogelijke performance dient deze sleutel zo klein mogelijk te zijn, in dit geval dus 32 bitjes.
Waarschijnlijk hebben ze bij deze sleutelindex een bitje erbij weten te 'googlelen', om hiermee de capaciteit (ongeveer) te verdubbelen. Grote kans natuurlijk dat we in de toekomst nog vaker zo'n verdubbeling van de capaciteit zullen zien.
Dat deze capaciteitsuitbreiding samenvalt met de introductie van MSN Search ligt om marketing-technische redenen voor de hand.
edit:
Verwante informatie:
http://www.tweakers.net/nieuws/27511
edit2:
@gijoke:
Mijn reactie gaat dus niet over het 'Google Dance Syndrome'. (Dit was trouwens de eerste keer dat ik hier van hoorde.) Het gaat om de reden waarom Google ineens in staat is tot het indexeren van veel meer pagina's.
Het betreft inderdaad een moeilijk onderwerp waarbij wat inzicht in de technische aspecten van databases is vereist. Dat het zo belangrijk is om de hier bedoelde index zo klein mogelijk te houden, kan ik verduidelijken met het volgende voorbeeld:
Neem de term 'tweaker' als ingang om te zoeken na informatie. Om deze term te indexeren, moeten bij deze ingang referenties worden opgezet naar alle pagina's waar deze term in voorkomt, natuurlijk gesorteerd naar page-rank, wel/niet in titel, etc. Google geeft bij 'tweaker' aan over ongeveer 584.000 referenties te beschikken.
De Google-database zal voor het overgrote gedeelte uit dit soort referenties bestaan, en deze referenties bestaan dus uit 32-bits getallen. (of zoals ik heb gesteld: vanaf heden uit nog meer bits, waarschijnlijk 40 omdat geheugen nu eenmaal bytes als eenheden heeft. 33 bits is wel mogelijk maar dan moeten bytes door verschillende refs gedeeld worden, maar of dat de performance ten goede komt? Hierbij ook interessant: welke rol speelt 64bits computing?) Zowel qua processing, opslag als verkeer zullen deze referenties beslag nemen op het overgrote gedeelte van de beschikbare capaciteit.
Ik hoop dat je je nu kunt voorstellen dat het heel belangrijk is dat de index uit zo weinig mogelijk bitjes bestaat. Over mijn reactie heb ik dus wel degelijk nagedacht. Volgende keer dus beter opletten, gijoke.