Tijdens de Google I/O-bijeenkomst gunde Google de aanwezigen een kijkje in de keuken van zijn datacentra. De huis-tuin-en-keukenhardware in de datacentra mag kapot: de software houdt de diensten van het bedrijf draaiende.
Wat zich binnen de datacentra afspeelt, wordt door de zoekgigant gewoonlijk angstvallig geheim gehouden. Slechts mondjesmaat brengt het bedrijf details naar buiten over de hardware en software die de diverse diensten van Google draaiende houden. Dat het bedrijf standaardhardware in zijn servers gebruikt en het Google File System draait mag als bekend verondersteld worden, maar op veel vlakken zijn de locaties met geheimzinnigheid omgeven. Jeff Dean, wetenschappelijk onderzoeker bij Google en medeverantwoordelijk voor de datacentrumsoftware, lichtte tijdens Google I/O een tipje van de sluier op wat betreft de datacentra, schrijft Cnet.
De verschillende datalocaties van Google zijn opgebouwd uit clusters die weer opgebouwd zijn uit racks. Elk rack bevat weer veertig servers en elke server heeft vaak meerdere cores. De hardware, hoewel standaard, wordt door Intel op aangepaste printplaten geleverd en elk rack van veertig servers wordt in een door Google ontworpen behuizing geplaatst. De hardware is, zeker vergeleken met gespecialiseerde servers, goedkoop en makkelijk te vervangen. Dat mag ook wel, aangezien per cluster jaarlijks zo'n duizend pc's uitvallen en duizenden harde schijven de geest geven.
Ook hele racks kunnen de geest geven en de energievoorziening kan kapot gaan, waardoor honderden computers uit het cluster vallen. Ook netwerkproblemen en oververhitting zijn factoren die voor plotselinge uitval van machines zorgen, wat de noodzaak voor redundantie groot maakt. Op softwaregebied zorgt het eigen besturingssysteem van Google voor het omgaan met uitval: Google File System draait op ruim tweehonderd clusters en zorgt onder meer voor het wegschrijven van data. Elk blok van 64MB wordt op ten minste drie pc's, zogenoemde chunkservers, weggeschreven, terwijl een master server bijhoudt waar de data terecht komt.
Twee andere Google-eigen applicaties structureren de data binnen de datacentra: Big Table fungeert als database en Map Reduce voert queries uit. De databasesoftware werd in 2004 door Google ontwikkeld en deze applicatie beheert data voor onder meer het zoeken, Google Earth en Maps en Blogger. De grootste database die de software in beheer heeft is ongeveer 6 petabyte groot. Om met dergelijk grote databases overweg te kunnen, gebruikt Google het eveneens zelfgeschreven Map Reduce. Het gebruik van het in 2003 geschreven programma neemt al jaren toe, en momenteel worden zo'n honderdduizend queries per dag uitgevoerd, die ieder op ongeveer vierhonderd servers draaien.
De volgende stap die Google wil maken is het verder decentraliseren van data. Nu al is het systeem dat het bedrijf op zijn servers gebruikt dermate robuust dat een cluster van achttienhonderd computers een uitval van zestienhonderd systemen kan overleven, maar de apparaten zijn per datacentrum geordend. De toekomstige infrastructuur van Google zou globaal moeten functioneren, zodat onderscheid tussen verschillende datacentra weg valt.
