Google-zoekmachine van binnenuit bekeken

BBC sprak met Matt Cutts, een van Googles werknemers die webmasters helpen om ervoor te zorgen dat hun site zo nauwkeurig mogelijk geïndexeerd wordt in de Google-database. Aangezien de zoekmachine momenteel meer dan 4,2 miljard pagina's weet te vinden probeert men ervoor te zorgen dat webmasters eventuele problemen zoveel mogelijk zelf kunnen oplossen op de Google-site. Om de site in zijn geheel online te houden werd vorig jaar 173 miljoen dollar geïnvesteerd in datacenters en verwacht wordt dat dat bedrag in 2004 zal oplopen tot 250 miljoen dollar. Details omtrent aantallen servers en dataverkeer wou men niet geven, maar naar schatting heeft Google tussen de 10.000 en 80.000 servers in beheer die meer dan 6.000 terabytes gegevens kunnen bijhouden.

Google-server (klein)Het bedrijf werkt dan ook met goedkopere hardware; door te zorgen dat er machines op overschot zijn maakt het niet uit als er eentje plat gaat en is een klein team voldoende voor het beheer. Ook de software wordt regelmatig aangepast en gecontroleerd om te verifiëren dat de gebruiker nauwkeurige zoekresultaten voorgeschoteld krijgt. In zekere zin is het beheren van de zoekmachine niet meer dan een voorbereiding voor alle andere initiatieven die Google nog wil starten. Matt Cutts drukt het dan ook als volgt uit: "Once you have thousands of machines with all these capabilities it's a lot of fun to see what else you can do with them."

Door Yoeri Lauwers

Eindredacteur

10-06-2004 • 19:00

75 Linkedin

Submitter: andreklaver

Bron: BBC

Reacties (75)

75
73
50
8
0
7
Wijzig sortering
... Google tussen de 10.000 en 80.000 servers ...
80 000 lijkt me wel erg veel ... las nog geen 2 jaar (1 ~ 1.5 jaar ?) geleden een achtergrond artikel in de krant (volksk. dacht ik) dat ook over Google ging. Daar stond toen in dat google uit 6000 servers bestond. Misschien dat het er nu max. 20k zijn, maar meer ook niet m.i. Waar wil je al die dingen laten, voor 80k servers heb je wel heel veel ruimte in veel datacenters nodig !

Verder een leuk artikel op de BBC, maar de nieuwswaarde is wel erg laag ....
80000 servers:

40 in een rack. Dat zijn dus 2000 racks. Een rack is 1/4 m2 en heeft nog een 1/4 m2 ruimte ervoor nodig (de ruimte erachter is de ruimte voor de volgende rij), dat is dus 1/2 m2 per rack, dus 1000 m2... zo belachelijk groot is dat niet. Komt er natuurlijk nog wel wat bij voor airco's, UPS'en, storage en netwerkapparatuur. Maar je zou ook nog blade servers kunnen gebruiken, die nog minder ruimte innemen....
Maar je zou ook nog blade servers kunnen gebruiken
Alle artikelen over de hardware van Google zijn duidelijk op dit gebied: ze gebruiken "gewone" pc's. Gewoon een flinke stapel PIII's enzo. Het zou mij niet verbazen als ze niet eens 1U rackmounts gebruiken, maar goedkopere 2 of 3U hoge bakken (ruimte is soms goedkoper dan dure rackmounts).
Ze gebruiken o.a. machines van Rackable Systems, daarvan kunnen er 1 in 1U (een aan de voorkant en een aan de achterkant).
Ze gebruiken wel degelijk 1u machines, maar wel goedkope bluk bakjes, de hardware zelf is niet state of the art, dus geen scsi disks denk ik.

welk bedrijf die dingen precies voor ze bouwt is ook bekend, maar ik kan het zo 123 niet vinden.
Als ik me niet vergis is google een ge-decentraliseerde engine. Die servers staan dus niet op 1 plaats (dacht ik, 100% zeker weet ik het niet).
En gezien het succes van google lijkt het me niet onwaarschijnlijk dat ze zoveel servers hebben. Hun servers kosten relatief dan ook niks en dus is het best haalbaar.
Hun servers staan op 3 verschillende plaatsen. Daarmee kan je tijdens de update van de database soms verschillende resultaten krijgen voor dezelfde zoekopdracht
February 02, 2004; Google's Server Count Reaches 100,000
The New York Times article the coming search wars claims Google has over 100,000 servers as of Thanksgiving 2003.

Bron: http://www.searchvisibilityreport.com/archives/000111.html
Dan is er een hoop stuk gegaan :)
Google is echt cool, jammer dat ze een beetje commercieler worden. Maar het bedrijf zelf is echt nog een soort van vriendenclub. Ze werken in officieel veel te kleine kantoren (lees: grote huizen) waar ook gewoon de kleine kinderen rondkruipen. In de zomer is vrijdag de vaste BBQ-dag en gaan de meeste werknemers na werktijd met elkaar BBQ-en (van dezelfde locatie voor de stipten onder ons).

[offtopic ja, ik weet t]
[edit: geweldig die mensen die het willen bevestigen: Ja overbodig, Ja off-topic, Ja de zon schijnt buiten (in case you didn't know)]
Wel zorgwekkend, lees je eerst dit,
In contrast to most other net firms, Google does not rely on these machines being reliable and all are based around cheap and easy to replace PC chips.

"The model of having a lot of machines and have them fail is a very powerful one," says Mr Cutts. "You have a small team replacing hard drives and it never affects the index."
Staat er onder een plaatje van Gmail, zal leuk zijn als je mail er maar net opstaat.
Je account staat heus niet op 1 schijf hoor, en er is ook nog zoiets als een back-up ;)
Met 1GB opslagruimte wordt dat wel een duur grapje :X

Opzich is 1GB opslagruimte niet superbijzonder, maar de backupkosten tikken hard aan.
Anoniem: 28333
@kamerplant10 juni 2004 21:58
een soort van Raid 5 systeem maar dan verdeeld over verschillende servers?
google gebruikt googlefs http://www.cs.rochester.edu/sosp2003/papers/p125-ghemawat.pdf

Het komt er op neer dat op alle servers een stukje van de index staat. En dat dan nog op een paar meer servers.
Ze gebruiken alleen maar singel IDE diskjes om het goedkoop te houden.
En hoeveel mensen denk je dat die hele GB gaat gebruiken?

De meeste zullen misschien niet eens aan de 100MB komen :)
En denk eraan dat grote bestanden vaak worden doorgestuurd en dat veel mensen dus hetzelfde bestand hebben. Hoef je maar 1x op te slaan.
Dat is dus het bijzondere van Google. Ze gebruiken geen vette servers maar gewone PC's. De betrouwbaarheid van het geheel wordt bewaakt door een in eigen beheer gemaakt OS. Er zijn heel wat OS experts naar Google gegaan. Alleen Google heeft dus de technologie in huis om op basis van goedkope hardware een grootschalige web applicatie in elkaar te zetten. Misschien is dat wel de echte kracht van Google. Een recent essay van Rich Skrenta gaat wat dieper in op deze technologie.
Anoniem: 4697
@Iblies10 juni 2004 19:47
Het toverwoord hierbij is redundantie.
The Storage is the Network!
lol!!
6.000 terabyte, hoeveel is dat in z'n 6 xxxbyte?
Dat is 6*10^15.
Zes biljard
6 petabyte :)

Daarna komt bdw:
10^18 Exa
10^21 Zetta
10^24 Yotta

(thnx BINAS :P)
je bedoelt 5,859375PB... delen door 1024 he ;)

Officieel zijn het dus ook 6000 tebibytes, en daarmee 5,86 pebibytes :P
Anoniem: 112587
@FireStarter10 juni 2004 19:24
Als je zin hebt om gigabytes aan headers binnen te halen...
Doe jij dat nog dan?
xs4all heeft dat al hoor...

en retentie is niet (alleen) afhankelijk is van de storage :)
Anoniem: 10805
10 juni 2004 19:14
wat ik me nou afvraag: hoe financiert google dat allemaal?

want je betaald er niet voor om je site door google te laten vinden (ze zijn nl onafhankelijk/objectief) en reclame is nauwelijks te vinden op hun site (op de beginpagina volgens mij helemaal niets)

enige wat ik kan vinden zijn de zogenaamde Google AdWords, halen ze daar al hun inkomsten uit?
Ze zijn niet voor niets naar de beurs gegaan, levert een hoop centen op.
Ze zijn nog niet naar de beurs gegaan, ze zitten nog in de 'opstartfase' voor een IPO (Initial Public Offering). Hierdoor moesten ze cijfers puliceren en die logen er niet om ... bijna een miljard dollar winst in 2003 en betere marges dan Yahoo!.
Geld hebben ze dus al... als de beursgang een succes wordt zijn Page en Brin in 1 klap miljardair.

now that's fun!!
Anoniem: 79233
@waslijn11 juni 2004 09:35
op de beurs gaan leverd alleen geld op als winst maakt of dat ze verwachten dat je dat binnenkort gaat doen.
Op de beurs gaan levert altijd geld op. Als de aandelen die op de markt worden gezegd worden verkocht gaat het gaat in het laatje van Google. Zelfde geld voor Spyker hier in Nederland, de 15 euro waarvoor ze in de markt zijn gezet, staat nu op de bankrekening van Spyker. Jammer voor de beleggers dat de koers alleen is gezakt onder de 11 euro, maar het bedrijf zelf heeft daar niet direct last van.

@aKIMbo: Die kleine linkjes op hun site zorgen voor (dacht ik) 90% van de omzet van Google, die een kleine 900 miljoen dollar per jaar is.
Dat vraag ik me nou ook af... Het enige wat ik kan bedenken is dat sites moeten betalen om gevonden te worden door google?
Nee, google heeft een aantal bots (crawlerXX.googlebot.com ), die het internet afzoeken en als ze een nieuwe of gewijzigde site vinden voegen ze die automatisch toe aan de index. Webmasters hoeven dus niet te betalen om door Google geïndexeerd te worden.
Daar hebben al heel wat mensen het hoofd over gebroken...

Miss verkopen ze de statistieken (denk aan de laatste trends enzo) door? Want tenslotte kan google echt _perfect_ zien wat "hot" is... Wat is het meest populair, in die trend...
wat ik me nou afvraag: hoe financiert google dat allemaal?
Het belangrijkste is efficiency. Lage kosten zijn belangrijker nog dan hoge opbrengsten. De meeste bedrijven streven dan ook naar kosten minimalisatie en niet naar prijsmaximalisatie. In een competatieve markt prijs je jezelf er anders uit, prijsmaximalisatie (lees: afzetterij) is alleen aan monopolisten voorbestemd, en vaak hooguit gedurende 10 a 20 jaar, daarna wordt zelfs de grootste en smerigste monopolist wel weer ingehaald door de markt.

Lage kosten dus: Google draait op goedkope (oude) hardware. Dat scheelt veel omdat nieuwe serverhardware relatief duur is. De mindere betrouwbaarheid compenseren ze met door gebruik te maken van Linux. Daarmee besparen ze tevens enorm veel op de kosten van beheer en onderhoud en natuurlijk op licenties.

Daar zit dus het geheim: lage kosten.
prijsmaximalisatie (lees: afzetterij) is alleen aan monopolisten voorbestemd, en vaak hooguit gedurende 10 a 20 jaar, daarna wordt zelfs de grootste en smerigste monopolist wel weer ingehaald door de markt.
* 786562 bartware
Dan hebben we het weer over hun hardware, maar het lijkt me dat het dataverkeer dat ze genereren ook niet gratis is...
Google verkoopt advertentieruimte aan websites.
Zo zie je bij veel websites zo'n (google) kolom aan de zijkant. Google zorgt dat deze gevuld wordt met relevante URL's
Het lijkt mij dat google erg veel centen verdient met het doorverkopen van zijn zoektechnologie aan derden.
Google verdient met name met Adsense, een programma waar je als adverteerder keywords kan kopen, als je een site hebt kan je simpel een advertentie programma runnen die afgestemt is op jouw content, het is alleen pay per click en is bekend om zijn hoge rendement, op mijn site www.mediarec.info heb ik het ook draaien en ben er redelijk tevreden over.
Als er bepaalde zoekwoorden worden gebruikt staat er rechts zo'n extra zoekresultaat. De bedrijven die daar willen staan die betalen ervoor.

Overigens hebben ze ook een fikse kapitaalsverhoging verkregen door naar de beurs te gaan :)
Anoniem: 92642
10 juni 2004 19:06
Das toch wel een zeer nauwkeurige schatting tussen de 10.000 en 80.000 servers :9

Maar dan nog, 10.000 servers men je zou toch gekken worden als je die daadwerkelijk moest onderhouden. Maar goed dat ze dat dan ook niet doen ;)
Dat zegt ie ook...
Once you have thousands of machines with all these capabilities it's a lot of fun to see what else you can do with them."
Als google de wereld lam wil leggen kunnen ze dat doen! Een enorme DDOS attack op...1...nee.. alle websites ;-)
Dan kunnen ze meer vragen dan de 20 miljard die de beursgang zou op moeten leveren :-)
Als hun link naar buiten maar snel genoeg is ;)

Als die 80 000 servers allemaar over eenzelfde trage link moeten mogen ze gerust me ddossen
Anoniem: 86265
@CumpsD11 juni 2004 09:20
Lijkt mij eerder dat ze een aantal van dit gigabitjes hebben. Een gb op zo'n site zou het ongeloofelijk traag maken, lijkt me...
dan nog is het minimaal een gigabitje vriend, vergis je niet
Je mist um denk ik net een beetje ;)
Ik dacht dat PigeonRank® het hart achter google was: http://www.google.com/technology/pigeonrank.html :P
Of misschien doet Google een gooi naar het priemgetal van 10 miljoen cijfers en gaan ze er met de hoofdprijs vandoor: $50.000 ;)
Anoniem: 112587
10 juni 2004 19:32
6 petabyte = ongeveer 4369066666 floppy's. Imation bijv. heeft in haar hele bestaan nu 5 miljard floppy's verkocht, die zouden dus vervangen kunnen worden door de (beschikbare) schijfruimte van google.

Op dit item kan niet meer gereageerd worden.

Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee