Hoofdcategorieën

Google-zoekmachine van binnenuit bekeken

Door Yoeri Lauwers, donderdag 10 juni 2004 19:00
Bron: BBC, submitter: andreklaver, views: 20.332

BBC sprak met Matt Cutts, een van Googles werknemers die webmasters helpen om ervoor te zorgen dat hun site zo nauwkeurig mogelijk geïndexeerd wordt in de Google-database. Aangezien de zoekmachine momenteel meer dan 4,2 miljard pagina's weet te vinden probeert men ervoor te zorgen dat webmasters eventuele problemen zoveel mogelijk zelf kunnen oplossen op de Google-site. Om de site in zijn geheel online te houden werd vorig jaar 173 miljoen dollar geïnvesteerd in datacenters en verwacht wordt dat dat bedrag in 2004 zal oplopen tot 250 miljoen dollar. Details omtrent aantallen servers en dataverkeer wou men niet geven, maar naar schatting heeft Google tussen de 10.000 en 80.000 servers in beheer die meer dan 6.000 terabytes gegevens kunnen bijhouden.

Google-server (klein)Het bedrijf werkt dan ook met goedkopere hardware; door te zorgen dat er machines op overschot zijn maakt het niet uit als er eentje plat gaat en is een klein team voldoende voor het beheer. Ook de software wordt regelmatig aangepast en gecontroleerd om te verifiëren dat de gebruiker nauwkeurige zoekresultaten voorgeschoteld krijgt. In zekere zin is het beheren van de zoekmachine niet meer dan een voorbereiding voor alle andere initiatieven die Google nog wil starten. Matt Cutts drukt het dan ook als volgt uit: "Once you have thousands of machines with all these capabilities it's a lot of fun to see what else you can do with them."

Volgende 19:07
Vorige 17:26

Reacties

«  1  2  »

Het lijkt me wel lucratief om met zoveel machines gezellig een spam bedrijfje op te richten :Y)

Of een gratis DDoS service..
Of een koetjes verhuur voor de powercows.

of een lan party :o :+

@VKGandalf:
Zoals men bij google al zegt:
"Once you have thousands of machines with all these capabilities it's a lot of fun to see what else you can do with them."

Het schijnt ook wel te moeten he:
Elke keer als er een bericht verschijnt over een supercomputer of een mega-cluster ofzo. Moeten er weer post gezet worden zoals: "Leuk voor een koetje }:O " Dit begint een beetje irritant te worden :r :(

... Google tussen de 10.000 en 80.000 servers ...
80 000 lijkt me wel erg veel ... las nog geen 2 jaar (1 ~ 1.5 jaar ?) geleden een achtergrond artikel in de krant (volksk. dacht ik) dat ook over Google ging. Daar stond toen in dat google uit 6000 servers bestond. Misschien dat het er nu max. 20k zijn, maar meer ook niet m.i. Waar wil je al die dingen laten, voor 80k servers heb je wel heel veel ruimte in veel datacenters nodig !

Verder een leuk artikel op de BBC, maar de nieuwswaarde is wel erg laag ....

80000 servers:

40 in een rack. Dat zijn dus 2000 racks. Een rack is 1/4 m2 en heeft nog een 1/4 m2 ruimte ervoor nodig (de ruimte erachter is de ruimte voor de volgende rij), dat is dus 1/2 m2 per rack, dus 1000 m2... zo belachelijk groot is dat niet. Komt er natuurlijk nog wel wat bij voor airco's, UPS'en, storage en netwerkapparatuur. Maar je zou ook nog blade servers kunnen gebruiken, die nog minder ruimte innemen....

Maar je zou ook nog blade servers kunnen gebruiken
Alle artikelen over de hardware van Google zijn duidelijk op dit gebied: ze gebruiken "gewone" pc's. Gewoon een flinke stapel PIII's enzo. Het zou mij niet verbazen als ze niet eens 1U rackmounts gebruiken, maar goedkopere 2 of 3U hoge bakken (ruimte is soms goedkoper dan dure rackmounts).

Ze gebruiken o.a. machines van Rackable Systems, daarvan kunnen er 1 in 1U (een aan de voorkant en een aan de achterkant).

Ze gebruiken wel degelijk 1u machines, maar wel goedkope bluk bakjes, de hardware zelf is niet state of the art, dus geen scsi disks denk ik.

welk bedrijf die dingen precies voor ze bouwt is ook bekend, maar ik kan het zo 123 niet vinden.

Als ik me niet vergis is google een ge-decentraliseerde engine. Die servers staan dus niet op 1 plaats (dacht ik, 100% zeker weet ik het niet).
En gezien het succes van google lijkt het me niet onwaarschijnlijk dat ze zoveel servers hebben. Hun servers kosten relatief dan ook niks en dus is het best haalbaar.

Hun servers staan op 3 verschillende plaatsen. Daarmee kan je tijdens de update van de database soms verschillende resultaten krijgen voor dezelfde zoekopdracht

Ik dacht dat PigeonRank® het hart achter google was: http://www.google.com/technology/pigeonrank.html :P

6.000 terabyte, hoeveel is dat in z'n 6 xxxbyte?

6 petabyte :)

Daarna komt bdw:
10^18 Exa
10^21 Zetta
10^24 Yotta

(thnx BINAS :P)


Als je zin hebt om gigabytes aan headers binnen te halen...

Doe jij dat nog dan?

xs4all heeft dat al hoor...

en retentie is niet (alleen) afhankelijk is van de storage :)

je bedoelt 5,859375PB... delen door 1024 he ;)

Officieel zijn het dus ook 6000 tebibytes, en daarmee 5,86 pebibytes :P

Dat is 6*10^15.
Zes biljard

Das toch wel een zeer nauwkeurige schatting tussen de 10.000 en 80.000 servers :9

Maar dan nog, 10.000 servers men je zou toch gekken worden als je die daadwerkelijk moest onderhouden. Maar goed dat ze dat dan ook niet doen ;)

Dat zegt ie ook...
Once you have thousands of machines with all these capabilities it's a lot of fun to see what else you can do with them."
Als google de wereld lam wil leggen kunnen ze dat doen! Een enorme DDOS attack op...1...nee.. alle websites ;-)
Dan kunnen ze meer vragen dan de 20 miljard die de beursgang zou op moeten leveren :-)

Als hun link naar buiten maar snel genoeg is ;)

Als die 80 000 servers allemaar over eenzelfde trage link moeten mogen ze gerust me ddossen

dan nog is het minimaal een gigabitje vriend, vergis je niet

Je mist um denk ik net een beetje ;)

Lijkt mij eerder dat ze een aantal van dit gigabitjes hebben. Een gb op zo'n site zou het ongeloofelijk traag maken, lijkt me...

Goh, ze zouden mee moeten doen aan een Distributed Computing project :P

Maar ik snap google wel dat ze meerdere projecten willen doen. het is een miljoenenbedrijf die veel geld geinvesteerd heeft, als daar dan meer uit valt te halen dan is het een logische keus.

doen ze iig 'sort-of' al. In de google toolbar kun je bij de advanced options aanzetten dat de toolbar een Distributed Computing project (Folding@home) cpu time geeft. Ze zitten nu tegen de 125 duizend gebruikers aan.

Back ontopic? :)

Goh, ze zouden mee moeten doen aan een Distributed Computing project :P
Doen ze al... het heet "zoekmachine"...

@MarcyDarcy: Hertog_Martin heeft het volgens mij over de computers bij google zelf, niet die van de gebruikers. Maar dat maakt het natuurlijk niet minder gaaf :)

Of misschien doet Google een gooi naar het priemgetal van 10 miljoen cijfers en gaan ze er met de hoofdprijs vandoor: $50.000 ;)

zal wel een flink gebouw zijn waar ze al die pc's kwijt kunnen.
:?

wat ik me nou afvraag: hoe financiert google dat allemaal?

want je betaald er niet voor om je site door google te laten vinden (ze zijn nl onafhankelijk/objectief) en reclame is nauwelijks te vinden op hun site (op de beginpagina volgens mij helemaal niets)

enige wat ik kan vinden zijn de zogenaamde Google AdWords, halen ze daar al hun inkomsten uit?

Ze zijn niet voor niets naar de beurs gegaan, levert een hoop centen op.

Ze zijn nog niet naar de beurs gegaan, ze zitten nog in de 'opstartfase' voor een IPO (Initial Public Offering). Hierdoor moesten ze cijfers puliceren en die logen er niet om ... bijna een miljard dollar winst in 2003 en betere marges dan Yahoo!.
Geld hebben ze dus al... als de beursgang een succes wordt zijn Page en Brin in 1 klap miljardair.

now that's fun!!

op de beurs gaan leverd alleen geld op als winst maakt of dat ze verwachten dat je dat binnenkort gaat doen.

Op de beurs gaan levert altijd geld op. Als de aandelen die op de markt worden gezegd worden verkocht gaat het gaat in het laatje van Google. Zelfde geld voor Spyker hier in Nederland, de 15 euro waarvoor ze in de markt zijn gezet, staat nu op de bankrekening van Spyker. Jammer voor de beleggers dat de koers alleen is gezakt onder de 11 euro, maar het bedrijf zelf heeft daar niet direct last van.

@aKIMbo: Die kleine linkjes op hun site zorgen voor (dacht ik) 90% van de omzet van Google, die een kleine 900 miljoen dollar per jaar is.

Daar hebben al heel wat mensen het hoofd over gebroken...

Miss verkopen ze de statistieken (denk aan de laatste trends enzo) door? Want tenslotte kan google echt _perfect_ zien wat "hot" is... Wat is het meest populair, in die trend...

Dat vraag ik me nou ook af... Het enige wat ik kan bedenken is dat sites moeten betalen om gevonden te worden door google?

Nee, google heeft een aantal bots (crawlerXX.googlebot.com ), die het internet afzoeken en als ze een nieuwe of gewijzigde site vinden voegen ze die automatisch toe aan de index. Webmasters hoeven dus niet te betalen om door Google geïndexeerd te worden.

Als er bepaalde zoekwoorden worden gebruikt staat er rechts zo'n extra zoekresultaat. De bedrijven die daar willen staan die betalen ervoor.

Overigens hebben ze ook een fikse kapitaalsverhoging verkregen door naar de beurs te gaan :)

wat ik me nou afvraag: hoe financiert google dat allemaal?
Het belangrijkste is efficiency. Lage kosten zijn belangrijker nog dan hoge opbrengsten. De meeste bedrijven streven dan ook naar kosten minimalisatie en niet naar prijsmaximalisatie. In een competatieve markt prijs je jezelf er anders uit, prijsmaximalisatie (lees: afzetterij) is alleen aan monopolisten voorbestemd, en vaak hooguit gedurende 10 a 20 jaar, daarna wordt zelfs de grootste en smerigste monopolist wel weer ingehaald door de markt.

Lage kosten dus: Google draait op goedkope (oude) hardware. Dat scheelt veel omdat nieuwe serverhardware relatief duur is. De mindere betrouwbaarheid compenseren ze met door gebruik te maken van Linux. Daarmee besparen ze tevens enorm veel op de kosten van beheer en onderhoud en natuurlijk op licenties.

Daar zit dus het geheim: lage kosten.

prijsmaximalisatie (lees: afzetterij) is alleen aan monopolisten voorbestemd, en vaak hooguit gedurende 10 a 20 jaar, daarna wordt zelfs de grootste en smerigste monopolist wel weer ingehaald door de markt.
* 786562 bartware

Dan hebben we het weer over hun hardware, maar het lijkt me dat het dataverkeer dat ze genereren ook niet gratis is...

Google verkoopt advertentieruimte aan websites.
Zo zie je bij veel websites zo'n (google) kolom aan de zijkant. Google zorgt dat deze gevuld wordt met relevante URL's

Het lijkt mij dat google erg veel centen verdient met het doorverkopen van zijn zoektechnologie aan derden.

Google verdient met name met Adsense, een programma waar je als adverteerder keywords kan kopen, als je een site hebt kan je simpel een advertentie programma runnen die afgestemt is op jouw content, het is alleen pay per click en is bekend om zijn hoge rendement, op mijn site www.mediarec.info heb ik het ook draaien en ben er redelijk tevreden over.

6000 terabyte = 6144000 gigabyte = 6291456000 megabyte = 6442450944000 kilobyte = 6597069766656000 byte... Op onze aarde leven zo'n 10 miljard mensen. Dus 6597069766656000/10000000000 = 644,2450944. Na een gesprek van een minuut heb je al zoveel data voortgebracht. Dus google heeft nog niet voldoende geheugen om onze levens vast te leggen... Dat wilde ik eigenlijk zelf even weten.

De database bevat niet de data, maar de meta-data! En meta-data heeft van zichzelf de neiging om veel kleiner te zijn dan de data zelf.

Je hebt dus 644,2450944 bytes (kwart bytes??) om gegevens op te slaan óver je leven, niet ván je leven.

Vergeet niet de google ook ENORM veel pagina's in hun cache hebben staan. Lijkt me dat die info ook binnen die 6 petabyte valt

10 miljard? :D

Paar maanden geleden was het nog 6 ;)

6597069766656000 bytes / 6.000.000.000 = 1.099.511,627776 bytes per mens. Dus iets meer dan 1mb per mens.

6000 petabyte => 100.000 schijven van 60GB. Op zich wel aardig wat :)

6.000.000 petabyte == net zo veel als Kazaa op hun hele netwerk heeft (ongeveer 6,3 miljoen GB's bijvoorbeeld nu; soms idd wel 10 miljoen GB's)

Big Brother is watching you ... of toch maar niet :+
«  1  2  »

Op dit item kan niet meer gereageerd worden.

Volgende 19:07
Vorige 17:26
VNU Media logo Hosted by True

© 1998 - 2009 Tweakers.net - Alle rechten voorbehouden - Uw Privacy - Algemene Voorwaarden

Uitgever van: