Internet Archive uitgebreid met een petabyte aan opslag

Storageleverancier Capricorn Technologies meldt dat het ruim een petabyte aan opslagcapaciteit heeft geïnstalleerd bij het Internet Archive. Capricorn, dat gespecialiseerd is in zeer goedkope storage, was tot 2004 nog onderdeel van de archieforganisatie, die vooral bekend is van zijn WayBack-machine waar zo'n veertig miljard webpagina's voor gearchiveerd zijn.

PetaBox met 60TB storage De PetaBox-machines die voor de opslag zijn gebruikt, bestaan uit simpele 1U-nodes die per kast van veertig stuks geleverd zijn. Elke node heeft een VIA mini-ITX bord met bijpassende 1GHz-processor en 512MB RAM aan boord; voor de eigenlijke data zijn vier Hitachi-hd's van 250 of 400GB per stuk ingebouwd. De nodes zijn opmerkelijk energiezuinig: voor de anderhalve petabyte die nu in gebruik is, is 'maar' ongeveer 50kW nodig, ofwel 80W per node van 1,6TB.

Om ook de total cost of ownership zo laag mogelijk te houden zijn alle aansluitingen en bedieningsorganen aan de voorkant van de kast gemonteerd. Verder is afgezien van technieken als RAID en hotswap. CEO C.R. Saikley: 'Dergelijke technieken schalen maar heel moeilijk door als je in de orde van grootte van petabytes bezig bent. Bovendien geven ze ons net zoveel problemen als ze oplossen.' Alle maatregelen bijelkaar betekenen dat het Internet Archive voor anderhalve petabyte rond de drie miljoen dollar moest neerleggen; dat komt neer op een kostprijs van ongeveer twee dollar per gigabyte. Daar komt het personeel nog wel bij, maar het volledige serverpark kan momenteel door één fulltimer en één parttimer beheerd worden - en die zijn ook nog buitenproportioneel veel tijd aan oudere systemen kwijt.

Reacties (62)

Verwijderd 23 juni 2005 17:30

Check deze eens: (tweakers.net waaaayback

)

(kopieren plakken naar je browser)
http://web.archive.org/web/19990427234205/http://www.tweakers.net/

wayback is wel traag, alsof je internet met een modem van wayback

un1ty @Verwijderd • 23 juni 2005 17:38

Haha die is wel heel erg oud.
TOCA2!! dat heb ik bijna 2 maand gespeeld..
...6 jaar geleden

hmm daar zag tweakers.net er nog veel vrolijker uit.
vooral die poll!

Whollabilla @un1ty • 23 juni 2005 17:53

jeej eindelijk is er linux support voor de TNT2! ;P

ulerik @Verwijderd • 23 juni 2005 17:53

Gaaf dat er toen al een duke nukem forever preview item stond..heheh

HeepH @Verwijderd • 23 juni 2005 18:36

Volgens mij word die site op het moment een beetje geslash-GoT...

Poll:

Hoeveel intern geheugen heb je in je computer?
Minder dan 32 Mb
32 tot 63 Mb
64 tot 95 Mb
96 tot 128 Mb
129 tot 256 Mb
Meer dan 256 Mb

decramy @Verwijderd • 23 juni 2005 19:37

Ook een leuke om te zien is XS4ALL
http://web.archive.org/web/19961231235341/http://www.xs4all.nl/

Theo 23 juni 2005 17:01

twee dollar is niet twee euro maar 1.60 euro

T.T. 23 juni 2005 20:53

Wat niemand tot nu toe heeft opgemerkt, is dat je bij een dergelijke hoeveelheid harde schijven zeker last krijgt van uitvallende harde schijven. Normaal gesproken hebben ze een MTBF van misschien 1 miljoen uur, maar als je er 2500 van hebt, dan gaat dat toch aantikken. Elke twee weken zal er dan wel eentje uitvallen; meer precies zo'n 22 schijven per jaar die de geest geven.

Ids Lupo @T.T. • 23 juni 2005 21:55

Zoals je kunt lezen bij hitachi, pagina 18 in de pdf is de MTBF ongeveer 1.300.000 uur.
De MTBF van alle HD's (niet van het systeem) is dan 1,3*10e6/2,5*10e3 = 520 uur, toch..., is 3 weken. Daar MTBF, weet ik uit ervaring, altijd zeer conservatief wordt opgegeven en het feit dat ze opgesteld staan in een vrij stabiele omgeving (temperatuur, niet mobiel, always on), zal de MTBF in de praktijk mogelijk 6 weken zijn.
Interessanter is, hoe is de verdeling van de MTBF over de tijd? Gaan ze op een bepaald moment allemaal tegelijk stuk of juist over een periode verdeeld?

defusion @Ids Lupo • 24 juni 2005 00:31

ik begrijp de berekening niet.
1.300.000 uur is bij mij:
- 54166,67 dagen
- 7738,1 weken
- 148,40 jaren

Ids Lupo @defusion • 24 juni 2005 11:30

Het verhaal bij MTBF (Mean Time Between Failure) is dat het een statistische waarde is, die eigenlijk voor een grote groep pas echt waar is.
Koop je bijvoorbeeld een onderdeel wat een MTBF van 1 jaar heeft, en hij gaat na 1 maand stuk...., dan heb je pech gehad. De hele groep van dat onderdeel heeft een MTBF van 1 jaar, betekent dat er ook in die groep zitten die na 13, 14 of wel meer maanden een defect vertonen.

Dus terug op het onderwerp. Een enkele harddisk gaat 1 keer in de 1,3 mio uur defect. Je hebt het echter over 2500 harddisks, die allemaal gemiddeld na 1,3 miljoen uur een defect hebben. Het aantal defecten voor 2500 harddisks is dus echt 1,3 mio/2500 = 520 uur. Punt is natuurlijk dat deze elke keer 520 uur niet regelmatig over de tijd verdeeld is.

Verwijderd @Ids Lupo • 23 juni 2005 23:39

De MTBF van alle HD's (niet van het systeem) is dan 1,3*10e6/2,5*10e3 = 520 uur

interessante berekening...
denk je dat ie klopt?

the_stickie 23 juni 2005 16:54

Dat lijkt me toch behoorlijk goedkoop.
Storage is immers niet alleen wat harde schijven, maar ook procesors, conrollers etc etc. In dit geval is storage enkele racks vol servers...

Dat dit een tikje duurder is dan wat we gewend zijn van desktops, lijkt me logisch aangezien het hier om behoorlijk high-end oplosssingen gaat

MewBie @the_stickie • 23 juni 2005 17:38

Een via Epia met 1GHz cpu en 512MB is niet echt high end te noemen

CARman @MewBie • 23 juni 2005 18:26

40 stuks geclusterd met 20 Gig gezamelijk geheugen en 1 Petabyte opslagcapaciteit is al met al toch redelijk geavanceerd te noemen.

Zelfs als er geen highend hardware gebruikt wordt is het resultaat niet verkeerd. Het enige dat ik niet begrijp is dat zelfs RAID overboord is gezet. De redundacy is nu gewoon nul .............. ik had toch alle schijven wel met RAID in mirror geconfigureerd. En schijfcrash met simpele IDE schijven is niet bepaald denkbeeldig te noemen.

Olaf van der Spek @CARman • 23 juni 2005 18:52

Op welke (foute) aanname is dat gebaseerd?
RAID is vaak alleen redundancy van het storage subsystem.
Als je een compleet systeem dubbel uitvoert, heb je veel meer redundancy.

miw @CARman • 24 juni 2005 09:41

Het gaat om de MTBF van het hele systeem, niet alleen van het opslagmedium zelf. En je mag aannemen dat de schijven in dit systeem uitgezocht zijn op langdurig gebruik en laag energie verbruik. Snelle toegang en flitsende transferrates zijn van veel minder belang. Dat zie je dus terug in de systeem architectuur. Verder kan je aanzienlijke verbetering van de MTBF bereiken door het OS belangrijke gegevens op meedere plaatsen op te slaan en door het foutgedrag van individuele schijven te volgen zodat je op tijd het overlijden van een schijf kan detecteren.

AlBundy 23 juni 2005 18:16

Het leuke is dat deze bak in het nieuwe datacenter van XS4ALL staat, omdat zij de enigen waren die er echt plek voor hadden

Ik heb hem nog mogen aanraken

Zie ook http://oliebol.albundy.nl/mark/xs4all/archive.org.jpg en http://oliebol.albundy.nl/mark/xs4all/archive.org2.jpg

Verwijderd @AlBundy • 23 juni 2005 18:51

En ook:
http://oliebol.albundy.nl/mark/albundyenpieten.jpg

Leuke opendir trouwens...

AlBundy @Verwijderd • 23 juni 2005 19:19

Je weet wel de ergste foto uit te zoeken gelijk ook

En mijn haar is tegenwoordig weer blond, met stekeltjes, en ik heb tussendoor nog lang haar gehad

Foto is 2,5 jaar oud

Damn thanks for reminding me of hoe ik eruit zag, ik kijk ineens weer graag in de spiegel

Het is een opendir met dumpzooi, haal eruit wat je wil, ik heb niks te verbergen

trogdor @AlBundy • 23 juni 2005 18:55

echooooooo.... lekker leeg daar, heeft xs4all geen klanten? zeker te duur :-)

AlBundy @trogdor • 23 juni 2005 19:22

Het is het 'nieuwe' datacenter van xs4all, en het was net een paar weken open

BTW, als je de andere foto's bekijkt zie je dat er wel meer stond dan alleen die kast, behalve dan die leegstaande bovenverdieping :-)

Als die een jaar leeg staat: kraken en een hosting provider beginnen

Ethnocentrix 23 juni 2005 17:37

Verder is afgezien van technieken als RAID en hotswap. CEO C.R. Saikley: 'Dergelijke technieken schalen maar heel moeilijk door als je in de orde van grootte van petabytes bezig bent. Bovendien geven ze ons net zoveel problemen als ze oplossen.'

Dit zou betekenen dat als er een schijf kapot gaat (en met zoveel schijven gaan er vanzelf een aantal) de data die erop staat voorgoed weg is (geen raid, en een petabyte backuppen doe je ook niet zo snel), en mocht je die schijf dan willen vervangen ,dan moet eerst het hele systeem uitgeschakeld worden.
Iets zegt me dat dat niet zo handig is bij zoveel data.

bartvb

@Ethnocentrix • 23 juni 2005 17:49

Als je RAID zou gebruiken dan ben je 25% van je ruimte per node kwijt (uitgaande van RAID-5) aan parity data. Als je de partity data of de data zelf slimmer verspreid (over de nodes zelf) dan kan je op een veel efficientere manier voor redundancy zorgen. In dit geval valt waarschijnlijk 1 node helemaal uit als er 1 disk dood gaat. De data die op de node stond kan hoogstwaarschijnlijk gewoon gereconsstrueerd worden uit de data die op de andere nodes staan. Ander voordeel is kostenbesparing. Hotswap en RAID kosten nu eenmaal redelijk wat als je dat goed uit wilt voeren.

familyman @bartvb • 23 juni 2005 17:53

raid-5 is een manier, maar moet je dit wellicht niet gewoon lezen als het efficienter / goedkoper om alles gewoon twee keer op te slaan?

Dat geen raid is toegepast zegt niet dat het niet veilig is opgeslagen.

Verwijderd @familyman • 23 juni 2005 17:58

RAID staat voor Redundant Array of Inexpensive Disks (tegenwoordig ook Independent Devices).

Als ze in het artikel zeggen dat er geen RAID is toegepast wil dat dus ook zeggen dat er geen redundancy is. Ofwel: ze kunnen een ander backup medium hebben, maar geen redundancy.

Redundancy is dan natuurlijk wel van toepassing op de data als geheel. Immers als er 1 pc uitvalt is alleen die data verloren, de rest van het archief draait gewoon door en is nog beschikbaar. Op die manier is het dus wel redundant, maar bit-voor-bit niet.

Verwijderd @familyman • 23 juni 2005 18:04

ze kunnen een ander backup medium hebben

Zie jij maar eens 'een petabyte' te backuppen op je tapestreamertje

familyman @familyman • 23 juni 2005 19:06

Correct. Maar opslaan via RAID, zoals bedoeld door de goede man, met traditionele RAID adapters en dergelijke, werd ingewikkeld.

Je kan ook gewoon alles twee keer opslaan, en dat regelen via de software. Wellicht dat dat veel eenvoudiger is voor grote storage qua configuratie en distributie van de data.

bartvb

@familyman • 24 juni 2005 09:30

Eehm. Als je data kwijt raakt als er 1 node uitvalt is het zeker niet redundant. Als het redundant is uitgevoerd dan is het helemaal geen probleem als er 1 node uitvalt, andere nodes pakken de taak van de uitgevallen node over. De data is als het goed is te reconstrueren uit de data op de andere nodes.

In weze heb je dan een soort van RAID-5 maar dan met nodes ipv harddisks. Dat is ook veel efficienter, als je wilt dat er maximaal 1 node uit kan vallen heb je maar n+1 nodes nodig. Als je RAID-5 zou gebruiken met 4 disks per node dan had je n+(0.25*n) nodes nodig.

Verwijderd @familyman • 24 juni 2005 12:13

Eehm. Als je data kwijt raakt als er 1 node uitvalt is het zeker niet redundant.

Daarom staat er ook, "bit-voor-bit" niet. Omdat er simpelweg data verlogen gaat.

Als je even het doel van deze machines voor ogen houdt; een zo groot mogelijk archief van oude/nieuwe internet pagina's zijn, dan is het dus wel redundant. De service die het biedt, internet pagina's geven aan de gebruikers, blijft het immers gewoon doen. 99% van de gebruikers zal de verloren pagina's niet missen.

Ofwel, niet echt redundant maar wel redundant als in UDP ook redundant is. Er gaat data verloren, maar er komt genoeg door om toch nog nuttig/bruikbaar te zijn

(Kromme vergelijking, maar het gaat om het punt

)

EDIT:
Guinness Book of Records: meeste keren redundant in 1 post. Mijn redundantie voor het woord redundant is in elk geval wel goed

Verwijderd @Ethnocentrix • 23 juni 2005 17:45

Dit zou betekenen dat als er een schijf kapot gaat (en met zoveel schijven gaan er vanzelf een aantal) de data die erop staat voorgoed weg is (geen raid, en een petabyte backuppen doe je ook niet zo snel), en mocht je die schijf dan willen vervangen ,dan moet eerst het hele systeem uitgeschakeld worden.
Iets zegt me dat dat niet zo handig is bij zoveel data.

Ten eerste hoeven ze maar 1 machine uit te schakelen en niet het hele systeem (alle 40 machines that is).

Ten tweede staat er op deze schijven geen bedrijfskritische data. Als 2% van je data verloren gaat is dat in dit geval jammer, maar niet catastrofaal. Er is immers dan nog genoeg archief over om de mensen te vermaken.

Ga er maar vanuit dat de servers waarop de databases en de webinterface draaien wel in een lekkere redundant opstelling staan.

* 786562 Mecallie

defusion 23 juni 2005 16:51

Lijkt het nou maar zo, of is 2 euro per gb niet echt super goedkoop?

brada @defusion • 23 juni 2005 16:54

Als je er kasten, processors, geheugen etc. etc. bijkrijgt vind ik het niet duur.

dasiro @brada • 23 juni 2005 20:56

je betaalt ze gewoon hoor, want anders vind ik dat het vierdubbele van de gangbare prijs niet echt goedkoop

Verwijderd @defusion • 23 juni 2005 16:54

Je kunt de lagere prijzen per GB van een conventionele HDD (250GB e.d.) niet vergelijken met dit systeem, hier zijn per cluster schijven ook nog een moederbord en processor toegevoegd. Dan is €2 per GB al niet meer zo duur

EDIT: brada is er als de kippen bij

yootje @defusion • 23 juni 2005 16:55

Dat is dus inclusief het hele systeem, processor, enz.

Verwijderd @defusion • 23 juni 2005 16:56

Lijkt het nou maar zo, of is 2 euro per gb niet echt super goedkoop?

Je mag niet vergeten, het is niet enkel de HD's die in deze kosten zitten. Je moet er de CPU, Ram, MB, Raid kaart etc bijtellen.

Je kan idd als je enkel de HD teld, al aan 0.45€ / GB krijgen, maar het is al die randapperatuur om de boel samen te clusteren tot zo een petabyte systeem, dat de prijs omhoog drijft.

boner @defusion • 24 juni 2005 10:03

wel als je dit er bij berekent:

Daar komt het personeel nog wel bij, maar het volledige serverpark kan momenteel door één fulltimer en één parttimer beheerd worden - en die zijn ook nog buitenproportioneel veel tijd aan oudere systemen kwijt

Per jaar betalen ze dus een schijntje van wat ze anders kwijt zouden zijn als ze minder geavanceerde maar goedkopere systemen hadden aangeschaft.

als dat al bestaat.

TukkerTweaker 23 juni 2005 17:07

The WayBack Machine is wel een toffe applicatie. Je ziet (minder ervaren) webmasters toch verschieten wanneer je ze ineens de oude site tevoorschijn tovert. Wat is eigenlijk het commerciële belang van deze applicatie?

The Third Man @TukkerTweaker • 23 juni 2005 17:15

Het InternetArchive is een non-profit organisatie (1e regel als je klikt op About IA op hun site), dus er lijkt mij weinig commercieel belang in het spel.

_Thanatos_ @The Third Man • 24 juni 2005 13:21

Drie miljoen dollar is niet niks voor een non-profit organisatie. Dat geld moeten ze toch ergens vandaan toveren...

GSL 23 juni 2005 19:23

ppf is wel erg traag idd

je moet wel heel erg graag iets willen zien en er veel tijd voor over hebben. Zelfs inetten met modem was bij mij nog sneller.
(edit ik kom er net 8er dat safari op de achtergrond aan het downen was

)

Maar aan de andere kant vind ik wel heel tof dat ze "oude" sites in de lucht houden. Kan soms best wel nuttig zijn en het is leuk voor over 10 jaar

(als ze dan er tenminste nog op staan ....)

ILUsion @GSL • 23 juni 2005 22:47

Jup, archive.org is gigantisch handig. Zo gaan sites van failliete bedrijven van het internet, dus kun je geen officiële informatie meer vinden over de producten, hiermee dus wel. De site mag soms dan wel vrij traag zijn, meestal heb je er het wachten dan wel voor over als je zo de verloren gegane informatie toch nog (gedeeltelijk) in je browser kunt toveren.

Voor de firefox-gebruikers onder ons zou ik ook het volgende willen aanraden: installeer de extension BetterSearch dan krijg je bij Google en co direct ook een linkje naar de gearchiveerde versie, handig dus als de Google Cache niet het gewenste effect geeft. Ik gebruik hem al tijden en geen problemen mee

Verwijderd 23 juni 2005 21:18

Opzich is het toch nog behoorlijk veel geld. Waar verdient deze organisatie eigenlijk zijn geld mee? Ik bedoel, waar komt die 3 miljoen uiteindelijk vandaan?

defusion @Verwijderd • 24 juni 2005 00:32

ik gok op donaties van veel instellingen en enkele geintresseerde particulieren

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (62)

Sorteer op:

Weergave: