Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 62 reacties
Bron: LinuxDevices

Storageleverancier Capricorn Technologies meldt dat het ruim een petabyte aan opslagcapaciteit heeft geïnstalleerd bij het Internet Archive. Capricorn, dat gespecialiseerd is in zeer goedkope storage, was tot 2004 nog onderdeel van de archieforganisatie, die vooral bekend is van zijn WayBack-machine waar zo'n veertig miljard webpagina's voor gearchiveerd zijn.

PetaBox met 60TB storage De PetaBox-machines die voor de opslag zijn gebruikt, bestaan uit simpele 1U-nodes die per kast van veertig stuks geleverd zijn. Elke node heeft een VIA mini-ITX bord met bijpassende 1GHz-processor en 512MB RAM aan boord; voor de eigenlijke data zijn vier Hitachi-hd's van 250 of 400GB per stuk ingebouwd. De nodes zijn opmerkelijk energiezuinig: voor de anderhalve petabyte die nu in gebruik is, is 'maar' ongeveer 50kW nodig, ofwel 80W per node van 1,6TB.

Om ook de total cost of ownership zo laag mogelijk te houden zijn alle aansluitingen en bedieningsorganen aan de voorkant van de kast gemonteerd. Verder is afgezien van technieken als RAID en hotswap. CEO C.R. Saikley: 'Dergelijke technieken schalen maar heel moeilijk door als je in de orde van grootte van petabytes bezig bent. Bovendien geven ze ons net zoveel problemen als ze oplossen.' Alle maatregelen bijelkaar betekenen dat het Internet Archive voor anderhalve petabyte rond de drie miljoen dollar moest neerleggen; dat komt neer op een kostprijs van ongeveer twee dollar per gigabyte. Daar komt het personeel nog wel bij, maar het volledige serverpark kan momenteel door één fulltimer en één parttimer beheerd worden - en die zijn ook nog buitenproportioneel veel tijd aan oudere systemen kwijt.

Moderatie-faq Wijzig weergave

Reacties (62)

Check deze eens: (tweakers.net waaaayback :9)

(kopieren plakken naar je browser)
http://web.archive.org/web/19990427234205/http://www.tweakers.net/

wayback is wel traag, alsof je internet met een modem van wayback ;)
Haha die is wel heel erg oud.
TOCA2!! dat heb ik bijna 2 maand gespeeld..
...6 jaar geleden ;)
hmm daar zag tweakers.net er nog veel vrolijker uit.
vooral die poll! |:(
jeej eindelijk is er linux support voor de TNT2! ;P
Gaaf dat er toen al een duke nukem forever preview item stond..heheh
Volgens mij word die site op het moment een beetje geslash-GoT... :7

Poll:

Hoeveel intern geheugen heb je in je computer?
Minder dan 32 Mb
32 tot 63 Mb
64 tot 95 Mb
96 tot 128 Mb
129 tot 256 Mb
Meer dan 256 Mb


:9
twee dollar is niet twee euro maar 1.60 euro
Wat niemand tot nu toe heeft opgemerkt, is dat je bij een dergelijke hoeveelheid harde schijven zeker last krijgt van uitvallende harde schijven. Normaal gesproken hebben ze een MTBF van misschien 1 miljoen uur, maar als je er 2500 van hebt, dan gaat dat toch aantikken. Elke twee weken zal er dan wel eentje uitvallen; meer precies zo'n 22 schijven per jaar die de geest geven.
Zoals je kunt lezen bij hitachi, pagina 18 in de pdf is de MTBF ongeveer 1.300.000 uur.
De MTBF van alle HD's (niet van het systeem) is dan 1,3*10e6/2,5*10e3 = 520 uur, toch..., is 3 weken. Daar MTBF, weet ik uit ervaring, altijd zeer conservatief wordt opgegeven en het feit dat ze opgesteld staan in een vrij stabiele omgeving (temperatuur, niet mobiel, always on), zal de MTBF in de praktijk mogelijk 6 weken zijn.
Interessanter is, hoe is de verdeling van de MTBF over de tijd? Gaan ze op een bepaald moment allemaal tegelijk stuk of juist over een periode verdeeld?
ik begrijp de berekening niet.
1.300.000 uur is bij mij:
- 54166,67 dagen
- 7738,1 weken
- 148,40 jaren
Het verhaal bij MTBF (Mean Time Between Failure) is dat het een statistische waarde is, die eigenlijk voor een grote groep pas echt waar is.
Koop je bijvoorbeeld een onderdeel wat een MTBF van 1 jaar heeft, en hij gaat na 1 maand stuk...., dan heb je pech gehad. De hele groep van dat onderdeel heeft een MTBF van 1 jaar, betekent dat er ook in die groep zitten die na 13, 14 of wel meer maanden een defect vertonen.

Dus terug op het onderwerp. Een enkele harddisk gaat 1 keer in de 1,3 mio uur defect. Je hebt het echter over 2500 harddisks, die allemaal gemiddeld na 1,3 miljoen uur een defect hebben. Het aantal defecten voor 2500 harddisks is dus echt 1,3 mio/2500 = 520 uur. Punt is natuurlijk dat deze elke keer 520 uur niet regelmatig over de tijd verdeeld is.
De MTBF van alle HD's (niet van het systeem) is dan 1,3*10e6/2,5*10e3 = 520 uur

interessante berekening...
denk je dat ie klopt? :+
Dat lijkt me toch behoorlijk goedkoop.
Storage is immers niet alleen wat harde schijven, maar ook procesors, conrollers etc etc. In dit geval is storage enkele racks vol servers...

Dat dit een tikje duurder is dan wat we gewend zijn van desktops, lijkt me logisch aangezien het hier om behoorlijk high-end oplosssingen gaat :)
Een via Epia met 1GHz cpu en 512MB is niet echt high end te noemen
40 stuks geclusterd met 20 Gig gezamelijk geheugen en 1 Petabyte opslagcapaciteit is al met al toch redelijk geavanceerd te noemen.

Zelfs als er geen highend hardware gebruikt wordt is het resultaat niet verkeerd. Het enige dat ik niet begrijp is dat zelfs RAID overboord is gezet. De redundacy is nu gewoon nul .............. ik had toch alle schijven wel met RAID in mirror geconfigureerd. En schijfcrash met simpele IDE schijven is niet bepaald denkbeeldig te noemen.
Op welke (foute) aanname is dat gebaseerd?
RAID is vaak alleen redundancy van het storage subsystem.
Als je een compleet systeem dubbel uitvoert, heb je veel meer redundancy.
Het gaat om de MTBF van het hele systeem, niet alleen van het opslagmedium zelf. En je mag aannemen dat de schijven in dit systeem uitgezocht zijn op langdurig gebruik en laag energie verbruik. Snelle toegang en flitsende transferrates zijn van veel minder belang. Dat zie je dus terug in de systeem architectuur. Verder kan je aanzienlijke verbetering van de MTBF bereiken door het OS belangrijke gegevens op meedere plaatsen op te slaan en door het foutgedrag van individuele schijven te volgen zodat je op tijd het overlijden van een schijf kan detecteren.
Verder is afgezien van technieken als RAID en hotswap. CEO C.R. Saikley: 'Dergelijke technieken schalen maar heel moeilijk door als je in de orde van grootte van petabytes bezig bent. Bovendien geven ze ons net zoveel problemen als ze oplossen.'
Dit zou betekenen dat als er een schijf kapot gaat (en met zoveel schijven gaan er vanzelf een aantal) de data die erop staat voorgoed weg is (geen raid, en een petabyte backuppen doe je ook niet zo snel), en mocht je die schijf dan willen vervangen ,dan moet eerst het hele systeem uitgeschakeld worden.
Iets zegt me dat dat niet zo handig is bij zoveel data.
Als je RAID zou gebruiken dan ben je 25% van je ruimte per node kwijt (uitgaande van RAID-5) aan parity data. Als je de partity data of de data zelf slimmer verspreid (over de nodes zelf) dan kan je op een veel efficientere manier voor redundancy zorgen. In dit geval valt waarschijnlijk 1 node helemaal uit als er 1 disk dood gaat. De data die op de node stond kan hoogstwaarschijnlijk gewoon gereconsstrueerd worden uit de data die op de andere nodes staan. Ander voordeel is kostenbesparing. Hotswap en RAID kosten nu eenmaal redelijk wat als je dat goed uit wilt voeren.
raid-5 is een manier, maar moet je dit wellicht niet gewoon lezen als het efficienter / goedkoper om alles gewoon twee keer op te slaan?

Dat geen raid is toegepast zegt niet dat het niet veilig is opgeslagen.
RAID staat voor Redundant Array of Inexpensive Disks (tegenwoordig ook Independent Devices).

Als ze in het artikel zeggen dat er geen RAID is toegepast wil dat dus ook zeggen dat er geen redundancy is. Ofwel: ze kunnen een ander backup medium hebben, maar geen redundancy.

Redundancy is dan natuurlijk wel van toepassing op de data als geheel. Immers als er 1 pc uitvalt is alleen die data verloren, de rest van het archief draait gewoon door en is nog beschikbaar. Op die manier is het dus wel redundant, maar bit-voor-bit niet. :)
ze kunnen een ander backup medium hebben
Zie jij maar eens 'een petabyte' te backuppen op je tapestreamertje :P :P :P
Correct. Maar opslaan via RAID, zoals bedoeld door de goede man, met traditionele RAID adapters en dergelijke, werd ingewikkeld.

Je kan ook gewoon alles twee keer opslaan, en dat regelen via de software. Wellicht dat dat veel eenvoudiger is voor grote storage qua configuratie en distributie van de data.
Eehm. Als je data kwijt raakt als er 1 node uitvalt is het zeker niet redundant. Als het redundant is uitgevoerd dan is het helemaal geen probleem als er 1 node uitvalt, andere nodes pakken de taak van de uitgevallen node over. De data is als het goed is te reconstrueren uit de data op de andere nodes.

In weze heb je dan een soort van RAID-5 maar dan met nodes ipv harddisks. Dat is ook veel efficienter, als je wilt dat er maximaal 1 node uit kan vallen heb je maar n+1 nodes nodig. Als je RAID-5 zou gebruiken met 4 disks per node dan had je n+(0.25*n) nodes nodig.
Eehm. Als je data kwijt raakt als er 1 node uitvalt is het zeker niet redundant.
Daarom staat er ook, "bit-voor-bit" niet. Omdat er simpelweg data verlogen gaat.

Als je even het doel van deze machines voor ogen houdt; een zo groot mogelijk archief van oude/nieuwe internet pagina's zijn, dan is het dus wel redundant. De service die het biedt, internet pagina's geven aan de gebruikers, blijft het immers gewoon doen. 99% van de gebruikers zal de verloren pagina's niet missen.

Ofwel, niet echt redundant maar wel redundant als in UDP ook redundant is. Er gaat data verloren, maar er komt genoeg door om toch nog nuttig/bruikbaar te zijn :) (Kromme vergelijking, maar het gaat om het punt :P )

EDIT:
Guinness Book of Records: meeste keren redundant in 1 post. Mijn redundantie voor het woord redundant is in elk geval wel goed :D
Dit zou betekenen dat als er een schijf kapot gaat (en met zoveel schijven gaan er vanzelf een aantal) de data die erop staat voorgoed weg is (geen raid, en een petabyte backuppen doe je ook niet zo snel), en mocht je die schijf dan willen vervangen ,dan moet eerst het hele systeem uitgeschakeld worden.
Iets zegt me dat dat niet zo handig is bij zoveel data.
Ten eerste hoeven ze maar 1 machine uit te schakelen en niet het hele systeem (alle 40 machines that is).

Ten tweede staat er op deze schijven geen bedrijfskritische data. Als 2% van je data verloren gaat is dat in dit geval jammer, maar niet catastrofaal. Er is immers dan nog genoeg archief over om de mensen te vermaken.

Ga er maar vanuit dat de servers waarop de databases en de webinterface draaien wel in een lekkere redundant opstelling staan.

* 786562 Mecallie
Het leuke is dat deze bak in het nieuwe datacenter van XS4ALL staat, omdat zij de enigen waren die er echt plek voor hadden :)
Ik heb hem nog mogen aanraken :9
Zie ook http://oliebol.albundy.nl/mark/xs4all/archive.org.jpg en http://oliebol.albundy.nl/mark/xs4all/archive.org2.jpg :)
Je weet wel de ergste foto uit te zoeken gelijk ook :D En mijn haar is tegenwoordig weer blond, met stekeltjes, en ik heb tussendoor nog lang haar gehad :o Foto is 2,5 jaar oud :D Damn thanks for reminding me of hoe ik eruit zag, ik kijk ineens weer graag in de spiegel :P
Het is een opendir met dumpzooi, haal eruit wat je wil, ik heb niks te verbergen :7
echooooooo.... lekker leeg daar, heeft xs4all geen klanten? zeker te duur :-)
Het is het 'nieuwe' datacenter van xs4all, en het was net een paar weken open :) BTW, als je de andere foto's bekijkt zie je dat er wel meer stond dan alleen die kast, behalve dan die leegstaande bovenverdieping :-)

Als die een jaar leeg staat: kraken en een hosting provider beginnen }>
Lijkt het nou maar zo, of is 2 euro per gb niet echt super goedkoop?
Als je er kasten, processors, geheugen etc. etc. bijkrijgt vind ik het niet duur.
je betaalt ze gewoon hoor, want anders vind ik dat het vierdubbele van de gangbare prijs niet echt goedkoop |:(
Je kunt de lagere prijzen per GB van een conventionele HDD (250GB e.d.) niet vergelijken met dit systeem, hier zijn per cluster schijven ook nog een moederbord en processor toegevoegd. Dan is ¤2 per GB al niet meer zo duur ;)

EDIT: brada is er als de kippen bij ;)
Dat is dus inclusief het hele systeem, processor, enz.
Lijkt het nou maar zo, of is 2 euro per gb niet echt super goedkoop?
Je mag niet vergeten, het is niet enkel de HD's die in deze kosten zitten. Je moet er de CPU, Ram, MB, Raid kaart etc bijtellen.

Je kan idd als je enkel de HD teld, al aan 0.45¤ / GB krijgen, maar het is al die randapperatuur om de boel samen te clusteren tot zo een petabyte systeem, dat de prijs omhoog drijft.
wel als je dit er bij berekent:
Daar komt het personeel nog wel bij, maar het volledige serverpark kan momenteel door één fulltimer en één parttimer beheerd worden - en die zijn ook nog buitenproportioneel veel tijd aan oudere systemen kwijt
Per jaar betalen ze dus een schijntje van wat ze anders kwijt zouden zijn als ze minder geavanceerde maar goedkopere systemen hadden aangeschaft.

als dat al bestaat.
The WayBack Machine is wel een toffe applicatie. Je ziet (minder ervaren) webmasters toch verschieten wanneer je ze ineens de oude site tevoorschijn tovert. Wat is eigenlijk het commerciële belang van deze applicatie?
Het InternetArchive is een non-profit organisatie (1e regel als je klikt op About IA op hun site), dus er lijkt mij weinig commercieel belang in het spel. :z
Drie miljoen dollar is niet niks voor een non-profit organisatie. Dat geld moeten ze toch ergens vandaan toveren...
ppf is wel erg traag idd :S je moet wel heel erg graag iets willen zien en er veel tijd voor over hebben. Zelfs inetten met modem was bij mij nog sneller.
(edit ik kom er net 8er dat safari op de achtergrond aan het downen was |:( )

Maar aan de andere kant vind ik wel heel tof dat ze "oude" sites in de lucht houden. Kan soms best wel nuttig zijn en het is leuk voor over 10 jaar :9 (als ze dan er tenminste nog op staan ....)
Jup, archive.org is gigantisch handig. Zo gaan sites van failliete bedrijven van het internet, dus kun je geen officiële informatie meer vinden over de producten, hiermee dus wel. De site mag soms dan wel vrij traag zijn, meestal heb je er het wachten dan wel voor over als je zo de verloren gegane informatie toch nog (gedeeltelijk) in je browser kunt toveren.

Voor de firefox-gebruikers onder ons zou ik ook het volgende willen aanraden: installeer de extension BetterSearch dan krijg je bij Google en co direct ook een linkje naar de gearchiveerde versie, handig dus als de Google Cache niet het gewenste effect geeft. Ik gebruik hem al tijden en geen problemen mee :)
Opzich is het toch nog behoorlijk veel geld. Waar verdient deze organisatie eigenlijk zijn geld mee? Ik bedoel, waar komt die 3 miljoen uiteindelijk vandaan?
ik gok op donaties van veel instellingen en enkele geintresseerde particulieren :)

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True