Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 158 reacties
Submitter: Cheetah_777

IBM bouwt voor een onbekende klant een opslagunit waarop 120PB aan data past. Daarmee is het veel groter dan het grootste opslagsysteem tot nu toe. De opslag wordt gemaakt met 200.000 harde schijven van ieder gemiddeld 600GB.

Door alle harde schijven aan elkaar te koppelen wordt een opslagunit gemaakt met 120 petabyte aan geheugen, meldt Technology Review. De klant wil met de enorme hoeveelheid opslag gedetailleerde simulaties maken van situaties in de werkelijkheid.

De schijven zullen worden geplaatst in horizontale lades in hoge rekken, maar koeling moet worden gedaan door water, omdat er niet genoeg ruimte is voor meer traditionele koelmethoden. De opslag is voldoende om zestig keer de hele database van internetarchief Wayback Machine te bevatten, aldus Technology Review. De schijven zullen gebruik maken van IBM's eigen bestandssysteem Gpfs. Dat gebruikt IBM vaker bij grote opslagsystemen. Met 120PB is de opslag vier keer zo groot als MSS van Ncar voor opslag van wetenschappelijke data. Het is onbekend of het daadwerkelijk het grootste opslagsysteem tot nog toe is.

Moderatie-faq Wijzig weergave

Reacties (158)

Ik was benieuwd hoe men crashende harde schijven oplost bij 200.000 HDDs.

Gelukkig zegt het originele artikel daar wat over:
The inevitable failures that occur regularly in such a large collection of disks present another major challenge, says Hillsberg. IBM uses the standard tactic of storing multiple copies of data on different disks, but it employs new refinements that allow a supercomputer to keep working at almost full speed even when a drive breaks down.

When a lone disk dies, the system pulls data from other drives and writes it to the disk's replacement slowly, so the supercomputer can continue working. If more failures occur among nearby drives, the rebuilding process speeds up to avoid the possibility that yet another failure occurs and wipes out some data permanently. Hillsberg says that the result is a system that should not lose any data for a million years without making any compromises on performance.
Heb je daarnaast denk ik wel een dagtaak aan om kapotte harde schijven te vervangen.
Mwa, ik denk dat wel meevalt. Als je uitgaat van een MTBF van 100.000 uur dan kom je op 200,000 schijven waarvan er dus 24 / 100.000 per dag kapot gaan; dan zit je op 48 schijven per dag.

Hoe de MTBF echt is dat is de vraag. Maar je mag uitgaan van tussen de 10 en 50 schijven die per dag vervangen moeten worden denk ik. Dat valt net niet onder een dagtaak denk ik afhankelijk van hoe het geheel mechanisch is opgelost (waarschijnlijk is het 5 seconden werk om een kapotte HD te vervangen).

Interessanter is natuurlijk dat je met dit systeem eindelijk eens een min of meer gratis reaistische schatting van de ware MTBF kan maken :)
Google en andere grootgebruikers publiceren regelmatig hoe vaak hun schijven het begeven.
Hier een paar aardige linkjes.
http://storagemojo.com/20...-disk-failure-experience/
http://storagemojo.com/20...now-about-disks-is-wrong/
http://storagemojo.com/20...-do-storage-systems-fail/
Te gekke weetjes in een linkje van je, laagste kans op een kapotte schijf:
- 6 maand tot 3 jaar oud
- temperatuur 45 C, tot 3 jaar oud (tussen de 25 en 45 is ook goed)
- weinig IO in 1e jaar, daarna veel IO
Hoezo schijf koelen :Y)
edit: linkje hersteld

[Reactie gewijzigd door Xubby op 27 augustus 2011 17:39]

Mwa, ik denk dat wel meevalt. Als je uitgaat van een MTBF van 100.000 uur dan kom je op 200,000 schijven waarvan er dus 24 / 100.000 per dag kapot gaan; dan zit je op 48 schijven per dag.
Afhankelijk van je enclosuresysteem vervang je die niet in een uurtje hoor. (48 front-loading tray-mounted hot-swap schijven die geen afhankelijkheid naar elkaar hebben wellicht wel, maar daarmee haal je niet de hoogste density.)
Daarom zitten ze ook in horizontale lades.
Kan je er lekker veel kwijt per rack en vervangen is nog steeds makkelijk, laadtje optrekken en schijf uitnemen.

Je moet de opstelling dus zien als dat die schijven rechtop (interface naar beneden) in die lade staan. Goedkope manier van interfacen dmv printplaat met zooi SAS connectors en je kan er dus relatief veel in kwijt.
Interessanter is natuurlijk dat je met dit systeem eindelijk eens een min of meer gratis reaistische schatting van de ware MTBF kan maken
Google gebruikt toch ook wel in de orde van 1 miljoen harde schijven in al zijn datacenters.
Die zou nu al een redelijk realistische weergave moeten kunnen geven van de MTBF van die schijven.
Enige verschil is wel dat deze schijven heel erg netjes behandeld worden. Geen wisselende temperaturen, geen spindowns, etc.
Dat is voor kantoor- of thuisgebruik een niet realistische weergave.
Ik neem aan dat MTBF bij een volledige belasting is? Niet alle 200.000 zullen 100% actief zijn de hele tijd? Dus 48 per dag zal een bovengrens zijn?
IBM bouwt voor een onbekende klant een opslagunit waarop 120PB aan data past. Daarmee is het veel groter dan het grootste opslagsysteem tot nu toe.
Het is onbekend of het daadwerkelijk het grootste opslagsysteem tot nog toe is.
http://www.nu.nl/gadgets/...ootste-opslagsysteem.html
op nu stellen ze dat het de grootste is.

Het originele artikel stelt wel, zonder inconsistentie, dat het de grootste is:
"A 120-petabye storage array would easily be the largest I've encountered," he says. The largest arrays available today are about 15 petabytes in size.
Bron: http://www.technologyreview.com/computing/38440/page1/

Rare laatste zin in het tweakers.net artikel..
Dat Nu het stelt zegt natuurlijk maar heel weinig... die nemen hun berichten ook maar 1:1 over van een ander... Technology review zou een betrouwbare bron moeten zijn... maar je moet wel goed lezen wat de schrijver zegt, vrij vertaald: "120PB is het meeste wat IK ben tegengekomen... ik ken verder geen arrays groter dan 15PB..." Dat is geen definitieve bevestiging... sowieso zolang we hier bijvoorbeeld alleen maar kunnen raden wat er allemaal in China gebeurd... die zullen ook wel wat monsters van arrays hebben staan.
"A 120-petabye storage array would easily be the largest I've encountered," he says. The largest arrays available today are about 15 petabytes in size.
120PB is de grootste die hij heet gemaakt/tegengekomen. Zegt hij.

Dan begint er een nieuwe zin, zonder " " dat hij het zegt, de grootste is ~ 15 PB.
Vandaar mijn interpretatie.

Edit: Daarnaast heb je natuurlijk gelijk over nu.nl ;). Maar tweakers/nu.nl zullen beiden de bovenstaande bron hebben gebruikt. Vandaar de link erheen.

[Reactie gewijzigd door Hoowgii op 27 augustus 2011 14:44]

Waarom gebruiken ze geen SSD's?
Kostprijs ongetwijfeld. Voor een 200GB SLC SAS schijf ben je 3000 euro kwijt (€15 per GB) oftewel 1,8 miljard euro voor 120 PB. En dan heb je dus enkel nog maar de opslag, geen grond, gebouw, aansturing, koeling, ...
Een 600GB SAS schijf kost 320 euro, dus rond de €0,53 per GB. Dan kom je dus op net geen 64 miljoen euro voor dezelfde 120PB opslag. Kortom een factor 28 goedkoper.
(Edit: trouwens wel prijzen van de pricewatch, een dergelijke OEM besteld uiteraard niet bij een Nederlandse webshop :P, dus ook tegen andere prijzen)

[Reactie gewijzigd door Malantur op 27 augustus 2011 13:48]

Als je factoren als grond, koeling en verbruik mee zou rekenen vraag ik me af hoeveel duurder de SSD's nog zouden zijn. Ze zijn bijna altijd 2.5" (1.8" kan ook nog), vreten 10x minder stroom en worden dus ook veel minder warm.
En hebben een veel grotere uitval als je veel moet schrijven...

Dat een consument niet aan het aantal write-acties van een gemiddelde SSD komt zegt niets voor een industriele oplossing.

SSD's hebben simpelweg een extra bovenlaag qua gebruik naast MTBF
Eh, je hebt hier 200.000 disks. Dan kan ik je voorspellen dat de gemiddelde writesnelheid per disk best mee gaat vallen. Zelfs als je uitgaat van 32 x 10 Gbps Ethernet x 2 (kopie van alle data) is het maar 3 Mbps per schijf. Peanuts; goede kans dat deze array alleen zo groot is vanwege de capaciteit in plaats van de snelheid. En dan kom je op de andere, echte zwakte van SSDs: een 2 TB SSD is peperduur, en al helemaal als je er 200.000 van wil hebben.
Voor dit soort omgevingen is de pricewatch niet echt informatief.Hier worden onderdelen gebruikt die daar niet in staan, en over de prijs kan onderhandeld worden bij deze aantallen.
Enkele vergelijkbare datacentrums, iets kleiner maar wel PetaByte klasse) zijn trouwens overgegaan op SSD's vanwege de prijs. Waarom dat soms voordeliger is legt FusionIO in deze casestudy uit.
http://www.fusionio.com/l...Studies/Octal-Study_3.pdf
Zij zijn een verkoper, dus wel bevooroordeeld. Maar de aanschafprijs van de opslag units speelt maar een kleine rol in het uiteindelijke kostenplaatje. De kosten van energie, netwerkswitches, HBA's, controllers, koeling, etc. zijn groter dan de kosten van de schijfjes. Of dat nu spinning rust of ssd varianten zijn.
Als je simulaties gaat uitvoeren op SSDs zijn ze binnen notime kapot :P met de huidige read/write levensduur. Ik denk dat het kostenaspect ook aardig meetelt... 200.000 x 600GB HDD of 200.000 x 600GB SSD O-)
Waarschijnlijk om de zelfde reden waarom de meeste mensen vandaag de dag nog steeds geen SSD gebruiken, namelijk de hoge prijs ;)
Kosten? Een 600 GB SSD is nogal wat duurder dan een schijfje.
Daarnaast denk ik dat ze die schrijf/leessnelheid niet nodig hebben. En het kan best zijn dat er heel erg vaak geschreven wordt en dat ze berekend hebben dat ze dan te vaak SSD's moeten wisselen.
Jemig hoe krijg je dat ooit vol. Hoe wordt dit aangestuurd? Zal wel een aardig krachtig apparaat achter moeten staan lijkt me.
Even een kapot harde schijfje zoeken en vervangen :)
Ik vermoed dat het van XIV afgeleide techniek is opgebouwd.
De IBM XIV is een schaalbaar storage systeem dat gebruik maakt van grote SATA disken en een redelijk uniek raid systeem gebruikt.
Het werkt op basis van i/o's over een enorme hoeveelheid trage disk stripen maar niet in een standaard raid configuratie.
Elk blok wordt gewoon op twee verschillende disken geschreven en het systeem houd bij waar ze staan.
Er zijn geen parity disken zoals met raid 4/5/6 en de performance schaalt gewoon enorm op door enorme hoeveelheden disken te gebruiken.

Denk aan b.v. 4 of meer zware intel machines die op het fabric als target te benaderen zijn en hier hun luns over uitdelen, op de servers draait een aangepaste linux distributie geheel voor storage management.

Als er vervolgens een disk kapot kapot gaat moet deze normaal helemaal worden gerebuild naar een hot spare en uiteindelijk een vervangende disk, IBM's XIV doet dit anders.
De XIV gaat vanuit de copy's van de blocks die op die (nu defecte) disk stonden ervoor zorgen dat alle blokken op andere disken worden geschreven.
Het voordeel hiervan is geen langdurige rebuild van een groot array (met 2TB disken kan een raid 5 array ENORM lang duren om te rebuilden) maar een copy vanuit TIG (lees 100+ disken naar 100+ andere disken.
Een rebuild is dus binnen enkele minuten klaar ook al gebruik je 2TB disken.

Het gevaar is wel dat als je een double disk failure hebt je een kans hebt op data verlies, er is geen bescherming zoals raid 6 die bied met dubbele parity.
Het voordeel hiervan is geen langdurige rebuild van een groot array (met 2TB disken kan een raid 5 array ENORM lang duren om te rebuilden) maar een copy vanuit TIG (lees 100+ disken naar 100+ andere disken.
Kapotte schijf via raid herstellen kan even duren:
"when a disk fails, the redundant data stored on other disks is slowly copied onto the failed disk’s replacement, which doesn’t really affect performance; if multiple nearby disks fail, that process is sped up to prevent any permanent data loss. "

[Reactie gewijzigd door Xubby op 27 augustus 2011 17:46]

if multiple nearby disks fail, that process is sped up to prevent any permanent data loss.
Ehhh... Als er meer dan 1 disk in een RAID5 set stuk gaat dan is je data weg. Je hebt slechts 1 disk aan redundantie. Daarom wordt bij serieuze (maar traditionele) SATA systemen RAID6 toegepast, om je een extra level aan beveiliging te geven als er tijdens de rebuild nog een tweede disk sneuvelt.
Mijn post heet betrekking op de soort van raid van 120 PT van IBM.
Dat is een wat "afwijkende" raid. Hoe precies zag ik niet in de beide eerder vermelde linkjes.
Maar wat betreft een raid 5 en 6 heb je helemaal gelijk.
200.000 hardeschijven, oef..... dat is een maand productie van een grote harddisk boer denk ik....

Deze opslagunit moet zo inmens groot zijn dat dit gewoon weg op moet vallen, laat staan de hoeveelheid energie hij verbruikt, kan iemand misschien uitleggen waarom de keuze op schrijven van gemiddeld 600Mb valt? ( Wanneer je er allemaal 2 TB schijven voor gebruikt heb je toch minder schrijven nodig, of zie ik iets over het hoofd? ;)
"...kan iemand misschien uitleggen waarom de keuze op schrijven van gemiddeld 600Mb valt? ( Wanneer je er allemaal 2 TB schijven voor gebruikt heb je toch minder schrijven nodig, of zie ik iets over het hoofd?"

Waarschijnlijk iets met sneller en natuurlijk meer kleinere schijven = minder grote back ups op de andere schijven, als is de tegenhanger van meer schijven natuurlijk weer dat er meer zullen uitvallen.. tsjah, er zijn vast nog wel meer redenen te bedenken ;-)
het antwoord is, voor de zoveelste keer, SAS! en geen SATA!
Dat antwoord is (voor de zoveelste keer) fout.. IBM heeft XiV. Daar stop je 180 stuks 2TB SATA schijven in. Dit levert ~ 160TB bruikbare ruimte op. Er wordt 60% gebruikt om redundantie en grid techniek in te bouwen. Verder krijg je nog een stukje GPFS filesystem overhead. Daarmee hou je van 2TB schijven ongeveer 600GB bruikbare ruimte over. Dat klinkt inefficient, maar het biedt een paar unieke voordelen.

Door de IOps over alle schijven te verdelen krijg je een prima performance. Door verder de data over alle schijven te verspreiden en dubbel op te slaan (maar niet in traditioneel RAID), heb je geen enkel probleem wanneer een of meerdere schijven uitvallen. Een kapotte disk veroorzaakt nagenoeg geen performance dip, en de rebuild time op een spare is razendsnel. Ook zonder spare loopt je data geen gevaar, zodra een disk kapot gaat wordt van alle blokken die daarop stonden weer een reservekopie gemaakt. Wederom verdeeld over alle overgebleven disks, dus ook hier weer razendsnel.

[Reactie gewijzigd door scsirob op 27 augustus 2011 17:06]

Ik ga er vanuit dat dit 600GB sas disks zijn, lekker rap en een stuk goedkoper/betrouwbaarder dan een SSD als ik me niet vergis?
Ik denk dat het hierbij idd om 600GB SAS schijfjes gaat. Goedkoper zijn ze iig wel dan SSD's met vergelijkbare grotes, maar of ze ook betrouwbaarder zijn durf ik geen uitspraken over te doen.
Je ziet iets over het hoofd, de totale kost:

Alles in acht genomen, dus:

De kost per schijf
De energiekost per schijf
De kost van de lagere betrouwbaarheid bij een grotere schijf
De kost van de meerruimte die nodig is om meer schijven te stockeren
De kost van de constructie/alles laten samenwerken/...
Stel dat het snelle schijven zijn die 600Gb, dan de kost voor het systeem door het gebruik van tragere schijven
Nog tientallen andere kosten

is het blijkbaar goedkoper om met 600Gb schijven te werken. Dat is nu eenmaal hoe een investeringsbeslissing in elkaar zitten.

Of ze hadden nog 200.000 600Gb schijven liggen en gaan die gebruiken. Behalve de opportuniteitskost mag je daarvoor geen kost meer in rekening brengen.

Moraal van het verhaal: Een systeem met 600Gb schijven heeft een lagere verwachte totale kost dan een systeem met grotere schijven.

[Reactie gewijzigd door Maethor2 op 27 augustus 2011 14:35]

Simulaties van situaties in de werkelijkheid?

Ik begin toch wel nieuwsgierig te worden wat hiermee precies bedoeld wordt. Wat zullen ze gaan simuleren over ons? :P
Ik denk nucleaire explosies. Voor wapens is altijd budget.
Nucleair, chemisch, ... god weet waar ze allemaal mee bezig zijn. Lijkt mij vanzelfsprekend dat de klant in ieder geval (een onderdeel van) het leger is, gezien ze onbekend wil blijven.
Inderdaad, universiteiten en algemene overheids instellingen (zoals het KNMI) willen bij elk nieuws berichtje genoemd worden om interesse te wekken van nieuwe studenten of experts
Weerpatronen, klimaatvoorspellingen, onderzoek naar aardbevingen/tektonische activiteit. Etc.

Voor dat soort dingen worden supercomputers regelmatig ingezet, en ik kan me zo voorstellen dat die modellen aardig wat storage vereisen.
200.000 schijven van elk 600GB, als je dan kijkt naar de productiekosten. Ik verwacht dat IBM ze zelf gaat produceren. Dus kost het ook wat minder, het gaat dan alleen om de productieprijs, bij de prijs voor een klant zal er altijd meer aan hangen (belasting, een deel winst). Vervolgens kijk je naar kosten om alles neer te zetten, te koelen, kosten van bedrading et cetera. Dan kom je echt wel op een aardig bedrag uit.
IBM maakt zelf al jaren geen schijven meer. De (oa SAN) controllers in de duurdere series maken ze zelf wel (bijvoorbeeld de DS600/8000) alles er onder zoals DS3000 en een groot deel van de DS4000 series kopen ze in de markt. (doen bijna alle leveranciers). De disken komen van oa samsung en hitachi en dat soort fabrikanten.
Tja... zo een grote storage, hoe backup je dat?
Niet, omdat de data van elders komt en dus enigszins redundant is - los van de praktische vaststelling dat je 120PB moeilijk kunt backuppen. Daarnaast zal een groot stuk data gegenereerd worden tijdens de simulatie, dus data die on-the-fly aangemaakt wordt.

Ik was trots op de halve PB die ik anderhalve maand geleden (voor mijn werkgever) bestelde, maar van die trots schiet niets meer van over na dit artikel :(

[Reactie gewijzigd door YellowOnline op 27 augustus 2011 15:20]

0.5PB is al jaren niet meer spannend :)

Ik ben jaren terug eens met de VRT in gesprek geweest, en later ook op het Hilversumse Mediapark. Destijds werd er gepraakt over ~15PB voor audio en video archieven van de omroep.
WOW. Ik ben ook benieuwd hoe ze gaan weten welke hdd's failen. Ik neem aan dat je toch wel meerdere HDD's per dag hebt die de geest geven. Met een lampjessysteem ofzo?
Zowel de disks zelf als de storage controllers hebben daar allerlei predictiespul voor aan boord.
Aha toch 2TB SATA schijven, dan moet je er idd wel af en toe eentje vervangen, zelfs enterprise SATA schijven zijn lang niet zo stabiel als FC/SAS schijven.

[Reactie gewijzigd door Bierkameel op 28 augustus 2011 01:15]

Zie hierboven over IBM XIV, het is sata. redundantie wordt dmv. software opgelost. Dit zie je overigens wel vaker in superscaled projecten dat geprogrammeerde redundantie veel beter schaalt dan hardware.
600GB gemiddeld aan schijven? Dit is een beetje vreemd dat men zo een kleine capaciteit gebruikt.

Het enige voordeel dat ik kan bedenken, is dat men wilt gebruik maken van schijven met een single plaat?

Als je ziet dat 2TB schrijven bijna niets kosten, dan zou men gerust dezelfde setup kunnen maken hebben met 65.000 schrijven. Op gebied van kost zou het zelf voordeliger geweest zijn. Maar 1/3 nodig van schijven, maar ook 1/3de nodig van behuizingen / aansturing enz.
wellicht omdat op 600GB meer performantie te halen is dan op 2TB? Bij HP zijn bvb de 2 TB schijven enkel te krijgen op 7,2 RPM, de 600 GB gaan tot 15000 rpm. Meer disken is natuurlijk ook meer spindels, nog iets wat extra performance geeft.

Tis ook een beetje zinloos om deze disken te vergelijken met standaard huis tuin en keuken disken..

[Reactie gewijzigd door Yalopa op 27 augustus 2011 21:25]

hier zitten geen consumenten schijven in. 600GB is normaal voor bijvoorbeeld 10.000 RPM schijven.
Je moet ook rekening houden met het feit dat ze dit systeem toch zeker 10 jaar, of misschien wel langer willen gaan gebruiken. Er moet dus een HD gezocht worden die gedurende die tijd support heeft van een leverancier. Dat zijn natuurlijk eigenlijk alleen professionele schijven en tja; die zijn niet zo groot en vaak met "exotische" interface, hoge rpm, 24/7 capability etc etc.

Ook het energieverbruik speelt natuurlijk een rol. Voor 120 PB loont het om even te kijken naar het aantal W per GB. Daar kan 10% verschil op jaarbasis al aardig schelen in de stroomkosten natuurlijk.

[Reactie gewijzigd door 0rbit op 27 augustus 2011 13:58]

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True