Hoofdcategorieën
Device Settings

IBM bouwt opslag met capaciteit van 120PB

Door Arnoud Wokke, zaterdag 27 augustus 2011 13:12
Submitter: Cheetah_777, views: 36.532

IBM bouwt voor een onbekende klant een opslagunit waarop 120PB aan data past. Daarmee is het veel groter dan het grootste opslagsysteem tot nu toe. De opslag wordt gemaakt met 200.000 harde schijven van ieder gemiddeld 600GB.

Door alle harde schijven aan elkaar te koppelen wordt een opslagunit gemaakt met 120 petabyte aan geheugen, meldt Technology Review. De klant wil met de enorme hoeveelheid opslag gedetailleerde simulaties maken van situaties in de werkelijkheid.

De schijven zullen worden geplaatst in horizontale lades in hoge rekken, maar koeling moet worden gedaan door water, omdat er niet genoeg ruimte is voor meer traditionele koelmethoden. De opslag is voldoende om zestig keer de hele database van internetarchief Wayback Machine te bevatten, aldus Technology Review. De schijven zullen gebruik maken van IBM's eigen bestandssysteem Gpfs. Dat gebruikt IBM vaker bij grote opslagsystemen. Met 120PB is de opslag vier keer zo groot als MSS van Ncar voor opslag van wetenschappelijke data. Het is onbekend of het daadwerkelijk het grootste opslagsysteem tot nog toe is.

Volgende 13:37 Mobiele 'kankerdetector' maakt gebruik van iOS- en Android-app
Vorige 12:23 HTC lekt Titan als naam Windows Phone met 4,7"-scherm
Advertentie

Reacties

«  1  2  3  4  »

Wat moet iemand met zoveel opslagruimte? Wat wilt die erop kwijt, heel het internet?. dat lijkt me trouwens wel wat, lokaal internet hebben :p

Porno

Dit zijn toch wel de momenten dat je de '+1 grappig' van vroeger mist,
127x ongewenst, kom op mensen!

[Reactie gewijzigd door checkpointx op zaterdag 27 augustus 2011 21:02]



Ja humor is niet meer gewenst op tweakers, wat alle moderator experts steeds vertellen hier is dat het enige dat mag is een informatieve extensie van het artikel, zelfs een onderlinge discussie is volgens moderators eigenlijk al niet meer wensbaar of levert in ieder nooit goede moderaties op. De gemiddelde moderator is een chagrijnige zeikerd die alleen nieuws wil lezen en evt extra info op het nieuws wil zien. Maar niet lastig wil gevallen worden met discussies of humor. Waarom moeten we allemaal journalisten worden en kunnen we niet gewoon techneuten zijn die ouwehoeren op een website??

Volledig off topic ik weet het en ook geen journalistieke meerwaarde, maar inderdaad vroeger met de +1 grappig was moderatie toch heel anders...

Nog even en de :+ smiley word ook verbannen, aangezien het geen journalistieke bijdrage betreft...

Stelletje journalistiek doorgeslagen techneuten hier bij tweakers. Als mensen alleen maar journalistiek willen zijn hebben we ook blogs en twitter enz Af en toe is zinloos geouwehoer met humor ook nog weleens leuk.

Maar mod me maar weer weg net als bovenstaande mensen want dit voegt natuurlijk niks toe.

Just my 2 cents

De klant wil met de enorme hoeveelheid opslag gedetaileerde simulaties maken van situaties in de werkelijkheid.
Vraag me trouwens af hoeveel IOPS het systeem zal behalen. :-)

Ongeveer 50000000 als het 15K SAS disks zijn. Daar moet nog wel een berg overhead vanaf, maar reken er maar op dat hier heel wat IO doorheen kan :)

Voor dit soort systemen worden meestal gewoon goedkope S-ATA schijven gebruikt.

Iedereen roept hier wel SAS 15k schijven, maar economisch gezien zijn die veeeeeel te duur.
(Weet je wat een SAS15k 600GB kost tov een 640GB s-ata dingetje?)

Het is veel efficienter goedkope schijven hiervoor te gebruiken.

[Reactie gewijzigd door Navi op zaterdag 27 augustus 2011 15:53]


Daarnaast moet je niet enkel kijken naar wat de schijven aan iops aankunnen, maar ook wat het systeem zelf kan verhappen (cpu, bottleneck in de software) en doorsturen (bandbreedte van de connecties tussen servers en storage.

Instanties die dit soort opslag systemen kopen hebben echt geld. Belastinggeld.

Je moet denken aan clubs als LLNL of de NSA etc.

Ik denk dat commerciële bedrijven eerder bergen met geld hebben liggen dan (semi-)overheidsinstanties.

Overigens staat in 't artikel al genoemd waar het voor gebruikt wordt:
De klant wil met de enorme hoeveelheid opslag gedetailleerde simulaties maken van situaties in de werkelijkheid.
Wat ik zelf interessant vond was dit:
-- . De schijven zullen gebruik maken van IBM's eigen bestandssysteem Gpfs. --

Waarom geen traditionele indeling, zoals EXT4 of NTFS? Schiet dat dusdanig hopeloos te kort? Ik neem aan dat niet de gehele storage unit als één schijf in het systeem verschijnt (u heeft 0,00000000001 % ruimte verbruikt :+).

[Reactie gewijzigd door Eagle Creek op zondag 28 augustus 2011 11:52]


Ik denk dat commerciële bedrijven eerder bergen met geld hebben liggen dan (semi-)overheidsinstanties.
Neuh.... Dit soort systemen worden echt door overheidsinstanties gebouwd. Commercieel is veel geld beschikbaar, alleen spendeert men het niet aan dit soort speelgoed.
Waarom geen traditionele indeling, zoals EXT4 of NTFS? Schiet dat dusdanig hopeloos te kort?
Ja, dat schiet hopeloos tekort. Bestandssystemen als EXT4 of NTFS kunnen namelijk niet de grens van 1 blockdevice overstijgen. Je kunt wel truuks als LVM toepassen, maar dan kom je nog niet over de grens van 1 server heen.

Bij GPFS kun je duizenden servers inzetten met elk meerdere vette RAID-controllers, waarbij alles als 1 bestandssysteem samenwerkt. Het netwerk is ook een factor want NFS of SMB zouden één grote flessehals zijn. GPFS regelt ook het netwerkprotocol en dat gaat meestal lekker via RDMA over een infinibandnetwerkje.

Waarom geen traditionele indeling, zoals EXT4 of NTFS?
Windows is niet het eerste OS waar ik aan denk bij het bouwen van dit soort opslag (of andere cluster-constructies met wetenschappelijke toepassingen). NTFS kan 120PB trouwens niet aan. Ext4 eventueel wel.

Maar heb je al eens gelezen wat GPFS doet? Ik moet toegeven dat ik tot dit artikel nog nooit van GPFS gehoord heb, maar het voordeel boven andere filesystems is kennelijk dat het uitermate goed schaalt bij gebruik in clusters. Van wikipedia:
GPFS provides high performance by allowing data to be accessed over multiple computers at once. Most existing file systems are designed for a single server environment, and adding more file servers does not improve performance. GPFS provides higher input/output performance by "striping" blocks of data from individual files over multiple disks, and reading and writing these blocks in parallel. Other features provided by GPFS include high availability, support for heterogeneous clusters, disaster recovery, security, DMAPI, HSM and ILM.

[Reactie gewijzigd door RefriedNoodle op zondag 28 augustus 2011 09:49]


EXT4: 1 EB (but user tools limited to 16 TB).
NTFS: 16 EB
GFS: 2 TB to 8 EB
GPFS: 2^99 bytes (4 PB tested)

Bovenstaand komt van Wikipedia.
Dat zou betekenen dat het voor NTFS geen enkel probleem zou moeten zijn.

GPFS komt uit op een theoretische 524288 yottabyte en dat noem ik flink. Had me er nog niet in verdiept nee ;).
Windows is niet het eerste OS waar ik aan denk bij het bouwen van dit soort opslag
Nee, maar dergelijke systemen zullen nooit een out-of-the-box-solution draaien dunkt me. Wel zag ik ook dit:
In common with typical cluster filesystems, GPFS provides concurrent high-speed file access to applications executing on multiple nodes of clusters. It can be used with AIX 5L clusters, Linux clusters, on Microsoft Windows Server, or a heterogeneous cluster of AIX, Linux and Windows nodes.
GPFS has been available on IBM's AIX since 1998, on Linux since 2001 and on Microsoft Windows Server since 2008
Je kunt dus wel dergelijke systemen (en zelfs met Windows) combineren.

[Reactie gewijzigd door Eagle Creek op zondag 28 augustus 2011 12:01]


Waarom geen traditionele indeling, zoals EXT4 of NTFS? Schiet dat dusdanig hopeloos te kort? Ik neem aan dat niet de gehele storage unit als één schijf in het systeem verschijnt (u heeft 0,00000000001 ruimte % verbruikt :+).
Ik denk het wel. Anders moet je verschillende stations doorzoeken naar je data. Een gebruiker krijgt gewoon een klein gedeelte van die schijf, of een aantal mappen toegewezen. Als deze mappen op verschillende stations staan ben je alleen maar lastiger bezig...

Ik denk dat het zoeken naar stations niet het grootste probleem is met zulke oplossingen. Hoe het wel zit weet ik niet, maar ik zou mij iets voor kunnen stellen van een zichtbare storage pool die naar wens ingedeeld kan worden.

Lastig voor te stellen, als 'gewone' IT- er ;).

Het gaat inderdaad om één groot "station" bij GPFS. Uiteraard kun je er meerdere maken als je wilt, maar kenmerk is dat je het hele GPFS-bestandssysteem als geheel kunt zien en GPFS bepaalt wat er op welke RAID-array komt. Een groot bestand zal zelfs over meerdere servers verdeeld worden, zodat meerdere servers data beginnen te zenden als er gelezen wordt, zodat je hoge snelheden kunt bereiken.

Ik kan me niet voorstellen dat bij dergelijke hoeveelheden data SATA schijven worden gebruikt. In de praktijk ben ik nog geen enkele klant tegengekomen die bij een opstelling waarin enkele honderden schijven of meer werden gebruikt voor SATA werd gekozen. Hooguit werd aan de omgeving een opstelling met SATA disken toegevoegd terwijl de rest SAS was.

SATA heeft een MTBF van 1,2 miljoen uur. Bij SAS is dat 1,6 miljoen uur. Je moet dus tijdens de levensduur van het apparaat 25% meer SATA schijven vervangen dan SAS schijven.

Belangrijker nog is de kans dat er een bit-error optreed. SAS schijven hebben minder netto opslag, omdat een groter deel van de beschikbare opslagruimte is gereserveerd voor errorcorrectie. Een SAS schijf heeft een bit-error rate van 1 in 10^16, bij SATA is dat 1 in 10^15 of zelfs 10^14. De kans dat een SATA schijf een fout geeft is daarmee 20x groter dan bij SAS. Met 200.000 schijven kun je een dergelijk risico niet nemen, zeker niet bij oplossingen die ook striping gebruiken (zoals GPFS).

SATA heeft een MTBF van 1,2 miljoen uur. Bij SAS is dat 1,6 miljoen uur. Je moet dus tijdens de levensduur van het apparaat 25% meer SATA schijven vervangen dan SAS schijven.
Kan dit niet gewoon een financiele kwestie zijn geweest? Het is inderdaad wel zo dat je 25% meer schijven zal moeten vervangen maar is dat alsnog niet goedkoper dan een SAS oplossing? Naar mijn weten zijn die SAS dingen aardig prijzig :P (500 euro voor 146GB is normaal volgens mij... In de normale retail)

Is het niet mogelijk dat IBM een passende oplossing heeft voor het bit error probleem wat jij vermeld? (wanneer dat het enige grote euvel is.) Ik weet daar echt weinig over :P

Misschien heeft iBM een tool ontwikkeld die hardwarefouten kan corrigeren. Het budget is er al : 200.000 euro x 150 euro meerkost voor SAS = 30 miljoen euro.

Het blijft een "gok" wat de werkelijke levensduur wordt v/e SATA of SAS drive. Het hangt ook net v/d batch harddisks af met de gebruikte materialen Op de korte tot lange termijn zal SATA goedkoper zijn. Op de hele lange termijn wellicht SAS.

Verder maak je denk ik een rekenfout:
Een SAS schijf heeft een bit-error rate van 1 in 10^16, bij SATA is dat 1 in 10^15 of zelfs 10^14. De kans dat een SATA schijf een fout geeft is daarmee 20x groter dan bij SAS.

1 in 10^16 is 10x kleiner dan 1 in 10^15 en 100x kleiner dan 1 in 10^14. Dus hoe kom je aan 20x?

Je gaat uit van een (verkeerde?) aanname: namelijk dat de gebruikte S-ATA schijven consumer grade zijn. Er zijn echter ook fabrikanten (bijv. Equallogic/Dell) die S-ATA schijven leveren met een hogere waarde voor de MTBF.

We hebben al meer dan 5 jaar ongeveer 100 S-ATA schijven in het rack hangen voor onze SAN storage. Het uitvalpercentage is tot nu toe 0% (even afkloppen).

Vooral bij zulke grote arrays zul je een berg redundancy inbouwen. Bedrijven kijken nooit naar de prestaties, altijd naar de prijs/prestatie. Zelfs in de ruimtevaart wordt er niet alleen naar de prestaties gekeken. Hier dus ook niet.

Daarbij komt: er zijn genoeg S-ATA schijven die EXACT gelijk zijn aan de SAS variant, min misschien een stukje controller logic...

Toevoeging op mijn eerdere bericht van zondag 28 augustus op basis van nieuwe informatie:

De totale opslag zal worden gebouwd op 200.000 SAS disken. Er zal geen enkele SATA schijf worden gebruikt.

Enter IBM's Data Storage Group at Almaden, Calif., which has proved it can build a 120PB data system by using 200,000 SAS (serial SCSI) drives -- all configured as if it is a single drive under one name.

IBM said it chose high-performance SAS drives over high-capacity SATA drives because the system has high bandwidth requirements. The drives are also connected via a backbone that uses the SAS (serial SCSI) protocol, but the storage is connected to compute nodes via a proprietary fabric, which IBM would not disclose.

Challenges with scale-out
While GPFS has been around for years, building a 120PB drive had its challenges, the greatest of which was data integrity, Hillsberg said.

"With 200,000 drives, there are going to be drives failing all the time. So you have to think about it not in terms of trying to improve the failure rates of individual drives, but look at the system as a whole and meantime to data loss," he said, referring to referring to how long the data store will last before it might begin losing information. "So how do you keep the system up and running when you have lots and lots of individual components failing?"


Without giving specifics on the "secret sauce," Hillsberg said his team was able to come up with another scheme that offered up to 1 million years between data loss events.

Het was IBM dus te doen om snelheid en integriteit. SATA kon in deze oplossing gewoonweg niet worden meegenomen. De enige oplossing was ook direct de duurste. Deze kosten moeten in dit geval in relatie worden gezien tot de kosten die men wellicht kan hebben als men niet de juiste voorspellingen doen.

De schade van de oorkaan Irene wordt voorzichtig geschat op 7 miljard dollar. Vooraf heeft men veel mensen geavacueerd. Achteraf blijkt dat veel van de door huidige opstellingen gemaakte modellen niet nauwkeurig waren. Er zijn dus veel kosten gemaakt voor evacuatie die niet hadden hoeven te worden gemaakt als men een beter beeld had van het te verwachten weerbeeld. Het is de bedoeling dat de nu te maken storage die verbetering wel brengt en men dus veel kosten kan besparen. Wat maakt een verschil van 200.000 x 300 dollar nu uit als gedurende het gebruik men miljarden kan besparen. Zeker nu de verwachting is dat de komende jaren het natuurgeweld alleen maar zal toenemen.

Bron: IBM's 120PB drive could help better predict weather

waarom gebruiken ze dan niet gewoon 2TB disks? heb je er "maar" 60000 van nodig, is een stuk goedkoper :P

Ok, dan kan dan wel zijn maar dan is het niet logisch om 600 GB S-ATA schijven te gebruiken tegen over grotere capaciteit schijven (denk aan 1 TB en groter).
Dat scheelt ruimte, koeling etc. etc. kortom kost minder aangezien de cabinets duurder zullen zijn dan de schijven die er in moeten.


120 PB = 40.000 x 3 TB / 60.000 x 2 TB / 120.000 x 1TB.

Nu kan je het zien als de minder schijven de minder disk cabinets je nodig hebt of vervang de 600 GB voor een 3 TB en je hebt 200.000 x 3 TB, dus nog grotere opslag. (of ruimte voor 200.000 schijven, vul er 40.000 met 3 TB en heb ruimte voor 160.000 hard disk wanneer nodig xD)

Op het moment dat het lokaal is, is het grootste gedeelte alweer verouderd denk ik.

Als je in plaats van FiPo'en nou eerst het artikel had gelezen dan had je het geweten

De beschrijving zegt me werkelijk niks.

Simulaties van ongelukken om veilige auto's te maken.

De techniek van fietsen beter begrijpen http://bicycle.tudelft.nl...ableBicyclev34Revised.pdf

Of is het een bedrijf dat zijn rekencapaciteit er beschikking stelt en daar zijn inkomsten uit haalt.

Ene kant wel begrijpelijk dat de klant niet naar buiten wilt treden, maar de informatie is summier. Heeft verder weinig te maken met tweakers.

Dat is meer processor en RAM dan opslagruimte hoor.

als je het artikel leest zie je dat dit een opslagcentrum word voor ingewikkelde simulaties, deze hebben vaak erg veel bestanden nodig om alles gedetaileerd te kunnen berekenen, leuk hoor fipo maar zorg dat je toch maar eerst de text leest, zo irriteer je mensen alleen maar en krijg je slechte waarderingen.

verder moet ik wel zeggen dat dit echt absurd veel is zeg. 200 pb....
pfoe dat worden wel echt grote simulaties (of heel veel natuurlijk)

Ingewikkelde simulaties is maar een vage omschrijving. Ik ga ermee akkoord dat er om extra duidelijke informatie gevraagd wordt. Is dit om oorlogssimulaties te maken? Tactische berekeningen opslaan in tijden van nood?

Simulaties van situaties in de werkelijkheid zegt werkelijk niets.

Simulaties van wat? Welke simulatie heeft zoveel opslag nodig? Als het systeem dat op de 2de plaats komt te staan maar 1/4de van de opslag heeft, dan zal dit misschien iets geheel anders zijn, en die informatie wordt ook naar gevraagd.

Door zo te reageren irriteer jij de mensen, die net zoals de eerste poster en velen anderen interesse hebben naar wat er opgeslagen zal worden.

Simulaties zijn immers een alomvattende term.

Dit soort opslag hangt aan de grootste supercomputer clusters die voor geld te koop zijn.

Grootste klant: overheden die sinds de ban op kernproeven hun waterstofbommen e.d. simuleren ipv domweg testen. Of die hun nieuwste generatie Mach6 vliegtuigen door willen rekenen.

Dat soort werk.

Als je het artikel leest (of zelfs nog maar de titel) zie je dat het 120PB is, en geen 200 ;)

Het zal Sandia, DOD of DARPA zijn.

Simulaties.

Het probleem is dat computers op een bepaalde manier maar 2-dimensionale objecten zijn: chips bevatten een 2-dimensionale "zee" aan transistoren, en de opslagcapaciteit van harde-schijven gaat per oppervlakte.

Dit betekent dus dat om iets te simuleren dat 3D is, je HEEL veel apparatuur nodig gaat hebben.

En voor sommige simulaties/berekeningen heb je zelfs meer dan 3 dimensies nodig. Zie bijvoorbeeld: http://en.wikipedia.org/wiki/Curse_of_dimensionality

120 miljoen Gigabyte, en ik ben al blij als ik 2 TB zou hebben.

nochtans mensen genoeg die thuis al 8tb of meer hebben steken in 1 pc...

Over 20 jaar heb jij 't ook.

Jepz ik heb zelf ook 6Tb volstaan in mijn systeempje. Ik zou dan wel weer blij zijn als ik een 2 TB SSD zou hebben (A). Ach 1TB zou ook al leuk zijn zelfs. Met die 120GB die ik nu heb schiet ik niet veel op.

Maar dit is way too much offtopic.
Ik zou het wel leuk vinden om meer te weten over de techniek van koeling achter dit 'datacenter'. Er staat dat het moet gebeuren door middel van water. Gaan ze dan letterlijke watergekoelde enclosures maken of gaan ze de racks koelen? 200.000 hardeschijven maken nogal wat warmte!
Overigens is die warmte met de tijd ook wel gereduceerd. Ik trok van de week een pc van een jaar of 6 oud open. Als je dan die HHD's voelt die worden even wat warmer dan de HDD's van tegenwoordig!

Overigens waarom zouden ze gebruik maken van disks van gemiddeld 600GB? en geen disks van 2TB? zijn die minder betrouwbaar? heet het te maken met de snelheden ?

Misschien door de prijs. Dat 600gb een veel goedkoper productieproces hebben dan 2TB schijven en dat het uiteindelijk meer rendabel is om 600GB schijven te gebruiken dan 2TB. Ik neem aan dat ze dat niet voor niks doen en dat ze hun research wel gedaan hebben.

misschien dat ze wel een paar duizend 300GB schijven voor nop ergens vandaan hebben kunnen halen. Zo'n gigantisch bedrijf die even al zijn pc's vervangt waar de oude schijven voor dit soort dingen gebruikt worden.

Zeker niet. Die zijn te onbetrouwbaar. Je weet niet wat er allemaal mee gebeurd is. Met dergelijke dichtheden kun je ook niet makkelijk iemand langs sturen om snel een defecte schijf te vervangen, dus betrouwbaarheid is juist belangrijker dan normaal. Juist daarom zullen ze voor nieuwe schijven kiezen van een serie die zich al in de praktijk bewezen heeft.

Zeker niet. Die zijn te onbetrouwbaar. Je weet niet wat er allemaal mee gebeurd is. Met dergelijke dichtheden kun je ook niet makkelijk iemand langs sturen om snel een defecte schijf te vervangen, dus betrouwbaarheid is juist belangrijker dan normaal. Juist daarom zullen ze voor nieuwe schijven kiezen van een serie die zich al in de praktijk bewezen heeft.
Reken maar dat als je 200.000 hdd's hebt draaien het vervangen van kapotte schijven een dagtaak is hoor.

Nee.
Assuming: MTBF 600k, constant failure rate.

MTBF = mean time between failures (hours per failure)
Lambda = failures per million hours
F = failure rate or probability of failure in one hour
R = reliability rate (probability of working in one hour)

You can convert between MTBF and Lambda with the following equations:
Lambda = 1,000,000 / MTBF
MTBF = 1,000,000 / Lambda
and assuming a constant failure rate (not necessarily true)
F = Lambda / 1,000,000 or 1 / MTBF
R = 1-F

Using this method, the MTBF of the system is calculated as:
Lambda 1 disk = 1.000.000 / 600.000 = 1,667
Lambda (composite system) 200.000 * Lambda = 333.333,33
MTBF (composite system) = 1,000,000 / 333.333,33= 3 hours
Elke drie uur gaat er gemiddeld dus een schijf kapot, oftewel 8 per dag, daar ben je niet de hele dag mee bezig.

Ga je uit van een MTBF van 2M (niet ongewoon meer) dan gaan er gemiddeld zelfs maar 2,4 schijven per dag kapot. Met een goede RAID-achtige structuur kun je denk ik volstaan met een (of twee) keer per week een 15 tot 60 schijven te vervangen. Wel te hopen dat deze hot-swapable zijn dan :+

[Reactie gewijzigd door S0epkip op zondag 28 augustus 2011 12:27]


Dan zet je ze in raid-10 en zorg je voor een hot-swappable configuratie? 1 werknemer in dienst nemen en het probleem is opgelost. Al is dan wel de capaciteit gehalveerd maar het zou zorgen voor een systeem dat waarschijnlijk mínder dan de helft kost van de normale prijs, met een netto rúim acceptabele betrouwbaarheid.

Overigens waarom zouden ze gebruik maken van disks van gemiddeld 600GB? en geen disks van 2TB? zijn die minder betrouwbaar? heet het te maken met de snelheden ?
Snelheid idd. Als je hoge (schrijf-) performance wil halen heb je veel schijven nodig. In high performance storage zie je soms zelfs dat schijven voor de helft ongebruikt worden gelaten.

Ik vermoed dat het een mix van SAS en SATA schijven zijn om een mix te krijgen tussen performance en pijs/PB? Misschien met nog wat SSD's voor de indexen oid, ik ben wel benieuwd in hoeverre men zoiets in kan richten.

GPFS gebruik geen aparate indexservers. Ik verwacht dat de meeste schijven gewoon SATA zijn.

Nop, omdat de grootste SAS schijven 15k (met 2.5" platters) zo rond de 640GB zijn. Misschien dat er nu 1TB schijven zijn maar die zullen idd wel heel erg duur zijn vergeleken met de 640GB modellen

Maar dit is way too much
Waarom "way too much" , weet jij al wie die klant is dan? Wie weet is het wel een super grote data-opslagdienst, of een nieuwe mailprovider, of een bedrijf wat veel documenten beheerd voor andere bedrijven wereldwijd.

Ik heb laatst een 2tb schijfje voor 72 euro gekocht en volgensmij kan je ze nu zelfs al iets goedkoper krijgen. Voor de prijs hoef je het niet te laten.

Ja, SATA.

We hebben het in zulke arrays ALTIJD over SAS schijven.En die zijn stukken duurder.


Uit de specificatie PDF: ze gebruiken 3 soorten schijven, SATA 1 TB, SATA 2 TB en SAS 2GB, afhankelijk van de klantwensen. Gezien het feit dat ze zo'n 600 GB netto (na RAID overhead) hebben, zal het hier om de 1GB variant gaan. SATA dus, geen SAS.

Die specs slaan op de XiV. De huidige generatie XiV (Gen1 en Gen2) kunnen met 1TB en 2TB SATA overweg. De Gen3 systemen die op het punt van release staan worden met 'Nearline-SAS' schijven uitgerust. Dat zijn 2TB schijven die SAS protocol praten ipv SATA maar verder identiek aan SATA schijven zijn. SAS heeft een aantal voordelen zoals gegarandeerde data integriteit over het kabeltje.

Het zijn 600 gb schijven want: 120 PT / 200.000 = 600 gb schijven.
Gewone schijven:
"The 120 petabyte "drive"—that's 120 million gigabytes—is made up of 200,000 conventional hard disk drives working together."
In een soort "raid" schrijft het meer dan 30.000 bestanden per seconde:
"The end result is read/write speeds in the region of several terabytes per second — and, as a corollary, the ability to create more than 30,000 files per second. GPFS also supports redundancy and fault tolerance: when a drive dies, its contents are rebuilt on a replacement drive automatically by the governing computer."

[Reactie gewijzigd door Xubby op zaterdag 27 augustus 2011 17:01]


Dat is weer zo'n typisch antwoord van iemand die de klok heeft horen luiden en niet weet waar de klepel hangt... Welke disk typen je gebruikt moet je bepalen aan de hand van de wens van de klant en de eisen waaraan de storage moet voldoen, zo maar roepen welke disken er in moeten zonder iets te weten is een verkopers mentaliteit die veelal slecht werkende oplossingen voor teveel geld opleveren.

Niet altijd (ik heb momenteel meer dan 200TB hangen). SAS gebruik ik enkel waar failover shared storage nodig is. Het idee dat SAS schijven meer betrouwbaar zijn is ondertussen al grotendeels uit de deur - de schijven zijn mechanisch IDENTIEK enkel de aansluitingen en het kostenkaartje is dubbel uitgevoerd. De schijven falen in dezelfde tijdspanne en met dezelfde problemen (SMART ok maar latente data corruptie)

In de 2.5" heb je natuurlijk de 15k RPM voor hogere IOPS maar die worden ondertussen grotendeels vervangen door SSD - zelfs al zijn ze minder betrouwbaar, de IOPS die ze doorgeven zijn zoveel keer hoger (gemiddeld 3000-10,000 IOPS voor een degelijke SSD, de marketing troep van >20,000 IOPS mag je niet geloven behalve als je het over een RAM SSD hebt) dat zelfs al voer je een driedubbel mirror uit je nog steeds goedkoper uitkomt en minder plaats inneemt dan een kabinet met 10k of 15k RPM schijven.

Met hybride systemen zoals ZFS kun je zelfs met de tragere schijven hoge IOPS krijgen en voor grote systemen (>48 schijven) maakt het echt niet meer uit (behalve voor databases) want je netwerk, de applicatie etc. kan de IOPS er gewoon niet doorkrijgen.

SAS en Enterprise SATA hebben meestal een burn-in test ondergaan en daardoor heb je minder DOA maar voor de rest zijn ze net zo betrouwbaar als SATA schijven (niet).

[Reactie gewijzigd door Guru Evi op zondag 28 augustus 2011 04:23]


SAS en SATA schijven zijn zeer zeker niet mechanisch identiek.

Laat anders ff de sata modelletjes zien die op 15K of 10K draaien van gelijke grootte.

8TB + QNAP server kost 'maar' 450/500 euro. Wat let je ?

Spendeer €80 en je hebt het. In totaal heb ik het ook (1x1TB extern, 500GB in me laptop en 500GB in me PC).
Overigens vind ik het veel te veel voor 1 systeem. Meer dan 500GB heb ik niet nodig en ik draai 3 operating systems.

Dat verschilt toch heel erg per gebruiker. IBM zal een dergelijk systeem ook (voorlopig) niet voor iemand's huiskamer pc maken.

Simulaties van situaties in de werkelijkheid?

Ik begin toch wel nieuwsgierig te worden wat hiermee precies bedoeld wordt. Wat zullen ze gaan simuleren over ons? :P

Weerpatronen, klimaatvoorspellingen, onderzoek naar aardbevingen/tektonische activiteit. Etc.

Voor dat soort dingen worden supercomputers regelmatig ingezet, en ik kan me zo voorstellen dat die modellen aardig wat storage vereisen.

Ik denk nucleaire explosies. Voor wapens is altijd budget.

Nucleair, chemisch, ... god weet waar ze allemaal mee bezig zijn. Lijkt mij vanzelfsprekend dat de klant in ieder geval (een onderdeel van) het leger is, gezien ze onbekend wil blijven.

Inderdaad, universiteiten en algemene overheids instellingen (zoals het KNMI) willen bij elk nieuws berichtje genoemd worden om interesse te wekken van nieuwe studenten of experts

Ik was benieuwd hoe men crashende harde schijven oplost bij 200.000 HDDs.

Gelukkig zegt het originele artikel daar wat over:
The inevitable failures that occur regularly in such a large collection of disks present another major challenge, says Hillsberg. IBM uses the standard tactic of storing multiple copies of data on different disks, but it employs new refinements that allow a supercomputer to keep working at almost full speed even when a drive breaks down.

When a lone disk dies, the system pulls data from other drives and writes it to the disk's replacement slowly, so the supercomputer can continue working. If more failures occur among nearby drives, the rebuilding process speeds up to avoid the possibility that yet another failure occurs and wipes out some data permanently. Hillsberg says that the result is a system that should not lose any data for a million years without making any compromises on performance.
Heb je daarnaast denk ik wel een dagtaak aan om kapotte harde schijven te vervangen.

IBM bouwt voor een onbekende klant een opslagunit waarop 120PB aan data past. Daarmee is het veel groter dan het grootste opslagsysteem tot nu toe.
Het is onbekend of het daadwerkelijk het grootste opslagsysteem tot nog toe is.
http://www.nu.nl/gadgets/...ootste-opslagsysteem.html
op nu stellen ze dat het de grootste is.

Het originele artikel stelt wel, zonder inconsistentie, dat het de grootste is:
"A 120-petabye storage array would easily be the largest I've encountered," he says. The largest arrays available today are about 15 petabytes in size.
Bron: http://www.technologyreview.com/computing/38440/page1/

Rare laatste zin in het tweakers.net artikel..

Dat Nu het stelt zegt natuurlijk maar heel weinig... die nemen hun berichten ook maar 1:1 over van een ander... Technology review zou een betrouwbare bron moeten zijn... maar je moet wel goed lezen wat de schrijver zegt, vrij vertaald: "120PB is het meeste wat IK ben tegengekomen... ik ken verder geen arrays groter dan 15PB..." Dat is geen definitieve bevestiging... sowieso zolang we hier bijvoorbeeld alleen maar kunnen raden wat er allemaal in China gebeurd... die zullen ook wel wat monsters van arrays hebben staan.

"A 120-petabye storage array would easily be the largest I've encountered," he says. The largest arrays available today are about 15 petabytes in size.
120PB is de grootste die hij heet gemaakt/tegengekomen. Zegt hij.

Dan begint er een nieuwe zin, zonder " " dat hij het zegt, de grootste is ~ 15 PB.
Vandaar mijn interpretatie.

Edit: Daarnaast heb je natuurlijk gelijk over nu.nl ;). Maar tweakers/nu.nl zullen beiden de bovenstaande bron hebben gebruikt. Vandaar de link erheen.

[Reactie gewijzigd door Hoowgii op zaterdag 27 augustus 2011 14:44]


Mwa, ik denk dat wel meevalt. Als je uitgaat van een MTBF van 100.000 uur dan kom je op 200,000 schijven waarvan er dus 24 / 100.000 per dag kapot gaan; dan zit je op 48 schijven per dag.

Hoe de MTBF echt is dat is de vraag. Maar je mag uitgaan van tussen de 10 en 50 schijven die per dag vervangen moeten worden denk ik. Dat valt net niet onder een dagtaak denk ik afhankelijk van hoe het geheel mechanisch is opgelost (waarschijnlijk is het 5 seconden werk om een kapotte HD te vervangen).

Interessanter is natuurlijk dat je met dit systeem eindelijk eens een min of meer gratis reaistische schatting van de ware MTBF kan maken :)

Interessanter is natuurlijk dat je met dit systeem eindelijk eens een min of meer gratis reaistische schatting van de ware MTBF kan maken
Google gebruikt toch ook wel in de orde van 1 miljoen harde schijven in al zijn datacenters.
Die zou nu al een redelijk realistische weergave moeten kunnen geven van de MTBF van die schijven.
Enige verschil is wel dat deze schijven heel erg netjes behandeld worden. Geen wisselende temperaturen, geen spindowns, etc.
Dat is voor kantoor- of thuisgebruik een niet realistische weergave.

Ik neem aan dat MTBF bij een volledige belasting is? Niet alle 200.000 zullen 100% actief zijn de hele tijd? Dus 48 per dag zal een bovengrens zijn?

Google en andere grootgebruikers publiceren regelmatig hoe vaak hun schijven het begeven.
Hier een paar aardige linkjes.
http://storagemojo.com/20...-disk-failure-experience/
http://storagemojo.com/20...now-about-disks-is-wrong/
http://storagemojo.com/20...-do-storage-systems-fail/

Te gekke weetjes in een linkje van je, laagste kans op een kapotte schijf:
- 6 maand tot 3 jaar oud
- temperatuur 45 C, tot 3 jaar oud (tussen de 25 en 45 is ook goed)
- weinig IO in 1e jaar, daarna veel IO
Hoezo schijf koelen :Y)
edit: linkje hersteld

[Reactie gewijzigd door Xubby op zaterdag 27 augustus 2011 17:39]


Mwa, ik denk dat wel meevalt. Als je uitgaat van een MTBF van 100.000 uur dan kom je op 200,000 schijven waarvan er dus 24 / 100.000 per dag kapot gaan; dan zit je op 48 schijven per dag.
Afhankelijk van je enclosuresysteem vervang je die niet in een uurtje hoor. (48 front-loading tray-mounted hot-swap schijven die geen afhankelijkheid naar elkaar hebben wellicht wel, maar daarmee haal je niet de hoogste density.)

Daarom zitten ze ook in horizontale lades.
Kan je er lekker veel kwijt per rack en vervangen is nog steeds makkelijk, laadtje optrekken en schijf uitnemen.

Je moet de opstelling dus zien als dat die schijven rechtop (interface naar beneden) in die lade staan. Goedkope manier van interfacen dmv printplaat met zooi SAS connectors en je kan er dus relatief veel in kwijt.

Jemig hoe krijg je dat ooit vol. Hoe wordt dit aangestuurd? Zal wel een aardig krachtig apparaat achter moeten staan lijkt me.
Even een kapot harde schijfje zoeken en vervangen :)

Ik vermoed dat het van XIV afgeleide techniek is opgebouwd.
De IBM XIV is een schaalbaar storage systeem dat gebruik maakt van grote SATA disken en een redelijk uniek raid systeem gebruikt.
Het werkt op basis van i/o's over een enorme hoeveelheid trage disk stripen maar niet in een standaard raid configuratie.
Elk blok wordt gewoon op twee verschillende disken geschreven en het systeem houd bij waar ze staan.
Er zijn geen parity disken zoals met raid 4/5/6 en de performance schaalt gewoon enorm op door enorme hoeveelheden disken te gebruiken.

Denk aan b.v. 4 of meer zware intel machines die op het fabric als target te benaderen zijn en hier hun luns over uitdelen, op de servers draait een aangepaste linux distributie geheel voor storage management.

Als er vervolgens een disk kapot kapot gaat moet deze normaal helemaal worden gerebuild naar een hot spare en uiteindelijk een vervangende disk, IBM's XIV doet dit anders.
De XIV gaat vanuit de copy's van de blocks die op die (nu defecte) disk stonden ervoor zorgen dat alle blokken op andere disken worden geschreven.
Het voordeel hiervan is geen langdurige rebuild van een groot array (met 2TB disken kan een raid 5 array ENORM lang duren om te rebuilden) maar een copy vanuit TIG (lees 100+ disken naar 100+ andere disken.
Een rebuild is dus binnen enkele minuten klaar ook al gebruik je 2TB disken.

Het gevaar is wel dat als je een double disk failure hebt je een kans hebt op data verlies, er is geen bescherming zoals raid 6 die bied met dubbele parity.

Het voordeel hiervan is geen langdurige rebuild van een groot array (met 2TB disken kan een raid 5 array ENORM lang duren om te rebuilden) maar een copy vanuit TIG (lees 100+ disken naar 100+ andere disken.
Kapotte schijf via raid herstellen kan even duren:
"when a disk fails, the redundant data stored on other disks is slowly copied onto the failed disk’s replacement, which doesn’t really affect performance; if multiple nearby disks fail, that process is sped up to prevent any permanent data loss. "

[Reactie gewijzigd door Xubby op zaterdag 27 augustus 2011 17:46]


if multiple nearby disks fail, that process is sped up to prevent any permanent data loss.
Ehhh... Als er meer dan 1 disk in een RAID5 set stuk gaat dan is je data weg. Je hebt slechts 1 disk aan redundantie. Daarom wordt bij serieuze (maar traditionele) SATA systemen RAID6 toegepast, om je een extra level aan beveiliging te geven als er tijdens de rebuild nog een tweede disk sneuvelt.

Mijn post heet betrekking op de soort van raid van 120 PT van IBM.
Dat is een wat "afwijkende" raid. Hoe precies zag ik niet in de beide eerder vermelde linkjes.
Maar wat betreft een raid 5 en 6 heb je helemaal gelijk.

200.000 hardeschijven, oef..... dat is een maand productie van een grote harddisk boer denk ik....

Deze opslagunit moet zo inmens groot zijn dat dit gewoon weg op moet vallen, laat staan de hoeveelheid energie hij verbruikt, kan iemand misschien uitleggen waarom de keuze op schrijven van gemiddeld 600Mb valt? ( Wanneer je er allemaal 2 TB schijven voor gebruikt heb je toch minder schrijven nodig, of zie ik iets over het hoofd? ;)

Ik ga er vanuit dat dit 600GB sas disks zijn, lekker rap en een stuk goedkoper/betrouwbaarder dan een SSD als ik me niet vergis?

Ik denk dat het hierbij idd om 600GB SAS schijfjes gaat. Goedkoper zijn ze iig wel dan SSD's met vergelijkbare grotes, maar of ze ook betrouwbaarder zijn durf ik geen uitspraken over te doen.

"...kan iemand misschien uitleggen waarom de keuze op schrijven van gemiddeld 600Mb valt? ( Wanneer je er allemaal 2 TB schijven voor gebruikt heb je toch minder schrijven nodig, of zie ik iets over het hoofd?"

Waarschijnlijk iets met sneller en natuurlijk meer kleinere schijven = minder grote back ups op de andere schijven, als is de tegenhanger van meer schijven natuurlijk weer dat er meer zullen uitvallen.. tsjah, er zijn vast nog wel meer redenen te bedenken ;-)

het antwoord is, voor de zoveelste keer, SAS! en geen SATA!

Dat antwoord is (voor de zoveelste keer) fout.. IBM heeft XiV. Daar stop je 180 stuks 2TB SATA schijven in. Dit levert ~ 160TB bruikbare ruimte op. Er wordt 60% gebruikt om redundantie en grid techniek in te bouwen. Verder krijg je nog een stukje GPFS filesystem overhead. Daarmee hou je van 2TB schijven ongeveer 600GB bruikbare ruimte over. Dat klinkt inefficient, maar het biedt een paar unieke voordelen.

Door de IOps over alle schijven te verdelen krijg je een prima performance. Door verder de data over alle schijven te verspreiden en dubbel op te slaan (maar niet in traditioneel RAID), heb je geen enkel probleem wanneer een of meerdere schijven uitvallen. Een kapotte disk veroorzaakt nagenoeg geen performance dip, en de rebuild time op een spare is razendsnel. Ook zonder spare loopt je data geen gevaar, zodra een disk kapot gaat wordt van alle blokken die daarop stonden weer een reservekopie gemaakt. Wederom verdeeld over alle overgebleven disks, dus ook hier weer razendsnel.

[Reactie gewijzigd door scsirob op zaterdag 27 augustus 2011 17:06]


Je ziet iets over het hoofd, de totale kost:

Alles in acht genomen, dus:

De kost per schijf
De energiekost per schijf
De kost van de lagere betrouwbaarheid bij een grotere schijf
De kost van de meerruimte die nodig is om meer schijven te stockeren
De kost van de constructie/alles laten samenwerken/...
Stel dat het snelle schijven zijn die 600Gb, dan de kost voor het systeem door het gebruik van tragere schijven
Nog tientallen andere kosten

is het blijkbaar goedkoper om met 600Gb schijven te werken. Dat is nu eenmaal hoe een investeringsbeslissing in elkaar zitten.

Of ze hadden nog 200.000 600Gb schijven liggen en gaan die gebruiken. Behalve de opportuniteitskost mag je daarvoor geen kost meer in rekening brengen.

Moraal van het verhaal: Een systeem met 600Gb schijven heeft een lagere verwachte totale kost dan een systeem met grotere schijven.

[Reactie gewijzigd door Maethor2 op zaterdag 27 augustus 2011 14:35]


600GB gemiddeld aan schijven? Dit is een beetje vreemd dat men zo een kleine capaciteit gebruikt.

Het enige voordeel dat ik kan bedenken, is dat men wilt gebruik maken van schijven met een single plaat?

Als je ziet dat 2TB schrijven bijna niets kosten, dan zou men gerust dezelfde setup kunnen maken hebben met 65.000 schrijven. Op gebied van kost zou het zelf voordeliger geweest zijn. Maar 1/3 nodig van schijven, maar ook 1/3de nodig van behuizingen / aansturing enz.

hier zitten geen consumenten schijven in. 600GB is normaal voor bijvoorbeeld 10.000 RPM schijven.

wellicht omdat op 600GB meer performantie te halen is dan op 2TB? Bij HP zijn bvb de 2 TB schijven enkel te krijgen op 7,2 RPM, de 600 GB gaan tot 15000 rpm. Meer disken is natuurlijk ook meer spindels, nog iets wat extra performance geeft.

Tis ook een beetje zinloos om deze disken te vergelijken met standaard huis tuin en keuken disken..

[Reactie gewijzigd door Yalopa op zaterdag 27 augustus 2011 21:25]


Je moet ook rekening houden met het feit dat ze dit systeem toch zeker 10 jaar, of misschien wel langer willen gaan gebruiken. Er moet dus een HD gezocht worden die gedurende die tijd support heeft van een leverancier. Dat zijn natuurlijk eigenlijk alleen professionele schijven en tja; die zijn niet zo groot en vaak met "exotische" interface, hoge rpm, 24/7 capability etc etc.

Ook het energieverbruik speelt natuurlijk een rol. Voor 120 PB loont het om even te kijken naar het aantal W per GB. Daar kan 10% verschil op jaarbasis al aardig schelen in de stroomkosten natuurlijk.

[Reactie gewijzigd door 0rbit op zaterdag 27 augustus 2011 13:58]


Waarom gebruiken ze geen SSD's?

Als je simulaties gaat uitvoeren op SSDs zijn ze binnen notime kapot :P met de huidige read/write levensduur. Ik denk dat het kostenaspect ook aardig meetelt... 200.000 x 600GB HDD of 200.000 x 600GB SSD O-)

Waarschijnlijk om de zelfde reden waarom de meeste mensen vandaag de dag nog steeds geen SSD gebruiken, namelijk de hoge prijs ;)

Kosten? Een 600 GB SSD is nogal wat duurder dan een schijfje.
Daarnaast denk ik dat ze die schrijf/leessnelheid niet nodig hebben. En het kan best zijn dat er heel erg vaak geschreven wordt en dat ze berekend hebben dat ze dan te vaak SSD's moeten wisselen.

Kostprijs ongetwijfeld. Voor een 200GB SLC SAS schijf ben je 3000 euro kwijt (€15 per GB) oftewel 1,8 miljard euro voor 120 PB. En dan heb je dus enkel nog maar de opslag, geen grond, gebouw, aansturing, koeling, ...
Een 600GB SAS schijf kost 320 euro, dus rond de €0,53 per GB. Dan kom je dus op net geen 64 miljoen euro voor dezelfde 120PB opslag. Kortom een factor 28 goedkoper.
(Edit: trouwens wel prijzen van de pricewatch, een dergelijke OEM besteld uiteraard niet bij een Nederlandse webshop :P, dus ook tegen andere prijzen)

[Reactie gewijzigd door Malantur op zaterdag 27 augustus 2011 13:48]


Als je factoren als grond, koeling en verbruik mee zou rekenen vraag ik me af hoeveel duurder de SSD's nog zouden zijn. Ze zijn bijna altijd 2.5" (1.8" kan ook nog), vreten 10x minder stroom en worden dus ook veel minder warm.

En hebben een veel grotere uitval als je veel moet schrijven...

Dat een consument niet aan het aantal write-acties van een gemiddelde SSD komt zegt niets voor een industriele oplossing.

SSD's hebben simpelweg een extra bovenlaag qua gebruik naast MTBF

Eh, je hebt hier 200.000 disks. Dan kan ik je voorspellen dat de gemiddelde writesnelheid per disk best mee gaat vallen. Zelfs als je uitgaat van 32 x 10 Gbps Ethernet x 2 (kopie van alle data) is het maar 3 Mbps per schijf. Peanuts; goede kans dat deze array alleen zo groot is vanwege de capaciteit in plaats van de snelheid. En dan kom je op de andere, echte zwakte van SSDs: een 2 TB SSD is peperduur, en al helemaal als je er 200.000 van wil hebben.

Voor dit soort omgevingen is de pricewatch niet echt informatief.Hier worden onderdelen gebruikt die daar niet in staan, en over de prijs kan onderhandeld worden bij deze aantallen.
Enkele vergelijkbare datacentrums, iets kleiner maar wel PetaByte klasse) zijn trouwens overgegaan op SSD's vanwege de prijs. Waarom dat soms voordeliger is legt FusionIO in deze casestudy uit.
http://www.fusionio.com/l...Studies/Octal-Study_3.pdf
Zij zijn een verkoper, dus wel bevooroordeeld. Maar de aanschafprijs van de opslag units speelt maar een kleine rol in het uiteindelijke kostenplaatje. De kosten van energie, netwerkswitches, HBA's, controllers, koeling, etc. zijn groter dan de kosten van de schijfjes. Of dat nu spinning rust of ssd varianten zijn.

harde schijven is zo arpanet!,....als ze nou ssd's gebruikte dan zijn ze hip....leuke order voor de hdd leverancier trouwens,...200.000x de kosten van de schijf :)

Ik vermoed dat ze wel iets van korting krijgen op 200.000 stuks.
«  1  2  3  4  »

Op dit item kan niet meer gereageerd worden.

Volgende 13:37 Mobiele 'kankerdetector' maakt gebruik van iOS- en Android-app
Vorige 12:23 HTC lekt Titan als naam Windows Phone met 4,7"-scherm
VNU Media logo Hosted by True

© 1998 - 2012 Tweakers.net B.V. - Alle rechten voorbehouden - Contact - Jouw privacy - Algemene Voorwaarden

Uitgever van:

Website van het jaar 2011