IBM scant 10 miljard bestanden in drie kwartier

Onderzoekers van IBM zijn er in geslaagd om in 43 minuten de gpfs-metadata van 10 miljard bestanden uit te lezen, onder andere door de metadata op flashgeheugen te plaatsen. Het vorige record is met een factor 37 verbroken.

IBM-logo Waar IBM in 2007 nog een record zette met het uitlezen van de gpfs-metadata van 1 miljard bestanden in drie uur, lukte Big Blue dat nu met 10 miljard bestanden in drie kwartier, zo heeft het bedrijf bekendgemaakt. Gpfs, voluit het General Parallel File System, is IBM's bestandssysteem voor clustercomputing. Eén bestand wordt door gpfs op meerdere fysieke locaties opgeslagen; het snel kunnen interpreteren van metadata is cruciaal voor de prestaties.

Het record werd behaald met een cluster van tien IBM xSeries-servers met elk een dual-quadcore-cpu en 32GB geheugen; de metagegevens werden geplaatst op vier ssd-arrays van Violin Memory. De gegevens waren in totaal 6,5 terabyte groot. De Violin-arrays waren alle met pci-express aan twee IBM-servers gekoppeld, die op hun beurt via infiniband door een 24 ports-switch van SilverStorm aan elkaar werden geknoopt.

Bij het verbroken record waren de gegevens nog op een harddisk geplaatst; mede door de metadata op flashgeheugen te zetten werd dit record behaald. Bovendien zijn de gpfs-algoritmes sinds 2007 verbeterd.

Reacties (43)

markg85 24 juli 2011 23:54

De whitepaper: http://www.almaden.ibm.co...FS-Violin-white-paper.pdf

arbraxas 24 juli 2011 13:19

Eigenlijk gewoon natuurlijke evolutie dus.
SSD is voor dit soort werk natuurlijk veel rapper door de hogere iops van deze dingen.

Verwijderd @arbraxas • 24 juli 2011 13:26

Nu nog stabiliteit and kwaliteit in de SSDs en ze zullen in de markt worden overgenomen.

computerjunky @Verwijderd • 24 juli 2011 15:03

nog niet overgenomen voor gewone opslag zijn ze nog 35x te duur.

op harde schijf is het 5 cent poer gig bij een ssd ligt die prijs eerder rond de 1,7 euro

Verwijderd @computerjunky • 24 juli 2011 18:39

Een SSD is niet duur. maar juist extreem goedkoop.

Stel je 2 databases voor met weinig data, maar veel load. Zoals tweakers.net (ik gok dat die ~200GB aan data hebben). Laten we zeggen dat je 10.000 ips nodig hebt om het fatsoenlijk te laten werken.

Opstelling 1: 80 HDD's + backup
Opstelling 2: 6 SSD's van 120GB + backup

Welke opstelling zou nu het goedkoopst zijn? Nog los van het feit dat de opstelling met SSD's niet 'maar' 10.000 iops haalt, maar richting de 200.000, en je 20x minder rackspace nodig hebt.

Een SSD is goedkoop als het gaat om iops. Een HDD is goedkoop als het gaat om opslag en het doorpompen van grote bestanden (lees: backups)

Verwijderd @Verwijderd • 25 juli 2011 01:51

Het kan tevens goedkoper zijn dan naar een RevoDrive gelijkwaardige oplossing te gaan.

De PCI-Express x4 240GB RevoDrive kost $599.99 en kan 130000 IOPS en 1000MB/s leveren.

De OZC Vertex 3 Max IOPS 120GB versie kost $275 en kan 85000 IOPS en 500MB/s leveren. Twee van die in RAID-0 is dan wel gelijk aan de specificaties van de RevoDrive, en dus $50 goedkoper, echter de PCI-Express x4 RevoDrive heeft geen last van bus limitaties, waar de meeste SATA controllers toch soms tegen de limiet aanlopen, zeker als je dus met meer dan 2 drives aan de gang gaat.

De RevoDrive kaarten kunnen trouwens ook in een RAID-0 opstelling worden gebracht als je dus een moederbord hebt met genoeg PCI-Express x4 sloten (of x8/x16 sloten, want daar passen ze gewoon ook in). Dat is vaak een stuk goedkoper dan het grotere model, de 480GB RevoDrive kaart bijvoorbeeld kost $1600, dus dan bespaar je al $400 uit door 2x 240GB te gebruiken.

Verwijderd @Verwijderd • 25 juli 2011 11:02

Goedkoper misschien. In een zakelijke omgeving raad ik bijna per definitie intel aan op het forum. Het spul van OCZ is misschien sneller, maar ze focussen daar meer op snelheid dan op betrouwbaarheid. Als je drives @ random niet meer herkend worden in het bios (happens), je @ random een BSOD krijgt (happens) en je 4 firmware updates nodig hebt om dat op te lossen... Dan neem je toch maar intel. OCZ maakt gewoon been betrouwbare drives.

Het alternatief is crucial... daar worden de meeste mensen ook niet echt warm van.

freaky @Verwijderd • 25 juli 2011 08:51

Je verlijking laat 1 ding wel buiten wegen. Die 80 HDD's bieden een factor meer opslagruimte waar je akelig van wordt.

En enterprise SSD's zitten ook nog in een andere klasse qua prijs dan waar computerjunky het over had. Een maand of 3 geleden zat een enterprise 50G (SLC ipv MLC) bij Dell bijv. nog tegen de 1000 euri.

MSalters

@freaky • 25 juli 2011 09:16

Dat lijkt maar zo. Je hebt niets aan een GB die je niet kunt benaderen. En dat is hier het geval omdat de HDs IOPS-begrensd zijn. Elke schijf zit al aan z'n IOPS limiet om de eerste 2.5 GB te benaderen.

TD-er

@arbraxas • 24 juli 2011 13:29

SSD is inderdaad wel veel rapper als het gaat om de toegangstijd, maar de transferspeed is niet zo heel veel groter. Met een orde van 2 - 3x heb je het wel gehad.
Je moet ook nog de metadata inlezen en dan gaat het dus niet alleen meer om de iops, maar ook om de transfer-speed en minstens zo belangrijk de verwerkingssnelheid.

Plague @TD-er • 24 juli 2011 14:35

Transfer van de moderne SSD gaat al richting de 400-500MB/s. Met een normale HDD haal je als je geluk hebt net 100MB/s. En dit verschil wordt alleen maar groter met het uitkomen van de nieuwere generaties SSD's.

Verwijderd @Plague • 24 juli 2011 15:29

Alleen als de prijs 35x zo hoog is en je "slechts" 5x zo snel bent is het nog te duur. Ik zeg daarmee niet dat het geen toekomst heeft, alleen de prijs is nog niet goed genoeg.

arbraxas @Verwijderd • 24 juli 2011 16:10

Voor sommige dingen is de prijs van ondergeschikt belang.
In de formule 1 gaan ook belachelijke bedragen in t rond om 0.1 sec van je rondetijd af te krijgen. Voor je auto voor de deur is dat natuurlijk ook not done.
Maar net als met F1 techniek gaat de SSD techniek langzaam doorsijpelen naar de gewone sterveling. In het begin duur en later zal dat inzakken.
We zitten nu nog aan de beginfase van de SSD dus de prijs zal steeds verder inzakken per GB.

Swerfer @Plague • 24 juli 2011 15:14

De grootste winst zit hem waarschijnlijk in de 'average seek time' die vele malen sneller is bij een SSD ten opzichte van een HDD... Vooral omdat het om metadata gaat van miljarden bestanden, is die seek time van groot belang.

Verwijderd @arbraxas • 24 juli 2011 16:08

Deze "gewone evolutie" heeft er voor gezorgd dat dit nu 40x sneller verloopt dan in 2007. Dit is natuurlijk niet alleen aan de SSD's te danken. Voor een echt vergelijk zou men de hardware van toen (en software) moeten nemen om deze opdracht uit te voeren (met de ssd's natuurlijk)

tijs14tijs @arbraxas • 24 juli 2011 18:22

Leuke woordkeuze

Het grappige is namelijk: Mensen werken met en aan computers. Natuurlijke evolutie zorgt ervoor dat dingen beter worden in wat ze doen. Omdat wij computers gebruiken worden computers als maar beter.

Toch wel een eng idee...

MrBigfield @tijs14tijs • 25 juli 2011 01:02

evoluie en revolutie hebben binnen de hardware een hele andere betekenis dan in het ´menselijke opzzicht´. Evolutie wordt gezien als een doorontwikkeling -finetuning en revolutie wordt gezien als een nieuw iets.

Bij Intel zie je dit in hun roadmaps terug. De tick/tock strategie...

hugoleijtens @arbraxas • 25 juli 2011 08:40

heb ook erg veel plezier van mijn SSD. intel ssd

[Reactie gewijzigd door hugoleijtens op 16 augustus 2024 10:54]

jacket13 24 juli 2011 13:46

Totale proces heeft toch langer geduurd? als ik het bericht goed lees staat er toch echt dat de bestanden eerst op een Array van flash geheugen is geladen die in de PCI-E slotten zit.

dus dan moeten de bestanden van een HDD naar Het flash geheugen overgeschreven worden en dat duurt toch wel wat langer lijkt mij ? is dit in totaal dan sneller dan hun vorige record? ik kan ook niet 1 2 3 de vorige setup vinden wat er gebruikt werd met het vorige record dus dit is wellicht niet een correcte "nieuw record".

want als je het nog eens 3 uur duurt om 6.5 terrabyte over te schrijven maakt het niet veel uit.
maarja voor natuurlijk de de toekomst voor data centers of wat voor gebruik dat dit systeem gaat zien zal het lekker efficiënt zijn en worden mensen weer blij van

Ramon @jacket13 • 24 juli 2011 14:05

Ik geloof niet dat dat iets uitmaakt toch? een SSD is net zoals een HDD gewoon blijvend geheugen dus dat kopieren vanaf een HDD lijkt me niet dat ze dat meetellen, anders kan je het kopieren van de data vanaf een DVD ook wel meetellen en als je toch bezig bent het branden van de DVD ook! Oh en het versturen ervan ook!

watercoolertje @Ramon • 24 juli 2011 18:20

Misschien hadden ze het wel gedownload met 1KB/s

<< meetellen!

[Reactie gewijzigd door watercoolertje op 16 augustus 2024 10:54]

dwilmer @jacket13 • 24 juli 2011 14:21

Het wegschrijven naar de flash-array hoorde niet bij de test, maar bij de uitgangssituatie. In de echte wereld ga je alles namelijk (denk ik) ook niet eerst naar de SSD's schrijven en het dan uitlezen, maar schrijf je alles standaard weg naar je SSD's.

Het zal inderdaad een paar uur duren om alles van HDD naar SSD te schrijven, maar dat is alleen de overgang naar een nieuw systeem. En misschien wil je ook nog HDD's houden als goedkope backup, maar als het je om dit soort prestaties te doen is wil je alles standaard ook op je SSD's hebben.

CrazyJay 24 juli 2011 14:18

Prachtig record, maar is de techniek en de stappen die genomen zijn niet hetzelfde als dat wat Oracle al enige tijd doet in zijn Exadata machines? Daar wordt alle data die snel toegankelijk moet zijn op flash arrays opgeslagen.
Volgens hun eigen claims halen ze zo 1,5 miljard IOPS voor hun storage. Hoewel dit dan wel een tijdelijke buffer is, waarna de data weggeschreven wordt naar 'gewone' disks...

Verwijderd @CrazyJay • 24 juli 2011 15:30

Ik denk alleen niet dat Oracle de kennis in huis heeft die IBM heeft, ook al heeft men Sun over genomen.

Dreamvoid

@Verwijderd • 24 juli 2011 16:43

Oracle en IBM zitten qua database/storage technologie niet zo ver van elkaar af hoor. Ze zijn al jaren de 2 grote spelers in deze markt. IBM is wel wat groter (225 miljard waarde vs Oracle 165 miljard) en ouder, maar dat maakt van Oracle nog geen kleine jongen.

[Reactie gewijzigd door Dreamvoid op 16 augustus 2024 10:54]

mdcoo 24 juli 2011 17:14

SSD (EFD) is snel, maar met grotere bestanden schrijven kan je toch beter een FC disk gebruiken, dan is de prijs per GB iets beter dan met een EFD.

Echter, doe je veel leesacties, blijft EFD toch sneller.

Rubén89 24 juli 2011 13:51

misschien een heel stomme vraag maar uit het artikel blijkt dat het werken met SSD's op dit niveau een noviteit is wordt hier niet al veel langer mee gewerkt?

Gomez12 @Rubén89 • 24 juli 2011 15:43

Niet op deze schaal.

SSD is gewoon nog extreem duur voor de performance-winst.

Veelal is het cheaper om gewoon meer hdd's toe te voegen en daar performancewinst uit te halen dan om alle hdd's te vervangen door ssd/.

CAPSLOCK2000 @Gomez12 • 25 juli 2011 16:37

Dit artikel gaat juist over de combinatie van SSD en HDD om zo het beste van beide werelden te hebben. De data staat op HDD maar de staat metadata op SDD.

4tro 24 juli 2011 13:26

Anders waren er even foto's van de opstelling bij geplaatst.

Ik zou graag zo'n opstelling zien

edit:
Zo'n opstelling hebben uiteraard ook ;-)

[Reactie gewijzigd door 4tro op 16 augustus 2024 10:54]

DrChiper @4tro • 24 juli 2011 14:25

in het gerefereerde ibm whitepaper van het artikel staat een foto van de opstelling

Satom @DrChiper • 24 juli 2011 20:58

Sorry, waarschijnlijk kijk ik verkeerd, maar welk linke moet ik hebben van dit artikel?
Alvast bedankt!

njh @Satom • 25 juli 2011 08:47

http://www.almaden.ibm.co...FS-Violin-white-paper.pdf

vosss 24 juli 2011 16:23

Dit is toch een record van likmevestje?

De eerste die er ipv 10 servers 11 neerzet met verder dezelfde apparatuur verbreekt dit weer simpelweg lijkt me

Bastiaan V @vosss • 24 juli 2011 17:43

Lijkt mij dat het vooral over het FS gaat.
Daarnaast, meer hardware hoeft helemaal niet sneller te zijn, omdat de bottleneck vaak in de verschillende interconnects zitten.

Ik denk dat IBM hier best heeft getest om de 'sweet spot' te zoeken (zo zijn er op de foto meer servers en een extra violin te zien)

Titulanix 25 juli 2011 01:33

Stel je voor als Google net zo traag zou werken als deze IBM cluster. Kun je een jaar wachten op het resultaat van je zoekopdracht. Die dan natuurlijk pas wordt gerstart nadat je ettelijke miljoenen dollars hebt gelapt. Gelukkig gebruikt Google geen spreciale IBM hardware, maar standaard PC's met standaard harddisks.

Theadalus

@Titulanix • 25 juli 2011 04:01

Euhm... volgens mij komen de zoekresultaten van Google uit een (of meerdere) database(s), dat is wel iets anders dan in miljarden bestanden zoeken. Ik heb een flauw vermoeden dat het indexeren/crawlen van websites (d.m.v. Google-bots) "iets" meer tijd in beslag neemt dan een gemiddelde zoekopdracht.

SpeedfreakR 24 juli 2011 13:24

Zal best wat kosten zo een opstelling denk ik

Nactive @SpeedfreakR • 24 juli 2011 13:30

Is wat ik ook wel dacht toen ik het artikel las.

Maar zullen wel allemaal test toestellen zijn dat ze daar hebben liggen dus denk dat al bij al het wel zal meevallen.

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (43)

Sorteer op:

Weergave: