Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 72 reacties

Cray, fabrikant van supercomputers, heeft een 'hybride supercomputer' aangekondigd. Het rekenmonster, XK6 geheten, gebruikt een combinatie van hexadecacore-AMD Opteron-processors en gpu's uit Nvidia's Tesla-serie.

Voor de XK6 heeft Cray gekozen voor AMD Opteron 6200-processors met elk 16 cores, codenaam Interlagos, terwijl de gpu's uit de Nvidia Tesla X2090-serie afkomstig zijn. Per serverkast kunnen maximaal 96 processors worden geplaatst, goed voor 1536 rekenkernen, in combinatie met maximaal 96 Tesla-gpu's. Per cabinet kan een maximale rekenkracht van meer dan 7 teraflops worden behaald, zo stelt Cray. Afhankelijk van de configuratie zou het verbruik tussen de 45 en 54,1kW liggen.

Volgens de fabrikant is zijn hybride supercomputer met behulp van verschillende nodes schaalbaar tot een rekencapaciteit van maximaal 50 petaflops. Volgens Cray is de XK6 door zijn schaalbaarheid en het gebruik van zowel cpu's als gpu's in combinatie met Cray's eigen Linux Environment een krachtig platform voor high performance computing-applicaties.

Het Swiss National Supercomputing Centre zal als eerste een XK6-supercomputer afnemen als vervanging voor zijn huidige XE6m-supercomputer. Het onderzoeksinstituut zal het rekenmonster inzetten voor toepassingen als klimaatsimulaties en complexe berekeningen in vakgebieden als geologie en farmacie. De organisatie denkt met de XK6 vooral te kunnen profiteren van de gpgpu-berekeningen die door de grafische Tesla-processoren van Nvidia uitgevoerd kunnen worden.

Cray XK6-supercomputer

Lees meer over

Moderatie-faq Wijzig weergave

Reacties (72)

7 teraflops, dat is niet mis!

Even ter indicatie, een snelle Core i7 haalt max 70 gigaflops, dus dit monster is per cabinet een factor 100 sneller.

Met de GPUs is inderdaad nog meer winst te behalen, een highend GPU van tegenwoordig doet de voor de GPU geschikte berekeningen op zo'n 700 gigaflops. Een factor 10 sneller dan de CPU. Maar de CPU kan meer soorten berekeningen aan.
Dus 96 CPU's halen een factor 100 van de snelheid van een snelle i7? Dus 1 van die 16 core CPU's is ongeveer gelijk aan een i7? Ligt het dan aan mij, of presteren die Opteron 6200's niet al te goed?
Supercomputers draaien nogal vaak underclocked. Als een opteron dus normaal gesproken op 2.6 GHz draait, zetten zij hem op 2.4 met een lager voltage.

Deze monsters draaien 24/7, dan is het goedkoper om elektriciteit te besparen (vandaar de underclock) en er een paar extra processoren aan toe te voegen, dan met een minimaal aantal processoren maximale capaciteit te halen.

Een i7 verbruikt wel effe wat meer stroom dan een goede, zuinige Opteron. Voor de gemiddelde particulier niet echt boeie, maar hierbij maakt het een boel uit.

Daarnaast kost het verdelen van rekentaken heel, heel veel kracht. Een dual core is 50% sneller dan single-core, en een quadcore slechts 2 keer zo snel als een single.

(maar ik had die Opterons ook hoger ingeschat, dat geef ik toe)

@Scopionv; vandaar ook de hybride combinatie. We hebben GPU berekeningen al bij FAASTRA gezien (8 gpu kernen), ik ben benieuwd waar we heen gaan... Supercomputers zijn zeer interessant gebied, ik vraag me af welke richting ze kiezen; focussen op gpu's, cell processoren, of iets heel anders (beide?).
Supercomputers zijn zeer interessant gebied, ik vraag me af welke richting ze kiezen; focussen op gpu's, cell processoren, of iets heel anders (beide?).
Als je dit interessant vindt, dan moet je ook eens naar dit leuke speeltje kijken:
the world's first TOP500 Linpack sustained 1.0 petaflops system. It is a one-of-a-kind supercomputer, built from off the shelf parts, with many novel design features (..)
Roadrunner is unique for its hybrid design using two different models of processors. (..) AMD Opteron 2210, running at 1.8 GHz. (..) IBM PowerXCell 8i, running at 3.2 GHz.
Al een paar jaar oud, maar met een architectuur die mogelijk ter inspiratie voor de XK6 heeft gediend.
Kan verschillende verklaringen hebben. Bvb praktische snelheid, overhead...
Daarom vind ik eigenlijk 7 teraflop erg tegenvallen. Een enkele dual GPU kaart komt al redelijk in de richting van 1 teraflop (theoretisch dan). Dan weet ik niet of deze 7 teraflop zijn theoretische snelheid is of wat hij daadwerkelijk in de praktijk haalt.
Lees in het artikel, schaalbaar naar 50petaflops. Vindt ik best aardig.

Een cabinet is dan 1 zo een klerenkastje.
stel dat je 50 PFlops wilt met dit ding: 1536 kernen+GPU's voor 7 TFlops, ofwel 50 PFlops / 7 TFlops geeft een factor 7142.
7142*1536 cores geeft 10,9714,828 cores :| Dat lijkt mij beetje veel...
En het verbruik per kast is rond de 50kW, dat maal 7142 geeft 35.7 MWatt aan energie voor het totale systeem...
Succes met de 50Pflops halen! :D (ook al issie waarschijnlijk theoretisch)
D'r zullen waarschijnlijk weinig installaties komen met 7000 rekken, meestal top je uit bij een paar honderd rekken.
Op de website van Cray staan geen prijzen vermeld, alleen een "request quote".
Puur uit nieuwsgierigheid, wat voor prijzen moet je aan denken voor dit soort hardware?

In mijn branche (o.a. 3d-animatie) wordt vaak gebruik gemaakt van renderfarms, waarbij je dan vaak 1 frame per node tegelijkertijd berekent. Zouden dit soort computers nou ongelooflijk veel sneller zijn? Rendering profiteert veel van meerdere cores dus zou deze hardware theoretisch heel vlot kunnen renderen. Toch ben ik nog nooit een studio tegengekomen waar ze iets dergelijks hebben. Is dit dan zooo schrikbarend duur dat zelfs Pixar e.d. het niet kunnen betalen of is het alleen verhoudingsgewijs (prijs/prestatie ratio) te duur?
Als je weinig node-node communicatie hebt, bijvoorbeeld omdat je alles in losse en ook echt losstaande frames kunt ophakken, dan heeft het weinig toegevoegde waarde om hele dure interconnects, geheugens etc te regelen.

Dan ben je waarschijnlijk goedkoper uit met een heel stel racks vol gewone krachtige cpu's, eventueel machines met GPU's erin. En die rekenservers communiceren dan hun werk wel met wat moedersystemen.
Dus de rekenkracht ervan kan je vast goed gebruiken, maar voor dat soort "Embarrassingly parallel" reken werk gok ik dat je enorm veel meer rekenkracht kunt aanschaffen voor hetzelfde geld met een grid-, farm- of cluster.

Zie bijvoorbeeld deze tekst van wikipedia:
Embarrassingly parallel problems tend to require little or no communication of results between tasks, and are thus different from distributed computing problems that require communication between tasks, especially communication of intermediate results. They are easy to perform on server farms which do not have any of the special infrastructure used in a true supercomputer cluster.
De snelste super computer van dit moment (ook door cray gemaakt) kost 104M $.
http://en.wikipedia.org/wiki/Jaguar_(computer)
Ik denk eigenlijk dat dit soort computers pure overkill is voor render aplicaties en dat je ze daarom niet tegenkomt
De Chinese Tianhe-1A is sinds september sneller: http://en.wikipedia.org/wiki/Tianhe-I#Tianhe-1A
Kostte $88M om te bouwen, en kost per jaar $20M om te draaien.
Zo'n ding is in feite gewoon hetzelfde als een stapel losse servers, maar dan met (vooral) hele snelle interconnects naar de andere nodes. En daardoor gaat de prijs dan omhoog met een factor 5. En je hebt er in die applicatie niets aan.

Rendering kan misschien best voordeel van hebben als je per node 4 grote nvidia kaarten met veel cuda cores erin zet, maar daarvoor hoef je ze niet om te bouwen tot een supercomputer.
Het hangt van de software af, vaak zijn de render-engines (zoals 3dsMax) alleen voor Windows geschreven, en Windows draait niet goed op zulke grote farms, in ieder geval niet als 1 OS.

Echter, GPGPU's zijn, gek genoeg, niet sneller in render-farms. Veel renders zoals in films worden in Ray tracing gedaan, waarbij vaak de hele scene in het geheugen wordt gezet. Op het moment dat zo'n scene te groot wordt voor het geheugen van de GPGPU zullen er veel kopieeracties plaats vinden van Main Memory (Host) naar de GPGPU (Device) wat extra tijd in beslag neemt, waardoor de netto snelheid van een GPGPU langzamer wordt, en CPU's dus sneller zijn.
Hoe groot zijn die scenes dan, heeft dat significant meer dan 1.5 GB data aan objecten/triangles+textures?
Dreamworks gebruikte in 2004 al HPs URS (Utility Rendering Service) wat een renderfarm was met 1000 (volgens mij AMD) processors. Zie ook : http://www.hp.com/hpinfo/newsroom/press/2004/040419a.html

Tegenwoordig zullen ze vast zelf wel wat hebben staan, maar kon zo snel ff niks vinden erover.
Mooi om blueray naar mkv om te zetten! Hoe snel zal dat zijn?
in verhouding ontzettend traag; voor zover ik in kan schatten valt dat niet efficiënt te parallelliseren, dus als je dat probeert te draaien op dit ding dan zal het overgrote deel van de nodes niks gaan staan doen.
En nee, "heel Youtube transcoden" werkt ook niet als voorbeeld; de bandbreedte tussen het systeem en de buitenwereld (ik heb het dus niet over de bandbreedte van het interne netwerk, tussen de nodes) is veel en veels te klein om data snel genoeg aangeleverd te krijgen om alle nodes bezig te houden.

Dit soort systemen zijn alleen goed in heel specifieke taken. Vuistregel: het soort berekeningen dat je ook op Boinc en andere DC-projecten ziet dat klopt niet helemaal: bij DC kun je niet communiceren tussen nodes, wat bij supercomputers wel kan.

@koelpasta:
Om motion detection voor frame n te doen moet ik frame n-1 hebben, dus je moet frames of serieel decoderen, of heel veel werk dupliceren (tenminste, dat was mijn gedachte; het kan zijn dat ik iets over het hoofd zie, het is niet mijn specialiteit).
En edit: "bandbreedte is te traag klein"

[Reactie gewijzigd door robvanwijk op 27 mei 2011 10:47]

Uuh, videocoding paralleliseert prima!
Althans, zolang je gewoon bij alle data kan is het geen probleem.
Afhankelijk van de codec kan je meerdere processen tegelijk 1 of meerdere frames laten uitrekenen.
Ik denk dat de grootste bottleneck de opslag wordt.

@robvanwijk.
Voor motion compensation heb je in feite maar een paar frames nodig.
Maar om even bij het begin te beginnen, elk probleem bestaat uit een niet paralleliseerbaar deel en een wel paralleliseerbaar deel.
Zo ook ons video-encodings probleem.

Want stel wij gebruiken een codec die inter-frame compressie toepast (GOPs) zoals MPEG2.
Dan wil je graag weten waar scenewisselingen voorkomen zodat je op die frames een nieuwe GOP kunt beginnen.
Of inderdaad wat jij aanhaalt, motion compensation in een MP4 codec.

Wat je dan doet is voordat je het eigenlijke rekenwerk begint eerst een analyse maken van het materiaal.
Je zou kunnen denken dat dit een seriele bewerking is, maar ook dit kun je grotendeels paralleliseren.
Daarna kun je bijvoorbeeld elke thread/proces een GOP laten uitrekenen i.p.v. een enkele frame.

Maar zoals ik al zei, het ligt een beetje aan de codec(s).
Hoe dan ook, video is altijd opgedeelt in losse onafhankelijke blokjes, of het nou frames zijn of GOPs of whatever.
Het is dus goed opdeelbaar en prima geschikt om te paralleliseren.

[Reactie gewijzigd door koelpasta op 27 mei 2011 14:10]

Dat ligt aan de lengte, resolutie, bitrate, etc van je filmpje.
Het valt mij op dat AMD volgens mij best wel de server markt in handen heeft qua CPU's, zoals de Link die damaster al doorgaf zie je grotendeels AMD Opterons die zich hoog in de lijst bevinden.
Ik dacht altijd dat Intel die markt ook domineerde.

[Reactie gewijzigd door Dylan93 op 25 mei 2011 16:37]

Het merendeel van de webhosts lijkt nog op intel te draaien, tenminste die met een site die ik heb bezocht. Vrijwel altijd Intel Xeons en soms een 'normale' desktop core2duo/i3,5,7, zelfs Atoms bij sommige hosts.. maar bijna nooit Opterons.
Daarintegen draaien een hele hoop van de supercomputers weer op Opterons, maar ik denk dat de webserver markt toch wat groter is. Dat Intel daar ook een enorm marktaandeel heeft staat vast maar sinds de Opteron doet AMD ook geen slechte zaken.
Euh, nee hoor: http://www.top500.org/stats/list/36/procfam
398 Intels, en slechts 57 AMDs.
het verschil ligt meestal in het verbruik van de processoren. AMD richt zich meestal meer op energie zuinigheid en cores, terwijl intel zich juist richt op stabiliteit en veel rekenkracht met weinig cores. opzich is het logisch omdat een single core proc op 4 GHz sneller is dan een dual core (met dezelfde architectuur!) die op 2 GHz loopt. AMDprobeert met meerder cores het verbruik terug te schroeven en de warmte ontwikkeling te beperken, maar bij Intel gaat het dus meer om stabiliteit binnen bepaalde grenzen.
Ook verkoopt AMD zijn processoren bijzonder goedkoop, zeker voor dit soort projecten. Intel wil niet grote staffelkortingen geven.
Nope, mijn host draait op XEON's.
quote: uit artikel
Per serverkast kunnen maximaal 96 processors worden geplaatst, goed voor 1536 rekenkernen, in combinatie met maximaal 96 Tesla-gpu's. Per cabinet kan een maximale rekenkracht van meer dan 7 teraflops worden behaald, zo stelt Cray. Afhankelijk van de configuratie zou het verbruik tussen de 45 en 54,1kW liggen.
Klopt dit wel? Ik lees ergens anders een andere performance:
http://www.pcper.com/news...puter-Capable-50-Petaflop
quote: uit link
Each cabinet is capable of storing up to 24 blades, and can deliver up to 50 kilowatts of power. Each of the Tesla X2090 GPUS are capable of 665 gigaflops during double-precision floating point operations, something that GPUs excel at. As each XK6 blade contains 4 GPUS, and each cabinet can hold 24 blades, customers are looking at 63.8 teraflops of computing power solely from the graphics cards.
1 kabinet = 24 blades met elk 4 CPU's + 4 GPU's per blade
->24 x 4 = 96, dus 96 CPU's en 96 GPU's per kabinet
(en 96 CPU's x16 cores/CPU = 1536 cores)

Dus wat is er verschillend volgens jou?

ps: 63,8 Tflops (volgens je link 84Tflops in totaal) per kabinet is toch 'een maximale rekenkracht van meer dan 7Tflops' ? Het is er zelfs meer dan het 10-voud van.
en een serverkast die maximaal 50kW levert zal wel tussen de 45 a 54kW verbruiken
Dus taalkundig klopt de tekst perfect.

het eindtotaal van 300 kabinets geeft een 44PFlops ter beschikking.
(en nood aan 300x50kW, dus 15MW aan voeding, koeling niet meegeteld vrees ik)

In vergelijking met de huidige snelste: die levert 2,3 PFlops(piek) voor 6,9 MW, met deze krijg je voor iets meer dan 2x de stroomkosten net niet 11x de computerkracht.

[Reactie gewijzigd door soulrider op 25 mei 2011 22:09]

Het mag toch wel duidelijk zijn dat het niet om de taalkundige correctheid gaat, maar om een fout in het overnemen van data uit de bron. Anders hadden ze er net zo goed 'meer dan <vul maar een getal in dat kleiner is dan de maximale performance>' neer kunnen zetten.

http://cray.com/Products/XK6/Specifications.aspx
quote: uit link
Compute Cabinet

AMD processing cores: 1,536 processor cores per system cabinet
Peak performance: 70+ Tflops per system cabinet
Duidelijk zo? :)
Die 70+ Tflops is puur gebaseerd op 63,8 Tflops van de GPU's per cabinet met een minimale hele voorzichtige geschatte performance van de CPU's

[Reactie gewijzigd door Rudie_V op 25 mei 2011 23:44]

hier de top 500 supercomputers... altijd leuk om even te kijken naar deze energieslurpende monsters :P http://www.top500.org/list/2010/06/100

mag wat kosten allemaal!
Sorry maar ik vind het een beetje belachelijk om in een computer 224.162 cores te stoppen. Het zal wel een technologisch hoogstandje zijn daar niet van maar ik vind het wel erg veel.
Als consument heb je er ook totaal niets aan...

Zakelijk gezien zal er vast wel markt voor zijn anders worden ze niet gebouwd ;)
Is absoluut een markt voor, onderzoekers hebben vaak extreem veel rekenkracht nodig voor taken die erg makkelijk paralel uit te voeren zijn. Dit soort computers zijn dan een uitkomst.
't Is helemaal niet per se makkelijk te parallelliseren. Maar ze hebben doorgaans wel veel rekenkracht nodig, waardoor ze in ieder geval alle delen die wel parallel kunnen op zo'n machine kunnen uitvoeren.
De reden dat de Cray's e.d. dan ook nog steeds verkocht worden zit 'm waarschijnlijk vooral ook in de interconnects, bij goedkopere clusters is het maar de vraag hoesnel je node-node communicatie is en hoe groot deel van het RAM je daadwerkelijk kan gebruiken. Bij supercomputers is dat vziw nog altijd een stuk hoger.
Jij zet er altijd wat minder in als je een supercomputer bouwt?
Dat is dus niet een computer (hoe zie je dat uberhaupt voor je?) maar een supercomputer die bestaat uit meerdere nodes. Deze specifieke wordt gebruikt voor energie simulaties, kernsplitsingen volgens mij.
Klimaatsimulaties en dergelijke zijn dan ook bijzonder complex, en kennelijk goed te paralleliseren.

Maw: Het zal dus wel opportuun zijn om zo'n machine aan te schaffen.
Die simulaties heb je dan toch al niet meer nodig, de poolkappen zijn al gesmolten voordat de berekening klaar is :+
En als je de simulatie niet uitvoert duurt het langer voor ze gesmolten zijn.
het is GEEN desktopcomputer...
Je kunt het dus ook niet vergelijken met een PC of wat dan ook. Dit is "gewoon" een overmaatse calculator...
Vergelijk ik het dan met een desktop computer?

als je kijkt naar de XK6 die 1536 cores heeft en ook gebruik wordt voor klimaatsimulaties zit er toch wel een zeer groot verschil tussen de XK6 en XT5 aan de hoeveelheid cores.
Die 1536 is per cabinet. Die supercomputers bestaan uit vele cabinets.
en toch zitten vele mensen thuis 1 node van zo'n super computer te "spelen" door dingen als seti@home ...

DAT is pas energie verspilling!
Als iedereen die dat thuis doet, gewoon die euro's zou over maken naar een bedrijf die daar een supercomputer van laat runnen dan gaat het vele malen harder voor veel minder energie!
Het mag dan wel energie verspilling zijn, echter is het wel zo dat een BOINC berekening uitvoeren op een supercomputer nu eenmaal te kostbaar is, daarom versprijden ze de rekenkracht.

Nu zijn de kosten niet bij 1 bedrijf of 1 persoon. En om eerlijk te zijn BOINC ik liever een maandje waar ik rechtstreeks help en ook kan zien dat ik help, dan dat ik 15 euro doneer aan een bedrijf en ik weet niet tot in hoeverre het ook daadwerkelijk wordt gebruikt voor het project.

Dat is tevens de kracht achter dergelijke projecten, mensen kunnen ad-hoc een bijdrage leveren en het nog zien ook.
tussen 45 en 51,4 KW dat is ook niet veel voor zo'n monster, een boiler gebruikt (afhankelijk van de inhoud en het type) evenveel. Vraag me wel af wat het opslag capaciteit is of dat het extern wordt opgeslagen.
Ik weet niet wat voor boiler jij in huis hebt maar de gemiddelde huis/tuin/keuken boiler komt echt niet boven de 10 kWh uit...
Hmmm, misschien is het mogelijk om door middel van waterkoeling en een warmtewisselaar een boiler warm te houden. 2 vliegen in 1 klap...

[Reactie gewijzigd door servies op 25 mei 2011 16:38]

Een boiler die 10kWh gebruikt?

Da's grappig, je zet hem dus één keer aan, en dan geeft hij voor eeuwig stroom zonder extra energie te verbruiken?

kWh is een energie maat, dus niet een maat van vermogen.

@S7YX
Hij moet in een data-centrum kunnen he, stroom is daar nogal beperkt (hoe vreemd het ook moge klinken). Om daar een 1 MW serverblok neer te zetten moet je dus heel dik gaan dokken. Verbruik laag houden is dus best een pre als je gaat supercomputer-shoppen.
De echte grote installaties van dit soort systemen (de >1MW varianten) zullen meestal gewoon in custom-built serverhokken staan, en wordt er gewoon gebudgetteerd incl koelingskosten. Als je 3 miljoen uitgeeft aan servers dan bouw je er ook een gebouw omheen.

[Reactie gewijzigd door Jasper Janssen op 25 mei 2011 20:44]

Je vergelijkt het vermogen van deze machine correct genoemd door S7YX met een hoeveelheid energie. Dat kan niet.
Dat is echt heel weinig en vergelijkbaar met de motor van een gemiddeld B-segment autootje. 50 kW is net geen 80 pk....
Ik denk niet dat je in deze Cray heel veel water op kan slaan hoor :).
Volgens mij heb je mijn post niet goed gelezen...
Ik heb onlangs een presentatie gezien van iemand van Nvidia over exascale computing. Wel sterk wat ze doen! ARM en Intel mogen we niet uit het oog verliezen ook!
Das pas een beest. Nu gaan ze nog vlugger kunnen zeggen wanneer de poolkappen zullen smelten. Vooral met zo een verbruik :p

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True