Amerikaanse overheid krijgt in 2021 exascalesupercomputer met AMD-hardware

Cray bouwt in samenwerking met AMD een exascalecluster voor het Amerikaanse ministerie van Energie. In 2021 moet het systeem met een rekenkracht van 1,5 exaflops opgeleverd worden. Er worden speciaal ontworpen Epyc-processors en Radeon Instinct-gpu's gebruikt.

Het nieuwe exascalecluster komt te staan bij het Oak Ridge National Laboratory en krijgt de naam Frontier. AMD en Cray verwachten dat het bij de oplevering 's werelds snelste supercomputer is. De totale kosten voor het systeem zijn ruim 600 miljoen dollar, omgerekend zo'n 536 miljoen euro.

Het cluster beslaat zo'n 678 vierkante meter en wordt gemaakt aan de hand van Crays Shasta-platform. De Frontier wordt uitgerust met door AMD ontwikkelde processors en gpu's. AMD spreekt in een presentatie over aangepaste versies van zijn Epyc-serverprocessors, gebaseerd op een 'toekomstige' Zen-architectuur en geoptimaliseerd voor supercomputers.

In iedere node wordt één processor gecombineerd met vier aangepaste Radeon Instinct-gpu's, die voorzien zijn van hbm-geheugen. De cpu's en gpu's communiceren middels de Infinity Fabric-interconnect. AMD maakt niet bekend op welke architectuur de gpu's gebaseerd zijn, maar vermoedelijk gaat het om Navi-gpu's.

De Frontier is de tweede exascalesupercomputer voor het Amerikaanse ministerie van Energie waaraan gewerkt wordt. In maart maakte Intel bekend dat er ook zo'n systeem met Xeon-processors en Xe-gpu's komt, met de naam Aurora. Ook de Intel-variant moet in 2021 uitkomen. Het ministerie gebruikt de supercomputers voor wetenschappelijk onderzoek.

Update: De Epyc-processors in de exascalecomputer zijn gebaseerd op een nieuwe, nog onbekende architectuur, die na Zen 2 komt. Het artikel is daarop aangepast.

IT-banen

Reacties (44)

Squishie 7 mei 2019 13:11

Kan iemand mij vertellen wat voor soort onderzoek dit soort rekenkracht vereist? En wat het kost om dan zo'n onderzoek op zo'n beest van een apparaat te draaien? En wat de meerwaarde (extra snelheid van verwerking van een onderzoek is t.o.v. een niet exascalesupercomputer)?

De reden waarom ik dit vraag is om zaken in perspectief te kunnen zetten. Deze bakbeesten kosten namelijk enorm veel geld i.v.m. huis-tuin-keuken apparaten.

[Reactie gewijzigd door Squishie op 22 juli 2024 14:09]

SpeedQber @Squishie • 7 mei 2019 13:18

Tweakers heeft hier een half jaar geleden een artikel over geschreven:
reviews: De strijd om de snelste supercomputers

"het domein van defensie, bijvoorbeeld voor simulaties voor nucleair onderzoek, maar ook voor het weer en andere berekeningen aan grote datasets worden supercomputers ingezet. Voor commerciële doeleinden worden ze gebruikt om marktontwikkelingen op aandelenbeurzen te voorspellen, en de olie- en gasindustrie maakt gebruik van supercomputers om bodemmetingen te analyseren en de beste plaatsen voor winning te bepalen."
"voor disciplines van materiaalwetenschap tot geneeskunde en astronomie."
"het weer of het klimaat"
"simulaties van het vroege universum"
"interacties van complexe moleculen te simuleren en zo te zoeken naar een geneesmiddel"

GRDavies75 @Squishie • 7 mei 2019 13:23

Ik heb (even) geen bron en misschien slaat het (toevalligerwijs) niet op dit specifieke project, maar ik meen me te herinneren dat er regelmatig supercomputers die in de top 100 voorkomen (ook of alleen voor) het berekenen van de weermodellen en dan waarschijnlijk op 'langere termijn' (2 weken?)

Toch maar zelf even gegoogled en kwam uit op webwereld
...
De supercomputer wordt door het Amerikaanse ministerie van Defensie gebruikt om geavanceerde simulaties uit te voeren over het nucleaire arsenaal, onder meer om uitgebreide natuurkundige berekeningen uit te voeren die vervolgens worden gebruikt om de code van nieuwe wapensystemen te verfijnen.
...

Daarnaast zal het ook wel een kwestie zijn van "Omdat het kan" en een stukje prestige.

Update: ik was al te laat en hoefde het niet ver te zoeken, hier op tweakers hadden ze er ook al een artikel aan gewijd. Zie de reactie van SpeedQber

[Reactie gewijzigd door GRDavies75 op 22 juli 2024 14:09]

darkvalias @GRDavies75 • 7 mei 2019 13:46

Nog even als toevoeging. AFAIK gebruiken ze ze niet alleen voor het ontwikkelen van nieuwe wapensystemen maar ook om te simuleren hoe de bestaande wapens degraderen en wat de effecten hiervan zijn op bijvoorbeeld de explosies en veiligheid in eventuele silo's e.d.

hooibergje @Squishie • 7 mei 2019 16:04

Vooral voor het oplossen van differentiaalvergelijkingen. Die vergelijkingen en hun randvoorwaarden zijn vaak zo ingewikkeld dat de oplossing niet analytisch uit te rekenen is. In plaats daarvan wordt het gebied verdeeld in kleine stukjes, zogenaamde elementen, waarop een lineaire benadering van de oplossing wordt gekozen. Hoe meer elementen, deste nauwkeurig de oplossing, over het algemeen.

Zo'n lineaire vergelijkingen op een element hangt af van de vergelijkingen van de elementen ernaast. Hierdoor ontstaat er een groot systeem van vergelijkingen die allemaal uiteindelijk van elkaar afhankelijk zijn. Het oplossen van dergelijke systemen is een wiskundige discipline op zichzelf.

Deze systemen worden al snel zo groot dat ze niet in het geheugen van een enkele computer passen.
Tevens is er zoveel rekenwerk aan dat erg lang duurt om het door een enkele computer te laten doen.
Daarom worden er grote parallelle systemen voor gebruikt.
Grote supercomputers doen dan ook vrijwel niks anders dan het oplossen van dergelijke systemen.

Een groter systeem wil zeggen dat je je gebied in meer elementen kan verdelen, en daardoor meer nauwkeurigheid kan verkrijgen.

Keypunchie @Squishie • 7 mei 2019 13:15

Crysis.

Deeltjes-dynamica simulaties.

[Reactie gewijzigd door Keypunchie op 22 juli 2024 14:09]

PalingDrone @Squishie • 7 mei 2019 13:30

Sinds kernproeven verboden zijn maar het simuleren dezes dmv bakken rekenkracht niet is zo'n supercomputer best handig.
-edit-
Dit valt ook onder het ministerie van Energie.

[Reactie gewijzigd door PalingDrone op 22 juli 2024 14:09]

Dorstlesser @Squishie • 8 mei 2019 09:23

Wat anderen hieronder zeggen klopt, maar ter aanvulling en verduidelijking is het nog handig om te weten dat al die berekeningen vaak heel vaak herhaald worden. Als je een berekening doet aan een proces dat chaotisch is (hele kleine afwijkingen aan de beginstaat kunnen tot grote afwijkingen in de eindstaat leiden) of processen waar een element van kans of onzekerheid inzit (omdat je niet weet wat de exacte waarde is neem je meerdere waardes uit een bereik, of je wilt een kansverdeling berekenen); in die gevallen wil je een berekening misschien wel 100.000 keer herhalen. Soms heb je meerdere elementen in een model die dat soort herhaling vereisen; hoppa, daar ga je dan, 100.000^2, 100.000^3....

Astennu

AMD
AMD EPYC

7 mei 2019 15:22

Ik vraag mij af of de Instinct kaarten in die super computer wel Navi based worden. Navi lijkt tot nu toe niet echt een compute architectuur te worden zoals Vega. Tenzij ze wel alles zoals FP64 over gaan nemen.

Wat wel zou kunnen is dat de hardware die ze eventuele gaan gebruiken voor Hybrid Raytracing ook goed gebruikt kan worden voor deeplearining. En dat de Navi 20 chip dan wel. In de instinct lijn komt als een deep leaning chip. Deze kan dan naast Vega 20 komen waar Vega 20 meer allround compute en FP64 powerhouse is en Navi meer focus op AI/Deeplearining heeft.

Aangezien de oplevering 2021 vraag ik mij af of de opvolger van Navi dan al klaar is. Het zou natuurlijk net kunnen en dat ze die dan eerst voor dit project leveren en dan pas andere klanten.

Qua cpu zou dit best wel eens Zen 4 kunnen zijn. In ieder geval Zen 3.

xorpd @Astennu • 7 mei 2019 19:49

Die Instinct kaarten zijn Vega's, met hun ECC, HBM2, FP64 en INT8 power. Dingen waar consumenten weinig aan hebben, daar is Navi voor.

Astennu

AMD
AMD EPYC

@xorpd • 7 mei 2019 20:22

Tot nu toe is Instinct voornamelijk Fiji en Vega.
Maar het is niet gezegd dat Navi helemaal niet naar het datacenter zal komen. Zoals ik al zei als ze hardware maken voor RayTracing kan die mogelijk ook heel goed in te zetten zijn voor Deepleaning en AI.
Waarschijnlijk is die chip dan niet zo geschikt voor FP64 daar zal Vega beter geschikt voor zijn.

LetGalaxy @Astennu • 7 mei 2019 20:31

Het is mij ook een raadsel waarom de vermoedelijke GPU architectuur Navi zou zijn. Van Navi weten we vrijwel zeker dat deze gaan werken met GDDR6 in plaats van HBM2. Een Vega 20 GPU zou beter passen in het plaatje, al zou deze tegen die tijd misschien wat verouderd zijn. Het zou ook heel goed kunnen dat AMD naast Navi, tegelijk werkt aan de opvolger van Vega.

Astennu

AMD
AMD EPYC

@LetGalaxy • 7 mei 2019 20:34

Ze werken er sowieso aan. Er zijn nu waarschijnlijk 2-3 chips in ontwikkeling waarvan een Navi is. Een chip ontwikkelen duurt 3-4 jaar.

Shan @Astennu • 8 mei 2019 14:18

Amd was toch al bezig met nieuwe chip ontwerpen toen Radja Kudori aan de hoofd van Radeon divisie zat? Dus ik hoop dat het volgend jaar af is en dan in productie voor 2021 voor de massa.
Ik weet vrij wel zeker dat ze weer vertraging op lopen met hun beperkte budget. Zelf verwacht ik de nieuwe architectuur niet voor 2022.

Astennu

AMD
AMD EPYC

@Shan • 8 mei 2019 15:50

Radja was verantwoordelijk voor Navi en ik denk ook deels de opvolger die daar na gaat komen. Hij had de opdracht gekregen om het verbruik en de bottelnecks in GCN aan te pakken.

Shan @Astennu • 10 mei 2019 13:46

Zijn werk niet goed gedaan dus.
Vega verbruik was te hoog en ook nog bottlenecks. Kun je weer zeggen dat met undervolt goed te maken is. En dat er teveel word besteed naar sony en microsoft. Alles bijelkaar had die vent nog steeds niet goed werk geleverd.

Ik hoop dat die slechte nieuws over navi niet zo is. Moet echt afwachten op de woorden van amd zelf. Tis wel de laatste gcn. En dan duurd het weer een paar jaartjes voordat de nieuwe komt. Dus ik ga hem wel halen. Kan ik weer een paar jaartjes mee uitbrommen. Die vega64 + 10% lijk me wel voldoende voor komende 3 jaar voor mij.

Astennu

AMD
AMD EPYC

@Shan • 10 mei 2019 13:49

Hij was verantwoordelijkv voor Navi niet voor Vega. Toen hij daar kwam was Vega al bijna klaar daar kun je dan niets meer aan doen. De tunning van Vega had wel beter gekund want die chip wil je gewoon niet boven de 1.1v draaien en dat doet AMD wel als power en temp het toe laat en dat moet je imo niet willen.
En wie zegt dat hij er iets over te zeggen had hoeveel tijd er naar Sony en MS ging? Sony en MS hebben AMD wel boven water gehouden toen de CPU's flopte. Daarnaast wilde hij volgens mij ook naar Intel zodat hij meer vrijheid kreeg.

Navi kan een prima chip worden om de GCN generatie af te sluiten. Ik ben vooral benieuwd wat er daar na gaat komen.

Shan @Astennu • 10 mei 2019 18:46

Wat ik had gelezen was dat hij vrij veel tijd naar sony en ms moest besteden. Natturlijk omdat die 2 bedrijven hun al die tijd levend had gehouden.

We moeten nu naar de toekomst kijken na de navi. Als ze een goed ontwerp hebben dan kan het opeens omdraaien tegen nvidia.

Rob Coops

Supercomputers

7 mei 2019 15:41

In 1997 werd de eerste computer die de teraflop grens slechte gepresenteerd.
In 2011 werd de petaflog grens geslecht
En in 2021 al de exaflop?

Dus in 14 jaar om van 1 000 000 000 000 naar 1 000 000 000 000 000 floating point berekeningen per seconde te gaan maar daarna maar 10 jaar om van 1 000 000 000 000 000 naar 1 000 000 000 000 000 000 berekeningen te komen. Dat is echt een belachelijke versnelling in de verbetering van computers en hun rekenkracht.
Als deze lijn zich doorzet dan zullen we waarschijnlijk binnen een paar maanden een andere partij een 10 Exa computer horen aankondigen om tegen 2025 of zo de aankondiging van de zeta scale computer te mogen vernemen.

Nu lijkt het me sterk dat dingen zo snel zullen gaan want dankzij het steeds lastiger worden van het verkleinen en dus versnellen van de chip structuren zullen we of een nieuw materiaal moeten vinden of hele erg veel efficientere structuren moeten uitvinden om de groei door te kunnen zetten.
Natuurlijk kun je voorstellen om steeds meer en meer GPU's en CPU's in te zetten maar er zijn wat dat betreft limieten omdat ze nu al supercomputers hebben die bijna even veel energie gebruiken als een gemiddelde woonwijk. Je kunt dat vast nog wel een stukje verder groeien tot een kleine stad maar er zit wat dat betreft toch echt een limiet aan wat aan energie kunt verstoken in een supercomputer zonder dat de operating cost zo hoog worden dat zelfs het Amerikaanse department of energy of defense het nog zullen willen betalen.

(datums erg verkeerd dus even aan gepast)

[Reactie gewijzigd door Rob Coops op 22 juli 2024 14:09]

Groningerkoek @Rob Coops • 7 mei 2019 16:27

De gpu/cpu zelf hoeft niet krachtiger te worden (hoewel het wel helpt natuurlijk) men slaagt er steeds beter in om meer gpu's/cpu's parellel te laten werken. En energieverbruik, het gaat niet zozeer om hoeveel de computer verbruikt, maar hoeveel Watt deze verbruikt per hoeveelheid rekenkracht, en daarin kunnen juist de grotere systemen wel een betere efficiëntie hebben. En bij een enorm verbruik kan er schaalvoordeel behaalt gaan worden door eigen opwekking, net zoals dat Akzo-Delfzijl een eigen Energiecentrale op haar terrein heeft.

Rob Coops

Supercomputers

@Groningerkoek • 7 mei 2019 17:12

Natuurlijk de huidige super computers in Oakridge hebben al een eigen centrale omdat het net de nodige MW's niet echt zal kunnen leveren. Maar de kosten om zo iets te draaien hoe efficient ook zullen zonder een verdere verkleining en verhoging van de snelheden van de componenten niet beheersbaar blijken.

Nu verstookt een beetje super computer al MW's aan energie als je richting 10 of 100x zo veel rekenkracht wil kun je moeilijk honderden MW's aan energie verstoken en de kosten om het ding te laten draaien gelijk houden. Om die reden denk ik dat we tegen een grens zullen aanlopen waar we of meer efficientie moeten bereiken of nog hogere snelheden met lager verbruik zullen moeten bereiken.

Het feit dat ik in plaats van 1000 Xeon CPU's nu ook 100.000 Xeon CPU's kan draaien is leuk maar als dat inhoud dat ik 100x zo veel geld kwijt ben aan het draaien van de cluster dan wordt het lastig om dit te verantwoorden en het geld los te peuteren bij de geldschieters.
Je zult dus echt iets moeten doen om het verbruik binnen de perken te houden omdat anders zeker als je in plaats van 10 of 100x een kleine 100x sneller wilt zijn en de Zetaflops wil gaan opzoeken je echt niet meer weg komt met het simpel weg verhogen van de run kosten.

Zie je het al voor je, ja nee meneer met het geld de computer is nu 1000x zo groot kost 100x zo veel om te bouwen maar kost ook 1000x zo veel om te draaien want ja nou ja het kost nog al niet wat om al die processoren lekker warm te houden...
Dat kun je simpel weg niet verkopen. De enige manier om door te blijven groeien met de snelheid die we nu zien is om de run kosten onder controle te houden. Anders zullen de mensen met de centen echt gewoon vast blijven houden aan de huidige systemen omdat ook zij niet oneindig diepe zakken hebben en de kosten moeten kunnen verantwoorden.

Groningerkoek @Rob Coops • 7 mei 2019 17:29

Nogmaals, het gaat niet zozeer om de totale runkosten, het gaat om de runkosten per rekeneenheid. En schaalvergroting leid in het huidig economisch systeem al snel tot een besparing per product. Vergeet ook niet dat er zeer veel geld omgaat in het verhuren van de rekenkracht, en de vraag naar rekenkracht voor steeds ingewikkelder berekeningen neemt alleen maar toe. Waarom zou je het niet kunnen verkopen als een computer 500MW nodig zou hebben als je hierbij ook een goed economisch model kunt presenteren. Juist bij dat soort schaalvergrotingen valt er veel voordeel te behalen bij eigen opwekking. Een centrale bouwen en onderhouden inclusief personeel voor 20MW is lang niet zo voordelig per MW als 1 van 500MW bouwen.

[Reactie gewijzigd door Groningerkoek op 22 juli 2024 14:09]

vlaaing peerd @Rob Coops • 7 mei 2019 17:01

Het gaat niet zozeer om de performance per chip, maar vooral de pure kwantiteit. Als je 1000 van die clusters uit 2011 aanelkaar zou knopen, kom je simpel gezegd ook op dezelfde rekenkracht.

Men hoeft dus de chips niet zozeer te verkleinen, je moet er vooral veel van aanelkaar knuppen.

Rob Coops

Supercomputers

@vlaaing peerd • 7 mei 2019 17:14

Maar de kosten voor het draaien van de systemen zal dan ook 1000x zo hoog zijn, en dat is war het probleem zit. Natuurlijk kun je alle mogelijke systemen van d wereld aan elkaar knopen maar het kost simpel weg te veel om die systemen ook echt te draaien.

uip 7 mei 2019 14:53

's werelds grootste, en dat op een oppervlakte van 678 m²? Lijkt mij heel goed op elkaar gepropt dan

setaoe @uip • 7 mei 2019 15:32

Oppervlakte is niet zo intresant, hoeveel kubieke meter is het geheel is veel intresanter

lordawesome 7 mei 2019 16:21

De Intel variant was 500 miljoen voor 1 exaflop. Deze is 600 miljoen voor 1,5 exaflop. Goede deal dus!

MISTERAMD 7 mei 2019 16:40

"De cpu's en gpu's communiceren middels de Infinity Fabric-interconnect."

Over hoeveel cores de CPU dan in het totaal heeft, daar spreken ze niet van. Zal nog geheim zijn?

Rekcor 7 mei 2019 16:47

Volgens dit overzicht staat momenteel op nr 1 een computer met de volgende specs: 2.397.824 cores, 143.500 Tflop (Rmax), 200.794 Tflop (Rpeak), 9.783 KW (power)

Over het energieverbruik: een gemiddeld Nederlands gezin gebruikt per jaar 3000 kWh

Eikeltje 7 mei 2019 17:16

AMD heeft ook een korte video over gepubliceerd:
YouTube

Ostar 7 mei 2019 19:02

Zou je hier goed bitcoins mee kunnen minen?

theduke1989 7 mei 2019 13:12

Toch wel goed dat ze hiervoor kiezen.

Niet meer Intel / of Nvidea was er ook volgens mij.
AMD kan hierbij ook meespringen en uiteindelijk voor de consument ''ook bouwen''

Verwijderd @theduke1989 • 7 mei 2019 13:23

Nee, de overlap met consumenten hardware is minimaal bij dit soort projecten.

batjes @Verwijderd • 8 mei 2019 08:41

AMD haalt een boel kennis en ervaring uit dit soort samenwerkingsverbanden.

jaapstobbe @theduke1989 • 7 mei 2019 13:21

Ik erger me er al 20 jaar aan dat mensen Nvidia nog steeds niet goed kunnen spellen. Wellicht dat deze computer kan uitzoeken waarom juist dit woord zo moelijk is om goed te spellen.