'AMD Radeon Instinct MI200-accelerator krijgt 128GB HBM2e'

AMD's Radeon Instinct MI200-accelerator voor datacenters lijkt 128GB aan HMB2e te krijgen. Dat is vier keer zoveel als de huidige MI100. Ook is de accelerator vermoedelijk de eerste gpu van AMD die, net als de Ryzen-processors, opgebouwd is uit meerdere chiplets.

Het Australische Pawsey Supercomputing Centre werkt aan een nieuwe supercomputer met de naam Setonix en daarin komen 'MI-next'-gpu's met 128GB vram per gpu, schrijft HPC Wire. AMD heeft zijn Instinct MI200-kaart nog niet aangekondigd, maar er is eerder al meer informatie over verschenen.

Twitter-gebruiker Locuza publiceerde vorige week een diagram van de gpu, die gebaseerd is op de CDNA2-architectuur van AMD. Het zou gaan om een MCM-ontwerp, ofwel een Multi-Chip-Module. Daarbij worden meerdere chips gecombineerd, net als bij de Ryzen-processors met chiplets waarin de cpu-cores zitten.

Volgens het diagram zou AMD in totaal acht stapels van 16GB HBM2e gebruiken en zou de MI200 uit twee chiplets bestaan. De accelerator zou 128 compute-units bevatten en dat zou goed kunnen zijn voor 16.384 streamprocessors, maar het is nog niet duidelijk of die allemaal zijn geactiveerd.

De MI200 is de eerste accelerator op basis van de CDNA2-architectuur, die eerder op de roadmap stond voor 2022. De gpu zou de codenaam Aldebaran dragen en is de beoogde opvolger van Arcturus, ofwel de Radeon Instinct MI100. AMD's Instinct-accelerators worden toegepast in datacenters en supercomputers. De accelerators zijn niet te gebruiken als videokaart.

Radeon Instinct MI200Radeon Instinct MI200
AMD Instinct Accelerators
Accelerator-naam AMD Instinct MI100 AMD Instinct MI200*
Architectuur 7nm CDNA1 (GFX908) CDNA2 (GFX90A)
Gpu-naam Arcturus Aldebaran (Multi-Chip-Module)
Gpu-cores 7680 Nnb
Gpu-snelheid ~1500MHz Nnb
FP16 Compute 185Tflops Nnb
FP32 Compute 23,1Tflops Nnb
FP64 Compute 11,5Tflops Nnb
Vram 32GB HBM2 128 GB HBM2E
Geheugensnelheid 1200MHz Nnb
Geheugenbus 4096bit-bus Nnb
Geheugenbandbreedte 1,23TB/s Nnb
Formfactor Dual Slot, Full Length OAM
Koeling Passief Nnb
Tdp 300W Nnb

*Specificaties nog niet officieel bevestigd

Door Julian Huijbregts

Nieuwsredacteur

06-07-2021 • 08:31

22

Reacties (22)

22
20
8
0
0
3
Wijzig sortering
Dat zijn indrukwekkende getallen.
Even ter vergelijking, de supercomputer uit 2005, genaamd IBM Blue Gene, haalde een vergelijkbaar aantal flops.

bron
Je kan de FP16 performance die hier wordt aangegeven echt niet vergelijken met een LINPACK performance. LINPACK werkt op FP64 en runt verschillende routines die niet allemaal compute bound zijn. Peak throughput van dit systeem voor FP64 is maar 11,5 TFLOPS waar supercomputers 5 jaar eerder al zaten.
Ik heb zelfs scheef gekeken, die getallen zijn van de voorganger! |:(
Dat zijn 4 aan elkaar geknoopte chiplets met ieders eigen 32GB HBM.

Ben heel erg benieuwd naar de TDP. AMD kennende zullen deze lager geklokt zijn maar pushen veel meer IPC's dan de voorgangers.
Het zijn er twee van 128 CU's per chiplets. FP64 zou nog hoger zijn en ik denk dat ze ook wrl wat aa de low precision deep learning prestaties gaan doen.

De generatie er na gaat waarschijnlijk meer chiplets krijgen.
De uitdaging is om de latency laag te houden. In dat opzicht is met tere chiplets beginnen slim.
En gestapeld geheugen en een chiplet ontwerp AMD is goed bezig. Aangezien nVidia ook goed bezig is kunnen we nog wel meer innovaties verwachten op dit vlak. Zo zie je weer dat concurrentie goed voor de klant is en je monopolies zoveel mogelijk moet bestrijden.
Dat kan wel eens een snelle rakker zijn...
But does it run Crysis?
Nope, hij heeft niet eens een aansluiting voor een monitor voor de datacenter engineer die eens een lekker potje doom wil spelen.
Linus tech tips heeft wel laten zien dat het gemis van een display aansluiting geen obstakel hoeft te zijn :D
Ik vrees alleen dat de prijs van deze kaart zelfs 6 flinke game machines overtreft. En dan heb de de rest van de server nog niet eens bij elkaar.
Dat is voor 4 aan elkaar geknoopte chiplets.

Als ik een kaart met 1 chiplet zou kunnen betalen zou ik wel wat dingen willen proberen.
Naturally, that means the CDNA designs come without many of the traditional fixed-function blocks needed for graphical work, like rasterization, tesselation, graphics caches, blending, and the display engine
Deze kaart (in tegenstelling tot de NVidia Ampera kaarten) kan niet worden gebruikt voor gaming omdat hij diverse functies hiervoor gewoon mist. Dus helaas een virtual gaming rig zal hier niet echt op werken, je zal dan toch naar NVidia moeten voor bijvoorbeeld een A100.

Dat gezegd denk ik dat je zoals @JBVisual al aangeeft goedkoper uitbent met gewoon normale kaarten in een server te knallen :)
Nope, hij heeft niet eens een aansluiting voor een monitor voor de datacenter engineer die eens een lekker potje doom wil spelen.
Niet dat je een monitor op een moderne videokaart hoeft aan te sluiten om er spellen mee te kunnen spelen.
Je hebt er dus op dat vlak vrij weinig aan. Gemiste kans! :P
Neuh. Je hebt helemaal niet zo veel geheugen nodig om te minen, maar vooral snel geheugen.
Wellicht dat je met zoveel geheugen proof of stake kan gaan doen op deze gpu :+.
Daarnaast is er qua geheugen niet veel snellers dan HBM, dus qua snelheid zoals al gepost was zit je al goed.
1.23 TB /s is anders aardig snel toch?
Ja, op zich wel, ja... 8-)

Op dit item kan niet meer gereageerd worden.