AMD brengt Instinct MI200-accelerators uit met multi-chip-ontwerp en 128GB HBM2e

AMD kondigt zijn Instinct MI200-serie accelerators voor datacenters en supercomputers aan. Deze chips zijn gebaseerd op de CDNA 2-architectuur en beschikken over 128GB HBM2e-geheugen. Het zijn daarnaast de eerste gpu's met een multi-chip module-ontwerp.

AMD brengt aanvankelijk twee accelerators uit in zijn MI200-serie, zo maakte het bedrijf maandagavond bekend tijdens zijn datacenterlivestream. Het bedrijf komt met een AMD Instinct MI250x en MI250, die verschillen in het aantal compute units. De chips maken gebruik van de CDNA 2-architectuur, die is bedoeld voor gebruik in datacenters en supercomputers. AMD brengt later ook een MI210-gpu met PCIe-formfactor uit, hoewel daarvan nog geen specificaties bekend zijn.

De Instinct MI250-accelerators zijn de eerste gpu's met een zogeheten mcm-ontwerp, oftewel multi-chip module. Daarbij worden meerdere compute dies gecombineerd op een enkele chip. De MI250x en MI250 beschikken ieder over twee van deze CDNA2-dies, die worden geproduceerd op TSMC's 6nm-node.

MI200: 128GB HBM2e en maximaal 220 compute units

De MI250x beschikt over twee computemodules die ieder beschikken over 110 compute units, voor een totaal van 220 cu's. De MI250 krijgt op zijn beurt twee modules met 104 cu's, wat in totaal neerkomt op 208 compute units. Dit wordt op beide chips aangevuld met 128GB HBM2e-ecc-geheugen. De maximale kloksnelheid van beide varianten bedraagt 1,7GHz.

De accelerators krijgen daarnaast ieder vier HBM2e-controllers met een totale geheugenbandbreedte van 3,2TB/s. De MI200-gpu's krijgen verder acht Infinity Fabric-links van de derde generatie, die gebruikt worden om chips met elkaar te verbinden en memory coherence tussen verschillende cpu's en gpu's mogelijk maken.

De MI200-gpu's beschikken daarnaast over de tweede generatie Matrix-cores AMD, die bedoeld zijn voor het uitvoeren van fp64- en fp32-matrix-berekeningen voor hpc- en AI-toepassingen. Volgens de fabrikant zijn deze Matrix-cores tot vier keer sneller dan AMD's voorgaande Instinct MI100-accelerators. De MI250x krijgt in totaal 880 Matrix-cores en bij de MI250 ligt dat aantal op 832.

AMD Instinct MI250x en Instinct MI250
Model	Compute units	Stream processors	Geheugen	Bandbreedte	FP64/FP32 vector	FP64/FP32 matrix	FP16/BF16	Formfactor
AMD Instinct MI250x	220	14.080	128GB HBM2e (ecc)	3,2TB/s	Tot 47,9Tflops (piek)	Tot 95,7Tflops (piek)	Tot 383Tflops (piek)	OAM
AMD Instinct MI250	208	13.312	128GB HBM2e (ecc)	3,2TB/s	Tot 45,3Tflops (piek)	Tot 90,5Tflops (piek)	Tot 362,1Tflops (piek)	OAM

Piekprestaties: 'maximaal 47,9Tflops bij fp64'

Volgens AMD is de MI200-serie hiermee aanzienlijk sneller dan de eerste generatie Instinct MI100-gpu's, en ook sneller dan de concurrentie. De MI250x haalt FP64 Vector-prestaties tot 47,9Tflops. Nvidia's A100 zou bij dergelijke FP64-berekeningen bijvoorbeeld een rekenkracht van maximaal 9,7Tflops halen. Het bedrijf spreekt ook over FP64 en FP32 Matrix-piekprestaties tot 95,7Tflop/s en FP16- en BF16-prestaties van maximaal 383Tflops.

De eerste MI200-accelerators worden momenteel al geleverd aan het het Oak Ridge National Laboratory van het Amerikaanse ministerie van energie. De chips zullen gebruikt worden in de Frontier-exascalesysteem. Naar verwachting haalt die supercomputer piekprestaties van 'meer dan 1,5 exaflops'. Thomas Zacharia van het Oak Ridge National Laboratory vertelt dat een enkele MI200-gpu krachtiger is dan een volledige node uit de Summit-supercomputer. Hij meldt daarbij dat Frontier momenteel geïnstalleerd wordt en 'begin volgend jaar' online komt.

AMD kondigde zijn Instinct MI200-serie op maandagavond aan, gelijktijdig met zijn nieuwe EPYC Milan-X-serverprocessors met 3D V-cache. Het bedrijf gaf op maandag ook een voorproefje van zijn Zen 4-architectuur, die gebaseerd zal zijn op TSMC's 5nm-node en beschikbaar komt in EPYC-cpu's met verschillende core-types.

Reacties (29)

J_C 8 november 2021 18:59

Wat is de prijs van zoiets?

AmigaWolf @J_C • 8 november 2021 19:02

Reken maar op €5000+

Dat zie ik ook met die professionele grafische kaarten van Nvidia Quadro kaarten.

[Reactie gewijzigd door AmigaWolf op 22 juli 2024 22:36]

YoMarK @AmigaWolf • 8 november 2021 19:14

Quadro kaarten zijn Workstation kaarten. Dit is concurrentie voor b.v de A100 kaarten https://www.nvidia.com/en-us/data-center/a100/
Prijs zal eerder bij 40k beginnen, afhankelijk van de uitvoering.

AmigaWolf @YoMarK • 8 november 2021 19:24

Quadro kaarten zijn Workstation kaarten. Dit is concurrentie voor b.v de A100 kaarten https://www.nvidia.com/en-us/data-center/a100/
Prijs zal eerder bij 40k beginnen, afhankelijk van de uitvoering.

Ja weet dat de Quadro kaarten Workstation kaarten zijn, maar denk niet dat 1 kaart €40000 is, en hoe meer iemand er koopt tegelijk, hoe goedkoper het woord.

Edit spelfouten.

[Reactie gewijzigd door AmigaWolf op 22 juli 2024 22:36]

jvo @AmigaWolf • 8 november 2021 20:31

40k lijkt me niet ondenkbaar gezien de performance ten opzichte van de A100 en de prijzen daarvan:
https://tweakers.net/pricewatch/1615852/pny-nvidia-a100.html

Quantumkorting zal er vast zijn, maar ook dat zal de orde grootte niet veranderen.

Damic @J_C • 8 november 2021 19:11

Ow en koopt er niet 1 maar minimum 4 of 8 per server dat 4x of 5x per rack en dat dan x racks

Keeper of the Keys @J_C • 8 november 2021 23:27

Een server met 8 nVidia A100 (80GB modellen), 2 Epyc Milan CPUs en ca. 1T RAM zit ergens rond de $200000.

De prijs voor zo'n AMD systeem zal waarschijnlijk ook in die buurt zitten, ik verwacht dat ze niet duurder zijn omdat ze op dit moment een markt die toch wel heel door nVidia/CUDA is gedomineerd proberen in te komen.

Verwijderd 8 november 2021 19:40

Zijn die matrix cores niet gewoon raytracing cores die je in de normale (gamer) lijn van grafische kaarten vindt? Knappe prestatie hoor, en vooral ook het uit kunnen breiden tot op 8 blokken per server.

jvo @Verwijderd • 8 november 2021 20:41

Nee, raytracing is stiekem best wel wat complexer zou ik zeggen. Ik zou haast zeggen dat dit is tot een gpu, wat een gpu is tot een cpu. Waar gpu's de afgelopen jaren steeds complexere zaken zijn gaan ondersteunen, gaat dit wat meer terug naar het ruwe triangle/pixel pushen van gpu's van 20 jaar geleden. (Maar dan matrices en neurale netwerken pushen.)

Scriptkid @Verwijderd • 8 november 2021 21:26

eerder andersom,

deze dedicated chips worden gemaakt en dan komt men er achter dat somige onderdelen games kunnen versnellen en dan bouwt men daar een aftreksel van voor de consument.

Verwijderd 8 november 2021 19:45

64 bit floating points, vector operations. AMD heeft duidelijk logic toegevoegd voor deze operaties. Weet iemand welke toepassing dit heeft? Welke klanten gaan hier gebruik van maken?

blabla1234 @Verwijderd • 8 november 2021 19:58

De meeste AI modellen maken gebruik van vectoren en matrices, kan me voorstellen dat het ook van pas komt bij een hoop geologische en andere berekeningen

bjp 8 november 2021 20:00

zoveel geheugenbrandbreedte... zalig!

derikkert 8 november 2021 20:03

Fors dikke gpu's. Eindelijk een MCM ontwerp, al is het natuurlijk iets makkelijker op een HPC gpu dan een gaming gpu.

machiel 8 november 2021 20:32

Hoe zit het met de software/library support?

OverTeeHill 9 november 2021 02:07

ik denk, of hoop liever, dat dit nu de duw in de rug is die nodig zou zijn om cloud gaming naar next level te brengen. Zet en paar racks van die dingen neer in een datacenter bij top developers en dan kunne we pas echte gigantische, wereldomvattende single shard mmos gaan spelen. Kan ook zijn dat ik nu eigenlijk slaap en dit gewoon een natte droom is.

[Reactie gewijzigd door OverTeeHill op 22 juli 2024 22:36]

Twanekel @OverTeeHill • 9 november 2021 09:41

Deze kaarten hebben doorgaans geen display adapter, al zal er ongetwijfeld een versie komen met display adapter. Wat dat betreft is een rx 6900xt in server racks plaatsen een betere oplossing.

[Reactie gewijzigd door Twanekel op 22 juli 2024 22:36]

Dorstlesser @OverTeeHill • 9 november 2021 12:07

Waarschijnlijk is dat geen goed idee. De geheugen en core architectuur is namelijk suboptimaal voor gaming.

LieveNiels 8 november 2021 19:24

But, will it mine?

Verwijderd @LieveNiels • 8 november 2021 19:39

Zo'n setup zal behoorlijke dagopbrengst leveren ja.

divvid @LieveNiels • 8 november 2021 20:00

wat interessanter is, hoe staat deze optie van AMD naast b.v. de A100 en hoe makkelijk kunnen cuda projecten hier op gaan draaien. De beperking zit 'm vaak in de tijd die het kost om bestaande software om te bouwen of aan te passen. (redactie: hint?!)

[Reactie gewijzigd door divvid op 22 juli 2024 22:36]

vmihai 8 november 2021 20:52

Let op, dit wordt de basis voor een PS5 Pro.

germania @vmihai • 8 november 2021 23:12

Nee, dit is een hele andere tak van sport.

Twanekel @vmihai • 9 november 2021 09:42

Zeker niet hahha

vinx77 9 november 2021 13:11

Vergelijking met MI100 is handig hier, want dit is wel een dual-GPU maar niet gewoon 2x MI100. Vroeger hadden we de S10000 die wel gewoon 2x S9000 was.
Zo'n dual-chip kost wel flink veel meer Wattjes, maar vergeet niet dat geheugenbandbreedte een flink aandeel heeft in energieverbruik - elektronen verplaatsen is duur.

MI2xx vs MI100:

iets minder compute units per chip, want MI100 heeft er 120 en dus meer dan een enkel MI2xx chip
de infinity fabric tussen de 2 GPUs zorgt voor erg hoge transfer-snelheden - kan geen setje van 2x MI100 tegenop.
de infinity fabric tussen GPU en CPU is een fikse stap verder dan chiplets. Begon jaren geleden al met HSA (mijn bedrijf was consortium lid sinds het begin), en is nu eindelijk volledig in de markt gezet na vele aankondigingen. Grappig feitje is dat Xilinx ook in HSA-foundation zat.
CDNA 2 ipv CDNA 1. Zie https://www.anandtech.com...y-cdna2-exacale-servers/2 voor een mooi overzicht - vooral meer dual precision valt op, en daar moet de de MI2xx in uitblinken. Nvidia heeft errrug veel focus gehad op low-precision ivm AI, waardoor HPC wat tweederangs werd - AMD heeft dit opgepakt.

Vooral de socket-versie vind ik erg mooi want infinity fabric. Voor de PCIe-versie kan 2x MI100 ook prima, behalve als je je server maximaal wil opvullen. Nu wachten op prijzen.

Op dit item kan niet meer gereageerd worden.

MI200: 128GB HBM2e en maximaal 220 compute units

Piekprestaties: 'maximaal 47,9Tflops bij fp64'

Lees meer

Reacties (29)

Sorteer op:

Weergave: