AMD introduceert Instinct MI350-gpu's met tot 288GB HBM3E-geheugen en 1400W-tdp

AMD heeft tijdens zijn Advancing AI-presentatie een nieuwe generatie gpu's voor datacenters aangekondigd. De Instinct MI350X en MI355X maken gebruik van de nieuwe CDNA 4-architectuur en worden grotendeels geproduceerd op TSMC's N3P. Het topmodel krijgt een 1400W-tdp.

De nieuwe AI-gpu bestaat eigenlijk uit acht dies met elk 32 compute-units, voor een totaal van 256 CU's. Ter vergelijking: AMD's huidige topmodel voor consumenten, de RX 9070 XT, telt 64 CU's. De op 3nm geproduceerde rekendies zijn met TSMC's CoWoS-S-packagingtechniek gestapeld op twee i/o-dies met onder meer de geheugeninterface en de L2-caches. Deze i/o-dies worden op 6nm gemaakt.

Volgens AMD zijn de nieuwe Instinct-gpu's vier keer zo snel in AI-berekeningen als hun voorgangers, al komt dat voor een groot deel doordat er nieuwe fp4- en fp6-formaten worden ondersteund. Nvidia voegde ondersteuning voor deze formaten, waarmee precisie wordt ingeleverd ten faveure van snelheid, ook toe aan zijn Blackwell-generatie. De MI350X en MI355X hebben daarnaast meer vram dan de bestaande MI325X, namelijk 288GB in plaats van 256GB, dat met een bandbreedte van 8TB/s bovendien een derde sneller is.

AMD Instinct MI325X MI350X MI355X
Architectuur CDNA 3 CDNA 4 CDNA 4
Productieproces TSMC N5 / N6 TSMC N3 / N6 TSMC N3 / N6
Compute-units 304 256 256
Prestaties fp16 1,3 pflops 2,3 pflops 2,5 pflops
Prestaties fp8 2,6 pflops 4,6 pflops 5 pflops
Prestaties fp4 n.v.t. 9,2 pflops 10 pflops
Tdp 1000W 1000W 1400W
L2-cache 256MB 256MB 256MB
Geheugen 256GB HBM3E 288GB HBM3E 288GB HBM3E
Geheugenbandbreedte 6TB/s 8TB/s 8TB/s
Interface PCIe 5.0 x16 PCIe 5.0 x16 PCIe 5.0 x16
Release oktober 2024 Q3 2025 Q3 2025

De release van de nieuwe gpu's in het derde kwartaal van dit jaar valt samen met het beschikbaar komen van de ROCm 7-softwarestack. Die kan onder meer gebruikt worden voor training en inferencing van AI-modellen. Volgens AMD is ROCm 7 sneller, worden inferenceframeworks als SGLang en vLLM beter ondersteund en is de software beter geschikt voor gebruik in enterpriseworkflows. Bovendien komt ROCm later dit jaar ook beschikbaar voor AI-ontwikkeling op Ryzen- en Radeon-hardware in Windows.

AMD keek ten slotte vooruit naar zijn roadmap voor AI-hardware in de komende jaren. De chipontwerper gaat meer focussen op zijn volledige racks met EPYC-cpu's, Instinct-gpu's en Pensando-nics. Dit jaar komen die er met de bestaande vijfde generatie EPYC-processors, de nieuwe MI350-gpu's en de eveneens nieuwe Pensando Pollara-nic, die Ultra Ethernet met 400Gbit/s ondersteunt. Volgend jaar worden al die onderdelen van nieuwe generaties voorzien. Daarbij gaat het onder meer om de op 2nm geproduceerde EPYC Venice-cpu's en de Instinct MI400-gpu's, die twee keer zo snel moeten worden als de MI355X en tot 432GB HBM4-geheugen krijgen. In 2027 worden die weer opgevolgd door de EPYC Verano-serie en de Instinct MI500-reeks, die AMD nog niet eerder wereldkundig had gemaakt.

Door Tomas Hochstenbach

Redacteur

12-06-2025 • 20:30

27

Reacties (27)

27
26
7
1
0
12
Wijzig sortering
Ben wel nieuwsgierig of ROCm 7 eindelijk een goede en complete tegenhanger van CUDA gaat worden. Zeker als het naar consumenten spul gaat komen.

Oftewel gaat AMD dan gelijkwaardige performance en mogelijkheden bieden op LLM en beeld generatie vlak?
Gelijkwaardig nee,


Beter ja, alle amds hebben meer geheugen dan Nvidia dus performance in AI zal beter zijn
Beter ja, alle amds hebben meer geheugen dan Nvidia dus performance in AI zal beter zijn
Zo simpel is het niet. Meer geheugen (VRAM) betekent niet automatisch dat een GPU sneller is. De prestaties van een AI-GPU hangen af van veel meer dan alleen de hoeveelheid geheugen. Wat vaak belangrijker is, is hoe snel dat geheugen is (bandbreedte), hoe efficiënt de cores werken, en vooral: hoe goed de software-ondersteuning is.

AMD’s nieuwe Instinct GPU’s zijn nu sneller dankzij ondersteuning voor fp4- en fp6-precisie, waarmee je veel meer berekeningen per seconde kunt doen maar wel minder nauwkeurig. Dat zorgt voor spectaculaire snelheden in benchmarks, maar zegt eigenlijk weinig over algemene prestaties of compatibiliteit met bestaande AI-workflows.

Daarnaast heeft NVIDIA met CUDA een veel veel sterker ecosysteem dat al jaren diep geïntegreerd is in populaire AI-libraries zoals PyTorch en TensorFlow. In de praktijk betekent dat er betere ondersteuning is en je dingen kan draaien die simpelweg niet compatibel zijn met AMD gpu’s. Nvidia staat echt bijna problematisch alleen aan de top.

Uw claim van meer geheugen = sneller klopt dus niet. Dat wil niet zeggen dat AMD slecht bezig is, maar het heeft niets met meer geheugen te maken. Nvidia is nog steeds king op gebied van AI. Hate it or love it. I hate it want al wil zeggen dat Nvidia bijna geen concurrentie heeft op AI-vlak omdat er zoveel Cuda-specifieke AI is ontwikkeld.

[Reactie gewijzigd door Coolstart op 13 juni 2025 00:08]

OpenAI is net Google TPUs gaan gebruiken en Anthropic doet het al langer. Als je miljarden uitgeeft maakt wat extra software werk ook niet zo veel meer uit.

Ik vermoed dat de grote jongens nu al pre-trainen en inference doen in fp4 (bijvoorbeeld met Hadamard transformatie en QAT). De open frameworks lopen vrijwel zeker ver achter op SOTA.

[Reactie gewijzigd door Pinkys Brain op 13 juni 2025 10:28]

Zoals de TS vraag ,

ALS de software leveled is op een gelijk speel veld ,

zou de standaard hardware (Niet de AI acelerators ) dan sneller zijn, en daar zie je dat NVidia veel kaarten met minder geheugen uit rust en in de laatste benchmarks van Tweakers zie je duidelijk dat elk beetje RAM extra enorm prestaties toe voegd over het missen dan die RAM

Jij verplaatstde discussie nu naar non consumenten en naar ongelijk speelveld.
Ja dat zou wel tijd worden. AMD heeft daar inderdaad een been bij te trekken. Ze leggen het nu af in de consumentenmarkt tegen Apple en Nvidia. De hele pc architectuur moet op de schop, ze zullen de shared memory architectuur van Apple moeten gaan ondersteunen / kopiëren of videokaarten met 96 Gb geheugen een stuk goedkoper in de markt moeten gaan zetten. Als ze dat lukt hebben ze een Nvidia killer... AI is de reden waarom: grote kwalitatieve Large Language Models kunnen supporten op gewone consumenten machines.

[Reactie gewijzigd door oks op 13 juni 2025 11:29]

Da's inderdaad leuk dat Apple dat van AMD heeft gekopieerd. AMD kon dat in 2015 al.

Wikipedia: Heterogeneous System Architecture
Eh ja dat kon al in de jaren tachtig. Dat is het punt niet. Het gaat over de implementaties die nu gangbaar zijn. En dan zie je dat de Intel/amd architectuur daar nu slecht op is ingericht.
Net zoals elke LLM geport moet worden naar platformen apple silicon nv radeon.
Zal dat ook zo zijn met RocM7. Nv is defacto standaard en zal vele iteraties kwa optimalisatie slagen hebben dus kans is dat minder presteert .
Maar probleem is als past in 16 24 32GB RTX50 spul dan zal dat snel zijn.
Maar kleinere llm quantized 4 en klein zullen minder correct of kunnen falen.
Ze zijn dan wel snel. Goedkopere grotere vram geeft kans op betere correctheid met behoud van performance ipv resultaat error past niet. Of verdeelt ook over cpu of swappen en performance kelder enorm.
Dus is die kleine LLM bruikbaar met kleine vram.
Of heb je die grotere nodig. Vaak is gpu krachtig genoeg en is knelpunt vram grote.

Dat nv spark heeft ook maar kleinere igpu aan 128gb.
Het zou handig zijn wat balans is tussen gpu vram bandbreedte en vram grote.
Denk dat die 8 tot 32GB voor consumenten g-kaarten de grootste bottleneck is.
En je wilt niet inleveren op mindere resultaten. Dus 10 tokens/s q8 64gb vs 50tokens/s hallucinerende 16gb 5070ti
Jammer dat er geen Blackwell in de tabel is toegevoegd ter vergelijking.
Nou had AMD wat in te halen in deze markt.
Ze hadden helaas compleet de boot gemist.

Maar 3x de theoretische compute performance.
Zelfde stroom verbruik.

Wow, they have been cooking.
Vanuit het perspectief van high-performance clusters (HPC; grote serverfarms), was het probleem tot nog toe niet dat de AMD GPUs hardware-matig slecht zijn. Het zijn superkrachtige kaarten. Het probleem lag 'em bij de softwarestack. ROCm (tegenhanger van nvidia's CUDA) kon helaas niet typen aan de concurrent. Voor een enkele GPU, of een enkele node (een server met 4-8GPUs) kan je daar misschien een oogje voor dicht knijpen, zeker als het om inferentie gaat. Maar hedendaagse LLMs worden op duizenden GPUs tegelijkertijd getraind (multi-node, multi-GPU) waar verschillende servers dus pijlsnel met elkaar moeten kunnen communiceren. De schaalbaarheid bij AMD liep immens achter op nvidia.

Dat is niet om te zeggen dat AMD niet in HPC gebruikt wordt. LUMI, een Europese supercomputer, bevat 2978 AMD nodes met elk 4x MI250x GPUs (https://docs.lumi-supercomputer.eu/hardware/lumig/). Dat kan al tellen! Maar, zeker aan de start van LUMI, was het erg moeilijk om goed gebruik te maken van de hardware, zeker in multi-node omgevingen. Dat gezegd, AMD werkte nauw samen met LUMI en ze hebben al heel wat verbeteringen toegepast, die dan ook op de - overigens open-source - ROCm stack werden toegepast. (https://github.com/ROCm/ROCm)

De toekomst ziet er dus goed uit, met hopelijk weer echte concurrentie, al zijn we er nog niet. Nvidia is nog steeds in een zo-goed-als monopoly positie als het op HPC GPUs aankomt. Laat ons hopen dat AMD prachtige hardware kan blijven ontwikkelen en de software ook kan laten mee evolueren. Betere ROCm-support voor desktops kan al helpen, om ook consumenten geinteresseerd in AI naar het AMD-kamp te leiden.
Nou er is zeker markt voor maar ook afweging. Of verbrand je multi miljoenen aan nV
En zit vast in nv ecosysteem en hun reeds uitgewerkte software stack.
Of besteed de helft en deel aan eigen softwarestack team met AMD support.
Heeft langere aanloop maar je krijgt meer voor zelfde 10.000.000,- investering.
En hier is markt voor. Ja nV heerst maar je betaald daar hele dikke premium voor.
En dat maakt gat in de AI markt.
Daf belooft een sterke Radeon 11000 series met veel UDNA compute units!

Een 5080 rivaal!

Mits ze ons, het lage burgervolk, dat wel gunnen. AI hype bubbel betaald natuurlijk veel beter.

[Reactie gewijzigd door emansom op 13 juni 2025 04:23]

Dat zijn deze architecturen nog niet.
Ik vermoed dat CDNA5 nog specifiek is en wat er daar na komt mogelijk pas UDNA betreft.
Ga er ook maar niet van uit dat je dan zo veel compute units krijgt. Ik verwacht hooguit twee compute chiplets bij een desktop versie maar we weet worden we verrast. NAVI41 is helaas ook nooit uit gekomen. Maar misschien waren er te veel issues met dat chiplet ontwerp. Bij 44 en 48 zijn ze ook een stapje terug gegaan en weer naar monolithic tov Navi 31 En 32.

Ik ben wel heel benieuwd wat UDNA gaat brengen dat wordt toch een beetje de blauwdruk voor de komende 5 jaar.
Wat ik mij zou bedenken is dat ze met al het extra geld wat vanuit AI geinvesteerd word een klein beetje kunnen investeren in de gaming tak. Waardoor wij tevreden zijn, waardoor het algemene beeld dat AMD heeft/krijgt omhoog gaat. Ik bedoel, hoger algemeen beeld = hogere stocks toch?
Ze hebben geld hard nodig voor dure top TSMC node allocatie en R&D te boeken.
Wafers prijzen van TSMC maken het boven op inflatie duurder. Dus marges vallen tegen ook al is het duurder. Als underdog moeten ze altijd onder de msrp van nv maar ook onder de straatprijs zitten. Als je weet dat je niet competitive bent dan koop minder allocate in.
Valt nv tegen dan gat vullen is dan niet mogelijk. Naast dat nV ook anders hun lijn in markt hadden gezet als AMD bredere lijn ingezet had.

Nvidia heeft enorme oorlogskas binnen geharkt waar je kwa slagkracht intel en AMD altijd beperkt bent wat mogelijk is. Dus is op die markt inzetten crucial. Daar zijn marges insane bij nv als je iets goedkoper in de markt kan zetten en ja daar is vraag naar dan behoud nog steed een ruime marge. Het zo erg dat als corporatie groot genoeg is dat zelf chips ontwerpen voor AI lonend is. Naast complete software stack eromheen.

Waar het voor 3dfx en Matrox einde oefening is. Is er voor intel en AMD iig nog wat te halen. En gamers market die kan je laten vallen als baksteen. 3dfx .
Ik denk dat arc en radeon niet dood is. Komt dat er veel kansen in AI dgpu markt is.
En client dgpu daar op mee lift. Door UDNA je bigchips kan maken voor AI Sku en afgeleide daarvan voor high-end client. Wat nv ook doet. En succesvolle strategie.
nu wachten op de doom benchmarks :+
minesweeper*
Eigenlijk een gpu voor thuis nu kan de 5090 weg en deze er in right ... ?? 🫣🧐🤨
Hoe koelen ze zulke "kaarten"? Ik bedoel 1000+ Watt is echt wel heel veel warmte.
Is dat een kwestie van heatsink erop en dan fans met 10.000 rpm er doorheen laten janken?

Zulke kaarten zijn buiten een server omgeving toch zeker niet te koelen?
Vloeistofkoeling.
Hier een voorbeeld van hoe HPE het oplost.
https://www.hpe.com/psnow/doc/a50009383enw
Ik heb zelf al vrij veel watergekoelde systemen gebouwd, maar ik zou niet verwachten dat je zomaar 1000W van 1 chip weg haalt tenzij je misschien de vloeistof zelf kouder houdt dan kamertemperatuur. Dat kan ik me wel voorstellen in een server ruimte.
@Tomas Hochstenbach, de tabel in dit artikel is ronduit misleidend. Als ik in de specsheets kijk:

MI325X https://www.amd.com/conte...inct-mi325x-datasheet.pdf
MI355X: https://www.amd.com/conte...t-mi355x-gpu-brochure.pdf

Zie ik de volgende fp16 performance:
MI325X: 1.307 PFLOP, met sparsity: 2.615
MI355X: 2.517 PFLOP, met sparsity: 5.033

In de tabel staat 1.3 en 5.0. Dus voor de vorige generatie wordt zonder sparsity gerapporteerd, en de nieuwe mét. Hetzelfde gebeurt met fp8.
But can it run Crysis….?

Op dit item kan niet meer gereageerd worden.