Instinct MI325X-datacenter-gpu van AMD voor AI krijgt 288GB HBM3E-geheugen

AMD introduceert een nieuwe versie van zijn MI300X-accelerator voor datacenters. Het bedrijf komt dit jaar met een MI325X-refresh, met sneller HBM3E-geheugen. Daarnaast verschijnt er volgend jaar een Instinct-gpu op basis van een nieuwe CDNA 4-architectuur.

De AMD Instinct MI325X-accelerator beschikt over 288GB geheugen, zo bevestigt AMD tijdens zijn Computex 2024-keynote. Dat is 50 procent meer dan de bestaande MI300X-gpu, die AMD vorig jaar introduceerde met 192GB vram. Ook de bandbreedte is met 30 procent opgehoogd naar 6TB/s, dankzij het gebruik van HBM3E-geheugen in plaats van HBM3. Daarbij claimt AMD dat de MI325X tot 30 procent sneller is dan de Nvidia H200 in fp16- en fp8-rekenwerk. Nvidia heeft inmiddels overigens al de opvolger van de H200 aangekondigd.

Volgens AMD kunnen fabrikanten tot acht MI325X-accelerators met elkaar combineren op een enkel serverplatform. Dat is volgens AMD goed voor ongeveer 10,4 petaflops aan fp16-rekenkracht. Daarmee ondersteunt een enkele server bovendien tot 2,3TB aan HBM3E-vram. De gpu's kunnen onderling met elkaar verbonden worden met een Infinity Fabric-verbinding met 896GB/s-bandbreedte.

AMD deelt tijdens een pre-briefing met journalisten geen details over hoeveel gpu-cores de chip beschikt. Mogelijk blijft dat aantal ongewijzigd ten opzichte van de huidige Instinct MI300X. Die heeft 304 compute-units, wat gelijkstaat aan 19.456 streamprocessors. De MI300X-chip bestaat uit acht CDNA3-gpu-chiplets die gebakken worden op TSMC's 5nm-node, met twee onderliggende I/O-dies op 6nm.

AMD zegt daarnaast dat het volgend jaar met een volgende generatie Instinct-gpu komt. Deze ondersteunt wederom tot 288GB HBM3E-geheugen, maar wordt geproduceerd op een 3nm-procedé. Daarbij krijgt die serverchip ondersteuning voor fp4- en fp6-rekentaken.

Door Daan van Monsjou

Nieuwsredacteur

03-06-2024 • 05:00

16

Lees meer

Reacties (16)

16
16
7
2
0
8
Wijzig sortering
Vroeger vroeg ik mij bij dit soort berichten af wanneer ik dit thuis kon gebruiken. Nu vraag ik mij vooral af wat je hier thuis nog aan hebt ;-)
Ja, je kan er thuis behoorlijk snel hele grote modellen (met honderden miljarden parameters) mee infereren. Ik gebruik zelf momenteel een Radeon Pro VII van 300 euro, heel fijne waar voor je geld. Hij infereert llama3-8b sneller dan ChatGPT4 (ja ik weet dat het geen GPT4 kwaliteit is maar het is wel helemaal lokaal dus geen problemen met privacy).

En RocM wordt nu goed ondersteund door bijvoorbeeld ollama, het is niet alleen meer CUDA. Alleen die kaart heeft maar 16GB geheugen dus ik ben beperkt tot de kleine modellen. Het is wel echt HBM2 geheugen daardoor is inferentie wel behoorlijk snel, bijna zo snel als mijn 4090 voor q4 of q8 modellen die echt binnen het GPU geheugen passen! Alleen fp16 modellen lopen achter vanwege de mindere compute.

Je zou er zelfs je eigen modellenlagen mee kunnen trainen natuurlijk. Lagen met eigen data die je bovenop een bestaand model propt. Een echt totaal model trainen vanaf de grond af gaat je niet lukken zonder datacenter.

Echter, ik denk dat de prijs niet bepaald in het 'thuis' segment gaat liggen van deze kaarten. Dus vergeet dat maar tenzij je een tweede hypotheek wil. Daar kan je een nieuwe auto voor kopen. Weliswaar een instappertje.

De leuke tijd komt later wel, als deze bedrijven al deze kaarten wegpleuren voor de opvolger omdat deze niet meer relevant zijn voor het trainen van grote datasets. Ik hoop dat ze dan hujn weg naar de tweedehands markt vinden. Net zoals die Radeon van mij, die stond 2 jaar geleden nog voor minimaal 2500 euro in de pricewatch, en ik heb hem voor onder de 300 gekocht.

[Reactie gewijzigd door Llopigat op 22 juli 2024 18:07]

Naast een hypotheek voor de hardware neem ik aan dat je ook een eigen energie voorziening nodig hebt want als je ziet wat die dingen gebruiken als ze een paar dagen staan te stampen dan vraag ik me af of je dat echt geschikt voor thuis gebruik kan noemen...

Wat ik me ook heel erg af vraag is wat het nut is van hier zelf mee spelen, je kunt relatief indrukwekkende maar ook relatief kleine dingen nog wel aan maar met dat je zo als je zelf al zegt war meer wil loop je tegen de beperkingen van budget, ruimte, koeling en ik neem aan ook energie verbruik aan.
Voor mij klinkt het heel erg als leuk om mee te spelen en leren voor thuis gebruik zeker als je hier ook je werk van hebt gemaakt of wil maken maar anders dan dat een klein beetje onpraktisch en onzinnig voor de meeste thuis gebruikers.
Het is een beetje als een oud collega van mij die op zolder twee 19" racks had staan met Cisco hardware er in en een twee tal servers voor de load generation. Hij was een network engineer en gebruikte zijn thuis lab voor trainingen en experimenten en zo maar voor de overgrote meerderheid van de mensen is dat toch echt niet zinnig om zo'n opstelling te hebben. Al is het maar omdat de tijd die je er in moet steken en de moeilijk te verantwoorde voordelen die je er van hebt ten opzichte van de kosten het redelijk lastig maken omdat goed gekeurt te krijgen door een partner die er niets mee heeft.
Naast een hypotheek voor de hardware neem ik aan dat je ook een eigen energie voorziening nodig hebt want als je ziet wat die dingen gebruiken als ze een paar dagen staan te stampen dan vraag ik me af of je dat echt geschikt voor thuis gebruik kan noemen...
Dat hangt ervan af. Het stroomverbruik van dei AMD kaart is 900W, geen enkel probleem voor thuis. Als je zelf een eigen layer traint ben je in een paar dagen wel klaar en dan heb je er lang profijt van. Voor inferentie heb je alleen zoveel energieverbruik als je daadwerkelijk een aanvraag doet.
Wat ik me ook heel erg af vraag is wat het nut is van hier zelf mee spelen, je kunt relatief indrukwekkende maar ook relatief kleine dingen nog wel aan maar met dat je zo als je zelf al zegt war meer wil loop je tegen de beperkingen van budget, ruimte, koeling en ik neem aan ook energie verbruik aan.
Mijn gamePC loopt ook tegen de 900W. En mijn AI server zit in een MicroATX kast. No problem wat dat betreft.
Voor mij klinkt het heel erg als leuk om mee te spelen en leren voor thuis gebruik zeker als je hier ook je werk van hebt gemaakt of wil maken maar anders dan dat een klein beetje onpraktisch en onzinnig voor de meeste thuis gebruikers.
Voor mij is het mijn werk wel inderdaad. En voor mij is het opdoen van ervaring op deze manier veel krachtiger dan op de manier van trainingen. Daar heb ik niet zoveel mee. Ik ben nu een eigen assistent aan het maken, waarvan ik veel meer leer dan een kant en klaar produkt zoals Copilot Studio of ChatGPT studio te gebruiken.

Ook is het heel tof om te zien hoe een klein model op sommige punten heel goed presteert (samenvatten, vertalen) en op andere punten echt bagger (hallucinatie van feiten als je naar de opgebouwde kennis vraagt). En ik ben gewoon een enorme privacy voorstander dus ik vind het sowieso al prachtig dat ik zo mee kan doen zonder mijn hele hebben en houden aan OpenAI, Google of Microsoft toe te stoppen.
Het is een beetje als een oud collega van mij die op zolder twee 19" racks had staan met Cisco hardware er in en een twee tal servers voor de load generation. Hij was een network engineer en gebruikte zijn thuis lab voor trainingen en experimenten en zo maar voor de overgrote meerderheid van de mensen is dat toch echt niet zinnig om zo'n opstelling te hebben. Al is het maar omdat de tijd die je er in moet steken en de moeilijk te verantwoorde voordelen die je er van hebt ten opzichte van de kosten het redelijk lastig maken omdat goed gekeurt te krijgen door een partner die er niets mee heeft.
Ja precies zo een ben ik er dus ook. Ik haat klassikale trainingen. Daar steek ik weinig vanop en het is zo tergend langzaam omdat het gebaseerd is op de laagste gemene deler, zelfs de traagste deelnemer moet het nog kunnen snappen. Dus ik zit dan een week met kromme tenen. Bovendien zit er teveel marketing in die trainingen. Ze vertellen je veel van functies die ze willen verkopen en laten vaak de nare nadelen achterwege.

Maar ik weet zeker dat die collega echt steengoed gaat zijn want voor mensen zoals wij is hands-on de enige manier om echt diepe ervaring op te doen.

[Reactie gewijzigd door Llopigat op 22 juli 2024 18:07]

Lees ik dat goed?
900Wh die je een 'paar' dagen laat lopen. Als ik 3 dagen neem dan is dat 72x900 = 64.8Kw.

"Een alleenstaande verbruikt gemiddeld 1600 kWh elektriciteit en 900 m3 gas per jaar. Voor een tweepersoonshuishouden ligt dit op gemiddeld 2500 kWh"

Dus je verbruikt bijna 4% van je gemid jaarverbruik alleen aan het trainen van je model.?
900Wh die je een 'paar' dagen laat lopen. Als ik 3 dagen neem dan is dat 72x900 = 64.8Kw.
Ja, op mijn huidige stroomprijs gaat dat dan dus om ongeveer 13 euro. Totale peanuts op de aanschafprijs van zo'n kaart.

Het is ook niet echt groot vergeleken met bijv. verwarming of koeling.
Dus je verbruikt bijna 4% van je gemid jaarverbruik alleen aan het trainen van je model.?
Ja, dus? Is dat echt een probleem? Qua kosten is het niets vergeleken met wat de hardware kost, en je koopt zoiets natuurlijk wel om het te gebruiken, niet om het mooi in de kast tentoon te stellen.

En vergeet niet, het trainen van een model is best baanbrekende techniek waar de komende jaren veel mee gedaan gaat worden, dus het opbouwen van ervaring is zeer waardevol. Zo'n model is ook zeer nuttig op de langere duur. Het trainen van een ChatGPT of Ollama heeft ook heel veel energie gekost, maar het wordt dan ook door miljoenen mensen elke dag gebruikt (voor inferentie wat minder energie kost). Bovendien komen hier nog een hoop optimalisatieslagen overheen.

Om zoiets in het klein thuis te doen vind ik zeker geen verspilde energie.

[Reactie gewijzigd door Llopigat op 22 juli 2024 18:07]

Anderen verwarmen daarvoor in de plaats hun jacuzzi of sauna. Ook niet ‘nuttig’. Zelf weten lijkt me. Ik schrik ook niet van 900w.
Ik ben het helemaal met je eens over de trainingen dat het vaak veel te langzaam gaat. Daarom doe ik voornamelijk online trainingen waar ik de afspeel snelheid op 2x zet zodat men een beetje opschiet. De marketing is in ieder geval in mijn sector een stuk minder als er al op die manier gewerkt wordt.

De collega was inderdaad erg goed, en haalde dan ook de hoogste trainings niveau van Cisco in een hele korte tijd. Maar goed zijn andere collega die de zelfde training deed deed dat vrijwel alleen via de officiele boeken en online labs en wist ook het hoogste niveau te behalen dus het hangt denk ik meer van jouw manier van leren af dan van hoe je de kennis weet te behalen.

Maar als ik het energie verbruik zo zie, zo als @EdwinHamers ook zegt dat is toch echt niet weinig. Sterker nog dat is best veel er van uitgaande dat je niet eens per jaar het ding aan het werk zet dan is dat eigenlijk gewoon heel erg veel.
Nu zal het mij een worst wezen ik kijk dan naar iemand met een vis tank met twee pompen die dag en nacht draaien, een verwarming/koeling en de verlichting en dan praat je ook al snel over een paar honderd watt voor die hobby. En dat is als het bij een tank blijft...
Wat dat betreft is het ook deels een hobby en dat mag vaak wat kosten, dat hoort er gewoon bij, kijk voor de grap eens naar het geen de gemiddelde voetballer uitgeeft aan kleding, schoenen, contributie, brandstof om van en naar het voetbalveld te geraken en natuurlijk de uitgave in de kantine voor en vooral na de wedstrijd... Als je dat eerlijk op zou tellen dan zal het weinig anders zijn dan het geen jij aan energie uitgeeft voor jouw AI server/workstation.

Ik kan me niet voorstellen dat je volgend jaar besluit een aantal racks met dit soort kaarten in de kelder te zetten en zo'n 100 van die dingen eens per week een slinger geeft en een paar dagen laat rekenen. Dat is naast de aanschaf ook wat energie behoefte niet te doen (dan komt oom agent even kijken waarom je kelder zo warm is en welke plantjes daar allemaal groeien, als je lokale energie netwerk het al aan kan).
En met maar met een systeem dat 900W opslokt dat is helemaal zo gek niet.
De collega was inderdaad erg goed, en haalde dan ook de hoogste trainings niveau van Cisco in een hele korte tijd. Maar goed zijn andere collega die de zelfde training deed deed dat vrijwel alleen via de officiele boeken en online labs en wist ook het hoogste niveau te behalen dus het hangt denk ik meer van jouw manier van leren af dan van hoe je de kennis weet te behalen.
Ja maar dat is een beetje het punt. Cisco bereidt je voor op het slagen van hun certificatie. Zelf oefenen bereidt je meer voor op de werkelijkheid, vind ik. Zeker omdat je het beter toe kan spitsen op de dingen die je daadwerkelijk doet.
Maar als ik het energie verbruik zo zie, zo als @EdwinHamers ook zegt dat is toch echt niet weinig. Sterker nog dat is best veel er van uitgaande dat je niet eens per jaar het ding aan het werk zet dan is dat eigenlijk gewoon heel erg veel.
Ja maar zoals ik ook tegen hem schreef is het een verwaarloosbare uitgave op de prijs van zo'n kaart. Die 900W kaart kost 15k-20k euro minstens. Dus een tientje of twee aan energie is het probleem niet. En als je zonnepanelen hebt kan je het al helemaal gratis doen door het alleen in de zonne uren te doen. Ik vind het zeker waardevol genoeg om energie aan te besteden.

Op mijn homelab is het allemaal een stuk minder 'erg' trouwens, mijn AI server trekt maximaal ongeveer 300W. De kaart was ook maar 300 euro. Dus alles in het klein. Als ik kijk naar mijn andere home servers dan zit ik daar ook al gauw op iets van 20kWh sinds begin dit jaar, per stuk! Het is gewoon een energiekostende hobby. En nogmaals, met een prijs van 20c per kWh is het op mijn budget nauwelijks een probleem. Mijn energierekening is tussen de 60 en 80 euro per maand.
Ik kan me niet voorstellen dat je volgend jaar besluit een aantal racks met dit soort kaarten in de kelder te zetten en zo'n 100 van die dingen eens per week een slinger geeft en een paar dagen laat rekenen. Dat is naast de aanschaf ook wat energie behoefte niet te doen (dan komt oom agent even kijken waarom je kelder zo warm is en welke plantjes daar allemaal groeien, als je lokale energie netwerk het al aan kan).
En met maar met een systeem dat 900W opslokt dat is helemaal zo gek niet.
Als het je gaat om een aantal racks dan is het gewoon echt geen thuisgebruik meer want dat rack kost dan meer dan je huis zelf :+ Serieus.
Dat is naast de aanschaf ook wat energie behoefte niet te doen (dan komt oom agent even kijken waarom je kelder zo warm is en welke plantjes daar allemaal groeien, als je lokale energie netwerk het al aan kan).
So what. Dan laat je hem netjes je server zien, is die ook zo weer weg. Maargoed, dit soort dingen op industriele schaal is gewoon financieel qua aankoop al niet haalbaar.

En het energieverbruik gaat echt wel omlaag als het een beetje uitgekristalliseerd is. Momenteel gebruiken we nog GPU's die eigenlijk voor graphics gebruikt werden. Als je ziet hoe bitcoin een extreme efficientieslag heeft gekregen door het inzetten van ASICs, speciale hardware die alleen maar daarvoor was gemaakt en verder niks, dan gaat die hele slag nog komen voor AI/LLM's.

[Reactie gewijzigd door Llopigat op 22 juli 2024 18:07]

Voor AI inferencing en finetuning misschien? 😬
Voor als je thuis je eigen DL (Deep Learning) applicaties wil hebben zonder al je data naar ergens anders te sturen. Met alle data die we nu delen - en dan vooral via de nieuwe wagens - wordt dit een security nachtmerrie. Beter dat dan zelf te beheren en te kunnen analyseren. Of we daar klaar voor zijn is een andere vraag.
Dus geen MI325A... Opmerkelijk, want ik vond de MI300A de aantrekkelijkere chip.
Dat was de versie met geintegreerde CPU he? Ik heb me altijd afgevraagd hoe die ingezet gaat worden. Speciale moederboards op maat gemaakt?
Gigabyte heeft een server waar hij in gaat:

https://www.gigabyte.com/Enterprise/GPU-Server/G383-R80-AAP1

Er is in de HPC-markt redelijk wat vraag naar deze server, we bieden hem hier op het werk regelmatig aan. Het is eigenlijk de eerste keer dat in de HPC-markt serieus naar een AMD-GPU gekeken wordt en ik denk met goede reden: Een Nvidia H100 kost je zo'n €25000 per kaart, de B100 zal nog duurder worden. De markt moet dus wel reageren en gezien de MI300A sneller is dan de H100 (en niet met een paar procent), en ook nog eens een aantrekkelijke CPU heeft (ook de processor heeft toegang tot het snelle HBM-geheugen), is het best een aantrekkelijk chip.
(ook de processor heeft toegang tot het snelle HBM-geheugen)
Okee, ja dat is inderdaad wel een 'gamechanger'. Dat is ook precies de reden dat Apple hardware zo gewild is voor AI devs omdat die dat ook zo doen (helaas te duur voor mij). Maar die hebben natuurlijk geen HBM, al zou je dat voor de prijs die Apple voor extra geheugen vraagt wel denken :')
De markt moet dus wel reageren en gezien de MI300A sneller is dan de H100 (en niet met een paar procent),
Is het gemis van CUDA niet een groot probleem? Met name met de ontwikkeling van nieuwe tools zie je altijd eerst CUDA en Metal komen en dan pas AMD technieken als ROCm.

Maargoed als je een datacenter bouwt met 10.000 van die kaarten dan heb je inderdaad genoeg reden om je software er helemaal naar te bouwen.

[Reactie gewijzigd door Llopigat op 22 juli 2024 18:07]

Ja, dat is een groot probleem, maar niet voor kunstmatige intelligentie: Het hele Tensorflow, Pytorch, Hypiter Notebooks e.d. draait allemaal prima op ROCm. Voor HPC in het algemeen geldt dat ROCm wel CUDA als programmeertaal kan compileren, maar niemand heeft zin om dat zonder support van de applicatieleverancier te gaan proberen.

Op dit item kan niet meer gereageerd worden.