Uitgelekte details AMD Instinct MI400-datacenterchip wijzen op meer chiplets

Er zijn details over de AMD Instinct MI400 uitgelekt. Deze AI-gpu voor datacenters zou een gewijzigd ontwerp krijgen, met in totaal acht computechiplets. AMD zou ook twee aparte 'multimediachiplets' aan de apu willen toevoegen.

VideoCardz schrijft dat het aantal computechiplets, ook wel xcd's, in de MI400 hiermee verdubbelt ten opzichte van de huidige MI300-generatie. De website baseert zich daarbij op een patch van AMD, waarin het aantal xcd's voor de komende datacenterchip werd genoemd.

AMD zou wederom twee actieve interposers gebruiken, waarop ditmaal ieder vier xcd's worden geplaatst en onderling verbonden. Bij de huidige MI300-chips zijn dat er nog twee per interposer. De MI400-accelerators worden gebaseerd op een nieuwe CDNA 4-architectuur, die gepland staat voor volgend jaar. Volgens de patch beschikt de komende MI400 ook over twee nieuwe multimedia-I/O-chiplets, hoewel er verder geen details over hun functie worden gedeeld.

Als de gelekte specificaties uit de patchnotes kloppen, krijgt de MI400 dubbel zoveel acceleratorchiplets als de AMD MI300-apu uit 2023. De kans bestaat dan ook dat de afmetingen van de MI400-apu zullen toenemen in vergelijking met zijn voorganger. De AMD MI400-apu moet volgens AMD in 2026 op de markt komen.

AMD MI400-patch

Door Jay Stout

Redacteur

03-02-2025 • 13:16

11

Reacties (11)

11
11
6
2
0
3
Wijzig sortering
Anoniem: 2251888 3 februari 2025 13:26
Ik vraag mij af of door de toevoeging van meer interconnected chiplets er niet ergens een latency bottleneck zal gaan ontstaan.
Dat zal aan de workload liggen. Voor sommige dingen zal de bottleneck inderdaad de latency zijn. Voor andere dingen is dat geen bottleneck.

Daarom dat ze ook verschillende chips maken, zodat ze voor veel toepassingen de beste optie hebben.
Anoniem: 2251888 @Robbierut43 februari 2025 13:45
Zijn de meeste compute toepassingen niet afhankelijk van de latency? Zeg het ook vooral als dat niet zo is hoor.
Als je naar de echt number crunchers kijkt dan zie je alle smaakjes langs komen. Sommetjes met weinig interactie met de buitenwereld hebben veel minder bottlenecks dan jobs die continu moeten schakelen met het geheugen en of de opslag
Ja en nee, ligt geheel aan wat je doet, en het ligt geheel aan het werk dat je doet.
Netzo als bv, een 700hp motor van een Ferrari werkt geheel anders dan een 700hp motor van een vrachtwagen.

En zo als met alles in de wereld, er moet naar een balans gezocht worden van de meest optimale compromissen voor het doel, en er zijn daarvoor meer wegen die naar Rome leiden.

Het compromis dat AMD hier heeft gedaan met chiplets is kosten besparing.
Een theoretische voorbeeld wafer van 300mm heeft gemiddeld 50 productie fouten per wafer.
Nvidia met zijn monolithische grote ontwerp haalt 100 chips uit een wafer, dan halen ze ongeveer 55% werkende chips uit een waver.
soms meerdere fouten zitten op een chip vandaar dat het rendement rond de 55% zit.
AMD maakt 600 chiplets uit een wafer, en haalt een rendement van 90%.

Bijde oplossingen hebben zo hun voor- en nadelen, Nvidia is de snellere oplossing die overal voor werkt, maar ook duurder.
AMD's goedkoper, maar veel minder geschikt voor ultra low-latency werk, en daardoor erg ongeschikt voor 20% van het werk, en voor 20% van het werk minder geschikt, en voor 30% van het werk waar latency niet belangrijk is weer goedkoper.
Alles nummers hier is puur nattevingerwerk, en puur gebaseerd op mijn gis werk, op basis van mijn beperkte kennis!

Wat uiteindelijk de beste weg is, geheel afhankelijk van wat men doet, maar een ding is zeker, chiplets is de weg vooruit, de Blackwell GB200 bestaat eigenlijk ook uit chiplets, het zijn twee enorme 750mm2 dies aan elkaar geplakt.

Wat waarschijnlijk de grootste invloed in de toekomst zal hebben, is hoe men chiplets aan elkaar verbind en hoe snel ze met elkaar kunnen praten.
Anoniem: 2251888 @player-x4 februari 2025 12:43
Wat waarschijnlijk de grootste invloed in de toekomst zal hebben, is hoe men chiplets aan elkaar verbind en hoe snel ze met elkaar kunnen praten.
Hier doelde ik ook op, op het consumenten vlak was er aan het begin best wat te doen om de infinity fabric van de vroege ryzen chips, vroeg mij dus ook vooral af hoeveel impact dat zou hebben op deze chips.
Ik zie dat graag een keer goed uitgelegd, maar volgens mij is het vooral software architectuur die daar problemen meer heeft en ik weet niet hoe dat vertaald naar hardware architectuur. We hebben het hier vooral over hardware die goed is in een beperkt aantal dingen en dat zou goed moeten schalen.
Sommige algo's hoef je niet zoveel voor te rekenen maar moet je wel steeds door alle data opnieuw heen met de uitkomsten van de vorige ronde. Dat soort software heeft belang bij zo snel mogelijk door geheugen heen lopen. Dat is nu, imho, de grootste bottleneck bij veel hardware en daarom zie je ook dat alle AI hardware en GPU's steeds meer geheugen (zodat er zoveel mogelijk data in past) en steeds bredere geheugeninterfaces krijgen zodat er meer TB/sec verwerkt kunnen worden. Om een idee te geven;

Moderne Dual Channel consumenten PC -> 75GB/seconde
AMD Epyc Twelve Channel server -> 450 GB/seconde
NVidia RTX5090 -> 1800 GB/seconde

Dit is ook de reden dat je af en toe wat setups langs ziet komen met MacMini's en zo. Apple gebruikt geheugen op een iets andere manier waardoor al het geheugen snel benaderd kan worden. Weet geen details/cijfers.
Er is hier ook iets anders aan de hand, namelijk VRAM en 'normale' RAM en shared memory.
Bij GPU processing (wat dus een chiplet zou kunnen zijn) is de bottleneck niet de RAM speed, maar de opslag naar VRAM snelheid aangezien, klassiek gezien, de GPU alleen op de VRAM operaties kan uitvoeren. Dat betekent dat niet alleen snelheid van de CPU en RAM maar ook grootte van de VRAM ertoe doet, want hoe kleiner de VRAM, hoe vaker je de GPU moet pauzeren om de nieuwe data ernaartoe te kopieeren.
storage naar VRAM ging vroeger (en op veel consumenten hardware hedendaags) door te kopieren via de CPU wat tergend langzaam is.

Als alternatief heb je hedendaags wat directere methodes waardoor het kopieren de CPU/RAM kan 'overslaan' en nog meer leuke methodes.

Op moderne Macs (M1 en later) is de RAM shared tussen de GPU en CPU, dat zorgt ervoor dat je dus heel veel 'VRAM' hebt in vergelijking met losse GPUs. De RAM is hier niet VRAM per se dus wel een stuk langzamer maar voor veel doeleinden maakt dat niet zoveel uit.

EDIT: terwijl ik de reactie had gepost gerealiseerd dat ik wel fout zat op wat vlakken, dus aangepast maar volgens mij is het verhaaltje nu wat minder duidelijk.

[Reactie gewijzigd door sdziscool op 3 februari 2025 17:23]

Mooi! ROCm (equivalent van Nvidia's CUDA) heeft de laatste maanden sterke updates gekregen om de performance omhoog te krijgen. Als nu ook de hardware competitief wordt, kunnen we hopelijk eind dit jaar een meer competitief landschap verwachten in de high-performance computing wereld.
De MI325X was ook best goed gezien de prijsstelling en met meer datacenter success zullen ze hun ROCm ook verder kunnen optimizen, wat uiteindelijk weer tot een betere propositie voor videokaarten kan leiden.

Op dit item kan niet meer gereageerd worden.