Micron toont HBM3 Gen2-geheugenchips met bandbreedtes van 1,2TB/s

Micron heeft zijn HBM3 Gen2-geheugen gepresenteerd. Deze chips hebben ieder 24GB aan geheugencapaciteit en krijgen bandbreedtes van ruim 1,2TB/s. De Amerikaanse geheugenmaker werkt ook aan een nieuwe HBM-generatie met bandbreedtes van meer dan 2TB/s.

De HBM3 Gen2-chips bestaan uit acht 24Gbit-lagen en bieden daarmee een totaalcapaciteit van 24GB, schrijft Micron op woensdag. Op termijn komt het ook met 36GB-chips van twaalf lagen. De geheugenmodules bieden bandbreedtes van 'meer dan 1,2TB/s'. Iedere pin heeft een bandbreedte van 9,2Gbit/s, wat neerkomt op ongeveer 1,2TB/s bij een 1024bit-geheugenbus. Dat is tot vijftig procent sneller dan de HBM3-chips die momenteel al verkrijgbaar zijn. De nieuwe chips zijn ook energiezuiniger; Micron adverteert een 2,5 keer hogere performance per watt ten opzichte van Microns HBM2E-chips.

Ondanks dat Micron deze modules 'HBM3 Gen2' noemt, zijn dit de eerste HBM3-chips die de fabrikant produceert. Het bedrijf bood eerder maximaal HBM2E-geheugen. Micron is het eerste bedrijf dat een 'tweede generatie' HBM3-chips heeft ontwikkeld. De fabrikant deelt momenteel samples uit aan grote klanten. HBM3 heeft een standaardbandbreedte van 819GB/s. Concurrenten Samsung en SK hynix leveren momenteel 'standaard' HBM3-chips met die bandbreedte.

Micron toont daarnaast HBMNext op zijn roadmap, schrijft ook Tom's Hardware. Dit geheugen moet bandbreedtes van meer dan 2TB/s leveren. Iedere HBMNext-package bevat maximaal 64GB geheugen. Dit geheugentype staat op de planning voor rond 2026.

Micron-roadmap HBM

Geheugen Micron HBM3 Gen2 HBM3 HBM2E
Maximale capaciteit
per package
24GB, 36GB 16GB, 24GB 16GB
Lagen Acht of twaalf Acht of twaalf Acht of twaalf
Bandbreedte per pin 9,2Gbit/s 6,4Gbit/s 3,5Gbit/s
Totale bandbreedte
(1024bit)
1,2TB/s 819GB/s 460GB/s

Door Daan van Monsjou

Nieuwsredacteur

26-07-2023 • 16:38

26

Lees meer

Reacties (26)

Sorteer op:

Weergave:

Waarvoor wordt dit nog gebruikt? Ik weet dat AMD het toen icm videokaarten geprobeerd had. Maar het is voor mij daarna uitzicht geraakt.
High end datacenter acceleratoren zoals de AMD's Instict MI300A & MI300A en Nvidia'a GH200 & H100.
Waren er niet ook nog Radeon pro en Quadro kaarten met HBM2?
Tuurlijk, maar dit zijn de highest end producten, kosten €xxxxx,-, en hebben niet eens video uit. De leukste kaart was IMHO de Nvidia V100 CEO Edition. In de consumenten segment had je AMD Radeon Vega 56&64 Frontier Editions.
Nvidia heeft het ook in hun Titan V kaart gebruikt. Daarna verder niks meer van gezien, althans voor de consumer/prosumer markt.
Ook de NVIDIA A100 gebruikt HBM (2E als ik het goed heb).
Ja, en nog meer, Intel CPU's en GPU's ook, noemde maar een paar voorbeelden van de nieuwste, snelste en vooral duurste. 'T leuke aan de MI300A (en de GH200 eigenlijk ook) is dat het een CPU EN GPU is.
Voor LLM's (Large Language Models) is geheugenbandbreedte erg belangrijk. Voor het genereren van een respons moet een model (soms wel 130 GB groot) vele malen per seconde volledig ingelezen worden door CPU/GPU.

Grappig genoeg is om deze reden (naast Nvidia videokaarten die een geheugenbandbreedte hebben tot wel 1 tb/s) ook de Apple M1/M2 Ultra erg goed in 'inference', het uitserveren van AI modellen. Dit omdat deze een geheugenbandbreedte hebben van 800 gb/s. Hierdoor kan een M1/M2 Ultra het grootste LLaMa model (65b) serveren met een snelheid van 10+ tokens per seconde.

Als deze snellere chips op de markt komen voor moederborden/SOC's, dan wordt de hardware voor lokale AI ook steeds meer 'gemeengoed' en heb je straks geen dure videokaart meer nodig.
Heeft al die stacking effect op warmte-generatie?

Zoals we net Gen5 SSDs zien, die blijkbaar niet zonder koeling geinstalleerd kunnen worden?
Typisch wordt HBM naast de GPU die geplaatst en meegenomen in de koeler voor de GPU zelf.

Hier is een foto van een A100 SXM4 module zonder koeler, waar je de 6 HBM dies ziet pal tegen de GPU die. De koeler dekt dus beide af en zorgt voor voldoende koeling van ook de HBM chips.

https://developer-blogs.n...idia-a100-gpu-on-sxm4.jpg

BTW: de locatie van de HBM dies is niet zo zeer om koeling zo makkelijk mogelijk te maken, maar om de trace lengths die nodig zijn voor het verbinden van HBM chip en GPU zo kort mogelijk te houden.

[Reactie gewijzigd door CrazyJoe op 23 juli 2024 07:28]

Op "normale" kaarten (ik zet het woord normaal tussen haakjes want de prijzen van de 4000-serie zijn nogsteeds absurd) komt het geheugen ook gewoon in contact met de koeler? En de reden dat het zo dichtbij zit is omdat het allemaal op de zelfde interposer moet passen. ~4000 bit geheugenbus, dus 8K verbindingen doe je echt niet zonder interposer.
Zo, dat is een beste prestatiewinst ten opzichte van de oude.
Naamgeving lijkt een beetje op die van USB. Ik ben benieuwd wanneer HBM3 Gen2.1 of Gen 2x2 uitkomt..
Dat betekent dat de totale bandbreedte nu hoger ligt dan dat van GDDR6X, maar nog iets lager dan GDDR7.

Mochten ze de 2TB/s bereiken, dan wordt het een serieuze optie voor GPUs buiten de professionele markt.
Is dit niet sowieso al erg competitief ook wat betreft geheugen per package?
Uhm, nee? Kaarten voor consumenten hebben een veel dunnere geheugenbus. Voor datacenter acceleratoren worden al snelheden van dik door de 5TB/s bereikt. Wel met een 8192 bit geheugenbus...
De 384-bit bus is een keuze voor GDDR6.
Dat betekent niet dat je geen consumenten videokaart kan hebben met een grotere bus.

AMD heeft in het verleden consumenten producten uitgebracht op basis van HBM2 en een 4096-bit bus.
Ja, en gingen als verkoolde broodjes over de toonbank. Niet dus.
Net als met GDDRx kan je HBM2 ook combineren in verschillende bus grote, dus volgens mij kan je ze daarom helemaal niet zo vergelijken.
Per chip/stack wint dit nieuwe geheugen het met een enorme voorsprong van GDDR7. Deze gaat tot 1.2TB/s terwijl voor GDDR7 ze niet verder komen als 128 GB/s. Bijna 10 keer de bandbreedte dus.

in de praktijk zal GDDR7 tot bussen van 8 tot soms 12 chips (256bit tot 384bit bus) gebruikt worden, maar HBM zie meestal in sets van 4. Dus ook daar komt GDDR7 niet in de buurt.
Wat ik lees over Samsung hun implementatie van GDDR7 halen ze 32Gbps per pin voor een totaal van 1,5TB/s met een 384-bit bus.

Meer dan de 1,2TB/s van HBM3.
Maar dat zijn dus 12 chips (want 384/32bit =12), ( en 12 keer 128GB/s = 1.5TB/s) tegenover slechts 1 stack HBM.
Tegenover 4 stacks, een gebruikelijke configuratie, heeft HBM weer een ruime voorsprong.

[Reactie gewijzigd door Countess op 23 juli 2024 07:28]

Je hebt helemaal gelijk.
De bus voor HBM is standaard 1024-bit.

Dus de enige reden voor de huidige situatie is dat de productie kosten van HBM zo hoog liggen.
De bandbreedte van het HBM geheugen van een A100 40 GB versie ligt al op 1555 GB/s, en dat was HBM 2E geheugen. Voor de 80 GB versie wordt zelfs 2 TB/s+ geclaimd.
NVIDIA claimt zelfs 3.35 TB/s voor de H100 SXM versie met 80 GB geheugen, alhoewel de PCI-E versie niet hoger komt dan 2 TB/s.

Dus ik denk dat voor de next gen GPU met HBM3 gen.2 dit nog verder omhoog zal gaan.
HBM = high bandwidth memory
Het valt me altijd op dat afkortingen niet worden uitgelegd (de eerste keer dat ze worden gebruikt) in artikelen op deze site. Niet iedereen is er bekend mee
Beter slecht gejat dan goed verzonnen.

HBM3 Gen2? Serieus?! Wat hebben we nou van USB geleerd? Geen namen bedenken om het allemaal zo moeilijk mogelijk te maken.

HBM4 was een prima naam geweest.

Op dit item kan niet meer gereageerd worden.