Nvidia kondigt H200-gpu aan met HBM3e-geheugen

Nvidia heeft de H200-gpu aangekondigd die een belangrijke rol kan spelen in de toekomst van deep learning en taalmodellen, zoals GPT-4 van OpenAI. Het is de eerste gpu van het bedrijf met HBM3e-geheugen.

De Nvidia H200 is gebaseerd op de Hopper-architectuur en vervangt de huidige H100-gpu. Het HBM3e-geheugen moet een hogere snelheid en meer capaciteit opleveren. Nvidia spreekt van 141GB gpu-geheugen met een bandbreedte van 4,8Tbit/s, wat twee keer de capaciteit van zijn voorganger is. De H200-gpu heeft volgens de chipmaker ook 2,4 keer zoveel bandbreedte als de Nvidia A100.

Volgens Nvidia verdubbelt de HGX H200-gpu de inferentiesnelheid van het large language model Llama 2 met 70 miljard parameters ten opzichte van de H100-gpu. Bij GPT-3 gaat het om een interferentiesnelheid van 175 miljard, wat ruim 1,5 keer zo snel is als de voorganger.

In het tweede kwartaal van 2024 komt de H200 uit. De gpu is ook beschikbaar in de GH200 Grace Hopper-'superchip' die in augustus werd aangekondigd. De H200 moet onderzoekers in staat stellen complexe AI-taken uit te voeren door de mogelijkheid om in een snel tempo terabytes aan gegevens te verwerken.

H200

Door Sabine Schults

Redacteur

13-11-2023 • 17:14

41

Lees meer

Reacties (41)

41
41
14
3
0
23
Wijzig sortering
In hoeverre verschillen de cores op deze GPU's nu wezenlijk van de cores op de GPU's in de consumenten versies voor de 4080 en 4090?

Past Nvidia hier de Intel truc toe door dezelfde consumenten CPU's cores te gebruiken in haar Xeon's en daar met wat een paar toevoegingen vervolgens veel hogere prijzen voor te vragen?
De chips van de H100 en de consumentenchips als de 4090 hebben heel verschillende specs, architectuur en zelfs node.
GH 100, de hopper chip: https://www.techpowerup.com/gpu-specs/nvidia-gh100.g1011
AD102, the chip gebruikt in de 4090, 4080ti en een aantal andere kaarten: https://www.techpowerup.com/gpu-specs/nvidia-ad102.g1005

Ik zou zeggen om even de whitepapers erbij te pakken, maar die van de H100 op techpowerup geeft een 404... :/
Whitepaper is niet echt nodig :)

Samengevat, Hopper ten opzichte van Ada:
- Geen RT cores
- Geen mixed cores; INT/FP is volledig gesplitst
- 16xINT32, 32xFP32, 16xFP64 per SM partitie (Ada = 16xFP32/INT32, 16xFP32)
- Om het bovenstaande ook van data te kunnen voorzien: dubbele L1D$, dubbel zo veel LD/ST, een L1I$

Belangrijkste is dat GH100 daadwerkelijk 18432 FP32 ALU's beschikbaar heeft per cycle, terwijl dat met AD102 simpelweg niet haalbaar is, omdat één enkele INT op meteen 16 FP32 ops opvreet. Met andere woorden, voor GH100 kloppen de geadverteerde cijfers, terwijl ze voor Ada (en Ampère) poep van een zeker gehoornd dier zijn.
ADA heeft een FP32/FP64 split van 32:1, terwijl dit bij Hopper 2:1 is. Dat is een van de voordelen van NVIDIAs data center producten (naast de enorme hoeveelheid snel geheugen).

BTW: vanwege de thread based architecture zal 1 INT zelden alleen aan de orde zijn in een CUDA kernel (tenzij de code eigenlijk niet geschikt is voor parallelizering), maar zullen er eerder 16 INT operaties de plek innemen van 16 FP32 operaties.

Natuurlijk ben je dan inderdaad 50% van je FP32 executie units kwijt, maar er zal een reden zijn waarom je INT instructies gebruikt en niet FP32 instructies.
Mijn punt over de INT ops was meer dat Nvidia wel adverteert met 18432 "CUDA Cores" (lees: FP32 ALU's) voor Ada, maar dat dat een puur theoretisch cijfer is. Zelfs met perfecte kernels is de kans dat je nérgens een INT op hebt, nihil. Zodra je met geheugen gaat schuiven of branches hebt, moeten de INT ALU's aan de bak :)

Dat is waarom Ampère met graphics workloads op z'n best zo'n 30% meer (in plaats van 100%) uit de aanwezige ALU's kan halen (ten opzichte van Turing), omdat je met graphics INT ops simpelweg niet kunt vermijden. Die mixed units kunnen maar een heel klein deel van de tijd aan FP32 werken.

Met Hopper heb je dat probleem niet, daar zijn daadwerkelijk 18432 FP32 ALU's beschikbaar, zonder dat INT ops hun werking in de weg zitten.

Wat overigens FP64 betreft, Ada heeft inderdaad één FP64 ALU per SM partitie, maar die zitten er vooral in "voor het geval dat". Daarom zet Nvidia ze ook niet eens in hun blok diagrammen :D

[Reactie gewijzigd door Werelds op 22 juli 2024 14:28]

Inderdaad, de FP64 units zitten er puur in zodat FP64 code nog steeds werkt en niet zorgt voor een crash als iemand zo'n kernel probeert te runnen op non-data center GPUs. Een van de belangrijkste dingen die je moet doen bij het schrijven van CUDA kernels is dan ook het gebruik van FP64 instructies zo veel mogelijk te vermijden.

Doe altijd een analyze met NSight Compute en kijk of die aangeeft of je niet per ongeluk FP64 instructies gebruikt hebt, want dat is een super makkelijke manier om je code per ongeluk een stuk trager te maken.
Yep, net zoiets als FP16 op Pascal, met uitzondering van GP100. De instructies worden ondersteund...en dat is het dan ook. Van Maxwell naar Pascal bleef er iets van 1,5% van de FP16 throughput over :')
Is Turing niet de enige Nvidia gaming architecture met aparte INT ALUs?

Hoe werkt het trouwens bij AMD? Hebben die aparte ALUs for INT of loopt het daar ook op de FP32 ALUs?
Is Turing niet de enige Nvidia gaming architecture met aparte INT ALUs?
Yep. In Pascal en eerder zat alles geheel anders in elkaar. In Ampère en Ada zijn er pure FP32, en mixed FP32/INT32 ALU's. Probleem is echter dat die mixed ALU's per partitie in hun geheel (dus per 16 stuks) óf FP óf INT moeten doen. Ze kunnen niet 1 ALU INT laten doen en de overige 15 FP.
Hoe werkt het trouwens bij AMD? Hebben die aparte ALUs for INT of loopt het daar ook op de FP32 ALUs?
AMD's ALU's doen veel meer data types, dus ja, ook INT. Echter heeft AMD ook aparte scalar units waar ze een hoop dingen op doen die anders een hele SIMD zouden blokkeren. Daarnaast kunnen zij per cycle meerdere dingen aansturen, terwijl dat bij Nvidia achter elkaar gebeurt (zij sturen één "soort" ALU tegelijkertijd aan; het is 1 FP instructie, óf 1 INT instructie, óf 1 Tensor, enzovoort).
Waar word deze videokaartg voor gebruikt alleen deeplearning en misschien nog andere toepassingen?
hij is twee keer zo snel als zijn voorganger.Of word deze ook voor autocad gebruikt?

[Reactie gewijzigd door rjmno1 op 22 juli 2024 14:28]

Nee, dit soort GPUs zijn primair bedoeld voor zware compute taken. Ze hebben bijvoorbeeld geen video outputs op de kaart. Daarnaast hebben ze geen actieve koeling, de koeling moet geregeld worden door de server. De GPUs hebben alleen een metalen heatsink waar de server zelf lucht doorheen moet blazen om de koelloop rond te krijgen.

Linus van Linus Tech Tips heeft een keer een A100 (de voorganger van de H100/H200) in een standaard PC geplaatst, waarbij hij de koeling afgerond heeft door er een zware PC fan voor te plakken. Maar dat was meer een "can it be done" activiteit dan een zinvolle actie.

https://www.youtube.com/watch?v=zBAxiQi2nPc
Je betaalt fors voor de support niet voor de chip.

Daarom is quadro ook duurder.

Grote vraag hier is is het stroom verbruik flink lager.

AI is de nieuwe bitcoin stroom slurper voor weinig ROI.
HBM is efficienter dan DDR6 maar ook veel duurder. Geheugen intensieve applicaties zoals deep learning training zullen dus efficienter en sneller zijn.

De rest van de chip zal beetje hetzelfde zijn als het nog TSMC 3nm is zoals de 4090 denk, misschien een klein beetje meer geoptimaliseerd.

[Reactie gewijzigd door Osiummaster op 22 juli 2024 14:28]

Quadro mid en highend is ook ECC. Beetje stom dat ze dat niet optioneel maken trouwens (inzetten van parity bits ten koste van capaciteit. Ik zou graag bij 4090 ook ECC aan willen kunnen zetten)

[Reactie gewijzigd door PjotterP op 22 juli 2024 14:28]

Waarom? De 4090 is voornamelijk een gamingkaart, dan heb je maar een frame met wat artifacts of een crash. So what? De moeite, kosten en performance die je daarvoor moet inleveren wegen gewoon niet op tegen het effectieve nut.

Als je tegen de gemiddelde gamer zegt dat je de betrouwbaarheid verbetert, maar dat je daarvoor performance inlevert en de kosten gaan omhoog, dan krijg je dat sowieso niet aan de man. En als je dan bedenkt dat de gemiddelde gamer 300 jaar (bijwijze van) moet gamen om er iets van te merken dan gaat het feest al helemaal niet door.

Nou ga jij zeggen: ja maar, je kan ook...

Ja leuk, inderdaad je kan er van alles mee doen, maar daar is deze kaart niet voor bedoelt. Als je echt zulke critische applicaties gaat draaien dat ECC nodig is dan zal je toch echt wat dieper in de buidel moeten tasten om een pro georinteerde kaart te kopen.

Wat jij zegt is het beetje hetzelfde als aan een F1 race mee willen doen met je eigen Ferrari. In theorie kan het en je zal de race ook uit kunnen rijden als je beetje goed kan sturen, maar het is gewoon beter als je investeert in goed materiaal.

[Reactie gewijzigd door TechSupreme op 22 juli 2024 14:28]

En waarom zouden mensen genoegen nemen met artifacts of crashes?
Als ik zoveel geld betaal moet alles gewoon werken, anders gaat het terug.

ECC of geen ECC, ik ga niks qua crashes die mij negatief beïnvloeden accepteren.
En ECC kan overigens ook prima met hoge performance, die ene cycle trager gaat echt geen gamer merken -- en als ze echt willen dan maken ze ook gewoon net zo hoge frequency kits, maar dat kost natuurlijk.
Nou als dat echt zo belangrijk is voor je dan koop je toch een quadro kaart.
Dat vroeg ik niet, ik vroeg waarom mensen voor (dure) producten genoegen zouden moeten nemen met defecten?

Voor zover ik weet hebben we in de Nederlandse wetgeving zoiets als conformiteit.
Een GPU hoort niet te crashen, die hoort te renderen.
Je doet alsof het artifacts en crashes regent. Terwijl het misschien maar 1 frame per 1000 uur gamen zal zijn ofzo. De toegevoegde waarde is 0.

Leuk conformiteit, die praatjes altijd. Ik wacht tot jij Nvidia aanklacht omdat 1 bit geflipt is omdat er net op dat moment EMI in de buurt was. Ik kijk er nu al naar uit. Praatjes vullen geen gaatjes. Jij komt met conformiteit dus moet je er ook werk van maken. Hop, gas erop.

Je doet ook alsof het bijna 0 aan overhead veroorzaakt terwijl het toch wel 18 procent wegsnoept.

Dus jah nogmaals, voor een gaming kaart is het niet echt noodzakelijk en je product wordt er ook niet minder van. Als je het echt nodig hebt voor je kritische toepassing dan kan je altijd investeren in een Quadro. Plus puntje, met een Quadro heb je misschien nog een been om op te staan mocht je Nvidia ooit aanklagen vanwege geflipte bits.

[Reactie gewijzigd door TechSupreme op 22 juli 2024 14:28]

Probleem zit hem in support.

Jij wilt nu een premium functie met support voor een consumer prijs.

Artifact en crash free drivers is precies wat quadro offerd maar daar betaal je wel een meerprijs voor want dat kunt nvidia klauwen met geld extra.

Als je bij de bakker een perfecte vlaai wilt met 1/100 tollerantie zal die ook duur zijn. Merk je het als consumer nee totaal niet.

Als jouw 4090 1 op de 10000 frames een pixel verkeerd kleurd door mem issue zie jij dat niet.
Er zijn gewoon gratis studio drivers beschikbaar, maar ik kan mij wel voorstellen dat er wat verschillen zitten in de quadro drivers.
Sorry, maar als het om ECC support gaat slaat dat nergens op. Ik hoef niet 'meer support' van Nvidia of AMD.

Het is onzinnig dat ECC een workstation/server/enterprise feature is (geworden). Dat was het vroeger niet.
wat probeer je eigenlijk te berijken met je ecc?

Je doet nu nl alsof je niet zonder kan / het kritische is voor je computer
Wie zegt dat ik een 4090 voor gaming gebruik?
Uuuh als je even leest... zeg ik dat ook.
Blijkbaar is ECC wel supported op 4090, dus zo diep hoef je niet in de buidel te tasten.
Wat zeur jij dan? Blijkbaar een soft oplossing want het kost je 18% aan performance.

[Reactie gewijzigd door TechSupreme op 22 juli 2024 14:28]

Nooit geprobeerd maar je kan toch ECC aanzetten op een 4090? https://www.nvidia.com/co..._change_the_ecc_state.htm

Gaat alleen 10% langzamer volgens internet.
Ik las laatst een Reddit post dat je ECC op een 4090 kan aanzetten.

"It's below 'Manage 3D Settings' and above 'Configure Surround, PhysX' under '3D Settings' menu. Just lets you check a box for ECC or not (default unchecked)."

Ik heb dit zelf niet kunnen controleren, geen 4090 helaas :)
verbeter me als ik het fout heb, maar is dit een snellere cyclus voor NVIDIA voor het releasen van zulke "zakelijke" GPUs?

vreemd dat we ze nog GPUs te noemen trouwens, aangezien ze niet eens meer bedoeld zijn om grafische dingen te processen.
Consumenten GPUs gaan meestal een versie omhoog bij een nieuwe architectuur van de gpu chip. Deze H200 heeft dezelfde Hopper architectuur als de H100 (de H zal voor Hopper staan, net zoals de A100 een Ampere chip had). Het is niet zo zeer een nieuwe serie, het is een meer high end model binnen dezelfde serie.

De press release zegt ook niet dat deze H200 de H100 vervangt, ik denk dat ze naast elkaar verkocht zullen worden. Voor minder geheugen intensieve taken is de performance winst van de H200 minder groot en kan de H100 met goedkoper geheugen best een betere optie zijn kwa prijs/performance.

De A100 was van 2021. Volgend jaar moet er teen nog weer snellere B100 uitkomen. Snel gaat het allemaal wel :)
Ik dacht eerst ook dat ze naast elkaar verkocht zouden worden, maar in het artikel las ik dit "De Nvidia H200 is gebaseerd op de Hopper-architectuur en vervangt de huidige H100-gpu".
Dat staat niet zo in de press release, enkel hier op Tweakers. De H200 volgt natuurlijk wel de H100 op als zijn het topmodel dat beschikbaar is, maar de H100 zal zeker zijn waarde houden.
we maken er gewoon general processing unit van klopt de afkorting weer :+
Qua release is het niets, vermits de markt erom vraagt. .4/.6 en .9x sneller dan de voorganger is een heel pak sneller.

Release is pas Q2 van 2024(april-mei-juni) wil dus zeggen dat ze de chips nu aan't maken zijn.
Het is dezelfde chip enige war veranderd is is de upgrade van hbm3 naar 3e waardoor er meer en sneller geheugen beschikbaar is. Maar verder is er volgens mij niets veranderd.
Je zou even moeten nakijken of nvidia ze ook gpu’s noemt. Ik vermoed dat ze een andere term gebruiken. “accelerator” ofzo

Edit; Nevermind. Nvidia noemt ze ook gewoon GPU’s. Ze kunnen technisch gezien nog steeds heel goed voor graphics worden ingezet, alleen of dat ook de primaire use case is…

[Reactie gewijzigd door youridv1 op 22 juli 2024 14:28]

Uiteindelijk is het ook meer een verzameling co-processors geworden. Die rasterizer is al lang niet meer het belangrijkst. Nvidia noemt deze co-processors inderdaad "accelerators" maar het geheel nog GPU's.
Min of meer gedwongen door de geheugenverkopers die het vorige type geheugen niet meer maakten volgens mij.
foutje

[Reactie gewijzigd door atthias op 22 juli 2024 14:28]

Ik kan niet zeggen dat ik dit had zien aankomen. Ik ben opzich blij verrast, als ze ze ook echt kunnen produceren. Ik verwacht een paper launch.
Bij GPT-3 gaat het om een interferentiesnelheid van 175 miljard
Dit viel mij op. 175 miljard wat precies? Ik bedoel, ik weet dat GPT-3 175 miljard parameters heeft, maar dat heeft niks met inferentiesnelheid te maken, tenminste niet als een metriek om dat te meten. Hoe meer tokens hoe groter het model en hoe langzamer inferentie, maar het is geen metriek om inferentiesnelheid te meten. Het is meer gerelateerd aan de performance (dus hoe slim het model is) dan iets anders.
Hoe je het ook gebruikt, dit is niet waarvoor je dat getal moet gebruiken.

Op dit item kan niet meer gereageerd worden.