Nvidia introduceert 4nm-gpu H100 met 80 miljard transistors, PCIe 5.0 en HBM3

Nvidia heeft zijn H100-accelerator voor datacenters en hpc aangekondigd. Deze PCIe 5.0-gpu wordt geproduceerd op TSMC's 4N-node en beschikt over HBM3-geheugen met een bandbreedte van maximaal 3TB/s. De Nvidia H100 volgt de huidige A100-gpu op.

De Nvidia H100-gpu is gebaseerd op Hopper, een gpu-architectuur die is gericht op datacenters en hpc en Ampere op dat gebied opvolgt. De H100 bestaat uit 80 miljard transistors en wordt geproduceerd op TSMC's 4N-procedé. Dat is een aangepaste versie van TSMC's N4-procedé, specifiek voor Nvidia. De Nvidia H100 betreft wederom een monolithische chip, net als de A100. Aanvankelijk ging het gerucht dat Nvidia een datacenter-gpu met een multi-chip-ontwerp zou introduceren, bestaande uit meerdere dies. AMD deed dat vorig jaar met zijn Instinct MI200-serie.

De huidige A100 wordt geproduceerd op een aangepaste versie van TSMC's 7nm-procedé en bestaat uit 54,2 miljard transistors. Nvidia claimt daarbij dat de H100 tot drie keer meer rekenkracht dan de A100 biedt in fp16, tf32 en fp64 en zes keer meer in fp8. De H100-gpu is 814mm². Dat is iets kleiner dan de huidige GA100, die een die-oppervlak van 826mm² heeft.

Nvidia H100Nvidia Hopper H100Nvidia Hopper H100

De Nvidia H100 SXM5 (links) en H100 PCIe

HBM3 voor SXM5-model, HBM2e voor PCIe-variant

Nvidia introduceert twee varianten van de H100. De focus lijkt te liggen op een SXM5-variant, die beschikt over 128 streaming multiprocessors voor een totaal van 16.896 fp32-CUDA-cores. Die kaart krijgt daarbij 50MB L2-cache en 80GB HBM3-geheugen op een 5120bit-geheugenbus, voor een maximale geheugenbandbreedte van ongeveer 3TB/s. Deze kaart krijgt 50MB L2-cache en een tdp van 700W. Gebruikers kunnen meerdere van deze H100 SXM-gpu's combineren via Nvidia's NVLink-interconnect. De vierde generatie hiervan biedt volgens Nvidia bandbreedtes tot 900GB/s.

Er komt ook een PCIe 5.0 x16-variant voor meer standaard servers. Dat model krijgt 114 sm's en 14.592 CUDA-cores. Verder krijgt de PCIe-variant 40MB L2-cache, net als de huidige A100. Opvallend is dat de PCIe-variant nog beschikt over langzamer HBM2e-geheugen, blijkt uit de Hopper-whitepaper die Nvidia dinsdag publiceerde. De hoeveelheid is met 80GB wel gelijk aan het SXM-model. De PCIe-variant krijgt een tdp van 350W.

Nvidia Hopper H100
De Nvidia Hopper H100-gpu

Nieuwe Hopper-functies: Transformer engine, DPX-instructieset

Ook de Hopper-architectuur zelf aangepast ten opzichte van Ampere. Hopper en de H100 beschikken over een nieuwe transformer engine, waarbij een nieuw soort Tensor-core wordt gecombineerd met een softwarestack voor het verwerken van fp8- en fp16-formaten voor het trainen van transformernetwerken. Dat zijn een soort deep learning-modellen.

Voor cloudcomputing kan de H100 gepartitioneerd worden in maximaal zeven instances. Ampere kon dat ook al, maar bij Hopper zijn deze volledig van elkaar geïsoleerd. Verder krijgt Hopper een nieuwe DPX-instructieset die is bedoeld voor dynamisch programmeren. Nvidia claimt dat de H100 in dit gebruiksgeval tot zeven keer beter presteert dan een A100 zonder DPX.

DGX-systemen en SuperPods

Nvidia introduceert ook een DGX H100-systeem met acht H100-gpu's. Zo'n systeem beschikt met zijn acht H100-gpu's over 640GB HBM3-geheugen met een totale bandbreedte van 24TB/s. Gebruikers kunnen maximaal 32 van die DGX-systemen combineren via NVLink-verbindingen. Nvidia noemt dat een DGX SuperPod. Zo'n systeem met 32 nodes moet een exaflop aan rekenkracht bieden, claimt Nvidia. Daarbij wordt gedoeld op fp8-rekenkracht. Het bedrijf bouwt zelf een EOS-supercomputer, bestaande uit 18 DGX SuperPods met in totaal 4608 H100-gpu's.

Nvidia maakt nog niet bekend wat de H100-gpu kost. Ook is het nog niet duidelijk wat de H100 DGX-systemen of DGX H100 SuperPods gaan kosten. Hopper zal verder naar verwachting niet gebruikt worden in gpu's voor consumenten. Later dit jaar introduceert Nvidia volgens geruchten zijn Lovelace-architectuur voor nieuwe GeForce RTX-videokaarten.

Nvidia DGX H100Nvidia DGX H100Nvidia DGX H100
Nvidia Hopper naast voorgaande Nvidia-hpc-gpu's
Architectuur Hopper Ampere Volta
Gpu H100, TSMC 4nm GA100, TSMC 7nm GV100, TSMC 12nm
Die-oppervlak 814 mm² 826 mm² 815 mm²
Transistors 80 miljard 54 miljard 21,1 miljard
CUDA-cores (fp32) SXM: 16.896
PCIe: 14.592
6912 5120
Tensorcores SXM: 528
PCIe: 456
432 640
Geheugen SXM: 80GB HBM3
PCIe: 80GB HBM2e
40GB / 80GB HBM2e 16GB / 32GB HBM2
FP32 Vector SXM: 60Tflops
PCIe: 48Tflops
19,5Tflops 15.7Tflops
FP64 Vector SXM: 30Tflops
PCIe: 24Tflops
9,7Tflops 7,8Tflops
FP16 Tensor SXM: 1000Tflops
PCIe: 800Tflops
312Tflops 125Tflops
TF32 Tensor SXM: 500Tflops
PCIe: 400Tflops
156Tflops nvt
FP64 Tensor SXM: 60Tflops
PCIe: 48Tflops
19,5Tflops nvt
INT8 Tensor SXM: 2000Tops
PCIe: 1600Tops
624Tops nvt
Tdp Tot 700W Tot 400W Tot 300W
Formfactor SXM5 / PCIe 5.0 SXM4 / PCIe 4.0 SXM2 / PCIe 3.0

Door Daan van Monsjou

Nieuwsredacteur

22-03-2022 • 17:46

50

Lees meer

Reacties (50)

50
45
21
1
0
19
Wijzig sortering
80 miljard transistors, allemachtig... Ik kan me nog herinneren dat ik zelf transistors aan het solderen was op een printplaatje, maar 80 miljard? Het waren er vast iets minder. Maar het was niet minder leuk!
De eerste transistors waren 10cm groot en dat waren vacuümbuizen. We zijn een eind gekomen in 100 jaar tijd. Van een kast vol met enkele tientallen, naar miljarden op een paar vierkante centimeter. Nou is het stroomverbruik van deze chips wel flink hoog, maar tegenover de kracht valt het eigenlijk nog enorm mee.
Vacuümbuizen werken heel anders dan transistors, maar je kunt er inderdaad ook mee schakelen en versterken. Behalve in sommige audio-toepassingen zul je die niet veel meer tegenkomen.

De eerste transistor is van 1947 en sinds 1951 worden ze commercieel gemaakt. Transistors zijn nooit heel erg groot geweest, hooguit millimeters, behalve speciale exemplaren die grote vermogens schakelen. Denk aan elektrische locomotieven e.d. Ze worden nog steeds gemaakt en gebruikt.
Nu nodes in nanometer toen in vele milimeters, de 1st computers bestonden uit multi chip design dus paar dozijn chips. Through hole packaging soms met ook socketje.
Toen was de klok zo laag dat memory even snel als logic units,nog geen last had van latency van andere kant van pcb en dus cache nog geen ding was. Toen dat wel werd waren dat apparte chips op moederbord. Toen latency en dram stuk langzamer werd.
Ik denk, maar dat is echt een aanname, dat die enorme kasten samen een stuk meer stroom verbruikte (maar je hebt gelijk de hedendaagse personal computer heeft wat meer dorst)
De eerste transistors waren 10cm groot en dat waren vacuümbuizen.
Huh? Een vacuümbuis heeft natuurkundig een andere werking dan een transistor, totaal niet vergelijkbaar. Dat het beiden elektronische componenten zijn en dat ze beiden kunnen schakelen, dat is helemaal waar maar dat is ook waar de overeenkomsten ophouden. Een paard is tenslotte ook geen auto.
700 watt voor 1 gpu, ik ben benieuwd of dat zonder water of airco te koelen valt in een server.
Bijna alle servers ruimtes zijn voorzien van een goede koeling, een gpu zoals deze zal je ook niet snel zien in een mkb server ruimte. Dit is eerder voor high end datacenters.
Ook daar is het vaak een probleem. Ik heb vaak meegemaakt dat je maar een handjevol high-end servers in een rack mag zetten vanwege de heatmap. Dat staat er zo'n meer dan 2 meter hoog rack en kan je maar 7 servers er in kwijt omdat er niet voldoende power & cooling is.
Is dat niet juist een beperking van de ruimte waar je deze racks in zet? Als je dergelijke hardware wilt gaan gebruiken moet je dit inzetten in een serverzaal die dit ondersteund. Anders loop je inderdaad tegen de beperkingen aan die jij aangeeft.
De pci-e versie kan wel eens in workstation gebruikt worden om dingen te testen.

In ieder geval, de SXM5.0 versie hebben ze blijkbaar al een blade versie met 8 van de GPU's (8x700=5.6kW aan vermogen).
En 80 miljard transistoren. Ik vraag mij af hoe je dat ooit gaat controleren op een goede werking.....
't Is voor neurale netwerken een nadeel als alle transistoren correct werken. Geen grapje. Microsoft Research heeft er een paper over gepubliceerd, en ik heb iets vergelijkbaars gezien met een race conditie in onze AI software. Kleine foutjes gaan overtraining tegen.
Ja zei ik ook laatst tegen mijn baas. Soms foutjes maken is de basis dat de klant blijft. Hij denkt dat wij moeilijk werk doen en er veel voor over heeft om dit gemanaged bij ons te laten. :) ... hij dacht daar wel anders over...
Een nadeel bij het trainen van het netwerk, alhoewel je in de praktijk dit soort dropouts (random) simuleert.
Tijdens het scoren wil je wel degelijk dat alle nodes correct werken.
weet je , ik vind team groen echt team grijs woorden,
19” rack mount koeling is anders dan wat wij consumenten gewent zijn. Wij custom big size low rpm normal power fan, lekker still.
In rack server case is er big passieve koelblok die door hot swappelble high power case fans stuk of 8 afhankelijk van hoogte verhouding, over de volle breedte, extreem power airflow door de case jagen. Dus actief door meer turbine wind aan airflow met jet engine high pitch sound gekoeld worden.
De next step is dan WC, maar dat kan ook op rack niveau gedeeld over nodes.
Kort antwoord, nee altijd water gekoeld.
Neen dat zijn water blokken, dit is de volledige foto: https://images.anandtech....X%20H100%20-%20Image.jpeg zie de donker grijze buizen tussen de blokken lopen ;)

[Reactie gewijzigd door Damic op 22 juli 2024 14:35]

15%minder stroomverbruik?
Ja maar 700W voor 1 in de plaats van 3x400W (per Tflop)
misschien wordt het eens tijd om voor dit soort datacenter-producten veelal zonder grafische output een andere afkorting te kiezen, want GPU dekt maar een minuscuul stukje van de lading
Laatste jaren worden ze steeds vaker accelerators genoemd, in het artikel wordt het ook een aantal keer genoemd. Deze chip kan niet eens een beeldscherm aansturen al zou je er een DP poort op solderen.
Daan heeft in het nvidia artikel wél de term accelerator gebruikt en hier om de een of andere reden niet, misschien is het een AMD ding of gewoon inconsistente berichtgeving.
TB/s. Weet nog dat 50GB/s op mn X1900XTX baanbrekend was :Y)
Is het niet erg waarschijnlijk dat de sterk gestegen vraag van datacenters naar rekencapaciteit meer dan voorheen beslag legt op productiecapaciteit van bedrijven zoals NVIDIA en AMD, en zodoende bijdraagt aan het tekort en de hoge prijzen van consumer GPU's?
Ja want met deze verdienen ze meer ;)
Als gaming kaarten deze power draw gaan hebben upgrade ik pas weer over 3 generaties en naar een entry level kaartje. Ik vind 300 watt al absurd.

[Reactie gewijzigd door computerjunky op 22 juli 2024 14:35]

Same here. Heb destijds een goede 650 watt voeding gehaald i.c.m. een 1080ti.
Nu ben ik de afgelopen keer voor een 3070 gegaan, omdat ik al las dat dit voor de 3080 al niet voldoende is, laat staan de ti of 3090?
Om je een idee te geven, ik draai hier een i7-12700K, 32GB DDR5 en een 3080Ti, net gebouwd en alles in een custom water loop.
Kan je vertellen dat al die power supply recommendations/minimums helemaal nergens op slaan. Ik zit tijdens de benchmarks tussen de 400 en 500W aan vermogen voor de hele kast. 500W is dan een flinke piek. Als die 650W voeding goede kwaliteit is zul je geen enkel probleem hebben om een 3080(Ti) te kunnen draaien.

Mijn vorige PC met een i7-5820K, 32GB DDR4 en een 980Ti alles watergekoeld verbruikte gemiddeld 50W meer dan mijn nieuwe... voor veel minder performance.
Je kan het beste 30% overhead rekenen voor pieken en voor veroudering van de voeding over tijd.
Daarnaast een voeding die op zijn tenen loopt kan voltage drops veroorzaken.
Ja ik denk dat je met nextgen game architecturen na lovelace en RDNA4 meer dan 3090ti performance krijgt onder 300wat met midrange x070 of x800 mogelijk 8K met nextgen api/driver upscaling technieken en krachtigere RTX
De massa OEM build die sowieso niet gortig omgaan met power en games ontwikkeld worden voor de massa en consoles.

Hadden G80 ultra gebruiker Crytech met Crysis original niet moeten afzeiken was die IP mogelijk wel PC exclusive gebleven en hadden we nu een crysis sequel die rdna4 kon gebruiken.
Nu zijn ze crossplatform is is de limit afhankelijk van consoles.
Ligt het aan mij of heeft de PCIe variant ook een NIC aan boord? Lijkt op SFP.
Ik denk dat het nvlink connectoren zijn, maar ik kan het mis hebben natuurlijk.
Ik bedoelde eerder aan de achterkant waar bij consumentenkaarten de IO zit, aan de bovenkant lijkt het inderdaad als NVLink
SFP+ of SFP28 of SFP100 of iets customs.
Heeft HBM dan zo veel honger naar energie of is er iets met 4nm dat gewoon veel stroom nodig heeft en niet schaalt
HBM is zuiniger. Maar als je weet dat node historisch gezien van 400milliemeter naar 4nanometer tdp van passief enkele watts naar 500+ watts.
Houd in als maximum performance uit node dieshrink wilt halen je ook TDP grenzen gaat verleggen. Dat is hou de natuurkunde relateerd aan dieshrinks.
De H100 bestaat uit 80 miljard transistors en wordt geproduceerd op TSMC's 4N-procedé. Dat is een aangepaste versie van TSMC's N4-procedé, specifiek voor Nvidia.
"Specifiek voor Nvidia" dit is heel onwaarschijnlijk, een node ontwikkelen is heel erg duur en Nvidia gaat binnen de leefduur van die node nooit genoeg afzet realiseren om dat voor TSMC waard te maken.

Denk toch echt dat een beetje lariekoek is en dat je meer doelt dat Nvidia de eerste is.

Op dit item kan niet meer gereageerd worden.