Nvidia heeft zijn H100-accelerator voor datacenters en hpc aangekondigd. Deze PCIe 5.0-gpu wordt geproduceerd op TSMC's 4N-node en beschikt over HBM3-geheugen met een bandbreedte van maximaal 3TB/s. De Nvidia H100 volgt de huidige A100-gpu op.
De Nvidia H100-gpu is gebaseerd op Hopper, een gpu-architectuur die is gericht op datacenters en hpc en Ampere op dat gebied opvolgt. De H100 bestaat uit 80 miljard transistors en wordt geproduceerd op TSMC's 4N-procedé. Dat is een aangepaste versie van TSMC's N4-procedé, specifiek voor Nvidia. De Nvidia H100 betreft wederom een monolithische chip, net als de A100. Aanvankelijk ging het gerucht dat Nvidia een datacenter-gpu met een multi-chip-ontwerp zou introduceren, bestaande uit meerdere dies. AMD deed dat vorig jaar met zijn Instinct MI200-serie.
De huidige A100 wordt geproduceerd op een aangepaste versie van TSMC's 7nm-procedé en bestaat uit 54,2 miljard transistors. Nvidia claimt daarbij dat de H100 tot drie keer meer rekenkracht dan de A100 biedt in fp16, tf32 en fp64 en zes keer meer in fp8. De H100-gpu is 814mm². Dat is iets kleiner dan de huidige GA100, die een die-oppervlak van 826mm² heeft.
De Nvidia H100 SXM5 (links) en H100 PCIe
HBM3 voor SXM5-model, HBM2e voor PCIe-variant
Nvidia introduceert twee varianten van de H100. De focus lijkt te liggen op een SXM5-variant, die beschikt over 128 streaming multiprocessors voor een totaal van 16.896 fp32-CUDA-cores. Die kaart krijgt daarbij 50MB L2-cache en 80GB HBM3-geheugen op een 5120bit-geheugenbus, voor een maximale geheugenbandbreedte van ongeveer 3TB/s. Deze kaart krijgt 50MB L2-cache en een tdp van 700W. Gebruikers kunnen meerdere van deze H100 SXM-gpu's combineren via Nvidia's NVLink-interconnect. De vierde generatie hiervan biedt volgens Nvidia bandbreedtes tot 900GB/s.
Er komt ook een PCIe 5.0 x16-variant voor meer standaard servers. Dat model krijgt 114 sm's en 14.592 CUDA-cores. Verder krijgt de PCIe-variant 40MB L2-cache, net als de huidige A100. Opvallend is dat de PCIe-variant nog beschikt over langzamer HBM2e-geheugen, blijkt uit de Hopper-whitepaper die Nvidia dinsdag publiceerde. De hoeveelheid is met 80GB wel gelijk aan het SXM-model. De PCIe-variant krijgt een tdp van 350W.
Nieuwe Hopper-functies: Transformer engine, DPX-instructieset
Ook de Hopper-architectuur zelf aangepast ten opzichte van Ampere. Hopper en de H100 beschikken over een nieuwe transformer engine, waarbij een nieuw soort Tensor-core wordt gecombineerd met een softwarestack voor het verwerken van fp8- en fp16-formaten voor het trainen van transformernetwerken. Dat zijn een soort deep learning-modellen.
Voor cloudcomputing kan de H100 gepartitioneerd worden in maximaal zeven instances. Ampere kon dat ook al, maar bij Hopper zijn deze volledig van elkaar geïsoleerd. Verder krijgt Hopper een nieuwe DPX-instructieset die is bedoeld voor dynamisch programmeren. Nvidia claimt dat de H100 in dit gebruiksgeval tot zeven keer beter presteert dan een A100 zonder DPX.
DGX-systemen en SuperPods
Nvidia introduceert ook een DGX H100-systeem met acht H100-gpu's. Zo'n systeem beschikt met zijn acht H100-gpu's over 640GB HBM3-geheugen met een totale bandbreedte van 24TB/s. Gebruikers kunnen maximaal 32 van die DGX-systemen combineren via NVLink-verbindingen. Nvidia noemt dat een DGX SuperPod. Zo'n systeem met 32 nodes moet een exaflop aan rekenkracht bieden, claimt Nvidia. Daarbij wordt gedoeld op fp8-rekenkracht. Het bedrijf bouwt zelf een EOS-supercomputer, bestaande uit 18 DGX SuperPods met in totaal 4608 H100-gpu's.
Nvidia maakt nog niet bekend wat de H100-gpu kost. Ook is het nog niet duidelijk wat de H100 DGX-systemen of DGX H100 SuperPods gaan kosten. Hopper zal verder naar verwachting niet gebruikt worden in gpu's voor consumenten. Later dit jaar introduceert Nvidia volgens geruchten zijn Lovelace-architectuur voor nieuwe GeForce RTX-videokaarten.
Nvidia Hopper naast voorgaande Nvidia-hpc-gpu's | |||
---|---|---|---|
Architectuur | Hopper | Ampere | Volta |
Gpu | H100, TSMC 4nm | GA100, TSMC 7nm | GV100, TSMC 12nm |
Die-oppervlak | 814 mm² | 826 mm² | 815 mm² |
Transistors | 80 miljard | 54 miljard | 21,1 miljard |
CUDA-cores (fp32) | SXM: 16.896 PCIe: 14.592 |
6912 | 5120 |
Tensorcores | SXM: 528 PCIe: 456 |
432 | 640 |
Geheugen | SXM: 80GB HBM3 PCIe: 80GB HBM2e |
40GB / 80GB HBM2e | 16GB / 32GB HBM2 |
FP32 Vector | SXM: 60Tflops PCIe: 48Tflops |
19,5Tflops | 15.7Tflops |
FP64 Vector | SXM: 30Tflops PCIe: 24Tflops |
9,7Tflops | 7,8Tflops |
FP16 Tensor | SXM: 1000Tflops PCIe: 800Tflops |
312Tflops | 125Tflops |
TF32 Tensor | SXM: 500Tflops PCIe: 400Tflops |
156Tflops | nvt |
FP64 Tensor | SXM: 60Tflops PCIe: 48Tflops |
19,5Tflops | nvt |
INT8 Tensor | SXM: 2000Tops PCIe: 1600Tops |
624Tops | nvt |
Tdp | Tot 700W | Tot 400W | Tot 300W |
Formfactor | SXM5 / PCIe 5.0 | SXM4 / PCIe 4.0 | SXM2 / PCIe 3.0 |