Nvidia introduceert DGX GH200-supercomputer met 256 Grace-cpu's en H100-gpu's

Nvidia meldt tijdens Computex dat zijn Grace Hopper-'superchips' voor datacenters nu volledig in productie zijn. Het bedrijf toont daarnaast een DGX GH200-supercomputer, die bestaat uit dergelijke chips en beschikt over 144TB gedeeld geheugen.

De Nvidia DGX GH200 beschikt over 256 Grace Hopper-superchips. Dat zijn chips die een H100-gpu combineren met een Nvidia Grace-cpu op een enkele module van ongeveer 200 miljard transistors. Iedere Grace Hopper-superchip heeft 72 Neoverse V2-cpu-cores en 16.896 CUDA-cores, 96GB HBM3-geheugen en 480GB Lpddr5-geheugen. Daarmee krijgt het hele DGX GH200-systeem in totaal 18.432 cpu-cores, ruim 4,3 miljoen CUDA-cores en 144TB gedeeld geheugen.

Nvidia Grace Hopper-superchip — Nvidia's Grace Hopper-superchip

De Grace Hopper-superchips worden onderling verbonden met Nvidia's eigen NVLink-interconnect, waarmee alle gpu's elkaars geheugen kunnen benaderen. Daarmee functioneert het systeem als een enkele gpu. Voor die NVLink-interconnect worden 96 L1-switches en 32 L2-switches gebruikt, meldt de fabrikant. Nvidia zegt dat de gpu-naar-gpu-bandbreedte 900GB/s bedraagt. Ter illustratie: een PCIe 5.0 x16-gpu heeft een bandbreedte van ongeveer 63GB/s.

Nvidia zegt dat de DGX H200 is bedoeld voor grote AI-workloads. Het systeem beschikt daarvoor volgens de fabrikant over '1 exaflop' aan fp8-rekenkracht. De fabrikant deelt geen prestatiecijfers voor andere rekenformaten. Het bedrijf deelt wel enkele benchmarks waarin het de DGX GH200 vergelijkt met een huidig DGX A100-systeem, meldt Tom's Hardware. Daarin is het nieuwe DGX GH200-systeem 2,2 tot 6,3x sneller. De huidige DGX A100-systemen beschikken echter over 32 tot 256 A100-gpu's, afhankelijk van de benchmark. Nvidia's DGX GH200-systeem beschikt in alle getoonde benchmarks over 256 gpu's.

Volgens de fabrikant krijgen Google Cloud, Meta en Microsoft als eerste toegang tot de DGX GH200-supercomputer. Op termijn wil Nvidia de blauwdruk voor het systeem beschikbaar stellen aan cloudproviders en andere hyperscalers. De DGX GH200 moet eind dit jaar uitkomen. De fabrikant deelt geen prijs.

Nvidia gaat zelf nog een Helios-supercomputer bouwen die vier DGX GH200-systemen combineert. Die vier systemen, die gezamenlijk beschikken over 1024 Grace Hopper-superchips, worden verbonden met Nvidia's Quantum-2 InfiniBand met een bandbreedte van 400Gbit/s. Dat systeem moet eind dit jaar online komen.

Bron: Nvidia, Tom's Hardware

Reacties (31)

BlueTooth76 29 mei 2023 10:14

Qua rekensnelheid ongeveer gelijk aan Tesla Dojo Exopod zo te zien?

Coolstart

Processors

@BlueTooth76 • 29 mei 2023 20:36

Die van Tesla lijkt 1.8 exaflops te hebben.

Het gaat wel snel.

In het jaar 2000 was er de IBM ASCI white met een whopping 12,8 Terraflops. Vandaag zit die rekenkracht in bij menig huishouden in hun gameconsole

Dat zou willen zeggen dat de huidige supercomputer binnen 23 jaar ook gewoon in de huiskamer staat

Over 23 jaar is AI de norm. Wij mensen gaan niet beter kunnen coderen, een auto besturen, muziek maken of een game ontwikkelen. Zo grappig dat meesten onder ons er nog amper notie van hebben en je nu al zeker weet ons werk dat we nu kennen in een sneltempo een AI-spoeling zal krijgen. Soms en overspoeling en soms amper verschil.

[Reactie gewijzigd door Coolstart op 22 juli 2024 15:32]

Rob Coops

Supercomputers
Arm

@BlueTooth76 • 29 mei 2023 10:47

Voor fp8 misschien maar als een fabrikant de rest van de rekenformaten niet meld dan is dat waarschijnlijk niet omdat die zo extreem goed zijn...

Wel leuk om te zien dat NVidia zelf een eigen systeem aan het bouwen is met 4 van dit soort beesten. Wat ik alleen heel erg mis in het verhaal is hoe groot is dit ding? Is dit een rack of eerder 256 racks, hoe koelt men dit beest is dat allemaal gewoon ambient air en wat fans of vereist dit waterkoeling of een exotische oplossing zo als sommige van de IBM chips bijvoorbeeld?

Het plaatje dat NVidia heeft gedeeld toont een rack unit maar zonder verdere uitleg is het moeilijk inschatten wat dat is anders dan een render van een rack unit. Ik denk niet dat die ene unit de volledige 1 exaflop zal leveren en als dat wel zo is waarom zou NVidia dan een super computer bouwen met maar 4 van die dingen en niet gewoon 4 racks met die dingen er in? Ik kan me niet voorstellen dat er iemand bij NVidia zal zitten die roept een joh, doe niet zo gek laten we vooral niet een nog krachtiger supercomputer tegen kostprijs neer zetten dat zou veel te veel rekenkracht zijn...

thijsjek @Rob Coops • 29 mei 2023 12:21

Het plaatje toont niet een rack unit, maar 24 racks. Ik gok dat de stroomvoorziening en koeling redelijk adequaat moet zijn en je niet zomaar 4 in 4u propt.

Rob Coops

Supercomputers
Arm

@thijsjek • 29 mei 2023 12:40

Ah is dat wat het plaatje poogt te laten zien. In dat geval snap ik wel een beetje dat NVidia het op 96 racks houd. Ik kan me zo voorstellen dat switching een probleem zal worden als je nog verder dan 96 racks wil groeien en dat de geadverteerde 400Gbit/s tussen de systemen dan toch net even wat minder zal gaan worden.

Wat ik me af vraag is waar NVidia deze super computer voor wil gaan gebruiken voor simulatie is het meestal meer fp16 of meer dat gebruikt wordt en omdat men dat niet adverteert neem ik aan dat dat niet echt spectaculair zal zijn.
Ik kan me eigenlijk alleen een AI systeem voorstellen dat dan weer gebruikt zal worden om nog betere chips te ontwerpen, zodat die chips nog betere chips kunnen ontwerpen en... hmm als dat maar goed blijft gaan

ajsietsma @Rob Coops • 30 mei 2023 09:20

Wat ik me af vraag is waar NVidia deze super computer voor wil gaan gebruiken voor simulatie is het meestal meer fp16 of meer dat gebruikt wordt en omdat men dat niet adverteert neem ik aan dat dat niet echt spectaculair zal zijn.

Voor AI wordt regelmatig INT8 gebruikt binnen de lagen van het model/neural net zelf. De algemene trend is om grotere modellen te maken waar elk onderdeel kleinere/minder precieze weights heeft: mixed precision (FP16 en 32) kan vaak vrij algemeen worden toegepast zonder merkbaar verschil in precizie en zonder dat ingewikkelde quantization nodig is; die lijn doortrekkend wordt FP8 regelmatig voorgesteld (al heeft het ook tegenstanders).

Dan kan het nog steeds goed zijn dat de FP16/32 prestaties relatief tegen vallen voor dit systeem. Maar kan me ook voorstellen dat ergens een marketing bobo 1 exaflop zag staan en dacht: wow dat klinkt als een groot getal.

EraYaN @ajsietsma • 30 mei 2023 13:04

Als het volledige Hopper GPUs zijn dan gaan die best wel lekker op FP16 en FP32, en zelfs regular shader FP64 doen ze 37 TFLOPS. (Datasheet: https://resources.nvidia....tensor-core-gpu-datasheet) Als vergelijking AD102 in een 4090 doet 82/82/1.3 for FP16/FP32 en FP64 respectievelijk.

Dus toch nog 9.5 petaFLOPS theoretische FP64 shader performance, dat is nog steeds best netjes. En per GPU toch een stuk meer dan de A100 ook (Datasheet: https://www.nvidia.com/co...nvidia-a100-datasheet.pdf)

aadje93 @Rob Coops • 29 mei 2023 11:37

misschien ivm de onderlingen gpu-gpu bandbreedte van 900GB/s? het is many to many bandbreedte, als je nog meer gpu's gaat toevoegen gaan ze per GPU dus steeds minder bandbreedte krijgen naar de andere X gpus en dus kunnen ze blijven hangen wachtend op data. Dan is het dus handiger om meerdere van zulke systemen parrallel te maken en dus een cluster te vormen. Dit hele rack systeem (render) word gezien als 1 mega grote gpu als ik het goed begrijp.

[Reactie gewijzigd door aadje93 op 22 juli 2024 15:32]

MarkHart @Rob Coops • 30 mei 2023 00:05

De H100 heeft ongeveer de helft aan Flops op FP16, dit is "gewoon" 256x de H100 SXM.

Gek genoeg is voor het bedoelde type workload eerder de vraag of het dan ook dubbel zoveel flops op int/fp4 heeft, dan wat het doet met fp16 of fp32.

oks 29 mei 2023 13:00

Simpele vraag? Wat gaan ze er mee doen? Grote AI workloads?

[Reactie gewijzigd door oks op 22 juli 2024 15:32]

MarkHart @oks • 29 mei 2023 23:59

Groot, maar niet echt heeel groot, taalmodel trainen op dit duurt een aantal maanden. Grotere AI workloads lijkt me inderdaad

Roel1966

29 mei 2023 21:50

Ik kan mij zo voorstellen dat er wel een behoorlijk prijskaartje aan vast zal hangen. Maar toch zou het wel eens interessant zijn als een Youtuber zoals b.v. Linus er een systeempje mee zou bouwen. Lijkt mij wel lachen om te zien hoe je met 4,3 miljoen CUDA-cores video kan renderen.

Zou ook wel eens het verbruik van zo'n super computer willen weten.

MarkHart @Roel1966 • 29 mei 2023 23:56

Als ik even snel kijk wat er in zit gok ik dat de prijs tussen de 10M en 15M zit. Zelfs voor Linus wat te hoog

Roel1966

@MarkHart • 30 mei 2023 17:50

Misschien zit ik er helemaal naast maar ik denk eerder dat 1 zo'n module zo rond de 100.000 zal liggen wat nog evenzogoed een fiks bedrag is. Bedenk namelijk wel dat het om ARM cores gaat wat mij trouwens niet helemaal duidelijk was vanuit het artikel hierboven.

Linus heeft er al trouwens al een in handen gehad op de Computex 2023 dus mij verbaasd het niet dat hij er ook wel t.z.t. eentje in zijn studio krijgt. En hij zal er vast en zeker mee gaan experimenteren en gaan benchmarken.

MarkHart @Roel1966 • 30 mei 2023 18:26

Met 256 modules is dat nog 2x hoger dan ik gokte. Ik keek overigens vooral naar de GPU en wat vergelijkbare machines nu kosten.

Davidoff1976 29 mei 2023 11:46

Ik vraag mij af of je er Vray of Corona render erop kan draaien?

Verwijderd 29 mei 2023 13:13

Ik ben eerder benieuwd naar de Instinct Mi300 van AMD. Dat is opschaalbaar en heeft ook brute specs aan boord. Een cluster van die dingen heb je gewoon een gigantisch systeem mee.

EraYaN @Verwijderd • 30 mei 2023 13:05

Heeft AMD de networking en interconnect tech om dit te bouwen? Nvidia heeft daar natuurlijk deels Mellanox voor gekocht.

Armselig 30 mei 2023 03:02

Zijn die superchips wel Windows 11 compatibel? (moppert iets over een processor gekocht te hebben een paar jaar geleden die dus niet ondersteund word en dus weer overnieuw kan beginnen met een Pc samenstellen)

psychicist

@Armselig • 30 mei 2023 13:59

Op dit soort hardware draai je geen Windows, maar Linux of een ander ondersteund besturingssysteem. Als Microsoft een Windows Server versie voor ARM uitbrengt, zou het kunnen. Maar daar zit eigenlijk niemand op te wachten.

Wat voor (x86) processor heb je dan gekocht die niet door Windows 11 ondersteund werd? Vanaf Intel Core 8th Gen en AMD Zen+ zouden alle processoren ondersteund moeten worden. Het is nog even afwachten wat de systeemeisen voor Windows 12 zullen zijn en of er dan nog meer al wat oudere x86 hardware niet meer ondersteund wordt.

Armselig @psychicist • 31 mei 2023 02:11

Deze...
Weet niet meer precies wanneer ik die gekocht heb maar wel enkele jaren geleden. Pas een jaar of twee geleden eindelijk m'n huidige pc laten samenstellen. Doe ik de Windows 11 test in Pc Health Check, zegt dat ding vervolgens dat de processor niet ondersteund word. Ik dacht nou het kan misschien heus wel maar dan werkt het wat trager of zo. Maar iemand anders zei al dat het betekent dat ik gewoon echt niet kan upgraden. Balen, maar ja.. ik zie wel wanneer ik ga kijken naar weer een nieuwe Pc/onderdelen etc.

psychicist

@Armselig • 31 mei 2023 15:09

Ik zou voortaan de ontwikkeling van Windows dan wat nauwgezetter volgen en niet te oude hardware meer aanschaffen, omdat je gewoon niet weet wat voor rare fratsen ze bij een nieuwe versie gaan uithalen. Ik vind het ook schandalig dat jouw processor niet meer ondersteund wordt, maar Microsoft heeft deze afweging nu eenmaal gemaakt en daar valt niet veel aan te veranderen. Ik verwacht dat het alleen maar erger gaat worden.

Armselig @psychicist • 31 mei 2023 20:08

Door de prijs en het feit dat die proc bij veel recente games nog zelfs als recommended stond dacht ik dat dat ding aardig futureproof was, ik had echter niet op Windows gerekend