Nvidia-ceo bevestigt dat ontwerpfout in Blackwell-AI-gpu is opgelost

Nvidia-ceo Jensen Huang bevestigt dat de komende Blackwell-datacenterchip een ontwerpfout bevatte die de productie bij TSMC beïnvloedde. De fout is inmiddels opgelost. De topman zei onlangs dat de gpu's dit kwartaal geleverd zullen worden aan klanten.

“We hadden een ontwerpfout in Blackwell”, erkende Huang volgens Reuters tijdens een evenement in Denemarken. De topman gaat niet in op de aard van die fout, maar zegt wel dat deze ervoor zorgde dat de yields bij TSMC tegenvielen. “[Blackwell] was functioneel, maar de ontwerpfout zorgde ervoor dat de opbrengst laag was. Het was volledig de fout van Nvidia.” Huang zegt dat de fout inmiddels is verholpen met behulp van TSMC, de Taiwanese chipmaker die de productie van Blackwell op zich neemt.

Eerder dit jaar meldde The Information al dat de Blackwell zou worden uitgesteld door een ontwerpfout. Die fout zorgde volgens datzelfde medium ook voor oplopende spanningen tussen Nvidia en TSMC, maar Huang doet dat af als 'nepnieuws', schrijft Reuters. Hij verwijst daarbij naar het 'ongelooflijke tempo' waarop TSMC de productie heeft kunnen hervatten nadat de fout was opgelost.

Nvidia kondigde zijn Blackwell-datacenter-gpu in maart aan. De chip krijgt een multichipontwerp en bestaat daarmee uit twee losse dies, ieder ongeveer even groot als de voorgaande H100-gpu uit 2022. Blackwell wordt gemaakt op TSMC's N4P-procedé en bevat in totaal 208 miljard transistors. Op de package zit ook 192GB aan HBM3e-geheugen met een geheugenbandbreedte van 8TB/s. De gpu heeft een tdp van 1000W.

Bij de aankondiging zei Nvidia dat de Blackwell-gpu vanaf het tweede kwartaal van dit jaar geleverd zou worden, maar dat werd dus niet gehaald. Huang zei tijdens een recente conferentie dat de leveringen in het laatste kwartaal alsnog van start gaan, meldt Reuters.

Nvidia Blackwell

Door Daan van Monsjou

Nieuwsredacteur

23-10-2024 • 20:04

31

Lees meer

Reacties (31)

31
30
13
2
0
10
Wijzig sortering
1000W 8)7 Hoe groot is ie dan en hoe koel je zo iets?
Nou zo ongeveer. Of een dik blok koper met water erin of een enorme heatsink aldus lenovo.
Het is een datacentre GPU, die hebben iets sterkere fans (of waterkoeling) en maken iets meer geluid dan je PC thuis.
Watercooling binnen datacenters begint meer en meer populairder te worden.
Rekenkracht (en stroomverbruik) beginnen stilaan de limieten te bereiken wat luchtkoeling effectief gekoeld kan krijgen zonder de servers te groot te maken puur voor koeling.

Binnen Dell sturen ze ook aan op Liquid Server Cooling: https://www.dell.com/en-u...d-server-cooling-choices/.

Ik volg het alvast nauw op!
Equinix vond het anders helemaal niets dat we een in een rack water hadden ;)

dat is een hoop gedoe geweest met een af fabriek systeem op de IBM LinuxOne III
Ik denk dat dit meer de chip is waar je een heel hyperscale datacenter omheen bouwt dan een chip die je in een servertje op colo plaatst.
Niet met lucht te koelen, en voorzie je rekencentrum ook maar vast van een 3-fasen 32A-aansluiting per server.
NVIDIA levert zelf ook systemen en ze hebben voor de Blackwell serie nog "gewoon" een luchtgekoelde variant (DGX B200). Het paradepaardje de GB200 (wat een compleet rack vol met GPUs is) is watergekoeld (80 a 85%).
Nee, luchtgekoeld in de marketing. Doe de berekening maar: Een Gigabyte S593 is 5U, er passen er dus 8 in een rek, 8 GPU's, per machine, hoeveel koeling heb ik dus per rek nodig?

Welke serverruimte kan die koeling leveren?

Conclusie...
De DGX B200 is een 10U systeem dus maximaal 3 per rack (met PDU's kabels etc is 4 niet handig), het is niet ideaal maar dat krijg je echt nog wel met lucht gekoeld (NVIDIA guidelines geven aan een CFM van 2145 op sea level met een aanvoer temp van max 30 graden).
3 per rek is dus al verspilling van je dure serverruimte maar al lang de praktijk. Ook bij 3 bakken heb je al 24 kilowatt aan GPU's per rek, dus je zit waarschijnlijk ruim boven de 30kW. Je kunt dat soort wattages wel watergekoelde rekken gebruiken en de servers luchtkoelen, maar zuivere luchtkoeling no way, veel verder dan 15kW per rek.

De meeste serverruimtes zijn gebouwd met zuivere luchtkoeling, als je toch al watergekoelde rekken gaat installeren, ga dan direct voor directe waterkoeling, want met dit soort wattages heb je ook minstense een kilowatt nodig voor de ventilatoren straalmotoren in de server.

[Reactie gewijzigd door dmantione op 24 oktober 2024 16:35]

High-density datacenters kunnen prima tot soms wel 50 kW per rack zuiver met lucht koelen. Ik heb meerdere van deze van dichtbij mogen bekijken ;-).

3 per rack is prima als je kijkt naar bijv. de SuperPOD RA van NVIDIA, 3 x 10U plus een paar U-tjes voor wat PDUs en je 42U rack zit bijna vol.

Accelerated Computing (zoals NVIDIA het graag noemt) is different "koek" dan general purpose computing en ja daarbij komen andere eisen voor datacenters.
Dan is er sprake van watergekoelde rekken of een ander ingenieus systeem zoals overdruk, conventionele luchtkoeling stopt bij ongeveer 15kW. Wat betreft 50kW-systemen, het kan, ik heb GPU-clusters ontworpen die tientallen kilowatts per rek slurpen in watergekoede rekken. Doe het het niet! Het is simpelweg te gevaarlijk, de kans op een Fukushima-achtige meldown waar je je voormalige servers uit het gesmolten plastic moet losbeitelen is te groot.
Doe het niet? Gaat helaas niet lukken er draaien op dit moment al tientallen GPU cluster met 40+ kW per rack zonder waterkoeling (cold containment aisles met voldoende druk en dan gaat het prima).

Die GB200 racks van NVDIA hebben een TDP van 132 kW.. dat is dan natuurlijk wel met waterkoeling maar ik verwacht dat volgende generaties naar 200+ kW per rack gaan.
Een tijdje geleden was ik een serie aan het kijken "Pantheon" die ging over simulatie theorie op een gegeven moment ver in de serie hebben ze datacenters in de ruimte, leek me best wel plausibel het is lekker koud voor koeling en je hebt genoeg zonne-energie.
Grootste probleem lijkt me schadelijke straling en up en down link die snel genoeg moet zijn.
Maar het zou zomaar de toekomst kunnen zijn.
Eventjes nerdbrilletje opdoen hoor :) Maar dat iets 'koud' is zegt amper iets over warmtewisseling. Kijk bijvoorbeeld naar hoeveel radiatoren het ISS nodig heeft om niet constant op te warmen als ze even in het zonlicht zijn. Dat komt omdat er in de ruimte ook helemaal niks is om je temperatuur aan kwijt te kunnen. En het lijkt juist redelijk hoopvol in tenminste lage banen rond de aarde (zoals wat het ISS doet) dat er best weinig zorgen hoeven te zijn over bit-flips door straling. IIRC gebruikt spaceX bijvoorbeeld (nog steeds?) geen ECC ram in hun onboard computers, maar quote me daar maar niet op :)

Natuurlijk genoeg oplossingen voor, en 24/7 zonneenergie is huge, maar je moet ergens je warmte kwijt en om daar een zelfvoorzienende oplossing voor te vinden is voor nu nog wel een dingetje. Ik verwacht dat we iets slimmers hebben verzonnen tegen de tijd dat de prijs voor iets de ruimte in te schieten zodanig goedkoop is om hele datacenters in baan om aarde te krijgen.
Relatief gezien net zo makkelijk te koelen als een kleinere chip met dezelfde efficientie, het oppervlak is veel groter dus ook een groter oppervlakte om hitte af te voeren in de heatsink. Grote chip van 1000 watt betekend niet dat dat moeiljik te koelen is, je hebt gewoon een groter koelblok nodig.
Hoeveel cores heeft zo’n ding nou?

En puur hypothetisch, stel je hebt te veel geld en je koopt zoiets, zou je er ook mee kunnen gamen? (Even afgezien van het verbruik en andere zaken) Zou dat kunnen?
En puur hypothetisch, stel je hebt te veel geld en je koopt zoiets, zou je er ook mee kunnen gamen?
Nee, dat zou niet kunnen. Om te beginnen zijn de drivers heel anders ingericht dan voor GeForce kaarten, waardoor ze nogal ondermaats zouden presteren in games. Daarnaast zijn er geen video outputs, en naar verwachting ook geen rasterization en ray-/pathtracing hardware, want die zijn een overbodige kostenpost voor een datacentrum kaart gericht op Machine Learning.

[Reactie gewijzigd door Jeanpaul145 op 23 oktober 2024 20:44]

Klopt maar als je er over nadenkt is het vreemd dat dit nog steeds een GPU wordt genoemd, ook door Nvidia zelf. Het dekt de lading niet en veroorzaakt alleen maar verwarring.
Hoezo?

GPU is Graphics Processing Unit, dat betekent niet dat je er alleen maar games mee kunt spelen, maar dat het een processing unit is die het verwerken van Graphics type data kan versnellen.

Dat kan video zijn, maar ook andere 1D/2D/3D data die als graphical data gerepresenteerd kan worden.

NVIDIA zelf gebruikt trouwens de term GPGPU voor dit soort kaarten, wat staat voor General Purpose Graphical Processing Unit.

Echter iedereen gebruikt nog steeds GPU omdat dat nou eenmaal beter in de mond ligt.
Je zou wel goede tegenstanders kunnen hebben xD
wss niet. Er zijn niet eens beeldconnectoren aan dacht ik. Ook geen rendering engine meer.

Laat staan drivers. Dat ding kan CUDA code uitvoeren, That's It Folks!

[Reactie gewijzigd door bjp op 23 oktober 2024 20:45]

hij zal niet op een kaart geleverd worden met een HDMI aansluiting aan de achterkant. Dus stel dat je deze hardwarematig in je PC zou weten te integreren, dan vermoed ik dat de standaard displaydrivers niks kunnen met deze chip. Dus dan zou je er custom software voor moeten schrijven om rendering mee te doen en het in een framebuffer te zetten van je videokaart. En dat kost je dan weer latency. Dus niet ideaal voor gamen stel ik mij zo voor.
en voor je eerste vraag, zie artikel van T.net zelf: nieuws: Nvidia presenteert Blackwell-AI-gpu met 208 miljard transistors

ik gok dus ~32000-34000 cores. Lijkt ongeveer het dubbele van de vorige.
Hoeveel cores heeft zo’n ding nou?
Duizenden, maar GPU cores werken fundamenteel anders dan CPU cores: een GPU voert doorgaans dezelfde code over alle cores synchroon uit. Algoritmes moeten daar specifiek voor worden geschreven, anders staan de meeste cores domweg niets te doen.
En puur hypothetisch, stel je hebt te veel geld en je koopt zoiets, zou je er ook mee kunnen gamen? (Even afgezien van het verbruik en andere zaken) Zou dat kunnen?
Daar is het niet voor gemaakt. Ik heb vroeger een privé een Xeon workstation gehad en wilde daar ook nog wel eens een spelletje op doen. Zelfs dat is kennelijk al te exotisch en wordt niet echt getest, waren best wat titels die gewoon domweg niet of buggy draaien op zo'n CPU.
[quote[De chip krijgt een multichipontwerp[quote]
De chip "krijgt het" niet, de chip "heeft het" al, want het ding is al enige tijd in productie.
De chip heeft een grootte van 4 op 4 cm. ( 2 keer 800mm² naast elkaar)

Wat mij toch niet zo groot lijkt eigenlijk, zeker niet om 1000W te koelen.
Niet zo groot? Van wat ik ervan begrijp is er een limiet van hoe groot je het kan maken terwijl de lazer nog goede focus heeft op dat stukje van de wafer. Veel groter dan dat wil niet.
Cerebras maakt een flink grotere chip (min of meer de gehele wafer) maar die doen het wat anders dan de rest van de markt en het gehele ontwerp is daarop aangepast.

Er zijn vast mensen hier die dit beter kunnen uitleggen dan mij :)

Op dit item kan niet meer gereageerd worden.