Nvidia introduceert A100- en H100-datacenter-gpu's met waterblok

Nvidia heeft plannen aangekondigd om watergekoelde versies van zijn A100- en H100-datacenter-gpu's uit te brengen. Volgens het bedrijf kan met deze variant tot 30 procent energie bespaard worden in datacenters.

De watergekoelde Nvidia-kaarten komen beschikbaar in PCIe-formaat en krijgen een singleslotontwerp. Daarmee nemen ze onder andere minder ruimte in beslag dan de luchtgekoelde varianten. Nvidia's huidige PCIe-datacenterkaarten vergen ieder twee slots. Hiermee moeten twee keer zoveel PCIe-serverkaarten binnen een rack passen.

Nvidia claimt dat de videokaarten met waterkoeling ook efficiënter zijn. Een datacenter met dergelijke watergekoelde kaarten moet tot 30 procent minder stroom verbruiken, zo beweert het bedrijf. Die stroombesparing moet onder meer voortkomen uit verminderd energieverbruik door te koelen met water in plaats van grote koelmachines die de lucht in datacenters afkoelen.

Los van het waterblok blijven de gpu's verder ongewijzigd. De tdp en kloksnelheden blijven hetzelfde en de kaarten krijgen ook geen extra CUDA-cores of geheugen. Nvidia brengt in het derde kwartaal van dit jaar een A100-datacenter-gpu met waterkoeling uit. Begin volgend jaar volgt een H100-variant met waterblok.

De eerste van deze watergekoelde serverkaarten zijn dus gericht op minder stroomverbruik. In de toekomst gaat Nvidia naar eigen zeggen waterkoeling ook inzetten voor extra prestaties, vermoedelijk door de tdp's van die kaarten op te hogen ten opzichte van de luchtgekoelde varianten. Verder komt Nvidia ook met watergekoelde HGX-servers. Die servers bevatten de krachtigere SMX-varianten van Nvidia's datacenter-gpu's, die onder meer hogere tdp's bieden. Een watergekoelde HGX A100-server wordt momenteel al geleverd en een variant met H100-gpu's volgt in het vierde kwartaal.

Nvidia A100 H100 waterkoelingNvidia A100 H100 waterkoeling

Bron: Nvidia

Door Daan van Monsjou

Nieuwsredacteur

24-05-2022 • 09:08

33

Reacties (33)

33
33
15
4
0
15
Wijzig sortering
Volgens het bedrijf verbruikt deze variant tot 30 procent minder stroom dan de variant met luchtkoeling.
De videokaart zelf zal waarschijnlijk evenveel energie verbruiken. Het datacentrum in het geheel kan potentieel minder energie verbruiken indien die warmte direct afgevoerd wordt via water in plaats van lucht.

[Reactie gewijzigd door The Zep Man op 30 juli 2024 19:11]

precies de vraag die bij mij opkwam. Is het onderaan de streep minder verbruik? Waar ligt het lagere verbruik?
Bij de steeds kleinere nodes, is het statische stroomverbruik meer en meer een probleem. De stroom lekt letterlijk doorheen de silicon weg.
Fabrikanten hebben hier overheen de jaren wel iets aan proberen te doen. Denk maar aan SOI (silicon on insulator), finfet, clock gating, etc.
Echter er blijft een probleem en dat probleem wordt eigenlijk alleen maar groter.

Nu moet je weten dat statisch stroomverbruik afhankelijk is van de temperatuur. Hoe hoger de temperatuur, hoe meer lekkage. Dit is ook een zelf versterkende feedback-loop: hoe hoger de temperatuur, hoe meer lekstroom. Hoe meer lekstroom die ook in warmte wordt omgezet en de temperatuur mee verhoogt.

Met waterkoeling kan je de temperatuur significant verlagen (enkele tientallen graden) waardoor je de verliezen via lekstroom significant kan terugdringen.
De claim van Nvidia houdt dus zeker steek. Zeker als je weet dat GPUs vaak dicht tegen hun maximum junctietemperatuur draaien.
Kijk! Topinfo. Wist ik niet
Dat dit geen +2/+3 krijgt is mij een raadsel.
In sommige videos van LTT hebben ze het wel is gehad over server fans. Deze kunnen snel al tientallen watten aan stroom per fan gebruiken. Dat kan dus al heel veel schelen, of een waterkoelsysteem in een gebouw ook efficiënter is dan lucht weet ik niet, maar klinkt ergens wel logisch. Geen aircos en grote ruimtes koel houden.
In sommige videos van LTT hebben ze het wel is gehad over server fans. Deze kunnen snel al tientallen watten aan stroom per fan gebruiken.
Ik denk dat het per fan wat overdreven is. Een grote fan op hoge toeren verbruikt kan bijvoorbeeld 6 watt verbruiken. Des te kleiner de fan, des te minder energie die verbruikt.

Het totaal (inclusief redundante fans) kan mogelijk wel in de tientallen watt zitten, naargelang het soort server.
Je zit hier wel op normale consumenten fans. Fans in een server blazen vele malen harder op de statische druk ook hoog te houden. Je kan in deze video https://youtu.be/nAFB9w2Rh0Y?t=44 van linus al zien dat de fan is gebouwd voor 12v 3.6A wat op 43W uitkomt. Dat is iets meer dan 6 wat.
Goed punt. Je krijgt dan ook het effect dat de warmte gegenereerd van de fans ook gekoeld moet worden. Uiteraard koelt de fan meer dan dat die opwarmt, maar efficiënt is anders.

[Reactie gewijzigd door The Zep Man op 30 juli 2024 19:11]

Jup, en om de cijfertjes hoog te maken denk ik dat Nvidia dit allemaal meeneemt. Uiteindelijk natuurlijk mooi is voor iedereen, minder energie verspilling is altijd goed.
Zou liever (veel) meer energieproductie zien dan minder energieverbruik.
Tientallen watts per ventilator is héél veel, het eerste waar ik aan denk aan een luide en inefficiënte oplossing. Op een gegeven moment zal een ventilator harder draaien, marginaal meer airflow realiseren (door de krappe ruimtes) en daarmee ook weinig meer warmte kunnen afvoeren.

Door in die krappe ruimtes water te gebruiken (water kan veel energie per volume opnemen), kan je elders een groot koelblok gebruiken met ventilatoren die misschien twee watt per stuk verbruiken in plaats van tientallen watts.
Ik denk inderdaad ook dat het op zoiets neer komt.
Niet helemaal.
Ventilatoren verbruiken tegenwoordig ook redelijke hoeveelheid stroom om alle lucht rond te pompen.

Water is incompressibel en heeft een warmtecapaciteit die ongeveer 4500 keer zo groot is als die van Lucht. Hierdoor hoef je minder water rond te pompen en kun je met hogere temperaturen koelmiddel werken (wij draaien op 35 graden water in, 60 graden uit..)
AuteurAverageNL Nieuwsredacteur @The Zep Man24 mei 2022 09:29
Daar heb je gelijk in, Nvidia zegt het volgende:
(...) NVIDIA found a data center using liquid cooling could run the same workloads as an air-cooled facility while using about 30 percent less energy.
Ik heb dat dus niet goed verwoord. Ik pas het aan naar:
Volgens het bedrijf kan met deze variant tot 30 procent energie bespaard worden in datacenters.
Verderop in de tekst wordt verder verduidelijkt waar die besparing precies vandaan moet komen (volgens de claims van Nvidia althans). Thanks! :)

CC: @A_Trouwborst en @TWeaKLeGeND

[Reactie gewijzigd door AverageNL op 30 juli 2024 19:11]

[...]
De videokaart zelf zal waarschijnlijk evenveel energie verbruiken. Het datacentrum in het geheel kan potentieel minder energie verbruiken indien die warmte direct afgevoerd wordt via water in plaats van lucht.
Dat ten eerste, en met een 2x zo hoge dichtheid aan kaarten wordt het verbruik anderhalf keer zo hoog!
Als je daarvoor maar half zoveel datacentrum en servers om die kaarten in te steken hoeft te hebben lijkt me dat per saldo alsnog winst.

Beter dan twee datacenters nodig hebben met de oude kaarten waarvan de dichtheid maar half zo groot is.
Ik wil niet de persoon zijn die de boel moet aansluiten en er na een paar uur achter komt dat een heel rack is gefrituurd door een klein waterlek...

Edit: Dit had geen reactie op @The Zep Man moeten zijn :'), maar een los bericht

[Reactie gewijzigd door BLACKfm op 30 juli 2024 19:11]

Als ze dezelfde kloksnelheden blijven gebruiken dan zal de videokaart minder verbruiken. Des te kouder des te minder weerstand en dus energiegebruik.

30% die alleen hieruit voorkomt lijkt me onwaarschijnlijk maar dat kan ik niet met zekerheid zeggen want zo goed is m'n fysica niet + je zou het temperatuurverschil tussen beide varianten moeten weten.
Ik denk dat je ook naar de fans moet kijken die normaal gesproken in zo een pizzadoos zitten. Ik schrok me kapot dat er bv. 8x 20W fans in een 1U doos zitten (zie LTT video @12:15):
https://www.youtube.com/watch?v=sl61lHwo3YE

Omdat je geen fans meer inzitten en de koelblokken een heel stuk kleiner zijn, kan je ook meer dingen kwijt in een rack, waardoor je minder overhead heb (meer rekenkracht per node).
In datacentra zit een groot deel van het elektriciteitsverbruik in het koelen van de serverruimtes. Als je de warmte rechtstreeks naar buiten kunt voeren met waterkoeling heb je een stuk minder airco capaciteit nodig wat weer een flinke kostenbesparing met zich meebrengt.
De vraag is dan alleen hoe ze het water gaan afkoelen. Direct in de buurt dumpen lijkt me zwaar onwenselijk door de impact op de natuur.
Meest efficiënte lijkt me door aansluiting op grote steden voor warm water voorziening.
Dan rijst mij toch de vraag... Hoeveel datacenters in Nederland, of wereldwijd, hebben de mogelijkheid tot (ondersteunen van) waterkoeling?
Waar je ruimte wint in t server rack lever je ruimte in daar buiten voor t reservoir lijkt mij?
In hoeverre is deze beoogde waterkoeling onderhoudsvrij en voor "hoelang"?

Ik heb er persoonlijk nog vrij weinig over gehoord. Meeste is naar mijn weten nog lucht.
Wel interessante ontwikkeling voor servers lijkt mij?
Het begint meer en meer toegepast te worden. Dat gaat meestal echter niet met een res-pomp combo ;)

Er zijn ook steeds meer datacenters die daar geen drinkwater voor gebruiken, zo heeft Google in Eemshaven met het waterschap samen gewerkt om water uit het Eemskanaal te gebruiken. Een ander plan is om gezuiverd rioolwater te gebruiken.
Wel interessant, maar als het niet 'perfect' demiwater is, is de kans op verstoppingen dan niet groter binnen in de componenten? Of hebben onderdelen als GPU's en/of waterkoel blokken en leidingen binnen in een server een "expected lifetime" van een bepaalde hoeveelheid jaar (zeg maar, 5?) en wordt daar de koeling op aangepast om het in ieder geval die 5 jaar vol te houden?

Ik zie onwijs veel haken en ogen, maar ergens denk ik ook wel dat er vast een hoop slimme koppen hebben gekeken naar de valkuilen, spoken, kosten/baten, enzovoort. Ik hoop alleen dat het geen 'weggooi' systeem zal worden, waarbij luchtkoeling, alhoewel minder efficiënt, wellicht langer mee zou kunnen gaan bijvoorbeeld.
Ik heb me er nooit echt 100% in verdiept, maar ik ga er zomaar van uit dat ze daar inderdaad rekening mee gehouden hebben. Vergeet niet dat ook luchtkoeling in datacenters veel problemen heeft. Die airco units hebben ook allemaal onderhoud nodig, met koelvloeistof en al. En dat lekt ook allemaal regelmatig zat.

Mainframes / supercomputers worden al langer met vloeistof gekoeld en je hebt tegenwoordig ook racks met immersion cooling (hele ding in een niet-geleidende olie).

Er zitten ook nog andere voordelen aan koelen met water. Omdat dat water opgewarmd wordt en water die warmte ook relatief goed vast houdt, kan datzelfde water ook rechtstreeks gebruikt worden voor verwarming van iets anders. Volgens mij wordt dat in Denemarken al gedaan, voor stadswarmte.
30%, Dat lijkt me heel sterk, want de GPU zelf wordt echt niet zuiniger van waterkoeling. Sterker nog, onze consumentenkaarten verbruiken zelfs meer stroom omdat de kloksnelheid afhankelijk is van de temperatuur. Hoe koeler de core, hoe sneller hij loopt = meer verbruik. Dit is misschien anders bij de datacenter GPU's, maar ik vind het erg knap dat 30% van de energie die een datacenter momenteel gebruikt, zou worden gebruikt voor luchtkoeling.
Hoe koeler de core, hoe sneller hij loopt = meer verbruik.
Maar wel: meer berekeningen per Watt, dus minder kaarten nodig.
helaas is dat niet zo, je kan een gpu beter iets terugschroeven voor een optimale power / performance verhouding. 5% extra snelheid kost al gauw 20% meer power:
https://www.pugetsystems....imit-vs-Performance-2296/
helaas is dat niet zo, je kan een gpu beter iets terugschroeven voor een optimale power / performance verhouding. 5% extra snelheid kost al gauw 20% meer power:
https://www.pugetsystems....imit-vs-Performance-2296/
Omdat met meer berekeningen, er meer geschakeld wordt en door de weerstand, de temperatuur stijgt. Daarbij is de weerstand hoger bij hogere temperaturen, waardoor er extra gekoeld moet worden: weer dubbel verlies.

Door de temperatuur laag te houden, kun je met dezelfde hoeveelheid electrische energie, meer berekeningen doen.
Van wat ik weet is dat de fans in een server nogal wat stroom kunnen gebruiken, samen met de noodzaak voor minder koele lucht door het hele pand kan ik mij wel wat voorstellen. 30% is natuurlijk wel veel, maar ik zie wel dat het totaal een besparing kan opleveren.
Huh...? De kaarten blijven exact hetzelfde.. op de koeler na.. waardoor er 2x zo veel in een rack passen.. ze zijn 30% efficiënter door de lagere temperaturen en dat de lucht niet meer gekoeld moet worden..? Pomp er straks dan een grondwater-water warmtepomp om 1 grote radiator per rack te koelen? Misschien tellen ze ook mee dat je meer slots per rack kan vullen en zo ook minder servers nodig hebt voor hetzelfde aantal kaarten en daarom minder verbruikt. Wat heb je meer kaarten in je rack en je hebt geen water-grondwater warmtepomp gebruikt moet je juist de lucht extra veel koelen. Waterkoeling is geen magische koeling TOV luchtkoeling het is enkele efficiënt vanaf koelblok richting radiator die net zo hard gekoeld moet worden uiteraard.

Edit: of misschien zelfs een 'restewarmtepomp' per rack naar een warmtewisselaar die allemaal verder door pompen naar woningen in de buurt oid.

[Reactie gewijzigd door TWeaKLeGeND op 30 juli 2024 19:11]

Er wordt niet gespecificeerd welke fabrikant de waterblokken gaat maken. Het lijkt mij niet dat Nvidia deze zelf gaat maken, aangezien er specialistische bedrijven zijn die hier waarschijnlijk beter in zijn.

EK heeft al een waterkoeloplossing voor de a100, maar dit is schijnbaar voor de SXM versie en die is voor desktop opstellingen. Andere fabrikanten of verdere specificaties kon ik niet vinden nog.
https://technewsspace.com...ooler-for-liquid-cooling/

[Reactie gewijzigd door Tomos op 30 juli 2024 19:11]

Op dit item kan niet meer gereageerd worden.