De Nvidia Blackwell-datacenterchips kampen met oververhitting als ze in bepaalde high-capacity serverracks worden geïmplementeerd. Dat schrijft The Information. Nvidia zou op de hoogte van het probleem zijn en werkt aan een nieuw ontwerp voor de serverracks, met betere koeling.
De problemen doen zich volgens The Information momenteel enkel voor in serverracks waarin 72 Blackwell-datacenterchips tegelijkertijd zijn verwerkt. Deze installaties zouden maximaal 120kW per rack verbruiken. Bepaalde klanten van Nvidia, zoals Google, Meta en Microsoft, zouden hun zorgen over de problemen hebben geuit en zouden zich afvragen of de Blackwell-servers op tijd kunnen worden geïmplementeerd. Reuters schrijft dat Nvidia inmiddels aan enkele leveranciers heeft gevraagd om aanpassingen aan de serverracks te doen met het oog op een betere koeling. Het Amerikaanse techbedrijf zegt in een reactie aan het persagentschap dat aanpassingen aan een bepaald ontwerp een normaal onderdeel zijn van het ontwikkelproces.
Het is niet voor het eerst dat de Nvidia Blackwell-datacenterchip in het nieuws komt vanwege een probleem. Eind oktober kwam aan het licht dat de chip een ontwerpfout bevatte die de productie bij TSMC had beïnvloed. Die fout zou inmiddels zijn opgelost. Nvidia heeft de Blackwell-datacenter-gpu in maart van 2024 aangekondigd. De chip heeft een multichipontwerp en bestaat uit twee losse dies, die elk ongeveer even groot zijn als de voorgaande H100-gpu’s uit 2022. De Blackwell-chip wordt op het N4P-procedé van TSMC gemaakt en bevat in totaal 208 miljard transistors. Op de package zit ook 192GB aan HBM3e-geheugen met een geheugenbandbreedte van 8TB/s. De gpu heeft een tdp van 1000W. Bij de aankondiging zei Nvidia dat de Blackwell-gpu vanaf het tweede kwartaal van dit jaar geleverd zou worden. Die deadline werd niet gehaald. In het najaar zei ceo Jensen Huang dat de gpu’s in het laatste kwartaal van 2024 zullen worden geleverd.
/i/2006573410.png?f=imagenormal)