Nvidia introduceert AI-desktopcomputer met Grace Blackwell-chip

Nvidia heeft een compacte AI-computer onthuld die draait op de nieuwe GB10 Grace Blackwell-chip. Het systeem, genaamd Project Digits, kan volgens het bedrijf AI-modellen met tot 200 miljard parameters verwerken.

De GB10-chip combineert een Blackwell-gpu met vijfde generatie Tensor-cores met een Arm-gebaseerde Grace-cpu met twintig cores. Deze zijn via Nvidia’s eigen NVLink-C2C-interconnect met elkaar verbonden. Het systeem levert volgens Nvidia één petaflop aan AI-rekenkracht bij FP4-precisie van zwevendekommagetallen. De computer beschikt over 128GB geheugen en maximaal 4TB NVMe-opslag. Door twee systemen via ConnectX-netwerktechnologie te koppelen, kunnen ontwikkelaars AI-modellen met tot 405 miljard parameters draaien. Het system draait op een Linux-gebaseerd besturingssysteem.

Het systeem is volgens ceo Jensen Huang bedoeld om AI-ontwikkeling toegankelijk te maken voor datawetenschappers, onderzoekers en studenten. Ontwikkelaars kunnen onder meer gebruikmaken van Nvidia’s AI-software, waaronder het NeMo-framework voor het finetunen van modellen, Rapids voor datawetenschap en frameworks als PyTorch. Project Digits komt in mei op de markt voor een vanafprijs van 3000 dollar.

NVIDIA Project DIGITS
Nvidia Project Digits

Door Andrei Stiru

Redacteur

07-01-2025 • 08:01

33

Lees meer

Reacties (33)

33
33
27
2
0
5
Wijzig sortering
Blijkbaar werkt MediaTek mee aan Nvidia's nieuwe GB10 Grace Blackwell-chip die het hart vormt van Project DIGITS. Ze hebben deze press release de deur uit gedaan. Daarin claimen ze dat MediaTek draagt bij met hun expertise op het gebied van Arm-gebaseerde SoC’s, met name rond prestaties en energie-efficiëntie. Ze hebben geholpen bij het ontwerp van de GB10 Superchip, waarbij ze hun kennis van AI, connectiviteit en multimedia hebben ingebracht om samen met Nvidia dit AI-platform te creëren.

Ben heel benieuwd hoe die samenwerking er dan precies uit ziet, en of we daar in de toekomst meer van gaan zien.

Dat gezegd hebbende, 3000 USD klinkt als bijzonder goedkoop, zeker gezien ze voor de RTX 5090 al 2000 dollar vragen.

Tegelijk is één petaflop bij FP4-precisie niet bijzonder veel. Een RTX 5070 moet 988 AI TOPS leveren, dat dus qua aantal operaties vergelijkbaar is (precisie wordt hier niet vermeld). De B200 doet 9 petaflops op FP4 precisie, deze nieuwe GB10 doet daar dus ongeveer een tiende van.

De volle Grace CPU heeft 72 Arm Neoverse V2-cores, en deze GB10 krijgt er dus 20. Dat is niet per se weinig, maar er zijn genoeg desktopchips met meer cores (en zeker threads) tegenwoordig.

Anyway, zoals altijd: Wachten op reviews en benchmarks.
Met AI TOPS bedoelt men 'standaard' INT8 operaties, 8bit integer dus ipv 4 bit floating point.
Dit zou nog wel een het begin punt kunnen zijn van een compleet andere architectuur die we gewend zijn in zelfbouw.
Professionele gespecialiseerde workstations zijn van alle tijden. In de jaren 90 had je deze al voor bijvoorbeeld grafische bewerkingen, bij gebrek wat je daaraan kon doen op een doorsnee computer. Dat heeft nooit een poging gedaan om meer te worden.

Ik zie niet in waarom er een nieuwe architectuur in zelfbouw zou komen. Verbinding met zulke gespecialiseerde apparatuur kan ook op afstand met een "standaard" PC.
Het systeem is volgens ceo Jensen Huang bedoeld om AI-ontwikkeling toegankelijk te maken voor datawetenschappers, onderzoekers en studenten.
Tussen de regels door kan je lezen dat deze desktop AI-ontwikkeling toegankelijker maakt voor mensen die minder algemeen IT-bekwaam zijn. Die groep bestaat ook. Vraag een datawetenschapper om de krenten uit de pap van ongestructureerde data te halen, en hij spreekt een magische spreuk die dit mogelijk maakt. Vraag dezelfde datawetenschapper om een VPN-verbinding op te zetten en met Remote Desktop te verbinden naar een host, en de kans is aanwezig dat die je zal aankijken zoals een kip naar onweer kijkt.

De academische wereld (waar deze desktop zich op richt) is minder "managed" dan de wereld van corporate enterprise, onder andere door meer diversiteit binnen de verschillende soorten onderzoeks- en opleidingstakken. Er is niet altijd een IT-afdeling die voor een onderzoeker of student een maatwerkoplossing gaat maken met een machine ergens in een datacentrum en een VPN-oplossing. Daarvoor zou zo'n desktop dus handig zijn.

[Reactie gewijzigd door The Zep Man op 7 januari 2025 13:06]

>Professionele gespecialiseerde workstations zijn van alle tijden. In de jaren 90 had je deze al voor bijvoorbeeld grafische bewerkingen, bij gebrek wat je daaraan kon doen op een doorsnee computer. Dat heeft nooit een poging gedaan om meer te worden.

Doorsnee PC's vulden snel het gat tussen gewone- en PC's zoals die van silicon graphics.

Mocht deze situatie zich niet herhalen in het huidige CPU/GPU langschap die gekenmerkt wordt door de berekeningen die AI nodig heeft, heeft @FireStarter zeker een punt.
Ik ben nog niet overtuigd. Eerst zien, dan geloven. Mij lijkt het dat dit apparaat bedoeld is voor inference (gebruik van modellen) en veel minder voor het trainen van modellen. Je gaat hier echt geen model van 200 miljard parameters op trainen.

Het is niet gek dat je met veel geheugen in theorie een model kan gebruiken. Zolang het model in het geheugen past, zelfs al heb je enkel een of andere CPU van het jaar 2000 en geen GPU, dan ben je klaar om te starten. Maar dat wil nog niet zeggen dat het goed zal werken voor real-time gebruik.

Eerst zien, dan geloven. Skeptisch wat reviews afwachten.
Lang niet alle AI is een ChatGPT4 LLM. Wij trainen onze modellen rustig op een 3090Ti. Dat servertje kostte destijds ook zoiets, maar dit is natuurlijk een heel stuk beter.
Ik ben me zeker bewust van het trainen van LLMs en heb uitgebreid ervaring met het trainen van LLMs op HPC-infrastructuur. Je gaat me niet vertellen dat je ook maar een 7B model pretraint op een 3090TI. Misschien dat je het met QLoRA wat kan finetunen met beperkte datasets of wanneer tijd geen punt is, maar dat is niet wat ik bedoel.
Nee, we trainen inderdaad geen 7B modellen. Wel 7M modellen, dat traint prima.
Ik ben benieuwd naar jullie use-case foor 7M modellen. Dat is wel ERG klein! Ter referentie, GPT-1 was een 120M parameters.
We hebben vooral 2M modellen in gebruik, die 7M is een relatief groot netwerk voor ons. Het lijkt erop dat jij bij AI alleen denkt aan LLM's. Onze usecase is audio.
Precies. Er zijn heel veel toepassingen die gebruik maken van ANNs (in mijn geval beeldherkenning en verwerking van Lidar data). VRAM is een grote beperking en op dat gebied is er nauwelijks vooruitgang sinds de RTX 20 reeks. Een RTX 6000 Ada heeft 48GB, maar kost 9k. Een unified memory systeem met 128GB voor 3k klinkt dan helemaal niet verkeerd, ook al is de pure rekenkracht misschien iets lager. Beter iets langer wachten dan iets helemaal niet kunnen draaien.
Een heel nieuw model niet, maar wel finetunen met lora netwerk. Daar is ook redelijk veel geheugen voor nodig om bv trainingsdata volledig te kunnen reproduceren (tov alleen de schrijfstijl over te nemen bijvoorbeeld).

Ik vind t wel interessant, ik experimenteer als hobbyist met LLMs met een 4070ti en overweeg naar een kaart te upgraden met meer geheugen. De 5090 is zeker interessant, maar voor iets meer heb je net deze pc 128GB vs 32GB. Kun je modellen tot 60B draaien in fp16.
De moderniteit van het model heeft er niets mee te maken - de grootte wel. Je kan met (Q)LoRA vast wel wat finetuning doen op een relatief klein model. Maar een 200B model volledig finetunen of trainen (zelfs met LoRA), lijkt me niet het doel van dit apparaat.
3000 dollar klinkt als erg goedkoop. Qua context, wat voor model kan je daar dan op draaien met 200 miljard parameters? Zit je dan echt op gpt 4 niveau?
GPT4 heeft er volgens schattingen 1,76 biljoen dus daar zit nog wel een verschilletje in. Maar ik heb vaker models gezien die met 200 miljard claimen net zo goed in redeneren te zijn als GPT4. Denk aan die nieuwe LLama, Claude, Mistral etc. models
Van OpenAI's modellen is sinds versie 3 het aantal parameters enkel te schatten. Maar Llama 3 bijv. was met maximaal 70 miljard parameters vrijgegeven, met 200b ga je daar dus nog wel een aardige stap voorbij kwa prestaties.
Best wel compact apparaat! Ik ben benieuwd hoeveel zo'n apparaat verbruikt. Niet dat het een researcher dat ook maar iets interesseert. Maar AI vooruitgang valt of staat bij de praktische toepassing en voor nu moet alle geavanceerde AI op een server draaien. Ik vraag mij af of we in de toekomst (met meer geheugen) efficient AI op onze eigen mobiele apparaten kunnen draaien, of dat AI ontwikkeling stil komt te staan omdat het teveel impact heeft op ons milieu.
Ik ben benieuwd hoeveel zo'n apparaat verbruikt. Niet dat het een researcher dat ook maar iets interesseert.
Waar baseer je dat op? Door wetenschappers wordt wel degelijk gekeken naar verbruik van GPUs en algehele energie efficiëntie.
Nou ja, eigenlijk op niets. Ik ging er vanuit dat wetenschappers dit niet interesseert omdat hun werk betaald voor de stroomkosten. Daarnaast denk ik dat een wetenschapper het liefst zoveel mogelijk performance ziet. Inherent betekent dat natuurlijk efficientie verbeteringen, maar het betekent niet een netto lager verbruik.

Maar mocht het wetenschappers wel echt interesseren wat het stroomverbruik is van deze desktop, dan vind ik het nog vreemder dat Nvidia dit niet benoemd in hun press release.
Om een simpele tegenhanger te zijn van andere berichten hier over het energie verbruik. Geen enkele onderzoeker die ik ken (collegas) kan het een lor schelen wat het stroom verbruik is. Helemaal als het maar om een workstation gaat. En vergeet ook niet het simpelweg gebruiken van de cloud voor compute. Hier is het daadwerkelijke verbruik natuurlijk opzettelijk netjes verborgen.

[Reactie gewijzigd door darkraisisi op 7 januari 2025 10:07]

Maar echt, ken er behoorlijk wat en ben er zelf ook een en niemand maakt het ene fluit uit...
Gekke hersenkronkel. Wetenschappers zijn ook mensen. Ik werk zelf in AI en wij zijn zeker wel bezig met verbruik. Niet zozeer voor het geld maar om de uitstoot.
Buiten dat veel wetenschappers ook een morele afweging maken bij energieverbruik is het niet vanzelfsprekend dat ze de stroom 'gratis' krijgen. Een lab kan ook geheel vanuit een onderzoeksbudget gefinancierd worden bijv.
Dit klinkt als een interessante oplossing voor bedrijven die afgeschermde AI modellen willen gebruiken.
Exactly! Bye bye dure cloud voor sommigen
Ben wel heel benieuwd naar die netwerkaansluiting ook. Zo te lezen gaat ConnectX van 25-400 Gbps en van 1-4 poorten. 2 of zelfs 4 poorten zou wel heel fijn zijn op dit kastje, maar misschien wil NVidia deze ook wel bewust niet al te populair maken en met de beoogde workstation desktop doelgroep zeggen voor wi-fi, bedraad enkel om 2 systemen te koppelen voor die 405B modellen... ben benieuwd!
https://www.nvidia.com/en-us/networking/ethernet-adapters/
Voor ontwikkeling wellicht, maar Nvidia is ook niet dom en gaat zijn cloud-GPU-geldprintmachine niet zomaar uitzetten. Voor grootschalig gebruik van AI zullen bedrijven nog steeds server(farm)s moeten kopen.

Voor lokaal gebruik van AI wellicht niet, maar ik kan me niet echt voorstellen wat dat in moet houden. 128GB RAM is een hoop, maar lang niet voor iedereen voldoende, helemaal niet voor bedrijven die het geld hebben om in zo'n computer te investeren.

Ik denk eerder dat dit bedoeld is om cloudtoepassingen harder vast te schroeven aan CUDA voor de continue verwerking van data nadat de modellen eenmaal getraind zijn.
Nee, ik denk niet dat je hier een hele organisatie op gaat draaien maar een development team zou wel kunnen.
Het maakt de gemiddelde CFO echt geen spat uit of je $3000 aan compute koopt in de cloud of on-premise, net zoals NVidia er geen spat om geeft of je voor Azure of Amazon kiest. Wat dit wél doet, is de positie van CUDA verder versterken. Bedrijven die nu een SaaS product hebben gebaseerd op CUDA kunnen datzelfde product nu makkelijker on-premise aanbieden.
Is het gebruik van LPDDR hier niet enigsinds een bottleneck? Voor hoever ik weet moeten de meeste grotere AI modellen, waaronder LLMs, nogal wat gehuegenbandbreedte hebben... Vandaar dat VRAM zo'n probleem is bij GPUs, waarom zou dit nu hier geen probleem zijn?
Dat was ook mijn eerste gedachte. In het originele artikel wordt niets vermeld over de geheugensnelheid. LLM's draaien op werkgeheugen is ontzettend irritant, al zou het misschien nog acceptabel zijn via een API voor scriptopdrachten.

Voor 3000 euro kan ik zelf ook een degelijk systeem samenstellen met snel geheugen, een goede processor en een AMD Radeon PRO W7xx.

Dit lijkt puur marketing, gericht op het inspelen op FOMO. Ik kan nergens terugvinden of de GPU überhaupt over eigen geheugen beschikt.

https://nvidianews.nvidia...-ai-developers-fingertips
"Unified memory" betekent dat de GPU niet over eigen geheugen beschikt.

Op dit item kan niet meer gereageerd worden.