Nvidia maakt koppelen van vier DGX Spark-pc's mogelijk voor 512GB gedeeld ram

Nvidia gaat het mogelijk maken om vier DGX Spark-pc's aan elkaar te koppelen. Tot nu toe lag het maximum op twee. Door het koppelen van de Sparks wordt het geheugen van de apparaten samengevoegd, waardoor vier Sparks beschikken over een gedeeld werkgeheugen van 512GB.

De chipontwerper kondigt de komst van de nieuwe functie aan tijdens GTC, zijn eigen technische conferentie. Voor het koppelen van meer dan twee DGX Sparks kan wel extra hardware nodig zijn. Drie Sparks kunnen met elkaar communiceren in een ringstructuur, voor vier Sparks is een RoCE 200GbE-switch vereist. De bestaande opzet met twee Sparks gebruikte een point-to-pointverbinding. Tweakers publiceerde recent een review van de DGX Spark.

Verder kondigt Nvidia de beschikbaarheid van NemoClaw aan, een opensourcesoftwarepakket voor de DGX Spark en Station om eenvoudig en veilig claws te draaien. Met de OpenShell-runtime wordt bepaald tot welke data en tools de claw toegang krijgt. Claws zijn recent populair geworden AI-agents die op een volwaardige pc draaien en zo toegang hebben tot alle apps en bestanden, zodat ze autonoom taken kunnen uitvoeren.

De Nvidia DGX Spark Founders Edition
De Nvidia DGX Spark Founders Edition

Door Tomas Hochstenbach

Redacteur

16-03-2026 • 21:30

31

Reacties (31)

Sorteer op:

Weergave:

Spark, ring structuur?

Ik krijg plotseling weer begin jaren 90 vibes :)
Met meerdere gestapelde sparc stations IPC's een tafelpoot van je bureau vervangen en je studentenflat van verwerkingskracht voorzien..
Logisch. Waarom de specs van één Spark verhogen. Als je klanten ook kunt uitwringen door er meerdere te verkopen aan iedere koper.
Een switch er tussen kan juist ook weer interessant zijn om te testen hoe dit schaalt en hier experimenten mee te doen.

En je kan als je twee of meer units hebt ze eventueel ook verdelen onder meer ontwikkelaars als dat tijdelijk even nodig is.

De vraag alleen is even hoe duur zo'n switch wel niet is :P

[Reactie gewijzigd door Mr_gadget op 16 maart 2026 21:50]

De poorten die je op de DGX gebruikt om ze aan elkaar te verbinden fungeren het zelfde als in je data centrum voor nvidia hardware, dat gaat ook zonder extra switch, maar met speciale connectoren.

Wel grappig toen ik vorige week de handleiding doornam dacht ik al hé je kunt het gewoon uitbreiden. En hij maakt machine to machine 2 up en twee down connecties over 1 kabel.
Dus vandaar 2 poorten elk => 3 kastjes full peer-to-peer RDMA connectivity.

Maar stel je doet een ring netwerk, maar dat zal wel extra latency zijn wellicht? Geen idee. Ik ben geen netwerk extert.
Van zodra je meer dan 2 systemen hebt wil je liefst een switch er tussen die de correcte vorm van RDMA ondersteunt. Op die manier krijg je maximale bandbreedte naar alle systemen.
Twee PCIe 5.0 4x voor de twee ConnectX-7 stekkers. Is de chipset in de Spark niet snel genoeg om zelf efficiënter de link met 3 te doen?
A p1 ~> B p1
A p2 ~> C p1
B p2 ~> C p2

Een switch van €1.300,- welke winst levert dat op?
Met 3 systemen zou je nog altijd directe communicatie kunnen bouwen als je het als ring aansluit (of dat mag/kan is even ander verhaal). dus A-B-C loop terug naar A
Maar aangezien ze praten over extra hardware zullen ze daar een nvlink-switch mee bedoelen en als die dezelfde specs heeft als het grote datacenter broertje dan is bandbreedte daarvan geen issue.
Zo'n 1200 euro voor een cluster van 8 met de juiste breakout kabels (niet officieel mogelijk, wel via handmatige configuratie en allicht community scripts)
4x 100Gbps = 4x 12.5GB/s (zonder overhead) is niet vergelijkbaar met een 600GB/s backbone.
Het zijn QSFP56-DD 400gbps porten, de pricewatch klopt niet
Er zitten op de kastjes al bewust 2 porten op voor dit doel. Elk 200Gbps. Naast de normale 10Gbit UTP, WiFi7 en de 4 x 40Gbps USB-c poorten.

Al toem het bordje voor het eerst getoond werd werd er bijgezegd dat hij in het begin 2 machines aan elkaar kon verbinden maar dat de hardware is voorbereid op meer.

Op internet zijn er al voorbeelden van mensen die er 8 aan elkaar gebonden hebben YouTube: NVIDIA didn't want me to do this maar daar een switch van €1.300 voor kochten.

Een 1TB GPU voor ~ €40.000 met 49.536 Vida Blackwell cores ~ die 8.000.000.000.000.000 berekeningen per second uitvoert en 1.120W aan stroom gebruikt.


Trouwen als je naar het bordje kijkt is de enige upgrade nog 3GB ipv 3GB geheugen chips. Het is het meest dicht bevolkte PCB die vele ooit gezien hebben.
Zie hier een foto van Tweakers zelf: https://tweakers.net/i/YX..._exif()/i/2007484064.jpeg

Waarom wil je meer dan 1 kastje?
Die GPU aan elkaar verbinden en samen laten werken om grotere modellen te kunnen draaien wil je ook in je data centrum doen.
Nu kun je dit oefenen zonder een extra full rack te kopen van enkele miljoenen. En zonder productie te verstoren. Model trainingen kunnen al worden geoptimaliseerd etc. voordat ze op het dure cluster komen, en meerdere mensen kunnen dat nu oefen zonder elkaar in de weg te zitten met elkaars fouten op het borgen cluster van een paar miljoen. Dus dit scheelt heel veel tijd, geld en rack ruimte in je DC.
Hoewel dit voor ons Tweakers bijna onweerstaanbaar is, als je er even rustig over nadenkt, bijna een halve ton aan hardware, dat gaat bijna niemand er daadwerkelijk uithalen. Hoeveel bedrijven maken hier nu echt winst mee? Ik denk dat een API gebruiken van de grote jongens bijna net zo krachtig is en voordat je er voor tienduizenden euro's aan tokens van hebt verbruikt, ben je vele jaren verder.
Er zijn ontwikkelaars die in 1 maand €15.000 aan tokens weten te verbranden. Dus die kleine doelgroep kan er baat bij hebben.

Maar deze is vooral voor trainen van wat grotere modellen. Video modellen en grotere taalmodellen.

Een model gefinetuned op je documentatie is vaak veel accurater en sneller dan een RAG.

Even gekeken bij AWS kost deze machine $9,36 USD per uur excl. BTW. As je gevoelige data hebt of liever sovereign wilt zijn is aanschaffen de betere optie. Ook is een GPU in eenmalige CAPEX (een eenmalige uitgave en directe afschrijving) soms makkelijker dan een GPU in OPEX per training (operationele kosten die voor elk gebruik, idee, probeersel vooraf goedgekeurd, financieel onderbouwd en verantwoord moet worden).

[Reactie gewijzigd door djwice op 17 maart 2026 08:21]

Maar dan nog vraag ik me af of je er veel winst mee kan maken. Video modellen en grote taalmodellen trainen kan prima, maar kom je in de buurt van de bekende modellen die getraind worden op super clusters van een paar ha?

Het is vast mijn onwetendheid, maar ik zie zo weinig concrete cases wat mensen met deze enorme rekenkracht gaan doen.

Hier komt Nvidia een GB300 droppen (YouTube: Nvidia showed up at my house) en wat zegt de beste man wat hij er mee gaat doen: hij gaat het grootste coding model draaien dat hij kan vinden en daarna finetunen van kleinere modellen. Dat klinkt als het zoeken van een doel voor een product ipv een product zoeken waarmee je bepaalde doelen kan behalen. En dat zie ik in bijna al die video's een gevoel van: oooh kijk eens wat gaaf, kijk eens wat een power en dan... verder niets.

Het is zulke gave techniek, maar ik heb niet het idee dat we dit echt nodig hadden, maar nu op zoek zijn wat we er mee kunnen.
Wat als je dit ding neerzet, een dgx spark er naast met qwen3-coder-next en een orin nano super met NemoClaw. En je laat NemoClaw de qwen3-coder-next gebruiken. En je geeft NemoClaw de opdracht om de modellen te maken op de DGX Spark PC die je nodig hebt.

[Reactie gewijzigd door djwice op 17 maart 2026 09:10]

Het grote voordeel van zo'n spark vind ik dat je het in eigen beheer houd. Je weet waar je data is, en dat er niemand mee aan de haal gaat. Ook een stukje onafhankelijkheid van de grote partijen vind ik wel belangrijk.

Als zzp'er in de IT zit ik wel serieus naar zo'n spark te kijken. Heb nu een laptop met een 285 en 64gb ddr7, daar draaien de grotere modellen al redelijk bruikbaar op. Maar ik merk al dat de echt bruikbare modellen domweg veel meer geheugen nodig zijn. Dan is zo'n spark of twee best te overwegen.

Je schrijft het toch af over 5 jaar, dus 2 van die sparks is ~5500 ex btw. Of 1100 per jaar, of amper 100 euro per maand. En je krijgt nog een eenmalige investeringsaftrek, waardoor het mij maar iets van 75 euro per maand écht kost. Ik maak er al wel zoveel gebruik van dat dat gewoon uit kan. Ik heb ook niet het idee dat zo'n investering écht terug verdient moet worden. Net zoals ik m'n office pakket niet terugverdien, ik kan m'n facturen ook op een doordrukvelletje schrijven en dan met de post opsturen. Waarschijnlijk goedkoper, maar je doet ook investeringen om je werk makkelijker te kunnen doen en mee te gaan met de tijd.

Alleen zijn die sparks me nog te langzaam, ik zie meer heil in die nieuwe b300 systemen. Weer een stap duurder, maar zo veel bruikbaarder. Als je met de grootste modellen 100 tot 200 tokens per seconde hebt, is dat enormbruikbaar. Met zo'n spark haal je wellicht een tiende daarvan, dat is qua gebruik allemaal net niet.
Bedankt voor je uitleg, dat geeft wel meer een idee. Niet zozeer als primair onderdeel van een onderneming maar gewoon als een krachtige tool, daar zit wat in. En het blijft in eigen beheer. Ik begrijp nu wat beter dat mensen dit serieus overwegen als investering.
Dat stapeltje Mac Studio's op de achtergrond in die video ziet er ook wel interessant uit... _/-\o_
Ja, heeft ie ook een video over. Echt gave dingen die je test, ook een m5-max ..etc.
Ik wist niet dat de sparcs processor zo diep doorgefaseerd nu al is en dat hij nu al zo snel is.

Ik heb er iets over gelezen vroeger in de vakbladen.
Deze systemen zijn primair bedoeld om te kunnen testen hoe je code werkt op de hardware in het datacenter, en in dat datacenter heb je heel vaak heel veel systemen die in parallel kunnen werken. Het is dus belangrijk dat je ook die functionaliteit kunt testen. En dat doe je dus door meerdere Sparks met elkaar te verbinden, niet door 1 Spark te kopen met meer capaciteit.

En de klanten die kijken naar dit soort systemen zitten echt niet verlegen om investeringen van 100k te doen. Zij zien dit niet als uitwringen.
Technisch gezien is het allemaal best logisch, maar ik vermoed dat het ook een verkoopdingetje is.

De goedkoopste manier om de zwaarste AI-modellen te draaien was tot voor kort het kopen van vier top-spec Mac Ultra's die je aan elkaar linkt (met normale Thunderbolt-kabels, geen gedoe met losse netwerkkaarten). Nu is Apple gestopt met het verkopen van de maximale RAM-uitvoeringen vanwege het RAM-tekort, maar toch vermoed ik dat er genoeg welvarende AI-enthousiastelingen hun bonus aan Apple hebben gegeven terwijl die naar Nvidia had kunnen gaan.

Nvidia voelt natuurlijk langzaam ook wel de hete adem van Apple op gebied van AI workstations in hun nek, dus ze kunnen niet uitblijven met dit soort features. Apple's versnelling wordt steeds beter en al is het nu nog geen echte GPU-killer is het maar de vraag hoe lang de prijs van een GPU het nog waard gaat blijven.

Wil je absoluut maximale performance dan koop je nog steeds zo'n onmogelijk dure enterprise-GPU (al dan niet van AMD), maar wil je net genoeg performance om mee te experimenteren als hobbyist dan kunnen gelinkte workstations aardig kosteneffectief zijn.
NemoClaw met NemoTron of Qwen3-coder-next of Qwen3.5 of GPT-OSS 120B. Je infrastructuur wordt straks door AI gemanaged.

Met 2 kastjes draait de Qwen3.5 397B-A17B unsloth 3-bit gewoon. De kracht van OpenAI codex 5.2 of Claude Sonnent 4.5 voor 240W lokaal op je bureau voor nog geen €10.000,-.

[Reactie gewijzigd door djwice op 16 maart 2026 22:28]

Verwarrende naam. Ik dacht even oude tijden herleven :) .
Hm betekent dit ook een comeback voor Nvidia SLI?
Heb paar weken terug een youtube gezien waarbij iemand 4 van deze verbond via een speciale switch op 100gb bleek alleen niet zo denderend te schalen volgens zijn benchmarks, nu ben ik absoluut geen expert in deze compute systemen en ben ik misschien in de war met een ander type maar heb vol verbazing naar deze video gekeken.

Linkje van de video, YouTube: NVIDIA didn't want me to do this
Een totaal van 512GB aan gedeelde RAM klinkt heel leuk maar feit is dat werkgeheugen eigenlijk heel erg traag is vergeleken met cache op de CPU of GPU. Zodra je meerdere chassis aan elkaar gaat knopen dan krijg je vertraging, nu zijn er wel allemaal handige trucjes om de latency zo laag mogelijk te maken. Feit is echter dat zodra je van de ene PCB naar de andere gaat om het signaal naar buiten te brengen, door een kabel van de ene kast naar de andere kast gaat en vervolgens in omgekeerde volgorde de data weer naar binnen brengt je onherroepelijk latency krijgt. Schaalbaarheid is en blijft een heel ingewikkeld onderwerp. Clusters met enorme hoeveelheden resources klinken altijd heel tof maar in de praktijk is het altijd maar de vraag of het veel nut heeft. Processen die je grotendeels parallel kunt uitvoeren kunnen er wel voordeel bij maar veel berekeningen vergend nu eenmaal interactie tussen parallelle processen waardoor de effectiviteit geregeld snel afneemt.
Als ik de vanaf-prijs zie moet ik al slikken, laat staan 4x
Voor de meeste mensen niet interessant. Ik ben er blij mee. Heb er 4 in bestelling staan samen met een mikrotik switch. Via het nvidia forum was er al een guide beschikbaar om het te configureren. Nu dus ook officieel. Het apparaat werkt top voor development.

Om te kunnen reageren moet je ingelogd zijn