Nvidia brengt mini-AI-pc DGX Spark uit voor 4000 dollar

Nvidia brengt de mini-AI-pc DGX Spark deze week uit voor ontwikkelaars. Het systeem heeft volgens Nvidia een petaflop aan rekenkracht voor AI-taken. De pc heeft een adviesprijs van 4000 dollar, wat vermoedelijk inclusief btw omgerekend grofweg 4183 euro zou zijn. Er is geen exacte europrijs bekendgemaakt. Bij de aankondiging van de pc kostte hij nog 3000 dollar.

De Nvidia DGX Spark wordt aangedreven door een GB10 Grace Blackwell-chip, die bedoeld is voor AI-berekeningen. Volgens Nvidia kan de 'AI-supercomputer' inferenceopdrachten voor AI-modellen met tot 200 miljard parameters uitvoeren, ofwel AI-opdrachten met een 'afgetraind' model dat nieuwe data voorgeschoteld krijgt. Het systeem moet lokaal modellen met maximaal 70 miljard parameters kunnen finetunen. De mini-AI-pc heeft een systeemvermogen van 240W.

Het systeem heeft 128GB aan unified geheugen. Daarmee moeten doorvoersnelheden tot 273GB/s behaald kunnen worden. Nvidia gebruikt daarvoor de NVLink-C2C-interconnecttechnologie. Het systeem ondersteunt verder netwerkbandbreedtes tot 200Gbit/s dankzij ConnectX-7. De DGX Spark ondersteunt tot 4TB opslagruimte en is 150x150x50,5mm groot.

Nvidia brengt een eigen versie van de DGX Spark uit, die het net als bij videokaarten de Founders Edition noemt. Daarnaast kondigt het bedrijf partnerschappen aan met Acer, ASUS, Dell, Gigabyte, HPI, Lenovo en MSI. Die bedrijven komen met een eigen versie van het AI-acceleratorworkstation. Het is niet duidelijk wat de oem's voor het systeem vragen. Er zijn wel al productpagina's voor deze varianten van derden online, bijvoorbeeld van de Asus Ascent GX10, MSI EdgeXpert en Acer Veriton GN100.

Nvidia DGX Spark

Door Yannick Spinner

Redacteur

14-10-2025 • 09:38

46

Submitter: TheProst

Reacties (46)

Sorteer op:

Weergave:

Wat meer achtergrond en uitleg hier

"In short, the DGX Spark is not built to compete head-to-head with full-sized Blackwell or Ada-Lovelace GPUs, but rather to bring the DGX experience into a compact, developer-friendly form factor.
It’s an ideal platform for:
  • Model prototyping and experimentation
  • Lightweight on-device inference
  • Research on memory-coherent GPU architectures"
"On the GPU side, the GB10 delivers up to 1 PFLOP of sparse FP4 tensor performance, placing its AI capability roughly between that of an RTX 5070 and 5070 Ti. The standout feature is its 128 GB of coherent unified system memory, shared seamlessly between the CPU and GPU. This unified architecture allows the DGX Spark to load and run large models directly without the overhead of system-to-VRAM data transfers. With the help of its dual QSFP Ethernet ports with an aggregate bandwidth of 200 Gb/s, two DGX Spark units can be connected together to operate as a small cluster, enabling distributed inference of even larger models. According to NVIDIA, two interconnected DGX Sparks can handle models with up to 405 billion parameters in FP4."

[Reactie gewijzigd door D.J.P. op 14 oktober 2025 10:15]

Voor die prijs zou ik dan eerlijk gezegd naar een Strix Halo kijken voor de helft van de prijs.
With the help of its dual QSFP Ethernet ports with an aggregate bandwidth of 200 Gb/s, two DGX Spark units can be connected together to operate as a small cluster, enabling distributed inference of even larger models
hoe ga je dat doen op je strix ,

Denk dat ook nog wat dingen met RAM gedaan worden want dat wordt wel heel specifiek ier eruit gelicht. Overigens laat mijn PC maar 50% van RAM allocaten naar de GPU dus die limieten zijn ook opgeheven hier.

[Reactie gewijzigd door Scriptkid op 14 oktober 2025 12:12]

Voor de amd 395 kan je statisch max 96GB aanwijzen als videogeheugen. En je kan het ook dynamisch laten toewijzen, en daar weet ik zo snel niet de limiet van.
Dynamisch op Linux is het onbeperkt, toch met Vulkan. ROCm is nog niet volwassen voor dit platform, toch niet in mijn ervaring.
Een van de belangrijkste bottlenecks voor AI is geheugenbandbreedte, en die ontlopen elkaar ook niet zo veel: 273 GB/s voor de nvidia spark, en 256 GB/s voor de amd 395.
Ik denk dat er een linux based os aanwezig is op deze computer of zit er windows bij?
Let wel, het geheugen is een stuk trager dan dat van de 5070.

. Er is ongeveer 96GB geheugen beschikbaar voor je AI-model. En je kunt 1, 2 of 4 virtuele GPU's er op draaien.

De NVMe is los - niet gesoldeerd.
Het moederbord, geheugen en chips zijn gelijk tussen alle merken (NVIDIA, Acer, ASUS, Dell, Gigabyte, HP, Lenovo en MSI). Je kunt dus de goedkoopste kopen en waarschijnlijk zelf de NVMe vervangen door een groter PCIe 5.0 x4 model.

Een duurder alternatief met 4x of meer rekensnelheid is een losse videokaart in je systeem de RTX 6000 Pro Q-Max Blackwell, deze gebruikt 300W, heeft 96GB 1.8TB/s GDDR7 geheugen en heeft net iets meer cores als een 5090.

[Reactie gewijzigd door djwice op 14 oktober 2025 12:44]

I'm sorry, but... 4000 dollar?!?! Nvidia denkt echt dat ze alles kunnen vragen als het voor AI is... en vermoed dat het heel traag gaat zijn ook, zelfs al kun je er in principe grote modellen in laden...
Uit mijn hoofd is het GPU gedeelte vergelijkbaar met een RTX 5070 was destijds bij de presentatie aangegeven. Zal dus zeker niet supersnel zijn, maar ik vermoed wel snel genoeg voor waar het voor bedoeld is.

Ik vraag me af hoe de vergelijking gaat zijn met bijv. systemen gebaseerd op de de AMD Ryzen AI Max+ (voorbeeld: AMD Ryzen™ Al Max+ 395 ), dat zou immers een tegenhanger zijn die ook unified memory heeft om grote modellen te kunnen laden.
Het lost een bepaald soort bottleneck op, namelijk geheugen - volgens Hardware Overview — DGX Spark User Guide heeft het
  • 128 GB LPDDR5x unified system memory, 256-bit interface, 4266 MHz, 273 GB/s bandwidth
Waar een RTX5090 ongeveer 8x sneller is, maar wel 4x kleiner... haalt het overigens niet bij de échte GPU's (die voor de AI datacenters gebruikt worden), de H200 bijvoorbeeld met 141GB geheugen, heeft 4.8GB aan geheugenbandbreedte.

En dan ove rde Ryzen AI Max+?

Praktisch dezelfde geheugenarchitectuur als de DGX Spark, maar nét een paar MHz trager. Je krijgt dan dus:
  • Memory Support:LPDDR5XRated Speed:8000 MT/sMemory Bus:Quad-channelMemory Capacity:up to 128 GBMemory Bandwidth: 256.0 GB/s
De chips zijn beiden erg lastig. De nVidia machine heeft als "nadeel" dat hij een ARM hart heeft, en je dus sommige niche-geïntegreerde toepassingen zoals "Text-SAM toepassen in een geospatial omgeving" niet echt makkelijk kan toepassen want het framework daar omheen heeft óók een hoop lowlvl x86-64 meuk er omheen... maar het "SAM" stuk zal goed draaien, want Meta, de oorspronkelijke bouwers van SAM, hebben het initieel voor CUDA geschreven. Ja, je kan het op-CPU draaien, maar het is trááááááááááág. Duurt lang.

Er zijn wat ROCm modellen (ROCm = een open variant van een GPGPU taal á la CUDA, maar dan merk onafhankelijk -- in theorie, beetje voor mij net zoals GSync, wat nVidia only is, en Freesync, wat open is), en hobbyisten die bestaande FOSS tools (zoals Ollama e.d.) aanpassen aan ROCm, maar het is een beetje kip/ei... Qua performance puur op ruwe code is het soms een procentje meer voor de ene, soms meer voor de andere taal; maar netto genomen is veel installbase gewoon nVidia-only. En dat maakt een paar dingen pijnlijk bij nVidia:
  • De consumenten tak van de wereld heeft rot-drivers voor alles wat niet Windows is, en zelfs Windows is "vreemd" onder modern nVidia soms
  • nVidia heeft enkel in hun "vol geïntegreerde packages" (want naast CUDA heeft nVidia ook een paar interconnect voordelen vanwege hun networking tak) een ARM product, wat in theorie niet veel uitmaakt maar het is niet van het niveau op CPU niveau als het modernste van AMD, Intel, of de "grote" ARM-jongens: er is een reden dat ze ARM wouden kopen en nu de samenwerking met Intel aangaan...
  • De 'grote datacenter' tak niveau chips koop je ook niet met dit soort kastjes -- dit kastje zal denk ik bij menig "AI Dev" náást zijn echte werkplek staan (mogelijk zelfs headless vscode/jupyter kernel er naar toe), en de "full samplesize" tests naar een echte cluster, wat dit slechts een "extra" dingetje maakt á la "3D muis voor CAD/GIS tekenaar" -- voor de hobby-AI dev nog steeds een hoge barrier of entry
    • Hierdoor is de "grote" data hoek nog steeds lastig benaderbaar voor kleine devs die misschien €4000-5000 wel kunnen verantwoorden voor een stuk goed gereedschap, maar niet de €/uur of zelfs de €30k voor een "echte" kaart -- kleine situaties laten zich soms heel anders zien als je ze opschaalt...
Een Apple M3 Ultra, M4 Pro/Max/Ultra (toekomstig) heeft wel betere geheugenbandbreedtes dan dit, 600-800GB/s vandaag al. Die kunnen ook 128GB, sommige zelfs 192GB geheugen. Die zullen meer uitdaging bieden voor deze NVIdia doos dan de Ryzen AI MAX+. Tweakers heeft die al getest tegenover de Apple, en die laatste kwam veel beter uit de bus voor de grotere AI modellen. Hoop dat Tweakers deze ook gaat opnemen in zo'n test, kun je goed vergelijk zien in verschillende modellen.

Zat toen in bij deze hieronder, ondanks de wat gekke naam, prima cijfers.
Framework Desktop Review - Tweakers

[Reactie gewijzigd door OruBLMsFrl op 14 oktober 2025 11:49]

Inderdaad, bijv deze: https://www.bee-link.com/...-pro-amd-ryzen-ai-max-395
En vlak ook niet Nvidia’s eigen concurrent, de nieuwe Jetson Thor uit: https://www.nvidia.com/en...dded-systems/jetson-thor/

Het worden mooie tijden met die unified memory. Nu de prijs nog een beetje zakken.
De AMD zal een stuk trager zijn omdat deze veel minder npu cores heeft en een lagere verbruik verraad eigenlijk al een lagere performance (120W max vs 240W).

Wat je voor AI nodig hebt:
  • Veel geheugen, ie 128GB+
  • Hoge geheugen bandbreedte ie liefst 1TB/s+
  • Hoog aantal NPU/GPU cores om gebruik te kunnen maken van geheugen bandbreedte en AI berekeningen (vermenigvuldigen gevolgd door optellen). 1 peta ops is wel het minimum zoals de 5070 kan leveren. AMD heeft maar 0.05 peta ops (50 npu tera ops aka tops)
  • Uiteraard is CUDA compatibiliteit een pre, maar hoeft niet een bottleneck te zijn
Het zal nog even afwachten zijn wat de benchmarks en tests zullen uitwijzen.

[Reactie gewijzigd door imqqmi op 14 oktober 2025 11:15]

  • Hoog aantal NPU/GPU cores om gebruik te kunnen maken van geheugen bandbreedte en AI berekeningen (vermenigvuldigen gevolgd door optellen). 1 peta ops is wel het minimum zoals de 5070 kan leveren. AMD heeft maar 0.05 peta ops (50 npu tera ops aka tops)
Ga je daar echter niet voorbij aan de GPU die de Ryzen ook nog heeft, die heeft een NPU en een GPU die ongeveer vergelijkbaar zou moeten zijn met een mobile RTX4070 (afhankelijk van het ingestelde maximale verbruik van de 4070, hoe hoger het ingestelde verbruik van de 4070, hoe verder deze uitloopt).

Dat zal nog steeds niet in de buurt komen in harde performance van deze DGX Spark, maar kijkende naar de voorlopige prijzen gaat een DGX Spark met gelijke storage ook zo'n 100% duurder zijn dan een Ryzen Max systeem, wat de prijs / performance van de Ryzen Max mogelijk wel weer interessant maakt (tenzij je vast zit in het Cuda Eco systeem natuurlijk).
Sneller dan een RTX 5090 met veel te weinig geheugen. Er zal zeker een markt voor zijn, ook voor die prijs.
Trager tot 32GB llm sneller tot 128gb llm

Minus overhead
Niet alleen LLMs.
Trainen van AI met bepaalde vormen van machine/reinforcement learning vergt ook veel RAM. Met name grote, transformer based modellen.
En image en video generation idem dito.
Als je hiermee fatsoenlijk een goed lokaal model kunt draaien, kan ik me voorstellen dat dit zakelijk best interessant kan zijn.
ligt weer aan je model natuurlijk niet aan de hardware.
Dit is dan ook bedoeld voor zakelijke toepassingen. En granted de vraag is dan of je het niet beter op een server ergens kan draaien, maar als je het lokaal wil hebben, dan zijn dit al snel de kosten niet meer als het wat betere productiviteit oplevert.
Tja, het is natuurlijk maar hardware gericht op een hele specifieke groep, ontwikkelaars die zich op AI willen storten. Dat is dus maar een kleine afzet markt, en voornamelijk bedrijven die dit echt geen struikelblok zullen vinden. Ondersteuning zal een groot deel van de prijs opvreten. En het voorrecht om als een van de eersten deze chip in handen te kunnen hebben om daarop te ontwikkelen.
Die 273GB/s bandbreedte van het geheugen valt me erg tegen. Zeker voor die prijs. Voor de helft van de prijs kan je een Ryzen AI Max+ 395 systeem kopen. Heeft ook 128 GB unified geheugen met een bandbreedte van 256 GB/s.
Of 4404euros voor een Apple Studio met M4 Max 128GB RAM/512GB SSD met 546GB/s geheugen bandbreedte (dubbele throughput). Dat is een minstens zo'n capabele, echter veel duurdere, desktop computer zoals de AI Max+ 395. Mits goede software ondersteuning matchen beide de grafische rekenkracht van een RTX4060 a 4070 (mobile) ongeveer.

Voor sommige AI workloads loopt zo'n Mac 2-3x voor op de Ryzen 395 (LLama-3.3 70B bij 12 tokens/second), met andere AI workloads maakt het niet zoveel uit.
Hoe bruikbaar is zo'n oplossing eigenlijk? Is het snel genoeg om echt iets nuttigs mee te doen?
En wat gebeurd er met de performance als je veel eigen data toevoegen (zeg 10 of 100GB aan informatie die je doorzoekbaar wilt hebben).
Wat bedoel je met 'doorzoekbaar'. Bij AI train je met data en maak je een model. Daarna kun je dat model problemen laten oplossen (inference). Eigen data doorzoekbaar maken doe je meer bij een search engine of zoiets.
Meestal gebruik je RAG hiervoor. Dat heeft als voordeel dat je niet steeds je model hoeft te hertrainen als je data verandert. Nadeel is dat je ingevoegde data context verbruikt wat het trager en groter (geheugen!) maakt. Context verbruikt veel geheugen. Daardoor moet je een slim algoritme hebben dat de juiste data in de context laadt. Daar heb je weer embedding modellen voor. Die maken er 'chunks' van.

Het zit een beetje tussen een full getrained (of finetuned) model en een zoekmachine in.

Ik heb zelf mijn hele persoonlijke knowledgebase er in zitten zodat ik die helemaal lokaal kan aanspreken vanuit een LLM.

[Reactie gewijzigd door Llopigat op 14 oktober 2025 12:06]

10 - 100GB aan data is veel te veel tokens om in welk model dan ook te voeren. Je zou dan eerder denken aan een agent die zelf grep kan draaien om de juiste context te vinden. Zo werken bijvoorbeeld Cursor en Codex ook.
Natuurlijk is dat heel bruikbaar. Ik heb zelf een AI setup met een 16GB en een 12GB kaart en daar maak ik ook al veel nuttig gebruik van. Zo'n Mac zou nog veel beter zijn (grotere modellen) maar kost weer een sloot meer. Ik doe dat lokaal ivm privacy. Heel af en toe gebruik ik wel cloud modellen maar alleen als ik echt de grote trainingdata of context nodig heb en voor generieke vragen zonder privacy impact. Voor de meeste toepassingen die ik gebruik is een lokaal model prima. Zoals vertalen, samenvatten, en het uitfilteren van berichten of nieuws tot dingen die ik interessant vind. Kennisvragen gaan ook prima als je ze combineert met zoekacties die als grounding gebruikt worden. Op die manier heb je ook up to date kennis en zit je dus niet vast aan de trainingsdatum van het model.

Het invoegen van eigen data kan met "RAG", Retrieval Augmented Generation. Dit maakt het wel een stuk trager en gebruikt meer geheugen (beiden ivm meer context gebruik). Maar het werkt ok prima.

[Reactie gewijzigd door Llopigat op 14 oktober 2025 12:08]

Volgens mij is het zonder CUDA niet echt een optie om makkelijk mee te werken
CUDA is zeker een sterk punt van Nvidia. Bijna alle AI software ondersteund CUDA. AMD loopt achter, maar wordt steeds beter ondersteund. Om een indruk te geven: een 128 GB AI Max 365+ systeem haalt met GPT-OSS-120B ongeveer 30 tokens/s.
Maar geen cuda support....
Maar dat closed ben je afhankelijk van nv hun 4000$ wat 2500 had kunnen kosten.
Mijn mac studio is goedkoper in €
Met 64GB .
Op korte termijn ben 1 keer bij met nv maar zit dan vast en betaald de hoofd prijs voor nv hardware.
Voor hobby AI lokaal is die 64GB zat
Naast kogic pro en finalcut pro
Als je in competitieve branche zit die AI grootschalig toepast kan je er niet omheen. Nv Cuda eco systeem .
Maar daarmee blokeer je ook concurrentie. Die geeft het enorm zwaarder. Als het al bijna monopool is
Waarom deel je de link?

“Note: The following is for professional and student level subscribers.”
Ik vermoed omdat de rest van het artikel gratis is, en relevante informatie bevat? het deel dat:
“Note: The following is for professional and student level subscribers.”
Zie je alleen als je ingelogd bent, het artikel gaat dus nog verder dan dat je nu kan lezen, maar dat deel kan je enkel lezen als je geabonneerd bent. Dit is bij veel van Charlie's artikelen zo, een deel is gratis te lezen, maar zodra hij de diepte in gaat over bijvoorbeeld de financials en wat voor gevolgen een zet van bedrijf X of Y kan hebben voor bijvoorbeeld aandeelhouders dan moet je geabonneerd zijn om verder te mogen lezen.
Omdat de tekst die wel gelezen kan worden al genoeg zegt. De toekomst zal het moeten uitwijzen, maar een IT-ding waarvan de release al zoveel keer is uitgesteld en nu nog niet eens voor de beloofde prijs aan de man wordt gebracht (als je er al één te pakken kan krijgen), dat klinkt als een "dud". Maar wie weet, in deze AI-crazy tijden is alles mogelijk... Plak er een sticker met "NVidia!" op en het verkoopt als zoete (dure) broodjes?
Elon Musk heeft een van de eerste gekregen als verwijzing naar de eerste DGX-1 die Musk in 2016 kreeg bij OpenAI.

https://x.com/nvidia/status/1977902801671127202
Als dit een alternatief kan zijn voor een api koppeling naar bijv. copilot, kan het zichzelf relatief snel terugverdienen?
Dan moet je wel heel veel uitgeven aan je CoPilot calls.
Het klinkt een stuk goedkoper als een server aanschaffen met een RTX PRO 6000 Blackwell Generation 96GB. Puur voor interference van bijvoorbeeld de GPT-OSS 120B modellen. Ben benieuwd of het ook echt komt en werkt.
Huh hij ging toch 3000 dollar kosten
Ja, dat staat ook in het artikel, eerste alinea:
Bij de aankondiging van de pc kostte hij nog 3000 dollar.
Voor mijn doel, het ondersteunen van een klein team met agentic AI processen is dit een prima apparaat. Ik hoef geen cloud/datacenter faciliteiten qua schaal, en deze investering is prima te verantwoorden naar het management. Gaat mij vooral om een zo groot mogelijk model te kunnen laden voor het classificeren en converteren van data.


Om te kunnen reageren moet je ingelogd zijn