Nvidia brengt mini-AI-pc DGX Spark uit voor 4000 dollar

Nvidia brengt de mini-AI-pc DGX Spark deze week uit voor ontwikkelaars. Het systeem heeft volgens Nvidia een petaflop aan rekenkracht voor AI-taken. De pc heeft een adviesprijs van 4000 dollar, wat vermoedelijk inclusief btw omgerekend grofweg 4183 euro zou zijn. Er is geen exacte europrijs bekendgemaakt. Bij de aankondiging van de pc kostte hij nog 3000 dollar.

De Nvidia DGX Spark wordt aangedreven door een GB10 Grace Blackwell-chip, die bedoeld is voor AI-berekeningen. Volgens Nvidia kan de 'AI-supercomputer' inferenceopdrachten voor AI-modellen met tot 200 miljard parameters uitvoeren, ofwel AI-opdrachten met een 'afgetraind' model dat nieuwe data voorgeschoteld krijgt. Het systeem moet lokaal modellen met maximaal 70 miljard parameters kunnen finetunen. De mini-AI-pc heeft een systeemvermogen van 240W.

Het systeem heeft 128GB aan unified geheugen. Daarmee moeten doorvoersnelheden tot 273GB/s behaald kunnen worden. Nvidia gebruikt daarvoor de NVLink-C2C-interconnecttechnologie. Het systeem ondersteunt verder netwerkbandbreedtes tot 200Gbit/s dankzij ConnectX-7. De DGX Spark ondersteunt tot 4TB opslagruimte en is 150x150x50,5mm groot.

Nvidia brengt een eigen versie van de DGX Spark uit, die het net als bij videokaarten de Founders Edition noemt. Daarnaast kondigt het bedrijf partnerschappen aan met Acer, ASUS, Dell, Gigabyte, HPI, Lenovo en MSI. Die bedrijven komen met een eigen versie van het AI-acceleratorworkstation. Het is niet duidelijk wat de oem's voor het systeem vragen. Er zijn wel al productpagina's voor deze varianten van derden online, bijvoorbeeld van de Asus Ascent GX10, MSI EdgeXpert en Acer Veriton GN100.

Nvidia DGX Spark

Door Yannick Spinner

Redacteur

14-10-2025 • 09:38

77

Submitter: TheProst

Reacties (77)

Sorteer op:

Weergave:

Wat meer achtergrond en uitleg hier

"In short, the DGX Spark is not built to compete head-to-head with full-sized Blackwell or Ada-Lovelace GPUs, but rather to bring the DGX experience into a compact, developer-friendly form factor.
It’s an ideal platform for:
  • Model prototyping and experimentation
  • Lightweight on-device inference
  • Research on memory-coherent GPU architectures"
"On the GPU side, the GB10 delivers up to 1 PFLOP of sparse FP4 tensor performance, placing its AI capability roughly between that of an RTX 5070 and 5070 Ti. The standout feature is its 128 GB of coherent unified system memory, shared seamlessly between the CPU and GPU. This unified architecture allows the DGX Spark to load and run large models directly without the overhead of system-to-VRAM data transfers. With the help of its dual QSFP Ethernet ports with an aggregate bandwidth of 200 Gb/s, two DGX Spark units can be connected together to operate as a small cluster, enabling distributed inference of even larger models. According to NVIDIA, two interconnected DGX Sparks can handle models with up to 405 billion parameters in FP4."

[Reactie gewijzigd door D.J.P. op 14 oktober 2025 10:15]

Voor die prijs zou ik dan eerlijk gezegd naar een Strix Halo kijken voor de helft van de prijs.
Het punt van de DGX Spark is dat het fijn samenwerkt in de DGX lijn (dat zijn computers van ~400k). In andere woorden: makkelijk een deployment van je server naar de Spark en vice-versa. De Strix Halo is daarvoor compleet nutteloos, alleen al om de reden dat CUDA daar niet op draait.
Een van de belangrijkste bottlenecks voor AI is geheugenbandbreedte, en die ontlopen elkaar ook niet zo veel: 273 GB/s voor de nvidia spark, en 256 GB/s voor de amd 395.
With the help of its dual QSFP Ethernet ports with an aggregate bandwidth of 200 Gb/s, two DGX Spark units can be connected together to operate as a small cluster, enabling distributed inference of even larger models
hoe ga je dat doen op je strix ,

Denk dat ook nog wat dingen met RAM gedaan worden want dat wordt wel heel specifiek ier eruit gelicht. Overigens laat mijn PC maar 50% van RAM allocaten naar de GPU dus die limieten zijn ook opgeheven hier.

[Reactie gewijzigd door Scriptkid op 14 oktober 2025 12:12]

Voor de amd 395 kan je statisch max 96GB aanwijzen als videogeheugen. En je kan het ook dynamisch laten toewijzen, en daar weet ik zo snel niet de limiet van.
Dynamisch op Linux is het onbeperkt, toch met Vulkan. ROCm is nog niet volwassen voor dit platform, toch niet in mijn ervaring.
Ik heb de HP 1a, ik kan 96gb toekennen, dat is veel meer dan 50%, trouwens mijn gmktech evo-x2 is exact hetzelfde, ook daar heb ik 96gb als optie. Voor zover ik kan zien heeft de dgx spark diezelfde limiet van 96gb

De anderen hebben dus wel gelijk dat je de strix halo best als een goedkoop alternatief kan zien.

[Reactie gewijzigd door sebastienbo op 16 oktober 2025 19:10]

hoe ga je dan aan die laptop 2x 100Gb hangen
Je haalt er hier een heel specifieke scenario uit, voor mensen die zo een groot super model van 200GB thuis zouden willen trainen voor 8000 dollars ... niet realistisch (want je refereerd naar 2 sparx verbinden)

Als je iets thuis traint dan zijn dat vaker kleinere modellen die de gewone consument of bedrijven op normale hardware kunnen inferren (70B of minder).

De Sparx is echt wel heel traag voor deze prijs. Zie deze comparisson video: YouTube: NVIDIA DGX Spark – A Non-Sponsored Review (Strix Halo Comparison, Pros & Cons)

[Reactie gewijzigd door sebastienbo op 16 oktober 2025 20:14]

kan jij vinden maar dat is wel een selling point dat je die netwerk ruimte beschikbaar hebt als cluster.
De cloud is veel goedkoper dan 8000 euro voor twee trage local devices . Je moet dom zijn om deze devices te gebruiken aan deze prijs als je een heel groot model wil trainen.

Vooral grote modellen zijn eigenlijk een dommigheid op zich. Waarom probeer je al de informatie in 1 model te steken, een llm is geen databank, je kan beter een klein model maken die toegang heeft tot een database, dat is veel efficienter en dan moet je het niet elke keer opnieuw trainen.

Het doel van een LLM is om taal en instructies te begrijpen, niet om informatie te bevatten.
ik denk dat je niet alle use cases ziet,

Wij hebben dagelijks 5 LLM in training waarvan elke dag de beste gebruikt word en dan gebeurd her training weer op de laatste oDay security data.

zo zijn er heel veel cases die dagelijks geretrained worden op nieuwe data.

Vraag aan cloud is nogsteeds of je deze hightly confidence crown jewel data in een cloud wilt trainen.

Nu kun je ook H200 voor inzetten maar dan ben je echt een stukje duurder uit.
Maar waarom zou je je model niet gewoon trainen op een paar 395+ machines? die kosten maar 1800 dollar, je gaat me toch niet zeggen dat je dagelijks modellen zit te trainen van meer dan 100B PARAMETERS?

En het enige voordeel van deze sparcs is net om je model nadien in de cloud te steken (CUDA cores training), als je dat niet van plan bent , dan is de sparc al helemaal niet nodig.

En de sparcs blijven echt heeel traag, veel te traag voor grotere modellen te trainen.
Let wel, het geheugen is een stuk trager dan dat van de 5070.

. Er is ongeveer 96GB geheugen beschikbaar voor je AI-model. En je kunt 1, 2 of 4 virtuele GPU's er op draaien.

De NVMe is los - niet gesoldeerd.
Het moederbord, geheugen en chips zijn gelijk tussen alle merken (NVIDIA, Acer, ASUS, Dell, Gigabyte, HP, Lenovo en MSI). Je kunt dus de goedkoopste kopen en waarschijnlijk zelf de NVMe vervangen door een groter PCIe 5.0 x4 model.

Een duurder alternatief met 4x of meer rekensnelheid is een losse videokaart in je systeem de RTX 6000 Pro Q-Max Blackwell, deze gebruikt 300W, heeft 96GB 1.8TB/s GDDR7 geheugen en heeft net iets meer cores als een 5090.

[Reactie gewijzigd door djwice op 14 oktober 2025 12:44]

Het voordeel is dat die 96gb dedicated zijn. Je kan dan nog eens zelf 64gb ram in je systeem steken volgens jouw configuratie.

Het enige voordeel van de sparx, is dat het klein is, maar voor een klein beetje meer kan je met jouw config 4 keer sneller gaan. Ik begrijp dan niet echt het voordeel van de sparx
De sparc draait het zelfde OS als in het data centrum. En je kunt en twee aan elkaar koppelen via nvlink.

Het zijn dus de ideale systemen om je team mee te laten oefenen om AI te hosten in je data center.

Ook zit er dezelfde support op als je data center nvidia spullen. Dus als je vast loopt in de configuratie of het instellen van de nvidia software kun je contact opnemen met support.

Ook opereert ie gelijk aan de nvidia cloud via wifi of netwerk kabel. Ook zonder internet.


En als je consultant bent en deze mee neemt naar de klant en een liefkozend naampje geeft, is de kans groot dat geen haan kraait.
Neem je je eigen pc mee met RTX 6000 Pro Q-Max, dan zullen de meeste mensen dit identificeren als een zelf meegebrachte PC wat niet overal wordt gewaardeerd en gezien kan worden als een risico.

[Reactie gewijzigd door djwice op 17 oktober 2025 07:18]

1 sparc van 4000 dollar is al niet rendabel, laat staan 2 sparcs 8000 dollar voor een heel trage machine ...voor 194GB vram

Voor dat geld kan je best direct in de cloud trainen, twee sparcs maakt helemaal geen steek.

Het is bovendien echt heel traag, dat is in mijn mening de grootste teleurstelling van deze machine. Ik dacht echt dat het snel ging zijn, en nu zie ik in al die side by side videos dat het even snel is als de 1 jaar oude AMD 395+ , soms zelf trager.

[Reactie gewijzigd door sebastienbo op 17 oktober 2025 10:55]

Doelstelling van deze machine is anders. Je leert hoe je nvidia hardware in je DC configureert en gebrulkt.
En je leert spelen met nvfp4, dat draait überhaupt niet op AMD.

In de videos waarnaar je refereert, worden daar nvidia geoptimaliseerde modellen en libraries gebruikt?

Kun je op de Strix ook leren hoe je virtuele GPU's en nvlink gebruikt, inzet en configureert?
Kun je bij je klant op de kamer samen data op de machine zetten en lokaal in die kamer optimaal trainen en dan vier tot 8 gebruikers onafhankelijk van elkaar tegelijkertijd in een geïsoleerde omgeving het laten testen en als het werkt het ongewijzigd zo optimaal op je Nvidia GPU cluster in het datacenter draaien?
8 gebruikers tegelijkertijd laten testen? Je moet eens naar die video kijken hoe traag het is voor één gebruiker. trouwens met ollama of lmstudio kan je een server opzetten op een AMD om ook concurrrent users te laten werken, maar aangezien het even traag is als de SPARX, is dat niet aan te raden.

Maar aan de prijs van de AMD kan je er wel meerdere kopen.

Mijn punt was bovendien dat voor 2 sparx te kopen je 8000 dollar kwijt bent, voor dat geld kan je gewoon beter direct in de cloud trainen.
Hardware GPU virtualisation - wat niet elke GPU ondersteunt - is wel een bereiste anders heb je kans dat gebruikers elkaars data perongeluk zien of gebruiken.
Alternatief is dat de gebruikers moeten wachten tot de GPU vrij is en de data gewist.
Dus een wachtrij.

Ik veel gevallen (medisch, overheid, beursgevoelige processen, etc.) kun je niet altijd in een cloud werken als een Amerikaans.bedrijf daar eigenaar van is.

En soms is tastbaar in de kamer een doorslaggevende aanpak voor vertrouwen.
Overigens zien de nvidia kastjes er dan een stuk professioneler uit dan de Sparx en is een stuk compacter.

En de meeste bestaande AI-modellen werken eerst of alleen, maar in iedergeval direct op NVIDIA, dat scheelt tijd.
Dus sneller resultaat bij de klant.


Maar goed als je thuis of op kantoor kan werken is een RTX 6000 Pro Q-Max uiteraard sneller.

[Reactie gewijzigd door djwice op 19 oktober 2025 10:10]

Ik denk dat er een linux based os aanwezig is op deze computer of zit er windows bij?
Linux achtig systeem(ubuntu), zie video: YouTube: I got a desktop supercomputer? | NVIDIA DGX Spark overview

[Reactie gewijzigd door sebastienbo op 16 oktober 2025 19:42]

I'm sorry, but... 4000 dollar?!?! Nvidia denkt echt dat ze alles kunnen vragen als het voor AI is... en vermoed dat het heel traag gaat zijn ook, zelfs al kun je er in principe grote modellen in laden...
Uit mijn hoofd is het GPU gedeelte vergelijkbaar met een RTX 5070 was destijds bij de presentatie aangegeven. Zal dus zeker niet supersnel zijn, maar ik vermoed wel snel genoeg voor waar het voor bedoeld is.

Ik vraag me af hoe de vergelijking gaat zijn met bijv. systemen gebaseerd op de de AMD Ryzen AI Max+ (voorbeeld: AMD Ryzen™ Al Max+ 395 ), dat zou immers een tegenhanger zijn die ook unified memory heeft om grote modellen te kunnen laden.
Het lost een bepaald soort bottleneck op, namelijk geheugen - volgens Hardware Overview — DGX Spark User Guide heeft het
  • 128 GB LPDDR5x unified system memory, 256-bit interface, 4266 MHz, 273 GB/s bandwidth
Waar een RTX5090 ongeveer 8x sneller is, maar wel 4x kleiner... haalt het overigens niet bij de échte GPU's (die voor de AI datacenters gebruikt worden), de H200 bijvoorbeeld met 141GB geheugen, heeft 4.8GB aan geheugenbandbreedte.

En dan ove rde Ryzen AI Max+?

Praktisch dezelfde geheugenarchitectuur als de DGX Spark, maar nét een paar MHz trager. Je krijgt dan dus:
  • Memory Support:LPDDR5XRated Speed:8000 MT/sMemory Bus:Quad-channelMemory Capacity:up to 128 GBMemory Bandwidth: 256.0 GB/s
De chips zijn beiden erg lastig. De nVidia machine heeft als "nadeel" dat hij een ARM hart heeft, en je dus sommige niche-geïntegreerde toepassingen zoals "Text-SAM toepassen in een geospatial omgeving" niet echt makkelijk kan toepassen want het framework daar omheen heeft óók een hoop lowlvl x86-64 meuk er omheen... maar het "SAM" stuk zal goed draaien, want Meta, de oorspronkelijke bouwers van SAM, hebben het initieel voor CUDA geschreven. Ja, je kan het op-CPU draaien, maar het is trááááááááááág. Duurt lang.

Er zijn wat ROCm modellen (ROCm = een open variant van een GPGPU taal á la CUDA, maar dan merk onafhankelijk -- in theorie, beetje voor mij net zoals GSync, wat nVidia only is, en Freesync, wat open is), en hobbyisten die bestaande FOSS tools (zoals Ollama e.d.) aanpassen aan ROCm, maar het is een beetje kip/ei... Qua performance puur op ruwe code is het soms een procentje meer voor de ene, soms meer voor de andere taal; maar netto genomen is veel installbase gewoon nVidia-only. En dat maakt een paar dingen pijnlijk bij nVidia:
  • De consumenten tak van de wereld heeft rot-drivers voor alles wat niet Windows is, en zelfs Windows is "vreemd" onder modern nVidia soms
  • nVidia heeft enkel in hun "vol geïntegreerde packages" (want naast CUDA heeft nVidia ook een paar interconnect voordelen vanwege hun networking tak) een ARM product, wat in theorie niet veel uitmaakt maar het is niet van het niveau op CPU niveau als het modernste van AMD, Intel, of de "grote" ARM-jongens: er is een reden dat ze ARM wouden kopen en nu de samenwerking met Intel aangaan...
  • De 'grote datacenter' tak niveau chips koop je ook niet met dit soort kastjes -- dit kastje zal denk ik bij menig "AI Dev" náást zijn echte werkplek staan (mogelijk zelfs headless vscode/jupyter kernel er naar toe), en de "full samplesize" tests naar een echte cluster, wat dit slechts een "extra" dingetje maakt á la "3D muis voor CAD/GIS tekenaar" -- voor de hobby-AI dev nog steeds een hoge barrier of entry
    • Hierdoor is de "grote" data hoek nog steeds lastig benaderbaar voor kleine devs die misschien €4000-5000 wel kunnen verantwoorden voor een stuk goed gereedschap, maar niet de €/uur of zelfs de €30k voor een "echte" kaart -- kleine situaties laten zich soms heel anders zien als je ze opschaalt...
Een Apple M3 Ultra, M4 Pro/Max/Ultra (toekomstig) heeft wel betere geheugenbandbreedtes dan dit, 600-800GB/s vandaag al. Die kunnen ook 128GB, sommige zelfs 192GB geheugen. Die zullen meer uitdaging bieden voor deze NVIdia doos dan de Ryzen AI MAX+. Tweakers heeft die al getest tegenover de Apple, en die laatste kwam veel beter uit de bus voor de grotere AI modellen. Hoop dat Tweakers deze ook gaat opnemen in zo'n test, kun je goed vergelijk zien in verschillende modellen.

Zat toen in bij deze hieronder, ondanks de wat gekke naam, prima cijfers.
Framework Desktop Review - Tweakers

[Reactie gewijzigd door OruBLMsFrl op 14 oktober 2025 11:49]

Inderdaad, bijv deze: https://www.bee-link.com/...-pro-amd-ryzen-ai-max-395
En vlak ook niet Nvidia’s eigen concurrent, de nieuwe Jetson Thor uit: https://www.nvidia.com/en...dded-systems/jetson-thor/

Het worden mooie tijden met die unified memory. Nu de prijs nog een beetje zakken.
Enkel Intel lijkt het spel niet mee te spelen
De AMD zal een stuk trager zijn omdat deze veel minder npu cores heeft en een lagere verbruik verraad eigenlijk al een lagere performance (120W max vs 240W).

Wat je voor AI nodig hebt:
  • Veel geheugen, ie 128GB+
  • Hoge geheugen bandbreedte ie liefst 1TB/s+
  • Hoog aantal NPU/GPU cores om gebruik te kunnen maken van geheugen bandbreedte en AI berekeningen (vermenigvuldigen gevolgd door optellen). 1 peta ops is wel het minimum zoals de 5070 kan leveren. AMD heeft maar 0.05 peta ops (50 npu tera ops aka tops)
  • Uiteraard is CUDA compatibiliteit een pre, maar hoeft niet een bottleneck te zijn
Het zal nog even afwachten zijn wat de benchmarks en tests zullen uitwijzen.

[Reactie gewijzigd door imqqmi op 14 oktober 2025 11:15]

  • Hoog aantal NPU/GPU cores om gebruik te kunnen maken van geheugen bandbreedte en AI berekeningen (vermenigvuldigen gevolgd door optellen). 1 peta ops is wel het minimum zoals de 5070 kan leveren. AMD heeft maar 0.05 peta ops (50 npu tera ops aka tops)
Ga je daar echter niet voorbij aan de GPU die de Ryzen ook nog heeft, die heeft een NPU en een GPU die ongeveer vergelijkbaar zou moeten zijn met een mobile RTX4070 (afhankelijk van het ingestelde maximale verbruik van de 4070, hoe hoger het ingestelde verbruik van de 4070, hoe verder deze uitloopt).

Dat zal nog steeds niet in de buurt komen in harde performance van deze DGX Spark, maar kijkende naar de voorlopige prijzen gaat een DGX Spark met gelijke storage ook zo'n 100% duurder zijn dan een Ryzen Max systeem, wat de prijs / performance van de Ryzen Max mogelijk wel weer interessant maakt (tenzij je vast zit in het Cuda Eco systeem natuurlijk).
Het zou mij vooral gaan om 70B+ modellen te kunnen draaien op vergelijkbare snelheid als 10B modellen die ik nu op een 4070ti draai. Dan moet je niet met een AMD APU gaan werken want die haalt die snelheid niet. Youtuber Gosucoder heeft een framework PC gekocht met 128GB en deze CPU geloof ik en hij vond de snelheid van inference zwaar tegen vallen. Dat was precies wat ik had voorspeld. Geheugen bandbreedte is gewoon niet voldoende en de NPU/GPU is ook niet erg snel voor AI. Voor games zal het wellicht wel redelijk gaan maar niet voor deze specifieke use case.

Tja, je koopt met een dgx spark wel een heel systeem. Die framework desktop PC was ook niet goedkoop, rond de 3000 euro. Er zijn momenteel geen x64 systemen die er bij in de buurt komen (los wellicht van datacenter hardware). Enige is die dichter in de buurt komt is een Apple M3 of M4 128GB+ systeem, maar dan betaal je ook de hoofdprijs.
LLM draai je niet op NPU van amd, maar eerde op de iGPU (8060s) , en die doet het hier bij mij heel goed.
Sneller dan een RTX 5090 met veel te weinig geheugen. Er zal zeker een markt voor zijn, ook voor die prijs.
Trager tot 32GB llm sneller tot 128gb llm

Minus overhead
Niet alleen LLMs.
Trainen van AI met bepaalde vormen van machine/reinforcement learning vergt ook veel RAM. Met name grote, transformer based modellen.
En image en video generation idem dito.
Als je hiermee fatsoenlijk een goed lokaal model kunt draaien, kan ik me voorstellen dat dit zakelijk best interessant kan zijn.
ligt weer aan je model natuurlijk niet aan de hardware.
Dit is dan ook bedoeld voor zakelijke toepassingen. En granted de vraag is dan of je het niet beter op een server ergens kan draaien, maar als je het lokaal wil hebben, dan zijn dit al snel de kosten niet meer als het wat betere productiviteit oplevert.
Tja, het is natuurlijk maar hardware gericht op een hele specifieke groep, ontwikkelaars die zich op AI willen storten. Dat is dus maar een kleine afzet markt, en voornamelijk bedrijven die dit echt geen struikelblok zullen vinden. Ondersteuning zal een groot deel van de prijs opvreten. En het voorrecht om als een van de eersten deze chip in handen te kunnen hebben om daarop te ontwikkelen.
Die 273GB/s bandbreedte van het geheugen valt me erg tegen. Zeker voor die prijs. Voor de helft van de prijs kan je een Ryzen AI Max+ 395 systeem kopen. Heeft ook 128 GB unified geheugen met een bandbreedte van 256 GB/s.
Of 4404euros voor een Apple Studio met M4 Max 128GB RAM/512GB SSD met 546GB/s geheugen bandbreedte (dubbele throughput). Dat is een minstens zo'n capabele, echter veel duurdere, desktop computer zoals de AI Max+ 395. Mits goede software ondersteuning matchen beide de grafische rekenkracht van een RTX4060 a 4070 (mobile) ongeveer.

Voor sommige AI workloads loopt zo'n Mac 2-3x voor op de Ryzen 395 (LLama-3.3 70B bij 12 tokens/second), met andere AI workloads maakt het niet zoveel uit.
Hoe bruikbaar is zo'n oplossing eigenlijk? Is het snel genoeg om echt iets nuttigs mee te doen?
En wat gebeurd er met de performance als je veel eigen data toevoegen (zeg 10 of 100GB aan informatie die je doorzoekbaar wilt hebben).
Natuurlijk is dat heel bruikbaar. Ik heb zelf een AI setup met een 16GB en een 12GB kaart en daar maak ik ook al veel nuttig gebruik van. Zo'n Mac zou nog veel beter zijn (grotere modellen) maar kost weer een sloot meer. Ik doe dat lokaal ivm privacy. Heel af en toe gebruik ik wel cloud modellen maar alleen als ik echt de grote trainingdata of context nodig heb en voor generieke vragen zonder privacy impact. Voor de meeste toepassingen die ik gebruik is een lokaal model prima. Zoals vertalen, samenvatten, en het uitfilteren van berichten of nieuws tot dingen die ik interessant vind. Kennisvragen gaan ook prima als je ze combineert met zoekacties die als grounding gebruikt worden. Op die manier heb je ook up to date kennis en zit je dus niet vast aan de trainingsdatum van het model.

Het invoegen van eigen data kan met "RAG", Retrieval Augmented Generation. Dit maakt het wel een stuk trager en gebruikt meer geheugen (beiden ivm meer context gebruik). Maar het werkt ok prima.

[Reactie gewijzigd door Llopigat op 14 oktober 2025 12:08]

Wat bedoel je met 'doorzoekbaar'. Bij AI train je met data en maak je een model. Daarna kun je dat model problemen laten oplossen (inference). Eigen data doorzoekbaar maken doe je meer bij een search engine of zoiets.
Meestal gebruik je RAG hiervoor. Dat heeft als voordeel dat je niet steeds je model hoeft te hertrainen als je data verandert. Nadeel is dat je ingevoegde data context verbruikt wat het trager en groter (geheugen!) maakt. Context verbruikt veel geheugen. Daardoor moet je een slim algoritme hebben dat de juiste data in de context laadt. Daar heb je weer embedding modellen voor. Die maken er 'chunks' van.

Het zit een beetje tussen een full getrained (of finetuned) model en een zoekmachine in.

Ik heb zelf mijn hele persoonlijke knowledgebase er in zitten zodat ik die helemaal lokaal kan aanspreken vanuit een LLM.

[Reactie gewijzigd door Llopigat op 14 oktober 2025 12:06]

10 - 100GB aan data is veel te veel tokens om in welk model dan ook te voeren. Je zou dan eerder denken aan een agent die zelf grep kan draaien om de juiste context te vinden. Zo werken bijvoorbeeld Cursor en Codex ook.
Llama3.3 70b is veel te zwaar, je bent beter af met de Qwen3-30B-A3B (https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507)


Het is veel kleiner en veel sneller en veel beter dan llama3.3 70B

Ik draai het met 40+tokens/sec op aan AMD strix 395 64gb
Volgens mij is het zonder CUDA niet echt een optie om makkelijk mee te werken
CUDA is zeker een sterk punt van Nvidia. Bijna alle AI software ondersteund CUDA. AMD loopt achter, maar wordt steeds beter ondersteund. Om een indruk te geven: een 128 GB AI Max 365+ systeem haalt met GPT-OSS-120B ongeveer 30 tokens/s.
Maar geen cuda support....
Maar dat closed ben je afhankelijk van nv hun 4000$ wat 2500 had kunnen kosten.
Mijn mac studio is goedkoper in €
Met 64GB .
Op korte termijn ben 1 keer bij met nv maar zit dan vast en betaald de hoofd prijs voor nv hardware.
Voor hobby AI lokaal is die 64GB zat
Naast kogic pro en finalcut pro
Als je in competitieve branche zit die AI grootschalig toepast kan je er niet omheen. Nv Cuda eco systeem .
Maar daarmee blokeer je ook concurrentie. Die geeft het enorm zwaarder. Als het al bijna monopool is
ROCM is een goede alternatief aan het worden
Waarom deel je de link?

“Note: The following is for professional and student level subscribers.”
Ik vermoed omdat de rest van het artikel gratis is, en relevante informatie bevat? het deel dat:
“Note: The following is for professional and student level subscribers.”
Zie je alleen als je ingelogd bent, het artikel gaat dus nog verder dan dat je nu kan lezen, maar dat deel kan je enkel lezen als je geabonneerd bent. Dit is bij veel van Charlie's artikelen zo, een deel is gratis te lezen, maar zodra hij de diepte in gaat over bijvoorbeeld de financials en wat voor gevolgen een zet van bedrijf X of Y kan hebben voor bijvoorbeeld aandeelhouders dan moet je geabonneerd zijn om verder te mogen lezen.
Omdat de tekst die wel gelezen kan worden al genoeg zegt. De toekomst zal het moeten uitwijzen, maar een IT-ding waarvan de release al zoveel keer is uitgesteld en nu nog niet eens voor de beloofde prijs aan de man wordt gebracht (als je er al één te pakken kan krijgen), dat klinkt als een "dud". Maar wie weet, in deze AI-crazy tijden is alles mogelijk... Plak er een sticker met "NVidia!" op en het verkoopt als zoete (dure) broodjes?
Ahzo. Deze uitleg geeft een stuk meer inzicht waarom je de link deelt dan: "Hmmm...".

Ik ben het met je eens in die zin dat de gang van zaken op mij ook vreemd overkomt.
nu nog niet eens voor de beloofde prijs aan de man wordt gebracht
Ik kan een hoop speculeren over het mogelijk in willen dekken van NVIDIA vóórdat de (eventuele) AI bubbel barst, of dat NVIDIA erachter is gekomen dat ze de toegang tot het SPARK ecosysteem aanvankelijk te goedkoop hebben verkocht, maar heb daar geen grondig genoege onderbouwing voor.
Elon Musk heeft een van de eerste gekregen als verwijzing naar de eerste DGX-1 die Musk in 2016 kreeg bij OpenAI.

https://x.com/nvidia/status/1977902801671127202
Djeez de prijzen zakken zeer snel. Ik heb nog 2800 betaald ...

Wel super tevreden over deze amd 395cpu's, mijn lievelingsmodel is https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507
Deze run ik ook regelmatig op mijn rtx 3090 24 gb. Fyi, die bosman was goedkoop. Nu nog goedkoper


Hoeveel tokens per seconde?

[Reactie gewijzigd door NicoJuicy op 17 oktober 2025 01:46]

In Q4 K_m haal ik 40 tokens per second met vulcan 1.52 (GPU), op de NPU is het maar 15 tokens per second (ROCM)
But does it run Crisis!?
Als dit een alternatief kan zijn voor een api koppeling naar bijv. copilot, kan het zichzelf relatief snel terugverdienen?
Dan moet je wel heel veel uitgeven aan je CoPilot calls.
Het klinkt een stuk goedkoper als een server aanschaffen met een RTX PRO 6000 Blackwell Generation 96GB. Puur voor interference van bijvoorbeeld de GPT-OSS 120B modellen. Ben benieuwd of het ook echt komt en werkt.
Huh hij ging toch 3000 dollar kosten
Ja, dat staat ook in het artikel, eerste alinea:
Bij de aankondiging van de pc kostte hij nog 3000 dollar.
De 3rd party versies waren wel $3000 dat ik de laatste keer keek op de site.
Geef het 3 maanden , het zal snel zakken. Hetzelfde gebeurde met de strix halo 395. Die kost intussen nog maar de helft van de prijs terwijl het zo goed als hetzelfde is als deze DGX model. (ok een beetje trager)


Om te kunnen reageren moet je ingelogd zijn