AMD's Ryzen AI Halo-mini-pc verschijnt in juni, concurreert met Nvidia DGX Spark

AMD brengt in juni zijn eigen mini-pc uit, genaamd de Ryzen AI Halo. Hij beschikt over een Ryzen-chip met zestien cpu-cores en een krachtige ingebouwde gpu. AMD gaat hiermee de concurrent aan met Nvidia's DGX Spark-mini-pc voor ontwikkelaars.

AMD kondigde het Ryzen AI Halo-systeem in januari al aan tijdens de CES. Het bedrijf sprak toen al over een release in het tweede kwartaal. De chipmaker bevestigt nu dat de mini-pc volgende maand op de markt komt. Volgens VideoCardz gebeurde dat tijdens AMD's AI DevDay, dat afgelopen donderdag plaatsvond. De prijs van de Halo-mini-pc is vooralsnog onbekend, al zal hij waarschijnlijk niet goedkoop worden.

Volgens AMD is de Ryzen AI Halo speciaal bedoeld voor AI-ontwikkelaars. Hij is dan ook geoptimaliseerd voor verschillende AI-modellen. Hij kan zowel Windows als Linux draaien; volgens VideoCardz draaide het demomodel tijdens AMD's DevDay bijvoorbeeld op Ubuntu.

De pc is gebaseerd op de Ryzen AI Max+ 395, die we op de redactie al meermaals zijn tegengekomen in systemen als de Framework Desktop. Die chip beschikt over 16 Zen 5-cores, een ingebouwde gpu met 40 RDNA 3.5-compute-units, en maximaal 128GB werkgeheugen. Mini-pc's met de Ryzen AI Max+ 395, die in 2025 al op de markt kwam, kostten bij release vaak 2000 euro of meer.

De Ryzen AI Halo wordt door AMD gezien als een concurrent voor de DGX Spark, een soortgelijke mini-pc van Nvidia. Ook de DGX Spark is speciaal bedoeld voor AI-ontwikkelaars en beschikt over 128GB werkgeheugen, maar dan met een Arm-cpu en Nvidia-gpu. Dat systeem is beschikbaar voor ruim 3000 euro.

AMD Ryzen AI Halo
De Ryzen AI Halo. Bron: AMD

Door Daan van Monsjou

Nieuwsredacteur

01-05-2026 • 19:31

46

Reacties (46)

Sorteer op:

Weergave:

Klinkt interessant, als het echt werkt. Wist niet dat AMD al op een dusdanig niveau was dat ze kunnen concurreren met NVidia.
Ben reuze benieuwd naar de performance en ik denk dat alles valt of staat met de bandwidth van het geheugen. Heb zelf een Macbook M4 Max met 128 Gb geheugen. Leuk om grote modellen in te laden maar de inference speed is om te huilen zo traag. De fans maken overuren als ik iets met AI probeer. Enige voordelen zijn dat je grote modellen kan inladen door het unified memory en ook een hele grote context size gebruiken en daarnaast verbruikt de laptop beduidend minder stroom dan een beetje NVidia kaart. Maar helaas is de performance voor AI bedroevend. En helaas is 128 GB niet echt behoorlijk veel als het om AI gaat.
Ben benieuwd hoe dit met de AMD box zal gaan.
Ik vertrouw AMD absoluut niet met hun ROCM software stack voor AI toepassingen, het is een grote puinhoop wat ze al vele jaren niet rechtgetrokken krijgen. Ik heb zelf een Strix Point laptop met 64GB RAM en de prestaties in zowel lokale LLMs die in dat geheugen passen alsmede simpelere toepassingen als object detectie met YOLO op Pytorch zijn bedroevend laag. Bij het laatst genoemde werkt mijn Macbook pro ze 5x zo snel af. En Apple MPS is nou ook niet de meest volwassen en best ondersteunde stack.

Voor deze laptop had ik in mijn desktop een RX6800XT zitten. Leuke gamingkaart, maar heeft gewoon nauwelijks ondersteuning gehad en gewerkt met de ROCM stack Ik heb er uiteindelijk maar een RTX4080 Super in gedaan. Nvidia/CUDA werkt gewoon.
ik heb een minisforum met een ryzen/radeon 7840 en dat zit er nog een stap onder. Dus of de drivers zijn ruk, of de machine is niet sneller
Ja ze gooien kaarten ook echt verrekte snel weer uit de support. Als ze uberhaupt al support krijgen want dat hangt er ook vaak om. Ik heb een kaart nieuw in de winkel gekocht en daarvan was de rocm support bij het moment van aankoop alweer op stop gezet (dus alleen oudere versies). Toegegeven het was een uitloop kaart maar werd nog wel gewoon verkocht en hij was toen 3 jaar oud.

Als AMD wil dat ze serieus genomen worden in de AI dan moeten ze niet zo blijven aanklungelen.

[Reactie gewijzigd door Llopigat op 2 mei 2026 13:41]

Ik ben het ermee eens dat ROCm flink achter liep, maar sinds ROCm 7 doet bijzonder veel in bv ComfyUI het verassend veel snelller en ook native. zLUDA was knutselwerk voor mij, dus geen succes te noemen. De community heeft wel veel handige setup scripts tot die tijd en zelfs nu nog bijgedragen om o.a. pytorch goed te configureren. Dit is wel met een 9070 XT, ik weet niet of alles net zo is verbeterd in vorige GPU series of de AI max APUs.

Dat gezegd, als ik echt AI als voornaamste doel had, was ik ook voor een Nvidia kaart gegaan. maar voor games, grafische applicaties en iets AI, is de keuze voor mij makkelijk gemaakt door de prijs en verademend moment op de markt (concurrentie van AMD had wel wat druk op de prijs van de 5070 TI gezet).
En met dat de 128GB RAM niet superveel is, zijn de 2(!) QSFP-poorten op een DGX welkom. DIe zitten denk ik niet op deze Ai Halo Mini PC.
Die lijken leuk als je tensor parallel wilt doen. Maar eigenlijk wil je dan toch gewoon rtx6000 want het geheugen op de spark (en de amd 395 bakjes) is ongeveer 250gb/s. Ofwel 2 tokens per seconde als je een 122b model op q8 hierop draait.
bruikbare modellen kunnen heel wat kleiner zijn dan 122b en dan nog heb je door een +100gb model 2x een rtx6000 nodig (max 48gb), wat 2500 vs 16000 is. Leuk als je met 10 gebruikers de server tegelijk wil gebruiken, maar als je in de nacht rekensommetjes wil oplossen heb je niet alle snelheid nodig.
RTX 6000 is 96GB VRAM.
En maar +/- 8000 euro duurder.
Ik reageerde op @arjandijk162 's statement waarin hij zei:
heb je door een +100gb model 2x een rtx6000 nodig (max 48gb)
Die max 48GB klopt toch niet?
ik zag in de pricewatch alleen maar 48gb versies, maar zie nu dat je voor 10k oom een RTX6000 met 96gb hebt, die kende ik niet. Dus zelfde mogelijkheden (incl pc) voor 25-35% van de prijs (10k+2k voor de computer), maar wel met een andere token generatiesnelheid. Ik kan me voorstellen dat je met een AMD systeem test of lokaal AI voor jou voldoet en als het antwoord ja is, maar je komt tokens tekort, dan ga je door met een RTX6000 die je dag in dag uit tokens laat verbranden.
Jawel, de rtx 6000 is 48gb, de rtx pro 6000 is 96gb
Dat is de RTX 6000 Ada, de last gen kaart. Die is vervangen door de RTX Pro 6000.

Met die logica kan je ook zeggen dat de RTX 6000 24GB geheugen heeft en terugkeren naar de Turing-versie: uitvoering: PNY Quadro RTX 6000
Hangt er van af, de Spark en de Ryzen AI toestellen zijn vooral geschikt voor MoE modellen, omdat die grote hoeveelheden geheugen nodig hebben maar minder geheugenbandbreedte en compute dan klassieke dense modellen.
Ik verwees vooral naar de netwerk poorten van de spark die strix halo niet heeft. Die zijn leuk maar je hebt die snelheid van die poorten alleen met tensor parallel nodig en dan helpt een moe maar een beetje. Je hebt meer aan layer parallel op dit soort machines en dan is gigabit netwerk snel zat.
Ik reageerde op je claim "2 tokens per seconde op een 122B model" wat niet klopt als je kijkt naar MoE modellen (Qwen3.5 122B, Mistral Small 4 of zelfs ~200B modellen zoals MiniMax M2.X of Step 3.5 Flash).

Het klopt wel als je kijkt naar dense modellen als Mistral Medium of Devstral, maar dit soort dense 100B+ modellen zijn eerder uitzonderlijk in de open weights wereld.

Op je poorten verhaal wil ik vermelden dat mensen er wel al in geslaagd zijn Strix Halo bakjes met elkaar te verbinden via USB4 op Linux (usbnet) en hoge throughput en lage latency op die link waarnemen. Het is wel zo dat het ecosysteem om gedistribueerde Strix Halo nodes te laten samenwerken totaal niet matuur is.
als AI trainen je ding is zou ik niet zo snel inzetten op een AIO build, maar zou ik veel eerder gaan proberen om de verschillende layers uit elkaar te trekken, een tool als VLLM bijvoorbeeld schijnt grote modellen ook over verschillende gpu's te kunnen verdelen zolang de individuele layers maar kleiner zijn dan het vram.

dan werken 4x 8gb kaartjes ineens net zo goed (of beter) dan 1x 32gb, en zit je alleen nog met de initialisatie lag die je bij low-bandwiddth soms hebt. (bron verschillende yt vids - die ik even niet terug ga zoeken)
Ik heb het verhaal nou 3x gelezen, maar wat is nu precies het verschil met de Halo Strix mini pc's met 128GB en exact dezelfde CPU?
Zit hier een andere iGPU in?

Of is dit gewoon een versie van exact dezlfde mini pc's alleen nu van AMD met misschien wat meer AI software support?
Ik denk dat je het moet zien zoals een soort "founders edition" bij nVidia.
Ja ze lijken in te zetten op software, waarbij je deze in kan zetten als autonomous agent, naast uiteraard lokaal LLM. Als de prijs goed is wel interessant, maar ik ben bang dat je in de huidige economie al snel richting DGX spark prijzen gaat en het dus alleen voor een selecte groep van toegevoegde waarde is.
Ik neem aan dat de 128GB volledig door de GPU te gebruiken is. Weet niet of dat altijd voor alle iGPUs zo is.
Nou, de prijzen van de goedkoopste spark zijn al bijna 4000 euro. Dus vanaf 3000 euro is nogal... pre memory hausse.

uitvoering: ASUS Ascent GX10-GG0003BN

Ben wel benieuwd wat de prefill en geheugenbandbreedte zijn, dat laatste gaat de DGX spark nat op.
Heb de asus ascent gx10, het recept goed samenstellen is heel belangrijk. Daar gaat wel wat zoekwerk soms inzitten, gebruik vllm dat helpt ik wil ook niet te snel iedere keer van llm wisselen. Je weet wat hebt maar niet wat je krijgt 🥸.

toevallig wel net overgestapt op de qwen3.6 die is goed, had wel moeite om deze in het goede window te krijgen. Dit lijkt nu goed te gaan.

Heb altijd nemotron 3 super 122b achter de hand als het context window boven 250k nodig heb. Deze kan alleen text verwerken, de Qwen is wat breder in toepassing
Die heb ik ook een weekje. Gekocht bij bol.com voor 3099 (2tb versie). Schoot een paar uur later weer omhoog naar 3999.

Ik draai ook qwen 3.6 (a35b3nvfp4). Draait behoorlijk snel in vllm (~40-50 token/s) en ben nog aan het testen hoe goed hij is met opencode. Met dense modellen (bijv. qwen 3.6:27b) heeft hij moeite. Doet het wel, maar 7 token/s is nauwelijks bruikbaar.
https://github.com/AEON-7/Qwen3.6-27B-AEON-Ultimate-Uncensored-DFlash

heb deze geconfigureerd, was wel wat gedoe. Het werkt nu stabiel rond de 20 tokens. Ben de methodes die ze hier gebruiken aan het doorlezen om het te begrijpen voor de toekomst. Uitkomsten die het genereert lijken stabiel te zijn.
Ben daar ook mee aan het spelen. Het XS model is zelfs naar 30+ token/seconden te krijgen, maar die heeft moeite met context bij elkaar houden - bij coderen raakt hij na een paar honderd regels de draad kwijft. NVFP4 (niet XS) is niet veel beter. De reguliere fp8 is nog de beste die ik heb gezien - die krijg ik stabiel op 15-18 t/s met een zeer goede betrouwbaarheid.
Nou had ik 1 vraag ziet windows die 128 gb geheugen dan wel of is die gelimiteerd tot 64 gb?
Ik wacht op de custom chips die hopelijk komen voor snelle inference 😁
Dat lijkt me een ordinaire AMD64 PC. Geen concurrentie voor de Spark met diens ultrasnelle interconnect. Als je pech hebt zou er in die AMD USB poorten kunnen zitten. De Spark is wél goedkoop (ca. € 5000), maar ik heb slechte dingen gehoord over de hardware.

[Reactie gewijzigd door Dan the Man op 2 mei 2026 00:11]

Wat zijn "AI-ontwikkelaars"?

Ontwikkelaars welke uit AI Agents bestaan?
Ontwikkelaars welke AI Agents gebruiken?
Ontwikkelaars welke AI ontwikkelen / modellen trainen?
De doelgroep is mensen die AI ontwikkelen of met AI ontwikkelen (vb. programmeurs die een lokaal LLM model willen ofwel trainen of draaien). Het is relatief goedkoop als je een model wilt draaien die binnen de limieten van het doosje passen. Je kunt gemakkelijk doorheen honderden euros per maand aan tokens draaien voor zelfs simpele code-assistentie, een 5000 euro doosje heeft zich dan snel terugbetaalt.

Het probleem met deze "alternatieven" is dat de ondersteuning zelfs voor de DGX Spark niet echt denderend is binnen zowel NVIDIA containers als "third party" (PyTorch/Tensorflow), deze gelimiteerde GPUs met gedeeld geheugen zijn gewoon niet goed ondersteund tov een volwaardige Blackwell met dedicated geheugen in een x86 omgeving.

Daar stapelen we nu op dat de ondersteuning voor AMD GPU in het algemeen niet zo denderend is binnen de bovenstaande frameworks (het is geen CUDA, als je geluk hebt OpenCL, en ROCM is karig), omdat AMD niet echt investeert in de ondersteuning/ontwikkeling van software (vergeleken met NVIDIA). Een klein voordeel en tegelijkertijd groot nadeel is dat de AMD Ryzen AI(whatever) een x86 (laptop) chip is, de ARM CPU van NVIDIA, net als Apple kunnen veel meer rekenen met veel minder verbruik, zelfs voor 'gewoon' rekenwerk (compileren, docker build etc)

[Reactie gewijzigd door Guru Evi op 1 mei 2026 20:17]

Weinig problemen met rocm/llama op een machine als deze. Wellicht dat vllm of sglang minder goed werken maar dat is op een doosje als dit ook niet echt nodig.
Ollama kan gemakkelijk op een MacBook, dit is echt bedoeld voor ontwikkelaars. En nagenoeg alle ontwikkelaars gebruiken CUDA.
Beg to differ. Amd is voor pure inference meer bang for the buck. Nvidia was er eerder met cuda, maar bv. Ollama (wat gewoon een oude versie van llama.cpp is) werkt op nvidia(cuda), amd(rocm), intel(sycl,openvino), vulkan, aplle (mlx) en nog wat exoten. Als je bedoelt het trainen van je eigen ai dan is dat vaak,maar niet altijd, nvidia. Google en anthropic gebruiken bijv. TPUs. Meta doet ook dingen met radeon instinct. Nvidia heeft het marketing verhaal wel als beste voor elkaar.
De doelgroep is vooral mensen die AI modellen ontwerpen, de technische implementatie ervan doen. Je kan met een Spark bijvoorbeeld meerdere units aan elkaar koppellen en je beschikt dan over netwerkpoorten met zeer hoge bandbreedte die ook nog eens RDMA ondersteunen. Net zoals grote clusters in een datacenter. Je hebt dus een verkleinde vorm van wat je in het datacenter zult aantreffen en kunt daarmee beginnen testen en ontwikkelen zonder dat je direct de dure compute power uit een datacenter moet gaan gebruiken voor de initiele ontwikkeling van je model en het uittesten van de schaling.
Wij gebruiken ze ook voor andere NVIDIA software, zoals genomica (Parabricks)
Nofi, maar geen enkel machientje komt in de buurt van de performance van iets als Opus 4.7 met een context window van een miljoen tokens.
Die eerste zou nog kunnen omdat het niet over personen gaat. :+
Ze kondigen aan en verkopen puur op de AI hype. Dit systeem is, net als de spark, ook gebonden aan de lage memory bandwidth, waardoor inference snelheid laag zal zijn. Kort gezegd: ook al kun je grotere (dense) modellen draaien, het aantal tokens per seconde zal erg laag zijn. Ook heeft het niet de QSFP/connectx-7 feature (keuze) en zal het stroomverbruik bij maximale load hoger zijn vanwege x86 vs ARM. Aan de andere kant heb je minder ondersteuningsproblemen vanwege x86.

Bij de DGX Spark zijn ze erg veel aan het adverteren met het grote 128 GB shared RAM/VRAM en wordt nvfp4 met veel hype aangekondigd op Blackwell, maar uiteindelijk levert de software geen tot weinig ondersteuning voor de GB10 systemen. Die petaflop haal je niet omdat er simpelweg geen goede officiële software is (voor de ondersteuning van nvfp4 op SM121). Je bent aangewezen op de community en dus moet je ook vertrouwen dat de community builds en recipes veilig zijn.

Als je echt een AI server wil draaien voor inference, dan zou ik investeren in de rtx 6000 pro (geclusterd) of de h200 clusters. Maar dan heb je een hoog prijskaartje.

[Reactie gewijzigd door wiskas_1000 op 2 mei 2026 12:40]

Een hoger prijskaartje? Twee grootteordes verschil! Deze doosjes zijn echte “loss leaders” de DGX Station (1 GB300) van Dell is met korting 125,000 euro. Een rack van GB300s begint rond 1.5M (zonder koeling), met koeling en meer systemen kun je gemakkelijk rond de 3-5M per rack rekenen. En dat is net genoeg om een 4-tal instances van de grootste modellen tegelijk te draaien.

[Reactie gewijzigd door Guru Evi op 3 mei 2026 16:28]

>speciaal gemaakt voor AI

Nou ze zouden anders prima kunnen werken als mini gaming desktops als ze met 32GB geheugen kwamen. Maarja AI = geld in Su's ogen.
Zijn er trouwens hier mensen die Nvidia DGX hebben uberhaupt, of mensen die deze Amd zouden overwegen?

De reden ik dit vraag is het volgende. Ik ben al twee jaar met mijn Co-founder aan de slag met Macula, een open source project rond decentrale compute als antwoord tegen de hyoerscalers, maar ook data on the edge te houden. En we zoeken mensen die bereidt zijn hun device in ons mesh te plaatsen. Voor meer info over ons project, kijk gerust eens naar volgende pagina's:Vragen, geef me een seintje!
Concurrent van nvidia.

Amd kan geen moer met ai joh loopt voor geen meter.

Je een klein nputje van 4 watt waar je je camera wat mee kan doen woehoe

Om te kunnen reageren moet je ingelogd zijn