AMD en Stability AI ontwikkelen Stable Diffusion-model dat lokaal draait op npu

AMD en Stability AI hebben samen een nieuw AI-model ontwikkeld dat beelden kan genereren. Het model is een variant op het bestaande SD 3.0 Medium-model, die specifiek is bedoeld om lokaal te draaien op laptops met een compatibele Ryzen AI-processor.

De nieuwe SD 3.0 Medium-variant vereist een Ryzen AI 300- of een Ryzen AI MAX+-cpu in combinatie met minimaal 24GB ram, zo schrijft AMD in een persbericht. Gebruikers met dergelijke systemen kunnen het model inladen in de Amuse 3.1-software en lokaal beelden genereren op basis van tekstopdrachten.

Het model maakt gebruik van de XDNA 2.0-npu, een onderdeel binnen de Ryzen AI-processors dat specifiek is bedoeld voor het uitvoeren van AI-rekenwerk. Het model werkt in twee fasen: eerst genereert het SD 3.0 Medium-model een afbeelding van 1024x1024 pixels. Vervolgens wordt de npu gebruikt om dat resultaat te upscalen naar 2048x2048 pixels.

Het model maakt daarbij gebruik van het BF16-dataformaat, schrijft AMD. Volgens de chipmaker biedt dit formaat 'de nauwkeurigheid van fp16 met de prestatiekosten van int8'. Het model draait dus offline en is daarmee gratis te gebruiken voor persoonlijk gebruik of voor kleine bedrijven met minder dan een miljoen dollar aan jaaromzet, zo benadrukt AMD, dat ook meldt dat de licentievoorwaarden in de toekomst kunnen wijzigen.

Door Daan van Monsjou

Nieuwsredacteur

22-07-2025 • 16:30

39

Reacties (39)

39
39
11
1
0
26
Wijzig sortering
Waarom 24GiB RAM? Op mijn Nvidia-GPU kun je met 8GiB VRAM prima uit om afbeeldingen van die resoluties te genereren, waarom heeft de NPU-oplossing nou drie keer zoveel nodig?
Een NPU oplossing heeft niet 3x zoveel nodig, dit model heeft 3x zoveel nodig. Probeer anders dit model eens op jouw GPU en vertel ons of de resultaten goed waren!
Nee hoor, niet 3x zoveel, 1 GiB meer, zie mijn bericht hieronder.
Het model zelf lijkt net tegen de geheugenlimiet aan te botsen, maar het lijkt erop dat er twee andere modellen in de pijplijn zitten die het geheugenverschil kan verklaren. Waarschijnlijk worden die in cache gehouden om de snelheid hoger te houden (in plaats van dat het hele model opnieuw moet worden ingeladen halverwege het proces).

Toch zeggen ze zelf
while consuming only 9GB of memory
dus ik blijf het vaag vinden. Vermoedelijk willen ze gewoon 15GiB vrijhouden voor Windows en gebruikersapplicaties zodat mensen met "maar" 16GiB RAM niet de tool starten en geheugenproblemen krijgen als ze Photoshop en een browser daarnaast open hebben ofzo.
Het is wel totaal he, dus met wat apps open (inclusief de SW zelf) zit je ook alweer op zo'n 12 GiB vermoed ik. En dan moet je de video nog verder processen / comprimeren.

Van het persbericht:
The first Block FP16 SD 3 Medium model designed for AMD XDNA™ 2 NPUs also comes with a reduction in the memory requirements for Stable Diffusion 3 Medium and will run on 24GB laptops while consuming only 9GB of memory
Ik vind 15GiB aan gereserveerd geheugen voor overhead voor andere programma's toch best hoog, eerlijk gezegd. Ik vind het lastig om te bepalen of dit nu gewoon een truc is om mensen duurdere modellen te laten kopen (aangezien geheugen vastgesoldeerd zit bij deze chips) of dat je daadwerkelijk met 16 GiB aan RAM in de problemen komt.

[Reactie gewijzigd door GertMenkel op 23 juli 2025 09:48]

Nou ja, dat model kan je aftrekken van het totale geheugen. Als je een 16 GiB model hebt heb je dan max 7 GiB geheugen over. Ik zou zelf ook meer dan 7 GiB aanraden om video bewerking te doen, je wil misschien ook wel wat video cachen. En het lijkt me lastig om 17GiB max aan te raden voor het totaal, dus dan moet je naar boven afronden.
Ze geven zelf 9GiB aan geheugengebruik te behalen, het lijkt me toch sterk dat het model daar niet in mee wordt gerekend? Als het geheugen nodig is om het model te bevatten, is het geconsumeerd.
Natuurlijk zit het model er daar in, maar de image bewerking bestaat vast niet uit alleen het model. Je wilt ook andere operaties uitvoeren, op z'n minst encoding bijvoorbeeld. Dus je hebt een video editing applicatie nodig. Als je 16 GiB gaat specificeren dan heb je 7 GiB voor OS en die app, da's best weinig. Er zijn geen laptops met 17..23 GiB te koop, dus dan raden ze 24 GiB aan. Maar misschien snap ik niet wat je wil zeggen.
Dus het AI deel doet de CPU en upscalen met de NPU? Is de NPU niet goed genoeg voor het AI werk dan?
Zeker wel en in mijn ervaring, absoluut snel voor zelfs de NPU op de 8700G - alhoewel subjectief.
Relatief off topic; wil je met mij delen hoe je setup is? Ik probeer via Proxmox een Ubuntu VM de NPU te geven. Dit is waarschijnlijk alle PCI devices van m’n processor (8600g) doorsluizen die kant op.

Echter, om de rest van het verhaal van de NPU te begrijpen (welke device ids , welke drivers, welk OS, welke library voor API toegang, welke modellen) wil ik weten hoe dit werkt, maar kan er bar weinig over vinden.

Alvast dank !
Geen probleem, maar... Ik draai het simpelweg op Windows met de laatste drivers en NPU driver. De API/Source is volgens mij closed source echter. Welke info heb je precies nodig?
Dat helpt al, dank!

Dus:
  • Hardware; in mijn geval alle PCI ids van de iGPU doorzetten naar de VM
  • Driver: standaard closed source
Welke modellen draai jij nu op de NPU, en heb je daar een link van? Dan weet ik wat zou moeten werken.
Via Amuse Download je modellen op basis van ONNX. Ik meende dat je Stable diffusion modellen kunt converteren naar ONNX :)

Via Amuse zijn dat al populaire modellen die geconverteerd zijn.

[Reactie gewijzigd door SkyStreaker op 29 juli 2025 13:07]

Ik begrijp zelf niet goed of dit soort processors nu meer een marketinghype is of dat het daarwerkelijk zin heeft. Aan de ene kant kunnen die Ryzen AI Max+ 395 cpu's vanwege de forse geheugenruimte interessant zijn om grotere modellen te draaien, maar dit soort systemen kosten je al snel €2000+. Een laptop is nog enigszins logisch, want dat kun je dan onderwer gebruiken, maar waarom zou je dit soort mini systeempjes verkiezen boven een desktop met stevige Nvidia GPU?

Voor €2000 is een systeem met een 5080 te bouwen als je even puzzelt, en die levert toch een veelvoud aan AI power? Ik begrijp dus niet goed of dit nou meer hype is, of dat het daadwerkelijk meerwaarde biedt.
Een 5080 heeft 16gb vram, terwijl een 395+ tot 128gb unified ram kan hebben, 8x zoveel.

Toepassingen die veel (v)ram nodig hebben zijn dus ideaal voor een 395+. Zij het een 70gb AI model in vram inladen, of wetenschappelijke datasets volledig in vram hebben.

Dit kun je fysiek niet doen met een 5080, ookal is een 5080 wel significant sneller, door de hoeveelheid extra cores.
Dank, ik kwam op zich ook zo ver, maar een 5080 gaat toch simpelweg alle overige taken die niet in het VRAM passen verplaatsen naar het DDR ramgeheugen? En dat wordt dan inderdaad veel trager, want dat is veel minder snel voor dit soort taken dan DDR ram. Maar ja, wat is dan het voordeel van een processor die vanaf moment 1 alles al op het DDR gaat doen.
De bandbreedte. Vaak is dat net de limiet voor al die AI toepassingen, want het hele model moet continu opnieuw gelezen en verwerkt worden.

De AMD chip heeft continu 256GBps (ik lees ergens 212GBps gemeten in software effectief) naar al dat geheugen.

Een RTX5080 heeft een leuke 960GBps ... voor 16GB. Als je dus een groter model hebt is het heen en weer over PCIE. Met PCIE5 x16 is dat een theoretische 63GBps, met DDR5 dat afhankelijk van je setje ergens tussen 50-60GBps zit. Verwacht dus ook maar hooguit ergens 50GBps.

Dus ja, deze APU haalt dan toch wel 4-5x meer bandbreedte naar z'n geheugen.
Dit model is echter maar 9 GiB; totaal wordt 24 GiB aangeraden (ik denk dat je met 16 GiB wel erg krap zit met ook video, applicatie en OS geladen, dus ik vermoed omhoog afgerond).
Geen idee. Zal wel iets met veiligheidsmarges en hardware-reservaties te maken hebben? Stel bvb 8GB gereserveerd voor CPU-only wat in een 16GB configuratie dus maar 8GB zou zijn en niet voldoende voor het model. Met 24GB heb je dan 16GB. Ik gok maar wat, maar het kan best op zoiets gebaseerd zijn.

Ik vind bijvoorbeeld wel elders deze vermelding:
AMD Ryzen™ AI MAX+395 with 128GB unified memory (up to 112 GB allocatable by the GPU)
Dus misschien speelt er op de achtergrond echt wel zoiets mee. Precieze details over deze configuratie kan ik niet vinden.

[Reactie gewijzigd door Arrigi op 22 juli 2025 23:24]

Dank voor de uitleg, volgens mij ben ik weer een stapje verder in het begrijpen ervan. Maar... als dat DDR5 geheugen zelf max 50GBps heeft, dan is dat toch de limiterende factor ook voor die CPU constant? Die CPU heeft niet zelf even 64GB RAM in een hoekje verstopt maar gebruikt daar DDR5 geheugen voor?

[Reactie gewijzigd door DeNachtwacht op 22 juli 2025 21:44]

Geheugenconfiguratie per chip is anders. Je desktop chip gebruikt een bepaald type DDR met een specifieke configuratie. De AI Max 395+ spreekt gesoldeerd LPDDR5X aan met een andere geheugencontroller en bredere bus.

Net zoals er bvb HBM3 is waarbij een GPU meerdere terabytes per seconde kan verzetten, maar dan moet je hele design er wel op afgestemd zijn. "Normale" CPUs kunnen doorgaans af met een mindere databus en krijgen die dan ook niet, want waste of silicon (of je moet maar duurder kopen)

edit:
als voorbeeld heb je bvb EPYC CPUs met 12 geheugenkanalen waar onze simpele desktops er nauwelijks twee hebben: https://www.phoronix.com/review/8-12-channel-epyc-9005/2 dan zijn er opeens ook honderden GBps mogelijk

[Reactie gewijzigd door Arrigi op 22 juli 2025 22:59]

Dank. Als ik het dan zo zie is zo’n apparaat dus handig als je relatief traag (50 tops) heel grote modellen wil kunnen draaien. Een 5090 draait hier wel rondjes omheen (3300 tops), maar is gelimiteerd tot 32GB en zakt daarna in.

Snap ik hem dan zo goed?
Da's inderdaad een van de use cases. Voor zo'n 2000 euro - minder dan een RTX5090 heb je een toestel dat véél grotere modellen kan draaien dan de 5090 überhaupt kan. Bruikbaar snel? Mja nee, maar het kán wel. Het maakt bepaalde dingen simpelweg toegankelijk waar anders een veelvoud van het geld nodig zou zijn. Zie ook de review van Tweakers: review: GMKtec EVO-X2 met AMD Ryzen AI Max+ 395 - Mini-pc met megahardware

Die 50TOPS is trouwens de NPU specifiek. Zo'n AMD - of specifiek de AI max 395+ - heeft ook nog eens een relatief grote GPU ingebouwd.
Bandbreedte + latency onder andere. Bij unified ram kan de cpu EN gpu tegelijk bij de data, en hoeft het niet verplaatst te worden van ram naar vram. Ook heb je, zoals de comment hier onder ook al zegt, veel sneller geheugen (4-5x) dan standaard ddr5 ram in een 395/395+ systeem.

Het constant tussen ram en vram switchen kost (relatief) veel tijd. Voor een gpu wil je eigenlijk zoveel mogelijk data 1x ernaartoe sturen, dan berekeningen doen, en dan weer terug sturen.

Een ander voordeel is de power usage. Een 395+ kan met 20-30W (cpu + ram+ gpu) prima een hoop dingen doen, en als het moet kan deze opschalen tot 70-100W. Als je een systeem met flinke cpu + 5080 hebt, dan idle je vaak al flink boven deze grens. Al is dit niet perse een limitatie natuurlijk.

[Reactie gewijzigd door floris martens op 22 juli 2025 19:39]

PCIe is een gigantische bottleneck. Parameters streamen naar de GPU is vaak langzamer dan gewoon het rekenwerk op de CPU te doen.
Je weet dat deze Ryzen 50 tops AI kracht heeft en een RTX 5090 bijna 2000 tops?
Helpt niet als de dGPU bijna alleen maar stilstaat wachtend op de PCIe transfers.
Hype. Het aantal mensen die wat zinnigs op hun PC met AI doen, is te verwaarlozen.
"Zinnig" is relatief, ik kan weinig mensen bedenken die iets zinnigs doen achter hun game-PC.

Als ik om me heen kijk, zie ik ChatGPT en concurrentie toch steeds vaker terugkomen. Ook voor taken die helemaal geen 300 miljard parameters nodig hebben, de LLM die op mijn telefoon kan draaien kan ook een artikel samenvatten en met ollama kom ik nog verder. Dat spul kan prima on-device mits de nodige versnelling en modellen klaar staan.

Naast LLM's moet je ook denken aan dingen als Grammarly, dat ook allemaal AI-modellen gebruikt (en vaak traint op basis van wat je typt maar dat lijkt niemand tegen te houden). De live transcriptie die in mijn telefoon zit, om on-device ondertitels te genereren bij video's die dat niet hebben, vind ik ook heel praktisch en dat is ook gewoon AI.

Naarmate de hardware beter en efficiënter wordt in het draaien van AI, zullen ook meer mensen daar gebruik van gaan maken, of ze het nu doorhebben of niet.

[Reactie gewijzigd door GertMenkel op 23 juli 2025 10:58]

die iets zinnigs doen achter hun game-PC.
Mensen die nu computerspelletjes spelen, hebben al helemaal weinig aan AI.
Als ik om me heen kijk, zie ik ChatGPT en concurrentie
Dat draait allemaal extern. En de reden is dat deze modellen totaal ongeschikt zijn om in een computer of telefoon te stoppen. Ik had het over stable diffusion draaien op een PC. Echt niemand gebruikt dat, op een paar enthousiastelingen na.
Naast LLM's moet je ook denken aan dingen als Grammarly, dat ook allemaal AI-modellen gebruikt (en vaak traint op basis van wat je typt maar dat lijkt niemand tegen te houden). De live transcriptie die in mijn telefoon zit, om on-device ondertitels te genereren bij video's die dat niet hebben, vind ik ook heel praktisch en dat is ook gewoon AI.
Voor deze toepassingen is huidige techniek meer dan voldoende. NPU's voegen niks toe aan deze toepassingen.
Ik had het over stable diffusion draaien op een PC. Echt niemand gebruikt dat, op een paar enthousiastelingen na.
Ah, dat staat niet in je post. Daar geef ik je op desktop gelijk, zelfs Microsoft's paint-integratie en Photoshop doen alles daarmee nog in de cloud.

Op telefoons wordt dit wel vaker gebruikt, daar zit het in de fotobewerk-app; dat is gewoon Stable Diffusion in-painting, maar iedere fabrikant heeft daar zijn eigen naampje voor bedacht.
Voor deze toepassingen is huidige techniek meer dan voldoende. NPU's voegen niks toe aan deze toepassingen.
Daar ben ik het mee oneens. Ja, het werkt, maar het vreet tijd en energie, dat is de reden dat er zoveel in de cloud gebruikt. Als ik kijk naar hoeveel efficiënter whisper op een goedkope Macbook is tegenover de GPU-equivalent op mijn Linux-laptop, ben ik toch wel jaloers.

Juist door meer op lokale NPU's te leunen, kunnen taken van de cloud naar je computer verplaatsen. Tot die accelerators overal zijn, blijft software je gegevens naar de cloud sturen uit noodzaak.
Macbooks hebben krachtige AI-processors en een geheugenarchitectuur die ze toestaat om dit soort modellen snel en efficiënt te draaien. Dingen als Whisper draaien op een Macbook is een stuk eenvoudiger en energiezuiniger dan op een AMD-chip. AMD wil daarmee kunnen concurreren.

Het voordeel voor AMD is dat de prijzen van de hardware die Apple verkoopt waarop je logischerwijs dit soort modellen wilt draaien bij de PC-markt meteen op een high-end of workstation-prijs uitkomen. Zolang Apple nog 300 euro vraagt voor een reepje RAM kan AMD hun AI plus ultra super turbo chips verkopen voor hele hoge prijzen.

Een 5080 is goedkoper en sneller, maar vereist wel weer een desktop. Veel mensen hebben liever laptops. Maakt thuiswerken in elk geval een stuk eenvoudiger in mijn ervaring.
Leuk nieuws over NPU gebruik maar ik zou zelf niet zo snel image generation doen met een NPU of wat voor lokale toepassing dan ook.
Waarom niet? Vaker gebruikt en gaat rap zat, heb het zelf in mijn 8700G en je kan er genoeg mee doen :) Wel een kritisch puntje voor mij is dat de modellen via ONNX moeten gaan en die zijn niet zo alomtegenwoordig en/of vrij van bepaalde thematiek en dat de mogelijkheden binnenin Amuse zelf niet zo breed zijn. Maar, dit was voor 3.xx, dus wil zeker eens gaan kijken :)
Ik gebruik zelf eerder local AI oplossingen voor image recognition of OCR, en als prepare prompt voor online modellen.

Op dit item kan niet meer gereageerd worden.