AMD brengt eigen taalmodel Instella met drie miljard parameters uit

AMD heeft een eigen taalmodel uitgebracht. Instella is een model met drie miljard parameters dat is getraind op AMD's eigen Instinct MI300X-gpu's. Het model is opensource beschikbaar onder een onderzoekslicentie.

AMD kondigt Instella aan en maakt dat beschikbaar op zowel GitHub als Hugging Face. Instella bestaat uit vier modellen, die allemaal draaien om een andere fase van het trainingsproces. In totaal zijn de modellen getraind met 4,15 biljoen tokens, waarvan het eerste pretrainingmodel, Instella-3B-Stage1, met 4,065 biljoen tokens het grootste is. De modellen zijn getraind op 128 Instinct MI300X-gpu's. AMD zegt dat het model aantoont dat het bedrijf eigen hardware kan toepassen om schaalbare AI-trainingmodellen te kunnen inzetten.

Daarmee ontstaat een taalmodel dat in totaal drie miljard parameters bevat en daarmee vergelijkbare of, volgens AMD, betere prestaties heeft dan Llama-3.2-3B en Gemma-2-2B. Het model bevat 36 decoderlagen die allemaal 32 zogenaamde attention heads hebben. De decoderlagen helpen bij het genereren van outputtekst; de attentionheads zijn bedoeld om het model te richten op de verschillende onderdelen van die tekst. Het model heeft een trainingpipeline die is gebaseerd op OLMo.

AMD maakt het model opensource beschikbaar onder een ResearchRAIL-licentie. Daarmee is het model niet helemaal open en vrij: het is een licentie waarmee het model mag worden gebruikt voor onderzoek en waarbij ontwikkelaars zich moeten houden aan regels die AMD opstelt. Zo mag de tool niet worden ingezet voor 'harmful' gebruik zoals fraude, discriminatie of voor het maken van malware.

AMD Instella

Door Tijs Hofmans

Nieuwscoördinator

07-03-2025 • 11:12

44

Submitter: JapyDooge

Reacties (44)

44
44
24
4
0
19
Wijzig sortering
Interessante ontwikkeling, nu is Nvidia niet de enige met AI. goed voor de concurrentie lijkt mij dit ook.
AMD heeft al heel lang goede hardware voor GPGPU / AI / ML taken.

Je kan echter zulke goede hardware hebben, maar als:
- de marktleider (nVidia) met zijn programmeer API CUDA ervoor heeft gezorgd dat alle makkelijk bruikbare frameworks (pyTorch, etc) niet direct te gebruiken zijn op die hardware zonder door hoepels te moeten springen (zLuda, ROCm, etc)
- AMD geen breed ondersteund alternatief heeft waar developers bovenop springen

Dan krijgt men het idee dat nVidia de enige is met goed bruikbare AI hardware. Zo hebben wij hier laatst ook overwogen om MI300 kaarten aan te schaffen, maar uiteindelijk niet gedaan omdat we niet direct vertrouwen hadden dat we onze CUDA gebaseerde software ook daadwerkelijk zouden kunnen draaien op die hardware. Spijtig, want de MI300 kaarten hebben een flinke rekenkracht en zijn goedkoper dan de groene alternatieven.

Al met al spijtig dat open vendor-independent GPGPU APIs niet echt van de grond zijn gekomen (e.g. OpenMP, OpenCL, etc) en dat iedereen CUDA is gaan gebruiken een paar jaar geleden.

[Reactie gewijzigd door DwarV op 7 maart 2025 12:08]

Dit klopt grotendeels, maar schetst toch niet het hele plaatje. GPU-vs-GPU zijn de MI-accelerators die ze aanbieden inderdaad erg krachtig. Het probleem zat 'em vooral in scaling: meerdere GPUs tegelijkertijd laten samenwerken. Het grote voordeel was altijd dat NVIDIA dit met grote efficientie kon doen, maar daar liep AMD erg op achter. Dat hoor je ook van high-performance clusters. Zo heb ik bewust mijn werklast van taalmodellen lange tijd niet naar de Europese AMD-cluster LUMI verplaatst, ookal heeft die 2978 nodes met elk 4x MI250X. Het was simpelweg niet efficient. (Daarbij komt nog dat de software stack op LUMI moeilijker op te zetten is dan ik op onze eigen cluster kan.) In de plaats daarvan gebruikte ik onze lokalere A100-cluster (Hortense, in het Vlaams Supercomputer Centrum), waar ik 1. goed kon schalen; 2. gebruik kon maken van de typische CUDA-stack; 3. gemakkelijker software kon gebruiken (maar dat is cluster-specifiek en heeft niets met ROCm vs CUDA te maken).

(Uiteraard is onze cluster ook beperkte dus als ik verder dan bv. 20 nodes wil schalen, zal ik toch ook naar Europees niveau moeten gaan.)

Dit model is voor AMD meer een stokpaardje om te laten zien hoe ver hun software (ROCm) en schaalbaarheid gevorderd is om te laten zien dat ze ook wel competitief kunnen zijn, in de hoop server-bouwers te lokken. En dat is hun zeker gegund. Ik heb gesprekken gehad met Nvidia over hun beschikbaarheden en prijzen, en het is erg duidelijk dat ze weten dat ze in een monopoliepositie zitten. Ik hoop dus op een AMD opmars, en dat deze ontwikkelingen zich verder doorzetten! Daarbij hoop ik dus ook dat een deel van het nieuw aangekondigde Europese budget naar AMD hardware gaat, en niet plots verdwijnt in nvidia-zakken.
Hangt er ook een beetje van af wat je schaalt.

Voor een bedrijf wat model as a service aanbied zal het weinig uitmaken wat er tussen 4xMI250/300 nodes zit, ethernet is meer dan genoeg.
Klopt voor klein-tot-medium modellen. Modellen die gehost moeten worden over meerdere nodes heen zoude ook gebottleneckt worden. Maar ik had het inderdaad voornamelijk over training.
Ik betwijfel of je zelfs met NVIDIA vaak meer dan 4x tensor parallel gaat gebruiken.

Met een input/output dimension van 4096 kan 100Gb ethernet meer dan een miljoen tokens/s erdoor stampen, ethernet is geen probleem voor pipeline parallelisme.
Zoals ik al zei klopt dat tot op zekere hoogte voor klein-tot-medium modellen, niet voor grote modellen. Het DeepSpeed-team heeft hier een test over gedaan. Hun bemerking: 100 Gbps is niet genoeg, ideaal is 800-1000Gbps als het gaat om het trainen van een 176B model: https://github.com/deepsp...8#issuecomment-1463041491 Uiteraard hangt het ook van kosten-baten af. Toen ik een factuur opvroeg bij onze serverboer komt infiniband er wel echt duur uit.
De kosten van infiniband moeten verwaarloosbaar zijn t.o.v. de kosten van de GPU's. Het is wel zinnig om slimme keuzen te maken: Bijvoorbeeld als je 8 GPU's per machine plaatst heb je veel meer bandbreedte nodig en wil je wellicht 400 gigabps infiniband kopen. Plaats je 4 GPU's per machine dan is 200 gigabps infiniband wellicht adequaat. Als je veel machines gebruikt, is de snelheid van de interconnectie binnen de machine minder dominant voor de looptijd van je job. Op die manier kun je slim kiezen.

Mijn ervaring komt infiniband onder de streep vaak goedkoper uit dan ethernet, als je het maar handig aanpakt. Als je professioneel advies wilt mag je contact met me opnemen, het is mijn werk.
Ik doelde niet op trainen

Voor het segmenteren van modellen voor inference zijn de kuizes hetzelfde als trainen maar de benodigde interacties veel minder, hoeft maar een kant op. Pipeline parallelism zal voor inference niet snel afgeknepen worden door 100Gb Ethernet, zelfs niet met alleen maar prefill.
KI-raamwerken draaien juist uitstekend op AMD-GPU's, het is echt een fluitje van een cent om Pytorch of Tensorflow met een AMD GPU te laten draaien. Het is met name de meer traditionele software die op supercomputers draait waar de CUDA-lock-in erg sterk is.

[Reactie gewijzigd door dmantione op 7 maart 2025 12:32]

... iedereen CUDA is gaan gebruiken een paar jaar geleden.
In de zomer van 2011 was CUDA ook al de defacto standaard en werd onder andere onderwezen op de UvA.

Dat alles ondanks dat
In Q4 of 2010 AMD commanded a 24.2 percent share, while Nvidia was in a close second with 22.5 percent.

AMD ended Q4 2011 with a 24.8 percent market share. On the other hand, Nvidia’s share dipped to 15.7 percent.
https://www.fudzilla.com/...zes-more-gpu-market-share

[Reactie gewijzigd door djwice op 7 maart 2025 12:35]

AMD heeft gewoon hele zware jaren achter de rug. Voor Ryzen waren game consoles het enige dat ze overeind hield.
nieuws: Topman AMD: ontwikkeling PS4 hielp AMD faillissement voorkomen

Compute werd dus gewoonweg niet in geïnvesteerd. En dat heeft zeker langer geduurt dan een paar jaar. Nvidia kwam in 2006 met CUDA, AMD kwam pas in 2016 met ROCm. Ik merk dat het de laatste jaren (sinds Ryzen) in een stroomversnelling is gekomen. AMD lijkt weer geld te hebben.

Ze zijn behoorlijk aan het klimmen in Blender's compute benchmarks: https://opendata.blender.org/
Ben benieuwd hoe RDNA4 het doet.
Grappige grafieken ook: 2x128 core CPU (7.100 score) is twee keer trager dan 1x RTX 5090 (14.838 score) voor blender.

Wat een monster zo'n grafische kaart. Maar goed, blender gebruikt OptiX voor raytracing en geen CUDA.
Precies. Cuda is al heel lang voor specialisten. Meer concurrentie op HW is echt alleen maar beter voor iedereen
"- AMD geen breed ondersteund alternatief heeft waar developers bovenop springen"
Maar wat er nu nog niet is, kan de aankomende jaren wel komen. Als de huidige 9000 serie goed zal verkopen zal de interesse in AI vanzelf toenemen.
Tsja,die software :)

nVidia heeft CUDA, maar werkt ook heel hard aan Vulkan, dat meerdere merken GPU’s ondersteund.

Vulkan op nVidia GPU’s is nu in veel gevallen net ff trager dan CUDA, en in steeds meer gevallen zelfs sneller dan CUDA. En dat door optimalisaties aan Vulkan door nVidia.

Waarom doet AMD dit niet, want Vulkan wordt breed ondersteund.

Aangezien voor inference veel LLM’s op llama.cpp zijn gebaseerd ligt daar toch wel een leuke kans voor AMD. llama.cpp ondersteund ook ROCm overigens, dus zullen veel LLM’s het gewoon doen op een AMD GPU.
Vulkan is bijna een AMD project. Is afgeleid van de AMD Mantle API. NVidia probeert iedereen in de CUDA stack te vendorlocken...
Mantle is gedoneerd aan Vulkan en DX12. Waar de een daar publiekelijk voor bedankt en ander net doet of zelf uitgevonden hebben, maar de doc Mantel copy zijn. Of Metal ook gebaseerd is op Mantel misschien. Ivm imago en prestige komen grote corporaties daar publiekelijk niet voor uit.
Ondertussen hebben deze corporaties en instanties daar jaren aan gewerkt en is AMD vreemd geworden. Ook omdat Radeon in AMD cpu dark-ages leegloop down sized skeleton crew. En dus net als intel van uit meer basic maar wel meer ervaren afdeling opnieuw moeten opschalen. En die achterstand stamt af van ATI.
Alles wat nV deed werd publiekelijk mytisch verklaard nv30 ininite engine god geschenk. ATI charisma engine boed geen mens. Gpgpu kwam ATI mee g80 nv kon dat nog niet. Toen werd nv nextgen Cg uitgevonden later Cuda.
Daar ging ATI niet in mee. En toen duidelijk werd dat nV de markt bind met hun cuda was het te laat. En ATI Cg/Cuda tegenhanger had geen bekende naam was er wel.
En later gingen ze voor OpenCL en heden Vulkan Compute.
Naast AMD dark-ages was achterstand al extreem en dat heeft nv foothold in markt ontiegelijk versterkt. Corporatie als google zou als puur voor nv gaan multi miljarden kwijt zijn. Dan kan met die miljarden zelf AI chips en software stack ontwikkelen.
Kleinere corporaties kunnen dat niet en zijn overgeleverd aan insane money grap nv hardware prijzen. En dat is dus dat AMD toch grote interesse is voor MI en zodra software stack daarvoor wat meer op peil komt dat je dan relatief betaalbare oplossingen hebt ipv 300.000 4U node in rack 200.000 4U of zoiets in die geest met 8 G-kaarten.
Het is wat het is. Nu heeft nv een enorme strijd Kas. En zit AMD in groei maar kan niet en heeft niet de resources om volledig in te gaan.
Ik ben absoluut geen expert op gebied van CUDA maar zo ver ik begrijp is het een laag op c++ (een dialect met specifieke syntax). Vroeg of laat gaat hier iemand een keer een fatsoenlijke transpiler voor schrijven zodat deze CUDA projecten ook werken op andere hardware.

Overigens zie je dat bedrijven achter Deepseek inmiddels ook niet meer dingen in CUDA doen, maar een generiekere taal (de naam ontgaat mij eventjes), waarbij ze niet vast hangen aan CUDA
Die bestaat al lang:

https://rocm.docs.amd.com/projects/HIPIFY/en/latest/

Probleem is dat dit converteren van CUDA naar C++ doe-het-zelven is: Je kunt niet met droge ogen tegen iemand die CUDA-software heeft dat hij zelf Hipify moet gaan draaien om de code te converteren en dan hopen dat het werkt. Voor iemand die van experimenteren houdt is het een prima tool, voor iemand die gewoon wil dat iets werkt niet.
Heeft iemand onderhand goede ervaring met Pytorch op AMD draaien? Zowel ZLUDA of ROCM?
Ik heb geprobeerd amd gpu's te gebruiken voor stable diffusion alleen krijg het nog altijd niet werkend met pytorch het werkt wel met vulkan of direct ml maar zeer traag, daarentegen werkt rocm wel goed met ml studio op windows voor llm en rocm/zluda werkt uiteraard prima op linux
Je zou eens kunnen proberen met ComfyUI-Zluda, zelf geen ervaring mee (ik gebruik een Nvidia GPU) maar het schijnt redelijk te werken.

Daarna kun je bijv. deze volgen:
https://comfyanonymous.github.io/ComfyUI_examples/sdxl/
https://comfyanonymous.github.io/ComfyUI_examples/sd3/
Ik zal er eens na kijken bedankt voor de info, had een tijdje amuse geprobeerd dat is ontwikkeld voor amd gpu's maar die heeft erg weinig extra's (geen lora etc.)
Volg de instructies van AMD, je hebt het binnen een kwartiertje aan de praat en het is zeker niet moeilijker dan het met Nvidia werkend krijgen. De tijd dat je voor kunstmatige intelligentie CUDA nodig had is al een redelijk tijdje voorbij.

Voor HPC-software is het nog een ander verhaal.
Voor HPC-software is het nog een ander verhaal.
Daarmee doel je op reguliere rekenclusters voor niet AI gebruik neem ik aan? Als CUDA vs ROCm geen issue meer is, ben ik benieuwd naar wat AMD dan nog wel limiteert.

Als ik heel droog naar de Instinct prestaties kijk, heb je wel meer rekenkracht per € bij AMD. Dus puur en alleen de hardwarebouw bekeken, zou het toch ingang moeten vinden in de HPC
Ja, stel je zou bijvoorbeeld NAMD willen draaien (een programma voor simulatie van chemische reacties) of bijvoorbeeld Cactus (een programma voor het simuleren van de bewegingen van hemellichamen) dan heb je een Nvidia GPU nodig.

Maar... ook op dit gebied veranderen zaken: Bijvoorbeeld Star-CCM+ is een commercieel pakket voor vloeistofdynamica en dat ondersteunde tot voor kort alleen CUDA, maar enkele maanden geleden kwam het persbericht dat nu ook AMD ondersteund wordt. En Gromacs, een programma dat vergelijkbaar is met NAMD, ondersteunt AMD al redelijk lang.
UAlink komt veel te laat en Infinity Fabric switches bestaan nog niet, dat is het grootste probleem. Op rack niveau heeft NVIDIA meer communicatie bandbreedte. Dat is niet altijd van belang, maar als je toch zoveel geld uitgeeft heb je het net zo lief wel.

Zelfs als IF switches er al wel waren, dan nog heeft IF veel meer draadjes nodig ... maar daar valt waarschijnlijk wel overheen te stappen.
Vreemd, ik meende dat er een aantal jaren geleden al Broadcom switches voor waren, maar kan ze niet vinden bij hun producten. Dat is wel een serieus een beperking om de markt te kunnen bedienen.

Ik heb wel het idee dat Nvidia flink de markt beperkt met NVLink proprietary houden en Mellanox opkopen. De reguliere PC markt heeft open standaarden, maar in de (veelal wetenschappelijke) HPC wereld lijken standaarden niet gedeeld te worden.
Je kant natuurlijk gewoon Mellanox (Nvidia) infinibandkaarten in je servers met AMD GPU's stoppen.

ROCm ondersteunt communicatie van GPU naar GPU via infiniband:

https://instinct.docs.amd...w-to/gpu-enabled-mpi.html

... dus ook deze reden om Nvidia GPU's te kopen is niet langer aanwezig.
Ah, dank je, en ook bedankt ook voor het leesvoer.
Al die omslagen tussen IF en IB/Ethernet zijn niet efficient en je betaalt meer marge per IB/Ethernet lane dan een NVLINK lane. Je zal toch gaan beknibbelen op bandbreedte in een AMD systeem.

Om echt te concurreren moet die tussenstap eruit, zowel voor latency als prijs.

[Reactie gewijzigd door Pinkys Brain op 7 maart 2025 21:13]

In theorie heb je gelijk, in praktijk wint infiniband vanwege schaalbaarheid en het economsiche plaatje. Eigenlijk iedereen knoopt ook bij Nvidia GPU's aan elkaar via infiniband, ik ken nog niemand die geïnvesteerd heeft in een systeem met NVSwitch. En omdat ook Nvidia GPU's met IB aan elkaar geknoopt worden is er op dit punt geen verschil tussen AMD en Nvidia.

IB/Ethernet moet niet zo geschreven worden alsof het vergelijkbare alternatieven zijn: Alhoewel ook ethernet RDMA kan, zit infiniband fundamenteel beter in elkaar als interconnectnetwerk en bij dit soort clusters met peperdure GPU's moet je niet met ethernet gaan rotzooien.
Ik heb een 9070XT onderweg waarmee ik wel eens met AI wil experimenteren.

De laatste drivers zouden stable diffusion allessinds ondersteunen https://videocardz.com/dr...software-adrenalin-25-3-1 en LM Studio lijkt me het gemakklijkste om wat mee te spelen.
Ik heb een 9070XT onderweg waarmee ik wel eens met AI wil experimenteren.
Amuse > https://www.amuse-ai.com

Ollama > https://ollama.com/blog/amd-preview

LM Studio > https://lmstudio.ai/

Enjoy the weekend :)
Het draaien vs AI lukt vaak wel met AMD. Maar de vraag is of het trainen werkt.

Een netwerk wordt getrained in bijvoorbeeld PyTorch.

Vervolgens wordt het model opgeslagen en ge-exporteerd als "ONNX" of ander universeel formaat.

Juist omdat AMD meer VRAM bied is het interessant voor trainen. Maar mijn ervaringen in het verleden zijn niet heel goed.

Een Pytorch library om mee te trainen is bijvoorbeeld Ultralytics https://docs.ultralytics.com/
Waarschijnlijk zeg ik hele domme dingen, maar het komt uit een goed hart. PyTorch heeft ook GPU ondersteuning met Cuda, zou je dat niet liever draaien dan op je CPU? (Of heb je een AMD GPU? Dan weet ik niet of het kan)
@Osiummaster heeft het over ZLUDA en ROCm, dat zijn beide general purpose computing stacks voor de GPU (CUDA-compatible en AMD-native, respectievelijk). Dit gaat dus al over de software draaien op de GPU.
Punt is dus dat je geen CUDA hebt met AMD. ZLUDA/ROCSM zijn juist dingen die niet afhankelijk zijn van nVidia en je dus AMD zou moeten kunnen gebruiken, maar de vraag is dus hoeverre dat goed ondersteund is. AMD kan dan wel prima GPU hardware maken, maar zonder de juiste ondersteuning van software schiet je daar niet zo veel mee op, dus ik neem aan dat dat de vraag van @Osiummaster was.
Pytorch modellen op CPU trainen is extreem langzaam. (en stroom inefficient). (echt heel extreem langzaam)
4biljoen als in 4000 miljard?
of is het een vertaal fout.

net het originele tekst gelezen het zijn er 4 miljard

[Reactie gewijzigd door kondamin op 7 maart 2025 12:44]

Zoals ik het lees in de originele tekst:

Er zijn 4,15 Trillion (4,15T) tokens gebruikt om 3 billion parameters te genereren.

Ofwel 4,15 biljoen tokens voor 3 miljard parameters. Dat is wat het Tweakers artikel precies zegt.
Ik zou graag zien dat AMD, NVIDIA, Epic, Unity, Microsoft of Apple een specifiek voor SSD&lokaal ontworpen model zouden maken.

Een MoE met zeg 8GB aan actieve parameters, maar daarboven op een limiet van zeg 1GB aan nieuw geactiveerde updates per token. Gepretrained specifiek voor die expert caching strategie (heeft wat haken en ogen, omdat zonder benadering de inhoud van de cache serieel word berekent).

Niet een klein dense modelletje, niet een getunede cloud first MoE. Lokaal zou zo veel beter kunnen zijn dan dit.

Dense is a meme, 100B+ or get out.
Dit nieuws, in combinatie met AMD GPU software Adrenalin maakt mij een beetje onrustig...

Op dit item kan niet meer gereageerd worden.