AMD heeft een eigen taalmodel uitgebracht. Instella is een model met drie miljard parameters dat is getraind op AMD's eigen Instinct MI300X-gpu's. Het model is opensource beschikbaar onder een onderzoekslicentie.
AMD kondigt Instella aan en maakt dat beschikbaar op zowel GitHub als Hugging Face. Instella bestaat uit vier modellen, die allemaal draaien om een andere fase van het trainingsproces. In totaal zijn de modellen getraind met 4,15 biljoen tokens, waarvan het eerste pretrainingmodel, Instella-3B-Stage1, met 4,065 biljoen tokens het grootste is. De modellen zijn getraind op 128 Instinct MI300X-gpu's. AMD zegt dat het model aantoont dat het bedrijf eigen hardware kan toepassen om schaalbare AI-trainingmodellen te kunnen inzetten.
Daarmee ontstaat een taalmodel dat in totaal drie miljard parameters bevat en daarmee vergelijkbare of, volgens AMD, betere prestaties heeft dan Llama-3.2-3B en Gemma-2-2B. Het model bevat 36 decoderlagen die allemaal 32 zogenaamde attention heads hebben. De decoderlagen helpen bij het genereren van outputtekst; de attentionheads zijn bedoeld om het model te richten op de verschillende onderdelen van die tekst. Het model heeft een trainingpipeline die is gebaseerd op OLMo.
AMD maakt het model opensource beschikbaar onder een ResearchRAIL-licentie. Daarmee is het model niet helemaal open en vrij: het is een licentie waarmee het model mag worden gebruikt voor onderzoek en waarbij ontwikkelaars zich moeten houden aan regels die AMD opstelt. Zo mag de tool niet worden ingezet voor 'harmful' gebruik zoals fraude, discriminatie of voor het maken van malware.