Alibaba heeft het Qwen3-taalmodel uitgebracht. Het gaat om een geüpdatete versie van de eerdere Qwen2-modellen. Het model, dat grotendeels opensource beschikbaar komt via Hugging Face en GitHub, omvat verschillende varianten van 0,6 tot 235 miljard parameters.
De verschillende versies hanteren volgens Alibaba een hybride aanpak waarbij ze kunnen schakelen tussen snelle antwoorden en diepgaande redenering, zonder dat gebruikers moeten schakelen tussen twee modellen. Gebruikers kunnen per taak instellen hoeveel 'denktijd' het model mag gebruiken.
Sommige Qwen3-varianten maken gebruik van een zogenoemde mixture of experts-architectuur, waarbij taken worden opgesplitst en gedelegeerd aan gespecialiseerde submodellen. De training is uitgevoerd op een dataset van ongeveer 36 biljoen tokens, bestaande uit lesmateriaal, programmeercode, vraag-antwoordparen en AI-gegenereerde content. De modellen ondersteunen 119 talen.
Het grootste model, Qwen3-235B-A22B, presteert volgens interne benchmarks beter dan OpenAI's o3-mini en Google's Gemini 2.5 Pro op programmeerplatform Codeforces. Het publiek beschikbare Qwen3-32B-model kan zich volgens het bedrijf meten met AI-modellen als DeepSeeks R1. Alibaba zegt dat de modellen vooral goed presteren in het aanroepen van tools en het nauwkeurig volgen van instructies.