Microsoft heeft twee nieuwe versies van zijn Phi-4-taalmodel uitgebracht. Het gaat om Phi-4-mini, dat alleen met tekst kan werken, en een multimodal-variant, die ook met visuele en audio-input om kan gaan.
Beide versies zijn verschenen onder een MIT-licentie. Phi-4-multimodal is het eerste taalmodel dat tekst, visuele input en spraak combineert in een enkele architectuur, zegt Microsoft. Al deze input kan daardoor tegelijkertijd verwerkt worden, zonder dat hier complexe pijplijnen of aparte modellen voor nodig zijn. Phi-4-multimodal bevat 5,6 miljard parameters en moet betere spraakherkenning, vertalingen, samenvattingen, begrip van audio en beeldanalyse bieden.
Phi-4-mini kan alleen tekst verwerken en is met 3,8 miljard parameters een stuk kleiner. Dit model vereist volgens Microsoft minder krachtige hardware en heeft een hogere verwerkingssnelheid. Beide modellen zijn echter compact genoeg om in omgevingen met beperkte rekenkracht te werken, zoals mobiele apparaten. Bovendien kunnen ze op het apparaat zelf gedraaid worden, zegt Microsoft. "Doordat ze minder rekenkracht nodig hebben, zijn ze een goedkopere optie met betere latency." Phi-4-multimodal en Phi-4-mini zijn beschikbaar in de Azure AI Foundry, HuggingFace en Nvidia's api-catalogus.
Update 10.36 uur: Er stond dat de decoder-only transformer anders werkt dan veel andere taalmodellen. Dat klopt niet, het werkt anders dan encoder-transformers. Het artikel is daarop aangepast.