OpenAI heeft o3 en o3-mini aangekondigd. De nieuwe AI-modellen zouden in benchmarks beter presteren dan het o1-model. De modellen zijn momenteel enkel beschikbaar voor wetenschappelijk onderzoek. Eind januari volgt een officiële release voor het brede publiek.
Uit de aankondigingsvideo van OpenAI blijkt dat het o3-taalmodel een score van 87,5 behaalt op de ARC-AGI-benchmark. Deze test is in 2019 ontwikkeld door het Alignment Research Center en is een benchmark die volgens maker François Chollet in staat is om de 'algemene intelligentie' van AI-tools te vergelijken met aspecten van menselijke intelligentie. Tot op heden heeft geen enkel AI-model honderd procent op deze test gehaald. Het o3-model haalde via zijn low-compute-modus een score van 75,7 procent. In de high-compute-modus kon een score van 87,5 procent op de ARC-AGI-benchmark worden behaald. In deze modus ging de benodigde rekenkracht, en dus ook de kostprijs van de berekeningen, echter wel de hoogte in. Het o1-model haalde in deze benchmark, in de high-compute-modus, een maximale score van 32 procent.
OpenAI heeft ook nog enkele andere benchmarkresultaten gedeeld. Het o3-model zou op de American Invitational Mathematics Examination-test bijvoorbeeld een score van 96,7 procent halen. Het o1-model haalde in deze dan weer test een score van 83,3 procent. O3 haalde op de GPQA Diamond Test ook een score van 87,7 procent. Het o1-taalmodel haalde op deze test een score van 78 procent.
Zowel o3 als o3-mini zijn nog niet beschikbaar voor het grote publiek. OpenAI heeft de taalmodellen wel opengesteld worden voor wetenschappelijk onderzoek dat gericht is op de publieke veiligheid. Onderzoekers kunnen zich hiervoor aanmelden bij het bedrijf. Ceo Sam Altman verwacht dat o3-mini eind januari beschikbaar wordt gesteld. Het o3-model wordt kort daarna beschikbaar gesteld. Het is niet duidelijk welke prijs OpenAI voor het gebruik van deze modellen zal aanrekenen.