OpenAI: o3-mini is over enkele weken beschikbaar

OpenAI heeft een afgewerkte versie van o3-mini ontwikkeld. Het AI-onderzoeksbedrijf verwacht deze versie van het o3-taalmodel binnen enkele weken te kunnen uitbrengen. Er komt ook een api voor het taalmodel en ChatGPT-integratie. Het is niet duidelijk wanneer o3-mini precies uitkomt.

Sam Altman heeft in een post op X de externe beveiligingsonderzoekers bedankt die o3-mini de afgelopen weken hebben uitgetest. De ceo van OpenAI zegt in een antwoord aan een X-gebruiker dat o3-mini in het merendeel van de taken slechter presteert dan het o1-Pro-taalmodel, maar dat het wel sneller is. Altman claimt bovendien dat de focus van OpenAI nu op de ontwikkeling van het o3-model zal komen te liggen. De ceo hint tevens op de mogelijke komst van o3-Pro. Het is niet duidelijk wanneer deze taalmodellen uitkomen.

OpenAI heeft de o3-modellen eind 2024 voor het eerst getoond. De nieuwe AI-modellen zouden in benchmarks beter presteren dan het o1-model. Het reguliere o3-taalmodel heeft een score van 87,5 op de ARC-AGI-benchmark. Deze test zou in staat zijn om de algemene intelligentie van AI-tools te vergelijken met aspecten van menselijke intelligentie.

Door Jay Stout

Redacteur

18-01-2025 • 10:21

27

Submitter: Fox

Lees meer

Reacties (27)

27
27
19
1
0
6
Wijzig sortering
Als het beestje maar een naam heeft. Ben wel benieuwd naar hoe lang thuismodellen nog kunnen opboksen tegen deze reuzen. Of worden verkleinde llm’s ook steeds slimmer?
Zeker weten. Berkeley heeft laatst zijn Sky-T1 model uitgebracht (te downloaden via Huggingface) en die scoort in een aantal benchmarks beter dan het ChatGPT o1 model.

Zie https://novasky-ai.github.io/posts/sky-t1/
Wat ik niet snap is of de 03-mini gebaseerd is op chatGPT 3 of dat het een betere versie is dan 4 maar dan met een 3o in de naam.
De naamgeving, of beter gezegd de volgorde ontgaat me een beetje.
opvolger van o1, maar o2 is al de naam van een heel bekend bedrijf dus ze gaan direct naar o3.
o3 wordt getraind met synthetische data van o1, welke de training data genereert om o3 te verbeteren. o1 kun je zien als een teacher model en het kan zomaar zijn dat o1 niet eens publiek wordt aangeboden maar alleen intern wordt gebruikt.
En alleen de door dit model getrainde kleinere expert modellen (welke gespecialiseerd worden op een bepaald gebied) worden publiekelijk aangeboden (maar ik kan het mis hebben hoor).
Kleiner hoeft niet slechter te betekenen overigens. De transitie van AI getrainde modellen is al in volle gang en heeft mogelijk een exponentiële stijging aan capaciteiten, als ik de experts mag geloven.
Misschien vergis ik me maar o1 is toch gewoon publiekelijk beschikbaar. Tenminste ik heb diverse varianten hiervan beschikbaar in de API.

Of bedoel je o2?
o1 preview en o1 mini waren vorig al gereleased, maar niet de volledige release van o1. o2 bestaat niet, althans niet publiekelijk.
De hype afgelopen weken was DeepSeek dat significant kleiner is en veel minder energie heeft gekost om te trainen dan modellen met vergelijkbare performance (GPT-4). Gebouwd in China.
Waar zit hem dan de hype in? Puur op verbruik, grootte? Ik zie dat de bang per buck behoorlijk goed is, maar als je kwaliteit voorop stelt dan zie ik GPT-4 hoger staan in de chart.
Dit model is open weights, je kunt het dus gebruiken zoals je wil en het kan inderdaad goedkoper zijn. Als je met IP/persoonsgegevens werkt is ChatGPT, dat alleen via GUI/API te gebruiken is, vaak geen optie.
Ik vind dat de kleine modellen nog relatief goed mee kunnen komen, gezien het verschil in specs van thuiscomputers en de hardware die ze bij OpenAI hebben. Ik draai lokaal op mijn Mac Mini M4 het qwq:32b model. Dit model presteert in redeneren beter dan 4o van OpenAI. Alleen merk je echt wel de achterstand die het heeft op data, en ik merk dat het substantieel slechter Nederlands kan dan engels. Deels kan je dit weer compenseren door zelf data aan te dragen doormiddel van Retrieval-augmented generation (RAG).
Maar het is gigantisch indrukwekkend dat zo'n klein model beter redeneert dan 4o.

Met de snelheid van ontwikkeling die ik zie in kleinere lokale modellen, verwacht ik dat we op het eind van dit jaar op o1 niveau lokaal kunnen draaien. Dat zal dan waarschijnlijk op computers gebeuren zoals de NVIDIA Project DIGITS, en wellicht een aantal aan elkaar gekoppeld. Dan wordt het pas echt leuk. Als je die dan weer met RAG eigen informatie kunt voeren, kun je daar ontzettend leuke dingen mee doen.

Persoonlijk zie ik nog niet zoveel voordelen in het o3, omdat voor de meeste taken o1 al slim genoeg is. Ik hoop persoonlijk dat ze vooral verbeteringen in o1 doorvoeren als het gaat om direct web acces, en het communiceren met documenten.
Ik vind dat de kleine modellen nog relatief goed mee kunnen komen, gezien het verschil in specs van thuiscomputers en de hardware die ze bij OpenAI hebben.
Ik denk dat het een beetje zoals de 80-20 regel is: Juist de details kosten de meeste moeite om goed te krijgen bij het geven van antwoorden door een AI.
Wat een nummering weer. FFS, begin gewoon bij versie 1 en ga dan omhoog met stapjes van 1.

En staat die 'o' überhaupt ergens voor?
Wat is het verschil tussen 4o-mini en o3-mini?
de o-serie is getraind voor 'reasoning', hij bevraagd zichzelf voordat hij antwoord geeft aan de gebruiker, waardoor je een beter kloppend en 'doordacht' antwoord krijgt. Onder de motorkap is het nog steeds gebaseerd op het gpt4 model (4o is een variant van 4 die met verschillende vormen media kan omgaan)
Vraag het chatgpt
Ze zijn van 4 naar 4o, toen naar o1 en nu o3 gegaan. De 'mini' varianten zijn kleinere modellen die sneller en goedkoper (API-tarief) zijn, maar logischerwijs minder goed kunnen presteren. 4o-mini is op dit moment het simpelste model wat je op chatgpt.com kan gebruiken (was voorheen 3.5-turbo).
Ik snap ook geen drol meer van die nummering.
GTP series is de "oude" modelen waar je een vraag stelt en het geeft je direct een antwoord. En dat antwoord kan zo mis zijn als de kerktoren, waar gij dan gaat "Ben je zeker dat dit correct is want volgens mij is 1 + 1 niet 3!!". En dan kan het zichzelf corrigeren met die typisch "o, het spijt me bla bla".

De o series, is een verbeterde series, waar je een vraag stelt en voor gij het antwoord krijgt, stelt een 2de model dat het antwoord inleest, probeert te controller dat het antwoord correct is, en dan vraag van "ben je zeker, want 1 + 1 is niet 3", en gij krijgt dan hopelijk het correct antwoord.

* GTP > Gebruiker
* o1 > o1 > Gebruiker

Nadeel van die o1 is dat je niet direct een antwoord krijgt en omdat het iedere keer moet controller, zuipt het energie tot 14x meer dan een basis GTP model. Blijkbaar is de o3 een verbetering om dat probleem te beperken.

De mini, preview enz, zijn allemaal modelen met hoeveel hebben ze geleerd. Hoe meer informatie je stopt in een model, hoe trager het word (exponential self ) maar hoe meer accuraat het kan zijn.

Ik heb via CoPilot toegang tot GPT4, Claude 3.5 Preview, o1 preview en 01 mini en gebruik ze gewoon als "Claude" voor code, en "o1 preview" als ik echt meer accurate info wil dat meer algemeen is. Ja, het is soms door het bos kijken welk model beter is voor welke taak. En o1 moet je spaarzaam mee zijn want je loopt snel tegen dagelijkse limieten voor gebruik (omdat het zoveel meer processing nodig heeft = $$$).
De ontwikkeling van modellen gaat steeds sneller vooruit. Dit komt vooral doordat elke nieuwe iteratie wordt gebruikt om de volgende versie te trainen.

We begonnen oorspronkelijk met alle beschikbare data van het internet – inclusief rommel en berichten van mensen met wisselende kennisniveaus. Inmiddels hebben we grote taalmodellen (LLM’s) met redeneringscapaciteiten op PhD-niveau. De output van deze geavanceerde modellen dient weer als trainingsmateriaal voor de volgende generatie. Zo worden de modellen telkens slimmer en efficiënter.

Dit proces kan leiden tot uiterst intelligente systemen die zichzelf blijven verbeteren. Denk aan het ontdekken van nieuwe wiskundige methoden, revolutionaire materialen of baanbrekende inzichten in de natuurkunde.

Met de introductie van o1 en vooral o1 Pro lijkt een “magisch ingrediënt” te zijn gevonden om zelfs ASI (Artificial Super Intelligence) mogelijk te maken. Omdat de output van deze systemen opnieuw wordt gebruikt voor training, wordt de kwaliteit van de data steeds meer geconcentreerd en krachtiger.

In de toekomst zou het kunnen dat wij als gewone mensen de trainingsdata van modellen zoals O3 Pro / o4, etc niet meer begrijpen. We zouden ons afvragen hoe die vreemd uitziende data toch een nóg slimmer model oplevert. Toch zullen deze modellen steeds geavanceerder worden, met abstracties die onze huidige verbeeldingskracht te boven gaan.
De ontwikkeling van modellen gaat steeds sneller vooruit. Dit komt vooral doordat elke nieuwe iteratie wordt gebruikt om de volgende versie te trainen
Hierover ben ik verbaasd: ik was namelijk van mening dat synthetische media niet gebruikt konden worden voor het trainen van nieuwe taalmodellen. Heb je hier een bron van?
We begonnen oorspronkelijk met alle beschikbare data van het internet – inclusief rommel en berichten van mensen met wisselende kennisniveaus. Inmiddels hebben we grote taalmodellen (LLM’s) met redeneringscapaciteiten op PhD-niveau.
Voor zover ik dacht, zijn de taalmodellen nog niet in staat tot redeneren, laat staan op PhD-niveau. Probeer maar eens een taalmodel werkelijk te laten redeneren (waarmee ik bedoel het met inzicht samenbrengen van verschillende data die het heeft. Mijn ervaring bij het programmeren is dat zowel ChatGPT (4o en o1) als Claude (Sonnet 3.5) nog niet in staat zijn tot redeneren op medior programmeerniveau.
De output van deze geavanceerde modellen dient weer als trainingsmateriaal voor de volgende generatie. Zo worden de modellen telkens slimmer en efficiënter.
Zie mijn eerste opmerking.
Dit proces kan leiden tot uiterst intelligente systemen die zichzelf blijven verbeteren. Denk aan het ontdekken van nieuwe wiskundige methoden, revolutionaire materialen of baanbrekende inzichten in de natuurkunde.
Dat ontdekken van nieuwe materialen (denk aan eiwitten) is al bezig. Of dat echt komt door redeneren op dit moment valt heel erg te betwijfelen... Patroonherkenning (waar deze modellen wel zeer goed in zijn) is voldoende.
Met de introductie van o1 en vooral o1 Pro lijkt een “magisch ingrediënt” te zijn gevonden om zelfs ASI (Artificial Super Intelligence) mogelijk te maken. Omdat de output van deze systemen opnieuw wordt gebruikt voor training, wordt de kwaliteit van de data steeds meer geconcentreerd en krachtiger.
Nogmaals: o1 kan niet echt redeneren en haalt nog niet eens het niveau van AGI, laat staan ASI. Eveneens opnieuw de opmerking over het gebruik van synthetische media voor training van taalmodellen.
In de toekomst zou het kunnen dat wij als gewone mensen de trainingsdata van modellen zoals O3 Pro / o4, etc niet meer begrijpen. We zouden ons afvragen hoe die vreemd uitziende data toch een nóg slimmer model oplevert. Toch zullen deze modellen steeds geavanceerder worden, met abstracties die onze huidige verbeeldingskracht te boven gaan.
Dat klopt allicht, maar het klinkt bijna als een marketingpraatje. Het zit er allicht wel aan te komen, maar dan nog niet in de nabije toekomst. Daarvoor zijn eerst nog stappen rond de transparantie van de systemen nodig.
Ter toevoeging: er komt geen o2 om conflicten/rechtszaken met de Britse telecom O2 te vermijden.

[Reactie gewijzigd door BramVroy op 18 januari 2025 10:24]

Dit is een tweet van Sam Altman. Bij voice mode gaven ze ook enkele weken aan, wat uiteindelijk maanden is geworden. Neem het dus met een korreltje zout.
Wat is dat toch altijd met bedrijven en het nummeren van versies van dingen.
Want we hadden al versie 4o en nu wordt de nieuwere versie dus o3.
Helemaal niet verwarrend verder, helemaal niet als later dan o4 uitkomt.
Kan dat nou niet handiger…?
@JayStout
OpenAI heeft een afgewerkte versie van o3-mini ontwikkeld.
Wat is een "afgewerkte versie"? Geen idee wat dat is :)

Op dit item kan niet meer gereageerd worden.