OpenAI brengt taalmodel GPT-4.5 uit dat anders is getraind

OpenAI heeft GPT-4.5 uitgebracht. De nieuwe versie van het taalmodel is volgens het bedrijf beter in 'redeneren' omdat het op een nieuwe manier getraind is. OpenAI zegt zelf dat het model minder hallucineert dan GPT-4o.

OpenAI zegt dat GPT 4.5 zijn 'grootste en beste model voor chats tot nu toe' is. Dat komt met name doordat het bedrijf een nieuwe vorm van modeltraining heeft ingezet die meer leunt op unsupervised learning en tegelijkertijd scaling reasoning gebruikt om 'logisch na te denken'. Het bedrijf schrijft daar meer over in een systeemkaart.

Het unsupervised leren houdt in dat modellen alleen leren van niet-gesorteerde data door daar bijvoorbeeld patronen in te vinden. Volgens OpenAI kan het model daarmee betere woordassociaties doen en daardoor op een natuurlijkere manier klinken. OpenAI heeft verder het scaling reasoning op een andere manier ingezet. Die methode om modellen te trainen door een gedachtenketen te vormen gebruikte het bedrijf voor het eerst in o1, maar in tegenstelling tot dat model hoeft GPT 4.5 niet na te denken voor het antwoordt. Nu moeten gebruikers in o1 lang wachten op een 'logisch' antwoord. Dat maakt het model volgens OpenAI handiger voor algemeen gebruik.

GPT-4.5 is meteen beschikbaar voor gebruikers met een Pro-abonnement, dat 200 euro per maand kost. Het nieuwe taalmodel komt in de toekomst ook naar Plus- en Team-gebruikers en nog later naar gebruikers voor Enterprise en Education, maar OpenAI zegt niet wanneer dat precies is. Het model werkt vooralsnog alleen met tekst en gebruikers kunnen bestanden uploaden, maar functies als Voice Mode, video en beelddelen zijn op het moment niet beschikbaar. OpenAI is vaag over of dat er in de toekomst wel komt.

In het algemeen is GPT-4.5 een relatief klein opstapje in het taalmodel; OpenAI brengt naar verwachting in maart GPT 5 uit dat een grotere stap vooruit moet zijn.

Door Tijs Hofmans

Nieuwscoördinator

28-02-2025 • 07:07

45

Submitter: Rubenskoo

Reacties (43)

43
43
23
3
0
20
Wijzig sortering
Het wordt wel verwarrend met al deze benamingen. De beste modellen heette toch o1 en o3?
Als je het model kiest in ChatGPT staat dit er:

GPT-4o
Uitstekend voor de meeste vragen

GPT-4o met ingeplande taken
Vraag ChatGPT om later op te volgen

o1
Gebruikt geavanceerd redeneren

o3-mini
Snel in geavanceerd redeneren

o3-mini-high
Goed in programmeren en logica

Meer modellen

GPT-4o mini
Sneller voor de meeste vragen

GPT-4
Verouderd model
AuteurTijsZonderH Nieuwscoördinator @joostiphone28 februari 2025 09:06
Dit bevestigt wel echt wat @Ynze_162 zegt. Dit is amper meer te doorgronden als je hier niet dagelijks mee bezig bent.
Helemaal met @Ynze_162 eens, ik heb er zelf nooit wat van gesnapt.

Als ik dit lees zie ik de verbanden tussen de verschillende o's nog steeds niet. Sommige dingen moet je maar aannemen heb ik ooit geleerd.

https://platform.openai.com/docs/models#flagship-models
Wat ik niet begrijp is dat AI niet slim genoeg is om de vraag door te spelen naar de juiste AI.
Volgens mij beschrijf je daar de hele sleutel tot werkelijke intelligentie in plaats van nu al die voorspellertjes die maar blijven hallucineren als het lastig wordt. De inhoud wordt namelijk nergens begrepen door LLM technologie, dus dat is een vrij fundamenteel probleem: wat bedoelt een mens?
Dit is precies wat OpenAI al heeft beloofd voor GPT-5. Persoonlijk gebruik ik op dit moment o3-mini-high voor programmeervragen en Deep Research, en 4.5 voor vertalingen en taalcorrecties.
Is het ook niet het plan van OpenAI om deze modellen langzaamaan in elkaar te zetten? Dat zag je namelijk ook met meerdere functies in het verleden, die ze ineens in het standaardmodel hadden gestopt.

Ik neem namelijk aan dat GPT-4o met ingeplande taken niet superveel verschilt van GPT-4o en dat deze twee dadelijk in O1 worden samengevoegd.

Die modellen van OpenAI komen namelijk uit de grond als mollen in een strak grasveld.
AuteurTijsZonderH Nieuwscoördinator @Dlsruptor28 februari 2025 11:01
Is het ook niet het plan van OpenAI om deze modellen langzaamaan in elkaar te zetten
Wellicht, maar dit begint dan inmiddels wel echt te klinken als een roep om meer geld van investeerders. Come on bro I swear just a couple more billion and we can just have one ultimate AGI-model come on, bro it's just a billion or two for AGI we just need to have a few more models. Dat begint nu wel een ding te worden bij ze.
Dat is toch ook hoe Business en R&D werkt of zeg ik nu iets geks?
OpenAI heeft aangegeven dat ze de gebruikersbeleving willen verbeteren zodat AI het gewoon doet (just works for you). Ik ga er dus van uit dat dit onder andere hier over gaat, maar dat moeten we nog zien.

Verder dacht ik juist dat de technische stap van GPT-4.5 met name in de pre-training (unsupervised learing) zat en juist (nog) niet in het redeneren. Wat nieuw is, is dat dit model tijdens het trainen over meerdere datacenters kon schalen. Of het resultaat een klein opstapje is, is subjectief. Maar ik kan me voorstellen dat niet iedereen 500x meer voor een API wil betalen die sociale interactie beter begrijpt.
Dat ligt er aan wat je ermee wilt doen.

Voor programmeren, studie, of andere zaken kan je beter een -o model gebruiken wat kan redeneren.

Wil je gewoon ouwehoeren of vragen stellen, is een non-o model prima. En heeft zelfs de voorkeur want het is veel sneller. Kan je ook wel programmeervragen o.i.d. aan stellen, maar die antwoorden zullen veelal minder goed zijn omdat het er niet over heeft kunnen "nadenken".

[Reactie gewijzigd door JohnHeroHD op 28 februari 2025 07:25]

Als je het voor programmeren gewoon als semi slimme auto complete gebruikt is een normaal model ook prima. Echt programmeren kunnen de reasoning modellen ook nog steeds niet goed. De context is gewoon te klein.
Klopt, dat was ik toevallig ook aan het bewerken in mijn comment.

Maar mijn ervaring is dat ik veel meer heb aan de -o modellen. Daar komen veel vaker oplossingen uit waar minder refactoring voor nodig is om bruikbaar te laten zijn. En qua debuggen doen de -o modellen het ook veel beter.
Wat als je een gewone vraag wilt stellen en bereid bent om te wachten omdat die ook beter kan redeneren? Zit vaak in deze situatie dat ik wel kan wachten voor een goed doordacht antwoord.
Dan zou ik ook lekker het -o model pakken. Ik heb vrijwel nooit haast en vind de uitkomsten eigenlijk altijd beter. Natuurlijk kun je ook de vraag aan beide models stellen en de antwoorden vergelijken.
Inderdaad deze zijn in de meeste gevallen beter, maar niet altijd. OpenAI heeft ook al aangekondigd wat te gaan doen aan deze onhandigheid van vele modellen.
Ze hebben al aangekondigd dat ze met de introductie van model 5 alle benamingen achter de schermen gaan verstoppen. Afhankelijk van de promt en welk abonnement je hebt wordt dan achter de schermen de het beste model voor je gekozen. Alles heet dan '5'
o1 en o3 zijn systemen die gebouwd zijn op GPT-4(o). GPT-4.5 is een model.

Binnen de AI is een model een samenhangende verzameling parameters.
Nogal duur:

GPT 4.5
Price Input: $75.00 / 1M tokens
Cached input: $37.50 / 1M tokens
Output: $150.00 / 1M tokens

Ter vergelijking,

GPT 4o
Price Input: $2.50 / 1M tokens
Cached input: $1.25 / 1M tokens
Output: $10.00 / 1M tokens

Ik denk dus dat je eerst een goedkoper model gebruikt en als die er niet uit komt dan gebruik je (tijdelijk) GPT 4.5
Prijzen zijn idd absurd, kan me niet veel business cases voor de geest halen waar dit ooit een zinnige keuze is.
Dit is wat ze er zelf nog over te zeggen hebben:
GPT‑4.5 is a very large and compute-intensive model, making it more expensive⁠ than and not a replacement for GPT‑4o. Because of this, we’re evaluating whether to continue serving it in the API long-term as we balance supporting current capabilities with building future models. We look forward to learning more about its strengths, capabilities, and potential applications in real-world settings. If GPT‑4.5 delivers unique value for your use case, your feedback⁠(opens in a new window) will play an important role in guiding our decision.
Ze zien dus zelf de business case niet :+

Bronnen:

https://openai.com/index/introducing-gpt-4-5/
https://openai.com/api/pricing/
Wat een raar model is GPT-4.5:
- $75 per 1M input en $150 per 1M output tokens
- Knowledge cutoff is oktober 2023
- 5 queries per maand voor Pro users, die $200 per maand betalen (!)
- Antwoorden streamen verschrikkelijk langzaam via de API

Ik vraag me echt af wie dit nou wil gaan gebruiken als er veel goedkopere en betere LLMs beschikbaar zijn.
Wat zijn volgens jou betere LLMs?
Niet OP maar Claude en deepseek
Ik vind de knowledge cutoff wel erg laag in vergelijking met concurrenten.

Zelfs als een concurrent een iets minder goed model heeft maar wel met een recente cutoff date kan die voor bepaalde taken nog steeds beter uitkomen dan GPT-4.5 (bijvoorbeeld voor coding door kennis van recentere updates in talen etc.)

Claude valt dan nog steeds beter in de smaak zoals hier aangetoond:
https://web.lmarena.ai/leaderboard

We zullen zien of GPT-4.5 ook zo hoog gaat komen op deze leaderboard.
De databron is deze
https://data.commoncrawl....C-MAIN-2023-40/index.html
dataset van CommonCrawl.

Kijk zelf even op die website wat er na de cutoff date is gebeurd met de datasets.

Kijk terug in het nieuws op tweakers in die periode.

Na die datum is voor bijna 1 miljard webpagina's de toegang tot ChatGPT en CommonCrawl geblokkeerd.

Dus een latere versie gebruiken betekend minder goede diversiteit in tekst. Dus minder goede chat functie.
Claude wil na een paar vraagjes al geld zien. Dat vind ik een minder model :-)

ChatGPT kon ik ruim testen voordat ik ging betalen.
Mwah. Heb ik geen problemen mee. Ik gebruik Jetbrains AI. Claude 3.5 Sonnet kan ik daar ongelimiteerd gebruiken. Voor minder dan 20 euro per maand.

En ik kan in Jetbrains AI andere modellen kiezen zoals ChatGPT o3 Mini and verschillende Gemini modellen. Dus voor minder dan 20 euro per maand heb ik toegang tot 6 verschillende modellen van verschillende bedrijven ongelimiteerde toegang.

Scheelt echt veel tijd en geld.

Daarnaast kent Jetbrains AI gelijk mijn hele codebase zonder dat ik snippets moet geven.

[Reactie gewijzigd door Ricco02 op 28 februari 2025 18:24]

Oke. Nou ja, ik heb ChatGPT en zeg dat niet zomaar op. Een alternatief moet mij overtuigen. Dat lukt Claude in elk geval niet, na een paar vragen was het al klaar. Dan blijf ik dus waar ik zit.
Nee zeker mee eens. Je moet kiezen wat je wilt natuurlijk. Ik zit zelf ook bij ChatGPT met een Plus abonnement. Gewoon voor de algemenere vragen en de Advanced Voice Mode.

In dat soort features zoals voice mode en vision is OpenAI gewoon beter.
Tegenwoordig met websearch is de cutoff date minder belangrijk. Zodra je de websearch of research activeert, gaat de engine zelf al het internet op om de boel te analyseren. Je hebt niet instant antwoord, maar de resultaten zijn vaak wel beter.

Maar claude is nog steeds niet multi-modal. Dat betekend dat als je bijvoorbeeld voice via WhatsApp of Telegram alsnog naar een andere API moet sturen om om te zetten naar text die vervolgens dan pas weer naar Claude kunt sturen. Ook is Claude 3.7 nog niet in alle onderdelen beter dan OpenAI of andere engines. Zelf vind ik het overzicht van https://artificialanalysis.ai/leaderboards/models iets completer.

Ik heb een beetje het idee dat deze vergelijking sites lijken op de browser vergelijkingssites uit de jaren 90 waarbij rendering van standard HTML werd beoordeeld. Maar iedereen wist dat elke browser zijn eigen 'dialect' van HTML gebruikt. Grote vraag is of je eigenlijk wel een 'algemene' prompt kunt gebruiken om de verschillende modellen te vergelijken.

OpenAI is in veel opzichten meer een one-stop solution. Dat is vooral voor bedrijven belangrijk welke gebruik maken van de API.

Voor degene welke zelf willen spelen met modellen van meerdere aanbieders, chatllm en monica bieden voor een tientje de mogelijkheid Claude, OpenAI, Qwen (is al gratis), DeepSeek, Grok en tal van andere modellen te gebruiken. ChatLLM heeft momenteel een actie waarbij je de tweede maand gratis krijgt. Ofwel voor 10 euro/dollar kun je twee maanden lang ChatLLM beoordelen.
Klopt. Web search is beter, als je het niet voor coding gebruikt.

Hij zoekt eigenlijk te weinig op in de web search om echt effectief te zijn bij programmeer vragen van je eigen code.

Ik merk gewoon heel erg dat een AI model met een recentere cutoff date vele malen beter werkt voor coding dan een model met een oudere cutoff date maar dan met web search.


Als je AI modellen meer als search engine gebruikt dan is de web search wel heel erg effectief.

Ik gebruik zelf Jetbrains AI die ongeveer 6 verschillende AI modellen van verschillende bedrijven heeft voor minder dan 20 euro per maand. En ik kan ongelimiteerd vragen stellen over mijn code omdat hij daar gelijk toegang tot heeft zonder snippets te hoeven geven.

Ja, het heeft geen web search. Maar vanwege de recentere cutoff date van sommige van die AI modellen werkt het gewoon vele malen beter dan een ChatGPT met web search.

[Reactie gewijzigd door Ricco02 op 28 februari 2025 18:29]

Zijn hier mensen die persoonlijk €200 per maand betalen (dus niet je baas/werk) om dingen met ChatGPT te doen? en zo ja wat doe je ermee en waarom kan dit niet met het gratis model?
Nou ja, als zzp'er zet ik het persoonlijk in voor werk :)
Ik wilde heel graag de Deep Research functie uitproberen, dat was nog voordat het deze week ook beschikbaar werd voor Plus-gebruikers. Daar heb ik inmiddels een artikel voor Frankwatching over geschreven. Dat is wel 200 dollar waard qua thought leadership :)
Op LinkedIn deed overigens een knullig postje over een snel filmpje in Sora het veel beter. Tot zover de diepgang van de gemiddelde professional in mijn netwerk.

Ik zat net te overwegen om het Pro-abonnement weer op te zeggen, maar nu kan ik dus vandaag al 4.5 uitproberen en daar een artikeltje over schrijven. Ik denk dat ik het maar even gewoon laat lopen, dan heb ik denk ik ook als een van de eerste beschikking over GPT5.

[Reactie gewijzigd door kissyfur op 28 februari 2025 11:34]

grootste en beste model voor chats tot nu toe
Zon lege opmerking. Het is niet alsof je ooit kleiner en minder goed gaat maken.
Als het kosten kan schelen dan doen ze het soms wel. Voor bepaalde verwerkingen is dit soms wel wenselijk. Zie de mini modellen.
Ja, maar dan zet je er een model naast die bewust andere taken op zich neemt en daar dan ook voor gemaakt is. Eigenlijk is dat ook gewoon een opwaardering, want je laat de gebruiker dan ook sneller tot het juiste komen per specifieke taak. Met GPT-5 zal dit dan helemaal verleden tijd zijn.

Hij doelt natuurlijk gewoon op de kreten die elk bedrijf doet. Beter, sneller, groter etc. Maarja, ik denk dan ook weer van: wat moet zo'n bedrijf dan zeggen haha.
Ik heb nog nooit iets gemerkt van 'minder hallucinaties' die ze iedere keer beloven.

80% van de bespaarde tijd ben ik kwijt aan het herschrijven en factchecken, bij complexere verhalen volgens mij soms bijna 100% zodat het helemaal geen tijdswinst oplevert.
YouTube: Introduction to GPT-4.5 geeft wel mooie voorbeelden van waar het toe in staat is. In de demo lijkt het inderdaad een stuk sneller en beter dan 01. Maar de demo is natuurlijk niet zo random als wat het lijkt
Jammer dat er geen artikel van is verschenen, maar onlangs heeft inception labs een model geintroduceerd 'Mercury' - wat een diffusion based LLM model - een andere techniek (zelfde als imaging maar dan voor tekst), dit is ±5x sneller dan een text based LLM, ze halen hier 800-1000 tokens per seconde mee op een H100 vs normale LLMs die ~200 tokens halen. De race is nog maar net begonnen.
Ik heb er een paar keer mee 'gespeeld en vroeg bv om een vluchtplan voor me te schrijven voor een KLM Boeing 737-900 die me van Schiphol naar Londen Heathrow zou leiden, incl SID's , waypoints Stars en nog een rits overige details.
Chatgpt gaf me maar zeer matig antwoord en stelde zelfs dat company flightplans niet openbaar zijn en het systeem me derhalve niet kan helpen.
Copy/paste in DeepSeek leverde wel de gevraagde info op maar was wel zo correct om de disclaimer mee te geven dat dit vluchtplan niet 1 op 1 kan worden gebruikt omdat regels tussentijds kunnen veranderen.
Nou vlieg ik enkel met MSFS2024 dus ik vind het allang best.

[Reactie gewijzigd door la cucaracha op 28 februari 2025 12:59]

Op dit item kan niet meer gereageerd worden.