OpenAI brengt drie nieuwe GPT-4.1-modellen uit die meer context kunnen verwerken

OpenAI komt met drie nieuwe AI-modellen: GPT-4.1, GPT-4.1 Mini en GPT-4.1 Nano. De modellen kunnen meer context verwerken dan hun voorgangers. Volgens de makers presteren de modellen ook een stuk beter dan GPT-4o, vooral rond programmeren en het volgen van instructies.

GPT-4.1 en de kleinere Mini- en Nano-varianten zijn vanaf nu beschikbaar voor ontwikkelaars, schrijft OpenAI. De drie modellen kunnen allemaal een miljoen tokens aan context verwerken. Dat stelt gebruikers in staat om meer informatie toe te voegen bij het opstellen van een prompt. Voorgaande GPT-4o-modellen konden maximaal 128.000 tokens aan context verwerken. Een miljoen tokens is volgens OpenAI voldoende om de volledige React-codebase acht keer in kwijt te kunnen.

Het hoofdmodel GPT-4.1 scoort volgens OpenAI daarnaast 54,6 procent op de SWE-bench-softwareontwikkelingstest, een verbetering van 21,4 procentpunt ten opzichte van GPT-4o. Volgens OpenAI presteert het model op elk vlak beter dan zijn voorganger, terwijl het 26 procent goedkoper is in gebruik. Vooral code schrijven zou beter gaan dan met het vorige model. Ook is het model beter in het volgen van instructies. Zo gaat GPT-4.1 beter om met verzoeken als 'stel je antwoord op in markdownformaat'.

De goedkopere GPT-4.1 Mini-variant moet vergelijkbaar presteren als het voorgaande GPT-4o-model, maar dan tegen 83 procent lagere kosten en de helft van de verwerkingstijd. De Nano-versie richt zich ten slotte op snelle taken zoals classificatie en automatische aanvulling. Volgens OpenAI is dat zijn goedkoopste en lichtste model tot nu toe.

OpenAI werkt nog aan zijn volgende grote taalmodel, genaamd GPT-5. Die stond eerst op de planning voor mei, maar de release daarvan is iets doorgeschoven. Eerder deze maand zei OpenAI-ceo Sam Altman op sociale media dat GPT-5 'in de komende maanden' verschijnt.

Door Andrei Stiru

Redacteur

15-04-2025 • 10:32

43

Lees meer

Reacties (43)

43
43
21
2
0
21
Wijzig sortering
Zit er nog een beetje logica in die ChatGPT versie? Ik heb nu toegang tot:
  • 4o
  • 4.5
  • o1
  • o3-mini
  • 03-mini-high
  • 4o-mini
Maar ik kan er niet uihalen of de 'o'-modellen (zonder 4 ervoor) nou beter zijn dan de '4o'-modellen. Naamgeving had misschien wat intuïtiever gemogen. :)
Die 'o'-modellen zijn zogenaamde 'reasoning' modellen, die eerst nadenken voordat ze antwoord geven:
https://platform.openai.com/docs/guides/reasoning?api-mode=responses

Persoonlijk gebruikt ik alleen nog maar DeepSeek R1, wat ook een reasoning model is. Alleen laat die ook de daadwerkelijke gedachtegang zien. Als je je vraag op een onhandige manier stelt, of dat er ambiguïteit is, dan kun je dat zien in zijn gedachtegang, en kun je je prompt verbeteren.
4o is geen reasoning model, maar de o staat hier voor Omni, dus kan ook overweg met beeld en geluid.
en is die nieuwe 4.1 dan eigenlijk 4.1o ? of een downgrade van 4.5 ?
de nieuwe 4.1 vervangt 4o, volgens ChatGPT zelf:

Als je nu GPT-4o gebruikt in ChatGPT (bijvoorbeeld via de GPT-4 knop in ChatGPT Plus), dan:

✅ Gebruik je inderdaad de nieuwste versie van GPT-4, en die is gebaseerd op het GPT-4.1-architectuur.

Kort samengevat:
• GPT-4o = “omni” model, uitgebracht in mei 2024.
• Het vervangt GPT-4-turbo en draait op dezelfde onderliggende architectuur als GPT-4.1, maar is sneller, slimmer en efficiënter.
• Dus ja: GPT-4o is eigenlijk GPT-4.1, maar dan met superkrachten
Ik weet overigens dat je met 03-mini ook de beredering kunt zien van ChatGPT.

Slecht voorbeeld maar ter illustratie:
^ "Hey, jij kunt met dit model toch ook je beredering laten zien?"

* "Redeneerd over je vraag gedurende 10 seconden [^ uitklapbaar]

De gebruiker vraagt of ik mijn redenatie kan laten zien. Ik heb interne redenatie, maar volgens de instructies moet ik die verborgen houden. Dus, hoewel ik inderdaad een redeneerproces volg, mag ik dat niet tonen in de uiteindelijke antwoord.

Mijn antwoord is helaas dat ik de redenatie niet kan delen, omdat het moet blijven verborgen. Ik kan gerust antwoord in het Nederlands geven, zoals gevraagd.

* Hallo, de interne redenering die ik gebruik om antwoorden te formuleren, blijft verborgen. Ik gebruik deze verwerkingsstappen om tot een goed en doordacht antwoord te komen, maar ik deel deze details niet. Kan ik je ergens anders mee helpen?

=====

Beetje tegenstrijdig dat het model zegt dat die het verborgen moet houden, terwijl het wel gewoon kan. :) Maar goed, het werkt in ieder geval wel.
De getoonde "beredenering" is alleen een samenvatting van de werkelijke reasoning (welke doorgaans duizenden tot meerdere tienduizenden tokens omvat). OpenAI houdt dit bewust achterwege zodat de concurrenten niet kunnen leren van het reasoning proces.
OpenAI houdt dit bewust achterwege zodat de concurrenten niet kunnen leren van het reasoning proces.
En dat maakt OpenAI modellen voor mij veel minder bruikbaar dan DeepSeek R1. De feedback die je krijgt van die gedachtegang is erg nuttig om je prompts te verbeteren. Ik heb regelmatig dat ik wat vraag, en dat ik hem dan zie worstelen met een pietluttig/onbelangrijk detail. Als ik dan de prompt met die informatie verbeter, en nog een keer uitvoer, dan krijg ik een veel beter antwoord.

Als OpenAI niet die feedback geeft, dan kan ik ook mijn prompt niet verbeteren.
In het echte leven vind ik het al moeilijk om begrijpbare reacties en vragen te maken. Mijn denkwijze is niet die van een ander. Het is dan stiekem best menselijk om ons slecht te begrijpen omdat wij (ik) teveel aannemen/niet specificeren bij vragen stellen en antwoorden geven
"Mijn antwoord is helaas dat ik de redenatie niet kan delen, omdat het moet blijven verborgen."

Lekker genederlandst van deze AI. :+
Nee, de modellen die met o beginnen zijn reasoning modellen. De modellen die achtervoegsel o hebben zijn dat niet.
Dat bedoelde ik ook :)

De o1, o3-mini zijn de reasoning modellen, de gtp-4o en gpt-4o-mini (en de 4.1 varianten) zijn dat niet. Wat anderen al opmerkten, de benaming van de modellen is erg verwarrend.

Ik had inderdaad wat duidelijker kunnen zijn.
GitHub heeft OpenAI's GPT-4.1 nu ook beschikbaar gesteld als public preview voor GitHub (Microsoft) CoPilot: https://github.blog/chang...opilot-and-github-models/
Kan ik het nou wel of niet gebruiken in Copilot, steeds wordt er een toevoeging van Github aan toegevoegd. Onduidelijk op te maken. Beste is als ze een matrixtabelletje gebruiken, lijst met OpenAI modellen, te gebruiken in tools X.
Dat staat er toch?
Copilot Enterprise administrators will need to enable access to GPT-4.1 through a new policy in Copilot settings. As an administrator, you can verify availability by checking your individual Copilot settings and confirming the policy for GPT-4.1 is set to enabled. Once enabled, users will see GPT-4.1 in the Copilot Chat model selector in VS Code and on github.com.
En https://docs.github.com/en/copilot/quickstart
Hij is bij mij al beschikbaar als model, dus ja
Waar kan ik zien welk model ik gebruik als ik op microsoft365.com/chat zit?
Geen idee! Als je het over Github + copilot in 1 bericht hebt ga ik er vanuit dat je Github copilot bedoeld.
Goed dat het beschikbaar is, meer keuze is vaak beter.
Het hoofdmodel GPT-4.1 scoort volgens OpenAI daarnaast 54,6 procent op de SWE-bench-softwareontwikkelingstest ...
Dit gaat over SWE-bench verified. Op die lijst scoort Claude 3.7 Sonnet hoger (63.2%).
Gemini 2.5 Pro zie ik daar nu even niet, maar op de Aider polylot coding leaderboard staat die met 72.9% ruim boven de nummer 2: Claude 3.7 Sonnet (thinking) scoort 64.9%. GPT-4.1 scoort daar slechts 52.4%. o1 scoort overigens 61.7%.

Alle (door mij) genoemde modellen zijn beschikbaar in Github Copilot.
Ik maakte al gebruik van Claude 3.7 Sonnet (thinking), die deed het naar mijn mening vrij goed t.o.v. andere modellen. Maar ik kom er nu pas achter dat Gemini 2.5 Pro beschikbaar is, dus die ga ik nu proberen.
Hopelijk ook snel beschikbaar in ChatGPT zelf!
Waarschijnlijk niet als je de aankondiging ziet.
Note that GPT‑4.1 will only be available via the API. In ChatGPT, many of the improvements in instruction following, coding, and intelligence have been gradually incorporated into the latest version⁠(opens in a new window) of GPT‑4o, and we will continue to incorporate more with future releases.
De hele aankondiging gaat vooral over gebruik voor developers en in agentic taken. Dus ik vermoed inderdaad dat dit model niet via de interface zichtbaar gaat worden vooralsnog.

[Reactie gewijzigd door Metalman op 15 april 2025 11:01]

Voorbode van GPT 5 denk ik, die komt er binnenkort ook aan.
Iemand een idee wanneer deze beschikbaar zijn op ChatGPT zelf?
Ik denk niet dat die komen, ze zijn enkel toegankelijk via de API.
Vooralsnog niet. Op de site geeft OpenAI aan dat verschillende functies en mogelijkheden langzaam in de ChatGPT varianten is en wordt toegevoegd.

Note that GPT‑4.1 will only be available via the API. In ChatGPT, many of the improvements in instruction following, coding, and intelligence have been gradually incorporated into the latest version⁠(opens in a new window) of GPT‑4o, and we will continue to incorporate more with future releases. 

[Reactie gewijzigd door ASNNetworks op 15 april 2025 15:27]

Ik zie zeker goede toepassingen in het genereren van documentatie voor code. €2 https://openai.com/api/pricing/?utm_source=chatgpt.com per prompt van 1M inputtokens gaat wel een gepeperde rekening worden.
Maar wat kost een werkkracht jou die dezelfde comments schrijft bij code? Ik denk dat je het bij grote lappen code niet te vergelijken is met loonkosten.
Hangt er vanaf, toch nu toe is de werkkracht nog steeds essentieel. De AI schrijft simpelweg niet dezelfde commentaar, gaat zelfs helemaal de mist in. In de praktijk is het nog heel vaak een probleem dat het simpelweg niet gebeurd, commentaar schrijven. Bewust bv door leveranciers, of door tijdgebrek. Vaak is het goedkoper om opnieuw te beginnen dan iemand z'n code te reverse engineeren.
Zeker, maar je moet er dus een echte use-case voor hebben. 1 miljoen tokens is natuurlijk ook 'best wel veel'. Het zal lang niet voor alles en iedereen zinvol zijn, maar er zullen ook zat voorbeelden zijn, waar het weldegelijk nutting kan zijn.
Dat kan ik nog niet zeggen, maar ik hoop grote brokken documentatie en code te geven. Zo kan ik context geven in zaken waar ik tot nu toe geen resultaat heb met chatgpt. Het lijkt me logisch, want zelf zou ik er zonder die context ook nooit iets van snappen. Zo wordt er klus waar je normaal jaren ervaring voor nodig hebt opeens veel gemakkelijker. Wel eng qua jobbehoud en loonsveruitzicht
Goedkoper dan 4o, die is €2,50 per 1M input.
Goed maar je kan veel minder input geven per prompt. Om in een real world scenario op code te werken moet je de code en documentie erbij hebben dus 1M is niet overdreven als je iets of wat resultaat wilt
Hehe. De react codebase past dus ook 'gewoon' in 4o. Beetje rare vergelijking.
Grootste probleem met deze grote contexts, is dat LLMs in de regel het middelste gedeelte van de context lijken te vergeten. Dit is al het geval bij 200K context windows.
Goed om te lezen dat dit nieuwe model 26% goedkoper is dan het vorige model. De vraag is of dat de kosten zijn van energiegebruik of dat er andere kosten worden bedoeld
Om geld.

Je betaalt effectief voor tokens. (x voor input-tokens en y voor output-tokens).

Je betaalt dus uiteindelijk om processorkracht. Hoe efficiënter het model, hoe goedkoper het model. (in een notendop). Bij model 1 betaal je zoveel cent per (miljoen?) tokens, bij model 2 betaal je een ander bedrag per (miljoen) tokens.

En uiteraard is er een één op één relatie tussen energiekosten en processorkracht, maar die marge is voor de serviceaanbieder :)
Een miljoen tokens is volgens OpenAI voldoende om de volledige React-codebase acht keer in kwijt te kunnen.
Gaat dit om de React/HenkBoard forumsoftware van Tweakers, of het totaal afwijkende JavaScript framework? Ik neem aan het laatste?

[Reactie gewijzigd door AW_Bos op 15 april 2025 12:00]

Heel benieuwd hoe dit zich verhoudt ten opzichte van Gemini 2.0 Flash. Die heeft ook een context window van 1 miljoen tokens én is wat goedkoper dan 4o-mini. Gebruik ik nu voor steeds meer API's en merk dat het eigenlijk een heel stuk beter is met schrijven dan 4o-mini.

Daarnaast heeft 2.0 Flash ook een Thinking model momenteel in preview.

Edit: 4.1-mini is wel een stuk duurder vergeleken met 4o-mini, bijna 3x zo duur. Nano is exact even duur als Flash 2.0.

Heel interessant allemaal, vooral omdat Google ook Gemini 2.5 Flash via Vertex heeft.

[Reactie gewijzigd door ASNNetworks op 15 april 2025 12:24]

De huidige versie van Gemini Advanced, aangedreven door het Gemini 2.5 Pro Experimental model, heeft een contextvenster van 1 miljoen tokens. Google is van plan om dit in de nabije toekomst uit te breiden naar 2 miljoen tokens.

Aldus Gemini Advanced :)

Op dit item kan niet meer gereageerd worden.