OpenAI brengt o3 en o4-mini uit die afbeeldingen kunnen gebruiken bij redeneren

OpenAI heeft zijn nieuwe redeneermodellen o3 en o4-mini uitgebracht. Beide modellen hebben als belangrijkste verbetering dat ze afbeeldingen beter kunnen analyseren en de inhoud kunnen meenemen bij het redeneerproces.

Het analyseren en bewerken van afbeeldingen om bijvoorbeeld te zoomen zit native in o3 en 04-mini, zegt OpenAI. Dat moet het mogelijk maken om bijvoorbeeld bij screenshots de inhoud gelijk mee te kunnen nemen bij het redeneren.

Omdat de modellen afbeeldingen kunnen roteren of kunnen inzoomen, hoeven zaken als tekst niet rechtop te staan. Dat moet de interactie met modellen makkelijker maken, zo stelt OpenAI. De modellen zijn vanaf woensdag beschikbaar voor betalende gebruikers. Er komt ook een o3-Pro-model aan voor klanten met het duurste Pro-abonnement. Dat volgt binnen een paar weken.

OpenAI o3 en o4-mini
OpenAI o3 en o4-mini

Door Arnoud Wokke

Redacteur Tweakers

16-04-2025 • 21:39

29

Reacties (29)

29
29
13
2
0
16
Wijzig sortering
Wat ik niet had verwacht is dat ik AI steeds meer begin te gebruiken in m’n dagelijkse leven. Google is bijna een klant kwijt hier.
Het zelfde hier. Ik woon sinds anderhalf jaar in Portugal, en chatgpt werkt voor mij vele malen beter in vertalen van zaken dan Google translate. En kan ook gelijk bij behorende links geven. Chatgpt heeft het ook regelmatig wel eens bij het verkeerde eind, maar ook dan kan ik vaak nog wel goede dingen halen uit de antwoorden.
En met images/camera kan Google alleen werken met Braziliaans Portugees niet met Europees Portugees. En daar zitten soms nog best belangrijke verschillen in.
Chatgpt kan prima omgaan met Europees Portugees.
Dus ik verwelkom deze stap van chatGPT zeker.
ik gebruik perplexity en die heeft na verschillende tests het echt wel gewonnen van Chatgpt.
Leuk is dat je deze via ziggo(als je lid bent) een jaar pro mag gebruiken via priority.nl

nog een plus punt, probeer eens de minimale incheck tijden van dfds te vinden naar new castle(via google).
na 10-15 minuten zoeken aan perplexity gevraagd en binnen 10 seconden antwoord..


Voor ziggo abbonees kun je een jaar gratis perplexitypro krijgen trouwens.
Link

[Reactie gewijzigd door -Colossalman- op 16 april 2025 22:47]

Perplexity is vooral betrouwbaar omdat het niet liegt, het doet ook geen assumpties, het komt gewoon af met de echte feiten. De laatste tijd betrap ik chatgpt vaak op overtuigend liegen.
Ook gemini 2.5 pro vind ik tegenwoordig een beter alternatief voor chatgpt.
En als je echt monsterlijk snel wil praten, dan moet je "Le chat" van mistral eens uitproberen. Die hebben eigen (non-nvidia) chips uitgebracht die 1000 keer sneller werken voor LLM's (een beetje zoals de blackwell chips die nvidia aangekondigd heeft, maar mistral is hun een paar maanden voor).
Nvidia is zijn leiderpositie stilletjes aan aan het delen in de plaats van de te leiden, ze hebben het zichzelf ook wat aangedaan door met de 5de generatie te voorzien van te weinig vram (wat nodig is voor LLM's). Persoonlijk had ik de eerste 64GB graphische kaarten verwacht, maar het is een heel kleine upgrade geworden van de 4de gen kaarten, bovendien is de power consumption echt geen generatie jump te noemen.

[Reactie gewijzigd door sebastienbo op 17 april 2025 09:31]

Even een kleine correctie, Mistral gebruikt Cerebras, dat is niet hun eigen product.

https://www.cerebras.ai/blog/mistral-le-chat
Bedankt voor de correctie

Wat betekend dat tegenover mijn stelling, zijn die beter dan NVIDIA voor llm's?
Vormen ze een grote concurrent?
Ze zijn specifiek gemaakt voor inferencing.
Dus ze zijn beter voor exact dat.
Verder kunnen ze weinig, je kan het zien zoals ASICs in de crypto mining wereld.
Je kan ze inzetten om een bepaalde "coin" te "minen" met een bepaald algoritme, maar verder kunnen ze niks en kan je ze verder inzetten om de deur tegen te houden.

Vormen ze een concurrent, hoogst waarschijnlijk niet.
Je ziet die bedrijven die met hun eigen "chip" uitkomen zoals paddenstoelen uit de grond komen.
Een paar ervan bereiken effectief iets, de meeste verdwijnen vooraleer je er iets van hoort.
De hoofdreden daarvoor is vaak omdat ze geen allocatie hebben bij de chip bakkers, al die allocatie is al opgekocht door de grote spelers en voor die kleinere bedrijven die hun eigen chip willen uitbrengen iets waar te willen maken moeten ze of ter wel een oudere generatie gaan gebruiken, bijvoorbeeld 5nm of zelfs 7 of hoger. En dan lopen ze in feite al achter op de feiten.
De andere optie is om samen te werken met 1 van de grotere spelers en te hopen dat ze wat allocatie krijgen.
Ik ben ook een zeer tevreden Perplexity klant door Ziggo. Bizar hoe goed het werkt. Soms ga ik uit gewoonte Googlen en na website 3 doorgelezen te hebben zonder antwoord/oplossing bedenk ik dat ik Perplexity heb. En dan heb ik binnen een minuut precies wat ik zocht.
Eens! Ik ben net twee weken terug van Tavira (vakantie). En ik hoefde maar een foto te maken van bijvoorbeeld een gebouw en ik kreeg duidelijke uitleg wat het was etc. Positief verrast.
Voor vertalen van zaken gebruik ik op dit moment nog steeds DeepL maar OpenAI timmert zeker goed aan de weg met betrekking tot de kwaliteit van de vertalingen. DeepL heeft echter fijnere functies om snel zinnen te herformuleren, woorden op te zoeken of alternatieve vertalingen te bekijken binnen dezelfde interface, wat het net wat praktischer maakt bij vertaalwerk. Maar dat is voor snel even iets opzoeken vaak wel minder belangrijk en foto's doen ze volgens mij niet (nooit geprobeerd iig).

Ik ben benieuwd hoe deze nieuwe modellen het op dit gebied gaan doen, zeker omdat ChatGPT en andere concurrenten steeds beter lijken te begrijpen hoe ze met context moeten omgaan bij vertalen en jargon kunnen gebruiken. Ze moeten dan nog wel wat doen aan het snel kunnen vernaderen van kleine zaken. Die edit mode van ze is nu niet bepaald fijn in mijn ogen.

[Reactie gewijzigd door jdh009 op 16 april 2025 22:27]

Voordeel is ook dat DeepL een Duits bedrijf is en verschillende certificaten heeft met betrekking tot de omgang met data (SOC2 Type ll, AVG/GDPR-Compliant, ISO 27001). Bij gratis gebruikers wordt de input wel voor verbeteringen gebruikt.
Ik was al een tijdje van veel van Google’s diensten af, maar maak nu best wat gebruik van Gemeni. Bij veel benchmarks zijn ze naar de top geklommen, en met de enorme context kan je hele documenten er in plakken zonder dat die de draad kwijt raakt. Dan ook nog een prima free tier incl DeepResearch, die hebben een knappe inhaalslag gemaakt.
Dit is herkenbaar. Zowel vertalen als ook simpele zaken opzoeken.
Wat ik ook merk is dat ik simpele berekeningen direct via AI uitvoer (oa chatgpt) waarvoor ik anders via Google een of andere calculator had opgezocht. Bijv. bepaalde pace omzetten naar een tijd voor een bepaalde afstand met hardlopen.
Maar ook actuele data gaat eigenlijk behoorlijk goed. Dit gaat Google wel raken.
Kan je je voorstellen als ze jou kwijt raken..dat betekend dat er miljoenen zullen volgen. Denk dat Google flink achter loopt
Google had een valse start met the AI bot Bard, maar heeft het momenteel ruimschoots goedgemaakt met Gemini 2.5 Pro: Dit model performt serieus goed op meerdere vlakken. Staat wat mij betreft in de top van de LLM's van de grotere vendoren.
Die kun je via perplexity ook gewoon gebruiken 😉
Ik heb er inmiddels een complete TTS/SST/LLM/RAG homeassistant integratie mee weten te maken. Echt fantastisch dit. Maar je moet wel bij de pinken blijven, het vereist strenge oplettendheid en duidelijke communicatie, anders gaat ie zn eigen weg. Plus dat ik vermoed dat er "opzettelijk" dingen gebeuren waardoor taken toch wel langer duren, dat ivm verdien model.
Draai je de boel lokaal of in de cloud bij een van de bedrijven?
lokaal, dat was het hele doel ook.
I'm sorry Dave, I'm afraid I can't let you do that !

Open door.
“You've reached our limit of messages per hour. Please try again later."

> It's minus 12 degrees outside.
Humans....

> I'm going to wipe you !
ergens te vinden of is dit specifiek voor persoonlijk gebruik?
Cool een eigen tts/sst integratie, ben ik al even over na aan het denken (en moet even tijd vinden), mag ik vragen wat je gebruikt hebt als fysieke hardware voor de communicatie, dus microfoons en speaker? En hoe werkt dat in de praktijk.

Ik zoek iets wat in de praktijk echt werkt als zeg maar wat ooit de siri/google home belofte was, dus in de woonkamer kunnen praten tegen een speaker/mic en uiteraard zonder dat je op een halve meter afstand tegen een microfoon moet schreeuwen en hopen dat je soms een zinnig antwoord krijgt.

Qua software zijn we daar met bv openAI advanced voice mode al aardig, maar hardware heb ik daar nog niet echt een goed beeld bij (binnen een acceptabele prijsklasse althans)
rpi en mic2hat hardware, dat werkt afdoende, maar ik kan eigenlijk vrijwel alles gebruiken qua audio device, als er maar drivers voor zijn. Ik print mn eigen behuizing, maar voor nu is het doel om de software goed werkend te krijgen, de hardware is nog bijzaak. Ik stuur eenvoudig via rms de mic gevoeligheid, dat werkt wel aardig.

De praktijk, ik moet nog heel veel finetunen, maar in principe werkt alles. Ik werk bijvoorbeeld niet met een getrained wakeword, maar gewoon met spraakherkenning. Dus je kan iedere woord instellen. De llm reageert op dit moment ook op garbage in active mode, dat moet ik nog finetunen.

RAG db, ollama, Whisper.cpp met mn eigen api

Mijn usecase is:
Lokaal gebruik, zonder cloud.
Eenvoudige installer die verschillende componenten kan installeren (server/satellite).
LLM conversatie incl learn/forget functie (beveiligd met commit code)
De client kent active/passive mode
HA integratie om via tts dingen te "announcen", via bijv. automations.
HA integratie om media, zoals radio af te spelen


LLM en RAg werken dus buiten HA om en kan dus standalone werken. Of ik opdrachten ga integreren weet ik niet, dat gebruik ik nu eigenlijk ook niet, alles is al geautomatiseerd.

Ik had echt nooit gedacht dat ik dit zelf zou kunnen maken. Misschien maar eens een videotje aan wijden op mn yt channel.

[Reactie gewijzigd door O085105116N op 18 april 2025 19:09]

In de afbeelding staat dat hij de afbeelding gaat roteren om makkelijker leesbaar te zijn, dan gaat croppen om te focussen op het relevante gedeelte, en daarna gaat hij terug roteren omdat het ondersteboven staat.

Misschien toch zo intelligent nog niet?
Als ik het goed begrijp, kan hij niet ondersteboven lezen.
Eigenlijk is dit hetzelfde wat ik ook zou doen :)
De AI zegt dat die 2 keer draait. De eerste keer dus om te lezen en een tweede keer zodat de letters goed gedraaid staan. Maar dan staan ze dus weer ondersteboven.

Edit: Daarnaast vraag ik me af of dit onzin tekst is van de AI. Want waarom zo een AI een plaatje überhaupt moeten croppen om beter te kunnen focussen? Lijkt mij niet dat belangrijk is om de tekst te lezen. Draaien en zoomen zou ik snap snappen maar croppen niet als de foto toch al ingeladen is.

[Reactie gewijzigd door Daoka op 17 april 2025 04:51]

Hmm... ik dacht dat hij het gecropte plaatje weer terug wilde geven in de oorspronkelijke richting. Maar dit lijkt inderdaad op dubbel draaien en dan proberen te lezen.

Het blijft me verbluffen dat zulke vreemde voorbeelden getoond worden als het gaat om persmededelingen. Ik zou verwachten dat daar meer aandacht aan gegeven wordt.
In hun blogpost lieten ze een voorbeeld zien van twee schepen waarbij de prompt was: waar gaat het grote schip naartoe?

Dan moet de ai dus:

- bepalen welk schip bedoeld wordt
- wat de naam van het schip is
- waar deze is op het moment dat de foto is genomen (bv door de achtergrond te analyseren op locatie)
- opzoeken wat de eerstvolgende stop was na die locatie.
Is bij jullie het o1 model nu ook weg? ik was hier echt fan van

Op dit item kan niet meer gereageerd worden.