OpenAI verbetert beeldgenerator en moet minder fouten in details maken

OpenAI heeft Images 2.0 uitgebracht, een verbeterde versie van de beeldgenerator. De verbeterde versie moet onder meer kleine teksten beter kunnen genereren, waardoor de beelden minder herkenbaar als AI-beelden zijn. Het model kan ook zelf zoeken op het internet om afbeeldingen beter te kunnen genereren.

Images 2.0 moet objecten in afbeeldingen beter plaatsen en deze ook beter met elkaar verbinden, schrijft OpenAI. Kleinere teksten moeten ook beter gegenereerd worden en het model moet composities en 'visuele smaken' beter begrijpen. Daardoor zouden de afbeeldingen 'minder aanvoelen als AI-gegenereerd en meer alsof ze bewust zijn ontworpen', stelt het bedrijf.

Het verbeterde afbeeldingenmodel begrijpt visuele stijlen bijvoorbeeld beter, waardoor stijlen zoals foto's, pixelart, cinematische afbeeldingen en manga's nu beter tot hun recht moeten komen. OpenAI stelt dat het model nu consistenter omgaat met texturen, belichting, composities en details. Het model moet ook flexibeler zijn met beeldverhoudingen en kan beelden genereren die zo breed zijn als 3:1 en zo smal als 1:3.

OpenAI geeft Images 2.0 ook recentere informatie mee: tot en met december 2025. Zo moet het model bijvoorbeeld uitlegartikelen beter genereren. Images 2.0 kan nu ook als 'denkmodel' gebruikt worden, waarbij het model langer doet over het genereren maar ook meer taken uitvoert. Het model kan bijvoorbeeld informatie zoeken op het internet, meer uitleggen over het denkproces en verschillende afbeeldingen tegelijk genereren. Gebruikers kunnen zo bijvoorbeeld stripboeken genereren, of meerdere posters in verschillende beeldverhoudingen.

Het verbeterde afbeeldingenmodel moet ook beter overweg kunnen met talen buiten het Latijns schrift, specifiek Japans, Koreaans, Chinees, Hindi en Bengaals. Images 2.0 is volgens OpenAI 'niet perfect'. Het model kan bijvoorbeeld nog niet zo goed overweg met puzzels en routekaarten. Het model komt vanaf deze week naar alle ChatGPT-gebruikers.

OpenAI ChatGPT Images 2.0OpenAI ChatGPT Images 2.0OpenAI ChatGPT Images 2.0
OpenAI ChatGPT Images 2.0OpenAI ChatGPT Images 2.0

Door Hayte Hugo

Redacteur

22-04-2026 • 20:03

42

Submitter: keverjeroen

Reacties (42)

Sorteer op:

Weergave:

Wat een slechte voorbeelden! 😂

Dat fotoalbum, sepia ding. Een bordje "one way" die aan twee kanten pijlen heeft. Ik zie benen achter mensen vandaan komen, maar geen lichamen.

Die strip. Letterlijk het eerste plaatje: Hij zit alleen in de auto, met een tekstbalonnetje naar niemand. En zijn blazer is roze.
Tweede plaatje: opeens een vrouw naast hem en hij draagt opeens een blauwe blazer.

Die college zaal foto-in-foto. In de... de tweede foto en diepere foto's: De studenten zitten heel anders. Ontbreken of er zijn juist extra studenten.

Als dit moet aantonen dat er minder fouten in details gemaakt wordt, dan is dit het juist NIET volgens mij...

[edit: was nog wat vergeten.]

[Reactie gewijzigd door MarvinJames op 22 april 2026 21:22]

Dat de dame niet zichtbaar is, betekend niet dag ze niet aanwezig is 😏

Verder helemaal gelijk, maar het siert ze wel dat ze het zo publiceren en niet nog aanpassen/perfectioneren en een onrealistisch beeld schetsen (ik kijk naar de videogame industrie)
Over de strip: Ja het is mogelijk lichte Pr0n , als ze gedaan heeft met ART te tonen zal ze haar terug rechtzetten.

Op Stripkader 1: De achterwielen hebben niet dezelfde wielkast als de voorwiel. Heeft geen bril aan maar de foto nadien wel. Hij heeft een roze tshirt aan maar nadien is het blauw.
Op Stripkader 2: ze rijden tegen de rijrichting, je ziet dat ze naast het strand zijn. Het lijkt ook alsof hij plotseling een moustache heeft?
Op Stripkader 3: De roze vrouw aan de ingang zit gedeeltelijk voor het raamframe(schoen en been) en gedeeltelijk er achter (haar lichaam). Haar hoofddoek heeft 3 strikken , nadien word het 2.
Op Stripkader 4: De strik van de vrouw hoofddoek steekt langs 2 kanten uit, en het lijkt also ze naar de painting kijkt maar toch zijn haar borsten naar voren gericht (naar de lezer van de strip). Ik vraag mij ook af waar haar witte tas naartoe is, want haar arm hangt naar beneden waardoor de tas niet meer om die arm kan hangen. En waar is haar mooie bril naartoe? Hij heeft een mooie schaduw , zij niet. Ze heeft plotseling een ontblote nek, terwijl er in de wagen nog een kraag zat rond wat haar jas leek te zijn initieel , of zou dat hoofdoekje plotseling gekrompen zijn?.
Op Stripkader 5: Onder de tekstbubbel van de man zie je een stuk palmboom zonder stam. En onder haar linkerarm zie je dat chatgpt image proberen de witte handtas te tekenen heeft, er is daar allesinds iets raars wit dat haar arm onderaan volgt.

Bij de fotoboek zijn er ook heel wat rare dingen: de oneway bord op de achtergrond,de vreemde schoen-witte-been onder de rechterarm(voor ons links) van de hoofdpersonage vrouw.
De vrouw met de witte broek: de heup is naar voren gedraaid maar haar been steekt uit alsof ze stapt, dus hoort die heup lichtjes gedraaid te zijn, en er is ook iets vreemd met haar arm-hand hoe ze die rugzak vasthoud. En met die metro vrouw is er ook heel wat raars, zoals de deur die een beetje openstaan, of ze is aan het breien terwijl het brijwerk op haar schoot ligt, rond haar enkel lijkt haar roken omhoog te kruipen terwijl het zou moeten hangen.

Toch blijft het impresionnant en mooi.

[Reactie gewijzigd door sebastienbo op 23 april 2026 18:28]

Gewoon indrukwekkend dat je van de meest complexe configuratie schermen beroerde fotos kunt maken en gpt herkent het scherm en denkt mee over bepaalde instellingen.
Er is toch weinig revolutionair aan OCR?
Dat klopt platte OCR is er al langer. Gekoppeld aan redenering niet. Perceptie + interpretatie + redenering.
Perceptie, interpretatie en redenering zijn er niet. Er is de illusie van die 3 zaken, omdat de tekstvoorspeller op basis van zijn trainingsdata "weet" wat de meest voorkomende instellingen zijn.

Dat is absoluut een knap staaltje wiskunde + rekenkracht, maar ook niet meer dan dat.
We hoeven het geen ‘echte perceptie’ te noemen, maar het systeem doet wel degelijk perceptie-achtige transformaties die functioneel bruikbaar zijn.
Ik zeg niet dat het niet-functioneel is, maar termen als "perceptie" suggereren intelligentie die er niet is, en dat voedt mijns inziens alleen maar de hype.

[edit: typo]

[Reactie gewijzigd door Jim de Wit op 23 april 2026 15:50]

Resultaat is dat een model nu zelfstandig Playwright kan gebruiken om voor alle mogelijke interacties een test te schrijven en die test goed in menselijke taal te beschrijven.
De mogelijke flows in BDD / Gherkin te beschrijven en te analyseren wat de applicatie kan en wat er logischerwijze ontbreekt of eigenlijk niet bij hoort
onze hersenen doen precies hetzelfde.
Je zegt: "Perceptie, interpretatie en redenering zijn er niet. Er is de illusie..."

Altijd grappig, dit soort standaard-correcties van wijsneuzen. Elke keer moet er iemand roepen dat een LLM niets weet (en ook niets 'weet'), maar slechts een tekstvoorspeller is.

En als we dan toch kinderachtig gaan doen: een model dat beelden genereert is geen tekstvoorspeller (en ook geen 'tekstvoorspeller'). Voor LLM’s is ‘tokenvoorspeller’ al nauwkeuriger; voor beeldgeneratie schiet ook dat tekort.

Want als we dan echt precies willen doen, dan is 'voorspellen' ook al een simplistisch antropomorfisme. Er wordt niets voorspeld. De output wordt opgebouwd uit waarschijnlijkheden. Daarom is genereren hier een beter woord dan voorspellen.

Eigenlijk hebben we het dan dus over een tokengenerator bij taalmodellen, en over een beeldgenerator bij beeldmodellen.

Man man man, wat vermoeiend...
Ja! Ja! Dat is precies wat er gebeurt! En inderdaad, "tekstvoorspeller" was heir niet terecht, bedankt voor de correctie :-)

Waar ik over val is het geantropomorfiseer de hele tijd, waardoor de hype alleen maar groter wordt. Het bedrijf waar ik voor werk heeft nu allerlei AI plays, wat alle commerciële types oplepelen. Als ik kijk naar het daadwerkelijk gebruik (token burn / dag, aantal unieke gebruikers uitgezet tegen query's) dan zie ik dat klanten hier blijkbaar niet op zitten te wachten.

Oh MaAr ChAt Is Zo SlIm! eN wAt WeEt HiJ vEeL! Nee, dat is dus niet het geval. Ik wil niet zeggen dat LLM's geen enkele meerwaarde hebben, maar ik vind het wel belangrijk om mensen op dit punt te corrigeren. Ik zie meestal een oplossing die wacht op een probleem, in plaats van het omgekeerde.
Je kunt dit ook met een lokaal model: Gemma 4 E2B bijvoorbeeld.
Laatst heb ik voor een uitvaart stokoude beschadigde familiefoto's ingescand en met behoud van alle details laten repareren en inkleuren volgens de juiste tijdsgeest. Die tijdsgeest kon ChatGPT zelf bepalen aan de hand van veel kleine details in de foto. Je moest zeer streng zijn in de prompting om reconstruren van de gezichten te voorkomen, maar uiteindelijk lukte dit goed.

Al met al zeer indrukwekkend. Het eindresultaat staat nu op groot formaat ingelijst bij mijn schoonvader (86) die er zeer emotioneel onder was. Kleuren en sfeer waren spot-on :-)

Temidden van alle social media onzin, oplichting en AI-Slop is deze ontwikkeling gewoon ontzettend nuttig en mooi.
Kun je de gebruikte prompts delen? Wellicht is het leerzaam / behulpzaam voor anderen (ik ben wel benieuwd).
In de eerste sessie ben ik binnen een enkele chat met feedback tot een mooi uniform eindresultaat gekomen. Het mooie is dat je de AI hierna zelf om de bijhorende prompt kunt vragen. Die kan je dan opslaan en later gebruiken voor volgende foto's in dezelfde serie :-)

Startpunt: (Dik gedrukt kan je aanpassen om hem zelf meer context te geven)

-------------------------------------------

Restore and colorize this old black-and-white photo of three children standing with buckets and cleaning tools outdoors.

Instructions:

- Remove scratches, dust, stains, and damage from the photo
- Improve overall sharpness and clarity, but keep it natural (no over-sharpening)
- Preserve original facial features exactly — DO NOT reconstruct, enhance, or alter faces
- Do not apply any face restoration or beautification
- Maintain original expressions and identity

Colorization:
- Use realistic, natural colors (not oversaturated)

Lighting:
- Keep original lighting and shadows intact
- Slight contrast improvement is allowed, but keep a vintage feel

Style:
- Photorealistic, historically plausible
- Do not modernize or stylize
- Keep slight vintage softness

IMPORTANT:
- No face enhancement
- No artificial details on faces
- No hallucinated features

-------------------------------------------
- No hallucinated features
Deze man heeft het hallucinatieprobleem weten op te lossen. Waarom heeft niemand hier eerder aan gedacht? _/-\o_
Het stomme is, zo'n zinnetje kan soms echt helpen :P
Hahaha alles behalve waterdicht, maar die extra motivatie helpt echt. Wat ik wel heb gemerkt is dat je dan wel de foto nogmaals moet bijvoegen, anders bestaat de kans dat hij gaat sleutelen aan zijn eigen laatste output met absolute rommel als resultaat.
Revolutie in de AI. Je hoeft niet eens meer "make no mistakes" toe te voegen.
Ik gaf het vanmiddag de opdracht om van een screenshot van 4 personen een pasfoto te genereren. Hij maakt uit zichzelf de personen mooier en onherkenbaarder. Irritant
Ja ChatGPT weigert personen herkenbaar aan te passen. Anders zou je er allemaal nare dingen mee kunnen doen zonder toestemming van die mensen.
Zelfs een simpele uitsnij opdracht…..
Ik gaf het vanmiddag de opdracht om van een screenshot van 4 personen een pasfoto te genereren. Hij maakt uit zichzelf de personen mooier en onherkenbaarder. Irritant
Kennelijk is het dus al zo ver dat het mensen begrijpt, want de gemiddelde mens op internet poetst ook graag de foto op.
Haha, het begrijpt mij niet. Ondanks uitdrukkelijk bevel, kreeg ik het niet voor elkaar.
Harder op het doek duwen maakt je schilderij niet mooier.
Ik ben zeer benieuwd, als Organisator van de Coderdojo probeer ik al een tijdje een ministrip te genereren als promotie en content voor sociale media. Het taal model maakt op basis van de onderwerpen tijdens de sessies en onderdelen van de nieuwsbrief en posts op social media een script en maakt hier mini stripverhalen van. Maar tijdens het genereren gaat het met tekst en continuïteit van de karakters steeds mis. Ontzettend veel spelfouten en karakters en tekenstijlen die per strip totaal verschillen, terwijl alles juist enorm strak omkadert is door stijl instructies en pose omschrijvingen ect.
Als je een lokaal model van Qwen hiervoor gebruiken kunt (veel video geheugen), kun je een LoRa trainen voor karakter continuïteit.
Tekst gaat daarin ook goed als de karakters duidelijk benoemd zijn (ook tijdens de LoRa training).
Worden er weer kW aan energie verspild om veelal waardeloze plaatjes te genereren. Buiten dat, hoe betaald zich dit terug voor OpenAI (en concurrenten)? Die paar tientjes per maand zijn toch niet dekkend?
Die prijzen zullen uiteindelijk door het dak gaan met bedragen van >€100 per maand. Maar eerst je klanten verslaafd en afhankelijk maken
Dit is eigenlijk al gaande met Claude. Met de gratis versie kun je al vrijwel niks, en zelfs met de betaalde (Pro) variant raak je al vrij snel aan de limieten.

Heb zelfs al een paar maanden het Max abonnement afgenomen omdat ik niet toekwam met de limieten.
Heb zelfs al een paar maanden het Max abonnement afgenomen omdat ik niet toekwam met de limieten.
en zelf dan betaal je waarschijnlijk vele malen minden dan de kosten die je voor Claude maakt
edit:
typfoutje

[Reactie gewijzigd door Sinester op 23 april 2026 16:04]

Sorry, wat probeer je te zeggen?
Precies wat ik zeg, als je voor Claude Pro betaald en het veel gebruikt dan maak je voor Anthropic veel meer kosten dan je daadwerkelijk betaald aan Anthropic
Een plaatje genereren kost niet zo veel stroom. Naar het juiste plaatje zoeken op internet kost veel meer stroom. Een plaatje maken en inscannen ook, een plaatje tekenen op de computer ook. Alleen een foto maken kost minder.

[Reactie gewijzigd door djwice op 22 april 2026 22:31]

Waar ik werk bestaat de helft van de ontwikkelkosten uit artwork. En dat is zelfs een bottleneck, je kunt niet genoeg artworkers hebben. Zelfs als het perfecte plaatje genereren 100 euro zou kosten, zouden we alsnog duizenden euro's besparen.
Moet zeggen dat dit een verbetering is, maar als even kijkt toch vrij duidelijk ai afbeeldingen voor de foto's.
Leuk ook dat alle voorbeelden geschiedenisvervalsing zijn... /s
Ondanks wat foutjes hier en daar is dit echt een enorme stap vooruit vergeleken met een jaar geleden, toen misvormde handen nog eerder regel dan uitzondering waren.

Om te kunnen reageren moet je ingelogd zijn