OpenAI integreert geavanceerdere, native beeldgenerator in GPT-4o

OpenAI integreert een geavanceerdere, native beeldgenerator in GPT-4o, waarmee ChatGPT-gebruikers afbeeldingen kunnen genereren via tekst- en spraakopdrachten. Image Generation komt beschikbaar voor alle gebruikers.

Volgens OpenAI is Image Generation 'onze geavanceerdste beeldgenerator tot nu toe'. De tool moet in staat zijn om teksten en symbolen accuraat weer te geven in afbeeldingen, prompts nauwkeurig te volgen en de kennisbank en chatcontext van GPT-4o te benutten. Daarbij kunnen ook geüploade afbeeldingen worden aangepast of gebruikt worden als inspiratiebron.

Door de directe integratie met GPT-4o kunnen gebruikers afbeeldingen aanpassen via natuurlijke gesprekken. GPT-4o kan volgens OpenAI voortbouwen op afbeeldingen en tekst in de context van de chat, waarbij consistentie gewaarborgd blijft. Als voorbeeld noemt het bedrijf het ontwerpen van een personage voor een videogame, waarbij het uiterlijk van het personage in volgende iteraties coherent blijft bij het genereren van nieuwe versies.

OpenAI Image Generation

Waar Dall-E gebruikmaakt van een diffusiemodeltechnniek waarbij de gehele afbeelding in één keer wordt gecreëerd, hanteert het nieuwe systeem een autoregressieve aanpak waarbij afbeeldingen opeenvolgend van links naar rechts en van boven naar beneden worden gegenereerd, vergelijkbaar met het schrijven van teksten. Hierdoor moet Image Generation teksten en objecten in afbeeldingen beter kunnen weergeven.

OpenAI zegt dat GPT-4o instructies met tien tot twintig verschillende objecten kan verwerken. Ook kan het model details van door gebruikers geüploade afbeeldingen 'naadloos integreren' in gegenereerde afbeeldingen. Andere beeldgenerators worstelen volgens het bedrijf met vijf tot acht objecten.

Het bedrijf benadrukt dat het zich bewust is van bepaalde beperkingen van Image Generation, zoals het sporadisch bijsnijden van langere afbeeldingen, hallucineren en het verwerken van een groot aantal kleine teksten in een afbeelding. OpenAI probeert deze problemen naar eigen zeggen na de release te verhelpen.

Image Generation is per direct beschikbaar voor Plus-, Pro-, Team- en Free-gebruikers. De native beeldgenerator komt op een later moment beschikbaar voor Enterprise- en Edu-gebruikers. Gratis gebruikers zijn gelimiteerd tot het genereren van enkele afbeeldingen per dag, net als bij Dall-E. Dat meldt The Verge. Dall-E blijft beschikbaar via een custom GPT, benadrukt OpenAI tegen dat medium.

OpenAI Image Generation

Door Sabine Schults

Redacteur

26-03-2025 • 09:55

49

Submitter: JapyDooge

Reacties (49)

49
49
37
5
0
9
Wijzig sortering
Als je hier zelf mee wilt spelen moet je via de Sora website inloggen met je OpenAI account. Het zit (nog) niet geintegreerd in de reguliere ChatGPT interface.
Ook op de website zittie er bij mij al in hoor!
Betaald abonnement.
@Coolstart @vrow jullie hebben gelijk! Vanochtend was dit nog niet zo. Vermoedelijk rollen ze het gefaseerd uit oid.
Hier zit het wel men GPT app. De afbeeldingen wordt van boven naar onder gegenereerd.

Betalende plus versie. 1.2025.077 (14005801095)
net even getest met de volgende vragen:
- can you generate me an image of a cat with a hat?
ik kreeg een mooie afbeelding van een oranje kat met een bruin hoedje op
- nice! I want this same cat but I want the hat to be a high top hat
ik kreeg DEZELFDE kat maar dan met een high-top-hat!
- perfect! can the cat rawr?
ik kreeg DEZELFDE KAT met DEZELFDE high-top-hat maar dan met zijn mond "brullend"
- hmmm I don't want the cat anymore, can you change it into a dog?
ik kreeg een golden retriever met DEZELFDE high-top-hat en ook met zijn mond "brullend"

dit is echt wel een héle goede en mooie ontwikkeling!
Vaak zat dall-e er net een beetje naast met wat je wilde hebben, maar "even iets aanpassen" resulteerde in totaal nieuwe afbeeldingen/stijlen, dat is dus nu verleden tijd :)
Oh dat is een enorme verbetering! Inderdaad het doorvragen/prompten leverde nooit iets beters op dan wat je al kreeg, tenzij je vraag was iets helemaal anders te genereren!
Vergeleken met DALL-E is het in ieder geval een wereld van verschil. Ik ben wel benieuwd of ik mijn vorige opdracht nu wel uit kan voeren; met DALL-E degenereerden de plaatjes meer dan dat ze beter werden.

EDIT: dat lukte dus buiten verwachting. Een andere, lastiger vraag met cijfers en tekst ging weer flink mis en dat was ook niet meer te verbeteren. Wel hield het keurig dezelfde stijl en elementen aan. Dus ik ben onder de indruk, maar er valt nog heel wat te verbeteren.

[Reactie gewijzigd door uiltje op 27 maart 2025 00:02]

Net even getest. En is inderdaad een hele verbetering.

-Is nu ook in staat om een object te isoleren t.o.v. de achtergrond
-Cartoon style vanuit een foto is ook al veel beter
-Hij gaat ook al een stuk beter om met tekst in een plaatje
Wat ik vooral indrukwekkend vind is de mogelijkheid om tekst in afbeeldingen te genereren zonder dat het gehallucineerde onzin is.
Yup, en het ding snapte nu wel hoe een specifiek symbool er uit moest zien. Dat lukte met DALL-E voor geen meter.
Hier heel andere ervaring. Gevraagd of de kleur van de jurk van mijn vriendin kon veranderen. Kleur was goed, maar ze heeft opeens 4 vingers en haar gezicht lijkt op een gorilla 😂
Ben benieuwd hoe dit opbokst tegen de competitie. Tot nu toe liep OpenAI op het gebied van afbeeldingen genereren toch achter op de competitie. Niet eens top 30 in de "afbeeldingen arena" op HuggingFace.

De arena laat gebruikers twee afbeeldingen zien met dezelfde prompt, van verschillende AI modellen. De gebruiker kiest welke het beste is, en verzameld dan alle resultaten bij elkaar voor de rangschikking.
Ook niet gek, Dall-E komt uit Januarie 2021. We zijn 4 jaar verder. Terwijl de competitie elke maand wel een update doorvoert en elke 6 maanden wel een grote release heeft. Open AI was heel duidelijk in dat ze wel intern al iets hadden maar dat het niet de focus had. Ook niet gek. Ondertussen is het product aanbod zo groot, je moet keuzes maken.

Wel weer lekker bezig, vorige week Whisper "opvolger", recent 4.5 (al doet dat weinig voor veel mensen) en waarschijnlijk komende 3 maanden GPT 5!

[Reactie gewijzigd door resistme op 26 maart 2025 11:11]

DALL-E versie 3 kwam uit op 21 september 2023 geloof ik, dus meer ~1.5 jaar. Klopt inderdaad dat ze natuurlijk minder aan het updaten zijn geweest dan een aantal concurrenten in de lijst.
Als ik een foto van mezelf op het strand in me blote bast stuur en vraag om tattoos toe te voegen dan vind die dat een dikke prima. hij deed er zelfs nog wat extra spieren bij, hij wilt me ook prima in een pak hijsen.

Als me vriendin dan vraagt of ze een foto van haar sport outfit wil veranderen in een andere (full body) bedekte sport outfit. Dan weigert die op elke manier die ze probeert vanwege 'policy' guidelines.

Je zou kunnen zeggen dat dit ook sexistisch is.

Interresante tijd
huh, dat klinkt als een bug. Ik snap dat ze dat inbouwen zodat echte personen niet 'ontkleed' kunnen worden.
Ik snap de bedoeling er achter ook. Maar de manier waarop het afgesteld staat roept bij mij wel vraagtekens op.
Helaas worden alle publiek beschikbare modellen kapot gecensureerd omdat men bang is problemen te krijgen wanneer er pornografisch materiaal gecreëerd wordt. Bing Image Create schiet bij veel onschuldige woorden al in de stress.
'Hij wilt' is geen Nederlands

Groeten, de Taalpolitie
Erg benieuwd hoe dit verder gaat uitbreiden, Dall-E was nooit echt een ster in het genereren van afbeeldingen met teksten. Zo op het eerste gezicht en een eigen test gaan teksten bij deze afbeeldingen al een stuk beter en staat er geen wartaal.
Inderdaad, dat is ook het eerste wat ik net getest heb :-)
Alle plaatjes die de afgelopen tijd helemaal de mist in gingen qua tekst, die heb ik opnieuw laten maken en de teksten gingen nu gewoon goed!
Heel fijn want dat wat toch een struikelblok. Zelfs als je Dall-E vroeg om de tekst dan gewoon helemaal weg te laten, kwam er 9 van de 10 keer tóch gewoon tekst in, omdat hij eigenlijk geen idee had (en heeft) van wat tekst was en wat niet.
Ik vind deze idd echt veel beter, en logo's genereren gaat nu idd ook goed. echt top!
Hij lijkt meer context te zien. Heb er net wat oude Dall-E plaatjes ingegooid en bijv. gevraagd de achtergrond te verwijderen. Leverde een meer dan prima resultaat
Zelfs als je Dall-E vroeg om de tekst dan gewoon helemaal weg te laten, kwam er 9 van de 10 keer tóch gewoon tekst in, omdat hij eigenlijk geen idee had (en heeft) van wat tekst was en wat niet.
Hier ben ik het zeker mee eens, dit was altijd erg irritant aan het genereren van afbeeldingen bij Dall-E.
Dat aanpassen van afbeeldingen lukt mij in ieder geval (nog) niet:
I can't edit the image directly, but you can use Photoshop or an AI image editing tool
Dan heb je de nieuwe versie nog niet, de uitrol is gefaseerd.
Oh ok :) Had niet echt een manier om het te checken en het artikel zei 'per direct beschikbaar', vandaar.
Als je vraagt om een plaatje te maken, zie je direct of je de oude of nieuwe manier hebt. Bij oude zie je een 'klokje' in beeld die langzaam volloopt en dan in 1x heb je je plaatje.

Bij de nieuwe manier zie je vrij snel een 'grijs vlak' wat dan (van boven naar beneden) steeds duidelijker wordt totdat het plaatje klaar is.
Zojuist even geprobeerd, met afbeeldingen van een bioreactor die wij maken, en dan promten om er een lab met meerder van dit soort machines van te maken, en de resultaten zijn echt heel goed
Als ik dit nu probeer (model GPT-4o met een free account) krijg ik nog DALL-E resultaten. Mis ik ergens een instelling ofzo?
Ja, de beeldgeneratiefunctie van GPT-4o is beschikbaar in Nederland. OpenAI heeft aangekondigd dat deze functie wordt uitgerold naar alle ChatGPT-gebruikers, inclusief degenen met Free, Plus, Team en Pro accounts. Houd er rekening mee dat de uitrol gefaseerd plaatsvindt, dus het kan even duren voordat de functie voor alle gebruikers beschikbaar is.​
Ik ben heel benieuwd waar het heen gaat met deze beeld generatoren. Het liefst zie ik een model wat de gebruiker ontzettend veel vrijheid geeft (zoals door meerdere afbeeldingen en teksten te laten uploaden met betrekking tot verschillende delen van de afbeelding, en de optie bieden om verder te itereren op een gegenereerde afbeelding). Vooralsnog moet je daarvoor volgens mij echter bij de lokaal draaiende modellen zijn.
Gaat nu wel. Heb net een foto en een logo geüpload en gevraagd om het logo op een tekstbord in de foto te monteren. Prima resultaat

Net gevraagd het vorige plaatje aan te passen. Lijkt er sterk op dat hij beter de context kan inschatten, en is dus nu wel in staat een iteratie van het vorige plaatje te maken.

[Reactie gewijzigd door Cyberpuppy op 26 maart 2025 15:01]

Doe je dat met het model uit het artikel of een ander? De laatste keer dat ik echt met afbeeldingen genereren bezig ben geweest was het nog allemaal wat beperkt.

Eigenlijk wil ik zelf weer iets lokaal of in een gehuurde cloud runnen, maar ik heb het vermoeden dat dit echt niet meer kan concurreren met de commerciële modellen.
Dit is met de nieuwste ChatGPT 4o.

Er waren inderdaad een aantal beperkingen, maar de zaken waar ik tegenaan liep lijken opgelost.

Het grootste verschil lijkt er in te zitten dat het oude model geen weet had van wat hijzelf had gemaakt. Vroeg je bijv. een de achtergrond van een genereert plaatje te verwijderen dan had hij geen idee wat hij moest doen. Dat gaat nu dus wel. Zelfs met afbeeldingen die hij zelf niet heeft gegenereert.

Zelfde met teksten. Die gingen eigenlijk altijd mis, zelfs als je de letterlijke tekst in je prompt zette. Gaat nu ook prima.

Het is zeker nog niet perfect. Het door AI gegenereerd bankje had door Esscher getekend kunnen zijn.
DALL-E is OpenAI's legacy image generation model. A new model is rolling out in ChatGPT soon.
Ik vind dit artikel misleidend met de "per direct beschikbaar" stelling...
nee, het is inderdaad al beschikbaar, zojuist getest
Niet voor mij, dit is de text uit zo'n leuk (i) icoontje, met de gratis webversie van ChatGPT (ingelogd)
Het aanpassen van afbeeldingen die ik zelf upload lijkt toch niet helemaal te werken... Ik krijg een volledig nieuwe gegenereerde afbeelding, die wel degelijk gebaseerd is op mijn afbeelding. Maar het is nog geen AI photoshop ofzo. Je kan jezelf niet uploaden en uw kapsel laten veranderen ofzo (of ik doe het verkeerd)
Best wel indrukwekkend dat dit allemaal gratis kan...
Klink meer als DALL-E. Maar ik verwacht ook nog geen toverkunsten van de nieuwe AI image generator; daarvoor is het nog te vroeg dag.
Ik heb een foto van mezelf geupload en gezegd maak er een cowboy van. Geen enkel probleem! Voeg daarna een foto toe van iemand anders en zeg maak van deze een indiaan...

Ik krijg een nieuwe foto met mij als cowboy maar compleet iemand anders als indiaan.... interessant!

Update:
Op mijn mobiele app ook een foto geupload. Dit keer van mijn vrouw (zuid Amerikaanse) met de vraag: maak van haar een pocahontas..... gpt begon met renderen. De foto was bijna klaar maar leek niet zo sterk als mijn eigen foto. Toen ik het wilde laten zien (Renderen was nog niet klaar!) Kwam er opeens een melding dat dat niet mocht!

[Reactie gewijzigd door Zorg op 26 maart 2025 19:27]

Op dit item kan niet meer gereageerd worden.