OpenAI integreert een geavanceerdere, native beeldgenerator in GPT-4o, waarmee ChatGPT-gebruikers afbeeldingen kunnen genereren via tekst- en spraakopdrachten. Image Generation komt beschikbaar voor alle gebruikers.
Volgens OpenAI is Image Generation 'onze geavanceerdste beeldgenerator tot nu toe'. De tool moet in staat zijn om teksten en symbolen accuraat weer te geven in afbeeldingen, prompts nauwkeurig te volgen en de kennisbank en chatcontext van GPT-4o te benutten. Daarbij kunnen ook geüploade afbeeldingen worden aangepast of gebruikt worden als inspiratiebron.
Door de directe integratie met GPT-4o kunnen gebruikers afbeeldingen aanpassen via natuurlijke gesprekken. GPT-4o kan volgens OpenAI voortbouwen op afbeeldingen en tekst in de context van de chat, waarbij consistentie gewaarborgd blijft. Als voorbeeld noemt het bedrijf het ontwerpen van een personage voor een videogame, waarbij het uiterlijk van het personage in volgende iteraties coherent blijft bij het genereren van nieuwe versies.
Waar Dall-E gebruikmaakt van een diffusiemodeltechnniek waarbij de gehele afbeelding in één keer wordt gecreëerd, hanteert het nieuwe systeem een autoregressieve aanpak waarbij afbeeldingen opeenvolgend van links naar rechts en van boven naar beneden worden gegenereerd, vergelijkbaar met het schrijven van teksten. Hierdoor moet Image Generation teksten en objecten in afbeeldingen beter kunnen weergeven.
OpenAI zegt dat GPT-4o instructies met tien tot twintig verschillende objecten kan verwerken. Ook kan het model details van door gebruikers geüploade afbeeldingen 'naadloos integreren' in gegenereerde afbeeldingen. Andere beeldgenerators worstelen volgens het bedrijf met vijf tot acht objecten.
Het bedrijf benadrukt dat het zich bewust is van bepaalde beperkingen van Image Generation, zoals het sporadisch bijsnijden van langere afbeeldingen, hallucineren en het verwerken van een groot aantal kleine teksten in een afbeelding. OpenAI probeert deze problemen naar eigen zeggen na de release te verhelpen.
Image Generation is per direct beschikbaar voor Plus-, Pro-, Team- en Free-gebruikers. De native beeldgenerator komt op een later moment beschikbaar voor Enterprise- en Edu-gebruikers. Gratis gebruikers zijn gelimiteerd tot het genereren van enkele afbeeldingen per dag, net als bij Dall-E. Dat meldt The Verge. Dall-E blijft beschikbaar via een custom GPT, benadrukt OpenAI tegen dat medium.