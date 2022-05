Google-onderzoekers hebben een AI-tool gemaakt die op basis van tekstinvoer realistische afbeeldingen kan maken. De onderzoekers noemen hun tool 'Imagen' en stellen dat mensen de resultaten realistischer vinden dan de creaties van de vergelijkbare tool DALL-E 2 van OpenAI.

Op basis van een omschrijving in tekst kan Imagen afbeeldingen genereren. Daarbij is er keuze uit een 'olieverfschilderij' of een fotorealistische afbeelding. Dat laatste is veel uitdagender om overtuigend te doen met kunstmatige intelligentie. Imagen blinkt daarin juist uit, stellen de makers.

Imagen werkt op basis van een groot vooraf getraind taalmodel, zoals GPT-3. Dat model wordt 'bevroren', volgens de onderzoekers levert dat de beste resultaten op. De invoer van tekst wordt vervolgens met een diffusion model omgezet van willekeurige ruis naar beeld.

In eerste instantie maakt Imagen een klein plaatje van 64x64 pixels. Met een super-resolution diffusion model wordt dat vervolgens uitvergroot tot een eindresultaat van 1024x1024 pixels. De AI-tool kan zo overtuigende niet-bestaande plaatjes genereren op basis van zinnen als "A dragonfruit wearing a karate belt in the snow" en "A photo of a raccoon wearing an astronaut helmet, looking out of the window at night".

De onderzoekers hebben een paper gepubliceerd met uitleg over de werking van Imagen. Daarin vergelijken ze hun AI-tool ook met andere tools die plaatjes genereren. Volgens de onderzoekers prefereren mensen de creaties van Imagen.

Imagen is niet de eerste AI-tool die plaatjes kan generen op basis van tekstinvoer. OpenAI kwam eerder met DALL-E 2. Volgens de makers is dat een tool die realistische afbeeldingen en kunst kan generen op basis van tekst. Ook kan DALL-E 2 variaties maken van bestaande kunstwerken.