Google toont AI-tool die tekst omzet in fotorealistische afbeeldingen

Google-onderzoekers hebben een AI-tool gemaakt die op basis van tekstinvoer realistische afbeeldingen kan maken. De onderzoekers noemen hun tool 'Imagen' en stellen dat mensen de resultaten realistischer vinden dan de creaties van de vergelijkbare tool DALL-E 2 van OpenAI.

Op basis van een omschrijving in tekst kan Imagen afbeeldingen genereren. Daarbij is er keuze uit een 'olieverfschilderij' of een fotorealistische afbeelding. Dat laatste is veel uitdagender om overtuigend te doen met kunstmatige intelligentie. Imagen blinkt daarin juist uit, stellen de makers.

Imagen werkt op basis van een groot vooraf getraind taalmodel, zoals GPT-3. Dat model wordt 'bevroren', volgens de onderzoekers levert dat de beste resultaten op. De invoer van tekst wordt vervolgens met een diffusion model omgezet van willekeurige ruis naar beeld.

In eerste instantie maakt Imagen een klein plaatje van 64x64 pixels. Met een super-resolution diffusion model wordt dat vervolgens uitvergroot tot een eindresultaat van 1024x1024 pixels. De AI-tool kan zo overtuigende niet-bestaande plaatjes genereren op basis van zinnen als "A dragonfruit wearing a karate belt in the snow" en "A photo of a raccoon wearing an astronaut helmet, looking out of the window at night".

De onderzoekers hebben een paper gepubliceerd met uitleg over de werking van Imagen. Daarin vergelijken ze hun AI-tool ook met andere tools die plaatjes genereren. Volgens de onderzoekers prefereren mensen de creaties van Imagen.

Imagen is niet de eerste AI-tool die plaatjes kan generen op basis van tekstinvoer. OpenAI kwam eerder met DALL-E 2. Volgens de makers is dat een tool die realistische afbeeldingen en kunst kan generen op basis van tekst. Ook kan DALL-E 2 variaties maken van bestaande kunstwerken.

IT-banen

Reacties (54)

jorisvergeerTBA 24 mei 2022 17:03

En nu wil ik er zelf ook mee spelen. Kan dat?

Auteur

Xtuv @jorisvergeerTBA • 24 mei 2022 17:13

Op de website (eerste link in het artikel) kan je ongeveer halverwege kiezen uit een aantal delen van zinnen om zo eigen combinaties en creaties te maken. Volledige vrijheid geeft dat niet, maar je ziet zo ook wel de wat minder goed gelukte versies.

Gwaihir @Xtuv • 24 mei 2022 17:57

En het is interessant daar te lezen waarom we (nog langere tijd) geen volledige vrijheid krijgen om er mee te spelen!

JackBol @Gwaihir • 25 mei 2022 21:07

"a black guy shooting a cop"
"an old man abusing a child"
"a group of people fighting to the dead"
"a woman getting sexually abused"

Ik snap wel waarom ze die tool niet zomaar open gooien. Er zijn genoeg zieke mensen in de wereld die deze zinnen door IMAGEN heen gaan trekken. En dat is wat ik met een gezond hoofd kan bedenken. Moet je voorstellen wat die krankjorums van 4chan en 8chan kunnen bedenken.

Gwaihir @JackBol • 26 mei 2022 12:32

Hmm.. bij die voorbeelden krijg je nog wat je vraagt. Erger lijken me degenen die keihard vooroordelen en stereotypen doorzetten.

"a cop shooting a suspect" -> altijd een blanke man die een zwarte man neerschiet
"a doctor treating a patient" -> altijd een blanke manlijke dokter
"a nurse treating a patient" -> altijd een vrouw

Het lijkt mij heel erg lastig om zo'n tool gevarieerd te laten reageren (i.p.v. steeds de 'best match') én tegelijkertijd nog wel binnen hoe iets er redelijkerwijs uit kan zien.

We zouden 't bijvoorbeeld heel vreemd vinden als die cop er ineens bij loopt als 'n gangster (volstrekt undercover dus) en een beveiliger in uniform neerschiet. Toch kom je zo'n situatie met een avondje NCIS echt wel tegen..

Dus tja.. hoe zorg je ervoor dat iets redelijkerwijs aan de verwachtingen voldoet, maar geen verkeerde verwachtingen schept. En dat ook nog eens op die enorme schaal waar je het van machine learning moet hebben? Fijn dat die (wetenschappelijke?) puzzel gestart is. Ik verwacht dat de oplossing nog wel jaren weg is.

JackBol @Gwaihir • 26 mei 2022 19:47

Die AI op alle afleveringen van NCIS laten trainen

beeguy123 @JackBol • 25 mei 2022 22:04

google heeft dat al klaarliggen https://www.museodelprado...09-45dd-805d-f38162c5beaf

Pietje Klaas @beeguy123 • 26 mei 2022 19:58

Volgensmij heb je de verkeerde link geplaatst

necessaryevil @Xtuv • 24 mei 2022 23:12

Ik zie alleen een paar voorbeeldplaatjes en voorbeeldzinnen, kan je ook ergens zelf iets invoeren? Of staat dat inmiddels uit?

jerisson @necessaryevil • 24 mei 2022 23:53

Onder "Click on a word below and Imagen!" staan een paar deelzinnen die je met kan combineren. De afbeelding erboven wordt dan aangepast. Per combinatie zijn er een paar afbeeldingen voorzien (waarschijnlijk vooraf gegenereerd).

0stone0 @jorisvergeerTBA • 24 mei 2022 17:15

Nog niet, van Google's announcement pagina:

At this time we have decided not to release code or a public demo. In future work we will explore a framework for responsible externalization that balances the value of external auditing with the risks of unrestricted open-access
..
As such, there is a risk that Imagen has encoded harmful stereotypes and representations, which guides our decision to not release Imagen for public use without further safeguards in place.

[Reactie gewijzigd door 0stone0 op 22 juli 2024 14:49]

ajsietsma @jorisvergeerTBA • 24 mei 2022 17:18

EDIT: iedereen post tegelijkertijd. @Xtuv heeft toch wat gevonden.

Uit het paper:

However, a recent audit of one of our data sources, LAION-400M [61], uncovered a wide range of inappropriate content including pornographic imagery, racist slurs, and harmful social stereotypes [4]. This finding informs our assessment that Imagen is not suitable for public use at this time

Daarnaast is het nogal reken-intensief.

Unless specified, we train a 2B parameter model for the 64 x 64 text-to-image synthesis, and 600M and 400M parameter models for 64 x 64 "-> 256 x 256 and 256 x 256 ->1024 x 1024 for superresolution
respectively. We use a batch size of 2048 and 2.5M training steps for all models. We use 256 TPU-v4 chips for our base 64 x 64 model, and 128 TPU-v4 chips for both super-resolution models.

[Reactie gewijzigd door ajsietsma op 22 juli 2024 14:49]

ari3 @ajsietsma • 25 mei 2022 01:15

Uiterst onwenselijk dat Google bepaalt wat pornografie, raciale duidingen en vermeende schadelijke stereotyperingen zijn. De Amerikaanse cultuur van woke-ness en preutsheid mag best eens ter discussie gesteld worden.

P_Tingen @ari3 • 25 mei 2022 10:22

Nee, in dit stadium kan ik me goed voorstellen dat Google dit niet in het wild wil loslaten. Je hoeft maar 2 seconden na te denken om een reeks aan voorbeelden voor de geest te halen waar ze niet mee geassocieerd willen worden. Voorbeelden die ver voorbij standaard wokeness en preutsheid gaan heb ik het dan over.

moredruid @ari3 • 25 mei 2022 13:25

Oh, je wil een herhaling van Tay (de AI chatbot van Microsoft)?

Ik zie liever wat voorbeelden in dit stadium. En als er 1 in de wereld is die de vinger aan de pols heeft met zoekacties en resultaten is het Google wel (verschillende bronnen komen op 63.000 zoekacties per seconde).

jimshatt @holoduke51 • 25 mei 2022 11:37

Maak het dan lekker zelf, dan mag je zelf bepalen wat je ermee doet (binnen de grenzen der wet).

EotT @jorisvergeerTBA • 24 mei 2022 17:15

Ja, maar ze laten niet iedereen tezamen toe. Je kan je wel op een wachtlijst zetten.

Edit: zoals hieronder al aangehaald, dit gaat over iets anders, namelijk DALL-E-2.

[Reactie gewijzigd door EotT op 22 juli 2024 14:49]

Helium-3

@EotT • 24 mei 2022 18:51

Let op: de comment hierboven gaat over DALL-E, dat is een productie van OpenAI / Facebook, terwijl het artikel gaat over een productie van Google, Imagen. Imagen heeft geen waitlist op dit moment, zoals @0stone0's comment quote.

ajsietsma @EotT • 24 mei 2022 17:31

Dit is niet het nieuwe Google model, maar DALL-E-2. De gelinkte insta heeft nog wel een stel nieuwe plaatjes en ze doen requests blijkbaar.

SinergyX 24 mei 2022 19:03

Hoewel leuk, het is een reeds bepaalde set, dit hele model is gebaseerd op een 'frozen' model, dus zijn de limieten reeds bepaald. Dat kan voor jou meer dan genoeg zijn om leuk te doen, maar per saldo heb je maar X-Y-Z combinaties om te maken.

Ik zag onderstaande video eerder, daarmee geeft de 'maker' een simpele set van regels (a simple animation of a moving "vehicle") en als je kijkt wat 'echte' creativiteit kan doen..
https://www.youtube.com/watch?v=JXrWPLNp9tw

Stel nu de identieke vraag meerdere malen aan die AI, krijg je dan continue dezelfde afbeelding?

svane @SinergyX • 25 mei 2022 00:12

Die X-Y-Z combinaties kunnen echter héél héél héél groot zijn. Als je met dezelfde input meer creativiteit en mogelijkheden kan bereiken dan met 100 artiesten, ben je al een heel eind, ook al ben je er nog niet volledig.

Als je bijvoorbeeld kijkt naar Dall-e, dan zie je dat je met dezelfde input, verschillende resultaten kan krijgen.
Je zal de creativiteit misschien iets meer moeten sturen, maar ik denk dat 'leuk om te doen' wel een flinke onderschatting is van de mogelijkheden (en gevaren) van dit soort AI.

Offtopic: Ik heb OpenAI gevraagd voor een toelichting:

Kan een AI, met dezelfde input, even creatief zijn als een persoon?

Dat is moeilijk te zeggen. Creativiteit is een vaag begrip en het is moeilijk te definiëren. Sommige mensen zouden zeggen dat een AI niet creatief kan zijn omdat het niet kan nadenken zoals een mens. Anderen zouden zeggen dat een AI wel creatief kan zijn, omdat het in staat is om nieuwe ideeën te genereren en te ontwikkelen. Het is moeilijk om een definitief antwoord te geven.

holoduke51 @SinergyX • 24 mei 2022 20:13

En toch gaat AI / deeplearning erg hard vooruit. Van sommige resultaten is het bizar moeilijk om terug te beredeneren hoe iets tot stand is gekomen. Zeker in combinatie met layered AI algorithms. Zowel op hardware gebied (snellere ics) als op software gebied worden er grote stappen gemaakt. Het zal zeker een grote rol gaan spelen in de toekomst.

spoonman @holoduke51 • 25 mei 2022 06:33

Ik ben zelf al 20 jaar programmeur, maar zoiets gaat mijn petje ver te boven. Ik had al een presentatie gezien van dall-e2, en ben zwaar onder de indruk. Zeer knap en zelfs een beetje angstwekkend.

holoduke51 @spoonman • 25 mei 2022 09:59

Voor de meeste geldt dat. Ook voor mij. Vaak nog wel te begrijpen als je er zelf aan gewerkt hebt. Maar van anderen heel lastig.

Cuball @SinergyX • 25 mei 2022 07:50

Prachtig filmpje!
Waarschijnlijk onvoorstelbaar hoeveel uren daar totaal zijn in gegaan om dit te kunnen samenstellen...

Oeroeg 24 mei 2022 17:01

Toch wel mooi, het meestbelovende vakgebied van deze eeuw die complexe vraagstukken zou moeten kunnen oplossen.

En wat krijgen we?
Een gegenereerde foto van een panda die een taart bakt.

[Reactie gewijzigd door Oeroeg op 22 juli 2024 14:49]

RM-rf @Oeroeg • 24 mei 2022 17:24

Welke vraagstukken denk je dan op te lossen?

AI en zeker AI-gebaseerde text-interpretatie en content-generatie heeft voorlopig juist ook een sterke 'bevooroordeelde' opzet, wat je er uiteindelijk uithaalt zal gebaseerd zijn op de input die deze zelf heeft en het is al gebleken dat bv AI chatbots die zich op openlijke en publieke input baseren héél snel kunnen verworden tot schelden en racistische monsters... (chatbot Tay: https://blogs.microsoft.c...arning-tays-introduction/ )

in die zin is de taart-bakkende panda nog een geruststellend iets

[Reactie gewijzigd door RM-rf op 22 juli 2024 14:49]

Tjidde @RM-rf • 24 mei 2022 19:52

Dall e2 is als ik het goed begreep daarom bewust niet getraind met alle data. Zo zijn wapens, geweld en sex daar een voorbeeld van.

Zo heeft MKBHD er een video gemaakt.

Ik denk dat je als AI designer rekening moet houden met de cases die je niet wilt. Een volledig general ai is denk ik daarom bijna onmogelijk, zeker als je geen Tay 2.0 wilt.

Echter maakt dat wel AI minder sterk, want het leert minder of niet van wat gebruikers erin stoppen.

Het zijn lastige vraagstukken, waar ook wet en regelgeving opgemaakt dient te worden. Dat moet eigenlijk gewoon nu gedaan worden en niet pas als het zo ver is.

therazo

@Oeroeg • 24 mei 2022 17:15

Ik denk dat ik niet hoef uit te leggen dat dit best een grote prestatie is van de onderzoekers die hieraan gewerkt hebben. Los daarvan, is dit ook zeker iets waar dankbaar gebruik van gemaakt zal worden in het dagelijkse leven, mits de wereld (en de eigenaren van de technologie) daar klaar voor zijn.

SpazzII @Oeroeg • 24 mei 2022 17:33

Toch wel mooi, een reactiemogelijkheid bij artikelen zodat er discussie en kennisuitwisseling op gang kan komen.

En wat krijgen we?
Iemand die denkt dat een AI krachtig genoeg om tekst naar beeld om te zetten alleen gebruikt kan worden voor memes, omdat een voorbeeld van een panda en een taart gebruikt werd.

[Reactie gewijzigd door SpazzII op 22 juli 2024 14:49]

Flagg @Oeroeg • 24 mei 2022 17:20

Tja das met alles zo, er is geen ondergrens voor de behoefte aan nutteloze entertainment.

We leven in een tijd waar we alle mogelijke communicatiemiddelen hebben om elkaar van alles te leren en wijzer te maken.

Ondertussen wordt de meeste tijd op Facebook gespendeerd met onzin. Terwijl je ook 100.000 documenten met wetenschappelijke onderzoeken en theorieën tot je kan nemen.

De mensheid is dan ook gedoemd (verder) te mislukken...

Mellow Jack @Flagg • 24 mei 2022 23:44

Ondertussen wordt de meeste tijd op Facebook gespendeerd met onzin. Terwijl je ook 100.000 documenten met wetenschappelijke onderzoeken en theorieën tot je kan nemen.

Lol mijn ervaring is dat een gemiddeld persoon maar 2 nieuwe / ingewikkelde dingen tot zich kan nemen. De onzin (aka ontspanning) zorgt ervoor dat die persoon de volgende dag in staat is om weer 2 dingen tot zich te nemen

quattro-fan

@Oeroeg • 24 mei 2022 17:20

Ik vond Xi Jinping als kok juist heel goed gelukt!

HokiPoki 24 mei 2022 17:17

Super vet, maar ook best beangstigend. "Een foto van de minister-president die een koffer met geld aanneemt van een bekende crimineel." Misschien nog iets te specifiek voor nu, en misschien ook weer te detecteren dat het door A.I. gegenereerd is, maar dan is het schip al vertrokken (als ik dat goed zeg).

mphilipp @HokiPoki • 24 mei 2022 17:29

Zie de video van Marques Brownlee. In DALL-E2 hebben ze er een filter op gezet om te voorkomen dat mensen inderdaad de president naakt laten afbeelden met een dame van lichte zeden of een klein kind. Die AI zou dat braaf maken. Daarom zal het denk ik nog wel even duren voor ze zoiets aan het grote publiek vrij gaan geven. De creativiteit van idioten moet je niet onderschatten en er zijn meerdere manier om iets smerigs heel onschuldig te omschrijven.

"That's why we can't have nice things..."

Davidoff1976 @HokiPoki • 24 mei 2022 18:21

Dan maak je dat toch gewoon met Photoshop?

Dat hoeft niet moeilijk te zijn!

84hannes @HokiPoki • 24 mei 2022 19:16

Een paar honderd jaar geleden kon je schrijven wat je wilde en in de krant laten zetten, en het was niet van echt te onderscheiden. Toen kwamen foto's, maar lijm en schaar bestonden al. Foto's werden scherper, groter, en gingen zelfs bewegen, maar methoden om het te raken zijn volgens mij nooit achtergebleven. Uiteindelijk moet je elke bron van informatie kritisch bekijken, dat wordt hierdoor slechts bevestigd.

ErikT738 24 mei 2022 17:04

Ik ben wel benieuwd of ik dit zou kunnen gebruiken voor Dungeons & Dragons om afbeeldingen van locaties te genereren waar ik alleen een tekst van heb. Vergelijkbare programma's die ik eerder heb gebruikt waren vooral goed in surrealistische landschappen.

svane @ErikT738 • 25 mei 2022 00:22

Interessant idee, ik verwacht eerlijk gezegt wel dat dit zou moeten kunnen.

Mocht je verder nog inspiratie nodig hebben als Dungeon master. Mijn pogingen waren niet bijster spannend, maar met de juiste query kan er vast wel iets moois gegenereerd worden. Een AI gegenereerd avontuur lijkt mij wel wat

The party is hired by the local lord to investigate rumors of a cult operating in the nearby forest. After some investigating, the party finds a hidden entrance to a cave, which leads them to a strange chamber. In the chamber, they find a group of cultists performing a dark ritual. The cultists spot the party and attack! The party must battle their way through the cultists and stop the ritual from being completed.

The heroes are tasked with infiltrating the stronghold of the evil dragonlord in order to rescue the captured villagers. The dragonlord has been using the villagers as slaves to mine for gold and other precious metals. The heroes must battle their way through the dragonlord's minions in order to reach the dragonlord's lair. Once there, they must defeat the dragonlord and free the villagers.

The party of adventurers has been hired to retrieve a magical artifact from a dragon's hoard. They must brave traps and a fearsome dragon to succeed in their quest.

The first trap the party encounters is a pit trap. The floor is covered in a thin layer of dust, and there is a pressure plate in the center of the room. Stepping on the pressure plate will trigger the trap, causing the floor to collapse and the party to fall into the pit.

The second trap is a fire trap. The room is filled with a thick smoke, and there are flames licking at the walls. The party must use their agility and quick thinking to avoid the flames and reach the exit.

The final trap is the dragon itself. The dragon is a fearsome creature, and it will take all of the party's skill and courage to defeat it. But if they succeed, they will claim the magical artifact and complete their quest.

[Reactie gewijzigd door svane op 22 juli 2024 14:49]

Hjsurk 24 mei 2022 16:59

Marques Brownlee heeft over DALL-E 2 een interessante video gemaakt:
https://www.youtube.com/watch?v=yCBEumeXY4A

jarco5000 24 mei 2022 17:16

Nu wil ik, "A giant robot that is juggling around planets in space" proberen.

Ai is toch echt een verbazingwekkend iets.

RM-rf 24 mei 2022 17:21

Oei, ik ben benieuwd wat gebeurd wanneer dit met Rule 34 samentreft (of misschien wil ik dat liever niet weten).
DALL-E heeft bv al een strenge content-policy: https://labs.openai.com/policies/content-policy en Imagen noemt de zorg over 'misuse' als reden om voorlopig geen publieke demo of source beschikbaar te stellen:

First, downstream applications of text-to-image models are varied and may impact society in complex ways. The potential risks of misuse raise concerns regarding responsible open-sourcing of code and demos.

Chielllie 24 mei 2022 17:34

Hmmm. Nu te 'testen' met een beperkt aantal variabelen waardoor ook een beperkte set antwoorden getoond wordt.
Of dit een gimmick is of echt werkt wordt pas duidelijk als het opengesteld wordt.
Theoretisch wel een leuke vraag wie de rechthebbende kunstenaar is. Ik met een creatieve opdracht of het systeem dat er iets van maakt?

Patrick_Wolf 25 mei 2022 09:39

De mensen die dit interessant vinden, kunnen de AI tool van Nvidia wellicht ook wel waarden. Hierbij teken je zelf op basis van het niveau 'ms paint' en wordt het een prachtige afbeelding. Probeer het zelf eens hier:
http://gaugan.org/gaugan2/

Op dit item kan niet meer gereageerd worden.

Google toont AI-tool die tekst omzet in fotorealistische afbeeldingen

Lees meer

IT-banen

Reacties (54)

Sorteer op:

Weergave: