Google-onderzoekers hebben een AI-tool gepresenteerd die op basis van tekst video’s kan genereren met een resolutie van 1280x768 pixels en met 24 frames per seconde. De tool, Imagen Video, bevindt zich momenteel in een onderzoeksfase.
Uit de onderzoekspaper, waarin de werking van de Imagen Video-tool wordt beschreven, blijkt dat de AI-tool zowel video als tekstanimaties kan genereren. Dat kan in verschillende artistieke stijlvormen. De onderzoekers delen afbeeldingen waaruit blijkt dat de tool begrippen zoals studio lighting, origami, pixel art en watercolor begrijpt en de tool deze begrippen kan omzetten naar bewegend beeld. De tool begrijpt volgens de onderzoekers ook hoe een driedimensionaal object is opgebouwd, om daar vervolgens rekening mee te houden tijdens het genereren van 3d-objecten.
Volgens de onderzoekers kan deze tekst-naar-video-AI-tool gebruikt worden om menselijke creativiteit een boost te geven. De onderzoekers stellen dat de tool wel filters heeft meegekregen om eventueel misbruik tegen te gaan. Imagen Video werkt op basis van een vooraf getraind taalmodel dat ‘bevroren’ is, net zoals bij de Imagen-tool die Google-onderzoekers eerder dit jaar hebben voorgesteld. Imagen Video is dan ook deels gebaseerd op Imagen. Die AI-tool kon op basis van tekstinvoer realistische afbeeldingen maken. Het is niet duidelijk of en wanneer de onderzoekers Imagen Video beschikbaar zullen maken voor een breder publiek.
Eind september kwam Meta naar buiten met een AI-tool die op basis van tekst video’s kan genereren. De video’s die deze AI-tool maakt, hebben voorlopig een resolutie van 768x768 pixels. De onderzoekers van OpenAI hebben eind september dan weer beslist om Dall-E open te stellen voor het brede publiek. Deze AI-tool kan net als Imagen van Google tekst omzetten in beeldmateriaal.
:strip_exif()/i/2005394114.jpeg?f=imagenormal)