Google heeft een demo getoond van een generatieve AI die filmpjes van tot vijf seconden lang kan maken. De tool heet Lumiere. Het gaat nog om een demo waarvan het nog niet bekend is wanneer Lumiere beschikbaar wordt voor gebruikers.
Lumiere is in staat om fotorealistische filmpjes te genereren gebaseerd op tekstuele inputs. Ook is het mogelijk om afbeeldingen deels of volledig te animeren. Verder kan Lumiere de stijl van een afbeelding, bijvoorbeeld een tekening, nabootsen en er vervolgens video’s mee maken. Het is zelfs mogelijk om video’s te editen met het programma. In een van de voorbeelden die Google toont, verandert niet alleen de kleur, maar ook het model van een jurk die een vrouw draagt, enkel door een tekstuele input te geven.
In een paper die op arXiv gepubliceerd werd, beschrijft het onderzoeksteam van Google hoe de software werkt. Het team ontwikkelde een nieuwe architectuur, genaamd 'Space-Time U-Net'. Die maakt het mogelijk om een filmpje in één keer te genereren. Dat moet de architectuur onderscheiden van bestaande modellen, die in een eerste stap gespreide keyframes genereren, waarna de tussenliggende frames met temporele superresolutie worden aangevuld. Temporele superresolutie is een techniek in de beeldverwerking die wordt gebruikt om de tijdsresolutie van een video te verbeteren. Het doel is om tussenliggende frames te genereren op basis van de bestaande frames in een video, waardoor de framerate van de video effectief wordt verhoogd. Bij Lumiere is dat niet het geval, die genereert de beelden zonder die superresolutie.
De gegenereerde output is momenteel beperkt tot video's van slechts vijf seconden lang met een resolutie van 1024x1024 pixels. Google beschouwt dat zelf als lage resolutie, maar het is onduidelijk of toekomstige versies van het systeem een hogere resolutie zullen ondersteunen. Momenteel is Lumiere een onderzoeksproject en dus nog niet beschikbaar voor het grote publiek. Wanneer en of dat zal gebeuren, is niet bekend.