Google presenteert AI-tool die 768p-video’s kan genereren op basis van tekst

Google-onderzoekers hebben een AI-tool gepresenteerd die op basis van tekst video’s kan genereren met een resolutie van 1280x768 pixels en met 24 frames per seconde. De tool, Imagen Video, bevindt zich momenteel in een onderzoeksfase.

Uit de onderzoekspaper, waarin de werking van de Imagen Video-tool wordt beschreven, blijkt dat de AI-tool zowel video als tekstanimaties kan genereren. Dat kan in verschillende artistieke stijlvormen. De onderzoekers delen afbeeldingen waaruit blijkt dat de tool begrippen zoals studio lighting, origami, pixel art en watercolor begrijpt en de tool deze begrippen kan omzetten naar bewegend beeld. De tool begrijpt volgens de onderzoekers ook hoe een driedimensionaal object is opgebouwd, om daar vervolgens rekening mee te houden tijdens het genereren van 3d-objecten.

Volgens de onderzoekers kan deze tekst-naar-video-AI-tool gebruikt worden om menselijke creativiteit een boost te geven. De onderzoekers stellen dat de tool wel filters heeft meegekregen om eventueel misbruik tegen te gaan. Imagen Video werkt op basis van een vooraf getraind taalmodel dat ‘bevroren’ is, net zoals bij de Imagen-tool die Google-onderzoekers eerder dit jaar hebben voorgesteld. Imagen Video is dan ook deels gebaseerd op Imagen. Die AI-tool kon op basis van tekstinvoer realistische afbeeldingen maken. Het is niet duidelijk of en wanneer de onderzoekers Imagen Video beschikbaar zullen maken voor een breder publiek.

Eind september kwam Meta naar buiten met een AI-tool die op basis van tekst video’s kan genereren. De video’s die deze AI-tool maakt, hebben voorlopig een resolutie van 768x768 pixels. De onderzoekers van OpenAI hebben eind september dan weer beslist om Dall-E open te stellen voor het brede publiek. Deze AI-tool kan net als Imagen van Google tekst omzetten in beeldmateriaal.

Screenshots Google Imagen Video
Screenshots Google Imagen Video

Door Jay Stout

Redacteur

06-10-2022 • 14:44

50

Lees meer

Reacties (50)

50
49
27
3
0
9
Wijzig sortering
Stel je voor, een hele film gemaakt door AI op basis van een boek..
Anoniem: 1322 @guuzy6 oktober 2022 16:01
Vorige jaar maakte de Corridor Crew al een film op basis van van AI geschreven tekst: The World’s Most Advanced A.I. Wrote 100% of This Movie (2021)

Tegenwoordig kun je al op basis van een boek een storyboard genereren of alle bijbehorende illustrates tekenen in het boek. Als je de resultaten ziet, dan denk ik niet dat het allemaal zo ver gegrepen is: Is This The Death of VFX?
En het script ook door AI laten schrijven. Krijg je 600 filmideeën die allemaal Adam Sandler in de hoofdrol hebben.
Aha, dus daarom hebben we de laatste 15 jaar een shitload aan Marvel films
Dus dat doen ze dus al?
Er wordt al pulp lectuur geschreven door AI. Als je een formulematige pulproman kunt laten schrijven door AI, moet een filmscript ook lukken. Het is geen kwestie óf dit gebeurt, maar hoeveel, en welk deel van het creatieve proces uit handen wordt gegeven.

https://booksby.ai/
Wel tof toch zo'n computerized automatron, laten ze het dan wel Awesom-o noemen.
Laat Netflix het maar niet horen.
Absoluut zeker dat Netflix dit al jaren draaiende heeft, getuige de jaarlijkse kerstfilms dat die AI uitbraakt.
GPT3 kan met AI ook film scripts genereren.. ik denk dat er vooral eerst veel rommel gegeneerd gaat worden :)
Stel je voor, een hele film gemaakt door AI op basis van een boek..
En nog erger: dat je naar die film moet kijken....
nee, je hoeft alleen maar aan naar de reclame te kijken ;-)
Jammer dat er geen video voorbeeld is
Link op pagina 1 van het onderzoekspaper:
https://imagen.research.google/video/
Deze voorbeelden lijken me meer het resultaat van een zoekmachine die resultaten combineert dan een AI-tool.
Hoe kom je daar bij?
Omdat het daar op lijkt?
Je noemt het woord kat. De AI zoekt op google naar plaatjes van een kat.
Een kat die springt: de AI zoekt op google naar filmpjes van een kat die springt.
Op een bank? Zoekt naar plaatjes van een bank.
Met die basis informatie worden die plaatjes en filmpjes gemanipuleerd om de boel samen te voegen.
Daarom zie je dan een vervormde kat op een bank springen.
Of bij een ander filmpje een hond met 3 voorpoten.

Als de AI een 3D kat of hond aan het genereren was, dan zou die hond nooit 3 voorpoten krijgen.
(zie filmpje van kat links en hond rechts, wanneer de hond opstaat)

De claim dat de AI begrijpt hoe een driedimensionaal object is opgebouwd is nogal dubieus.

[Reactie gewijzigd door mjtdevries op 22 juli 2024 15:10]

Ik weet niet wat jij gezien hebt maar het lijkt er echt totaal niet op. De 'AI' zoekt helemaal niks op. Het model heeft geleerd van miljoenen (miljarden?) foto's en video's van allerlei objecten:
We follow Ho et al. (2022b) in jointly training all the models in the Imagen Video pipeline on images
and videos. During training, individual images are treated as single frame videos. We achieve this
by packing individual independent images into a sequence of the same length as a video, and bypass
the temporal convolution residual blocks by masking out their computation path.
De claim dat de AI begrijpt hoe een driedimensionaal object is opgebouwd is nogal dubieus.
Ligt er aan wat je bedoelt met begrijpen. Het gaat er vooral om dat frames die elkaar opvolgen consistent zijn, vloeiend in elkaar overlopen en dat de 3D vormen natuurlijke bewegingen maken. Over 'begrijpen' zeggen de auteurs dit:
Fig. 9 shows that Imagen Video possesses an understanding of 3D structure, as it is capable of generating videos of objects rotating while roughly preserving structure. While the 3D consistency over the course of rotation is not exact, we believe Imagen Video shows that video models can serve as effective priors for methods that do force 3D consistency.
Bekijk die video van die hond met 3 voorpoten eens beter.
Dat is totaal in tegenspraak met wat de auteurs claimen.

En semantische verschilen tussen "opzoeken" en "leren" van miljoenen fotos zijn niet relevant voor deze discussie.
En semantische verschilen tussen "opzoeken" en "leren" van miljoenen fotos zijn niet relevant voor deze discussie.
Oneens, dat is een fundamenteel verschil. Dat is hetzelfde als tegen een kunstenaar zeggen dat hij alleen maar een boek met illustraties open doet, daar een stel voorbeelden uit kiest, wat knip en plakwerk doet en tada er is een nieuw kunstwerk. Het is overduidelijk uit de videos dat dat niet is wat er gebeurt.

Het is een generatief model, dat betekent dat het model de generatieve distributie van de data leert en niet individuele instanties van de data zelf. Ik raad je aan om de paper te lezen, dan zul je het beter begrijpen. Daarnaast is hier een mooie beknopte samenvatting van generative modelling: https://developers.google...e-learning/gan/generative
Jouw vergelijking loopt mank.
Als een kunstenaar veel fotos van een hond ziet en dan vervolgens zelf vanaf een blank doek een nieuwe hond schildert dan is het eigen werk.
Het is overduidelijk uit de videos dat dat niet is wat er gebeurd.

Als de kunstenaar een foto van een hond ziet, die foto kopieert in photoshop en met wat filters die foto vervormd zodat het een lopende hond in een video word, dan is er overduidelijk sprake van iets heel anders. En dat lijkt sprekend op wat je in de videos ziet.

En wederom negeer je de drie voorpoten van de hond.
Hoe komt die hond aan drie voorpoten als het model de generatieve distributie van de data heeft geleerd?

[Reactie gewijzigd door mjtdevries op 22 juli 2024 15:10]

Als de kunstenaar een foto van een hond ziet, die foto kopieert in photoshop en met wat filters die foto vervormd zodat het een lopende hond in een video word, dan is er overduidelijk sprake van iets heel anders. En dat lijkt sprekend op wat je in de videos ziet.
Misschien lijkt het daar op, maar dat is fundamenteel niet wat er gebeurt. Nogmaals, ik raad je aan om de paper te lezen, dat heb je overduidelijk niet gedaan anders zou je dit niet zeggen.
Hoe komt die hond aan drie voorpoten als het model de generatieve distributie van de data heeft geleerd?
Het model is niet perfect, waarschijnlijk zijn er niet genoeg filmpjes van honden opgenomen in de dataset.
Het gaat er vooral om dat frames die elkaar opvolgen consistent zijn, vloeiend in elkaar overlopen en dat de 3D vormen natuurlijke bewegingen maken.
Een hond die het ene moment 2 voorpoten heeft, dan 3 en dan weer twee komt niet bepaald overeen met die beschrijven.
Kijk eens naar de poten van de olifant. De rechterpoot word magisch de linkerpoot en weer vice versa.
Dat is helemaal geen 3D vorm die een natuurlijke beweging maakt.
Het is ook niet redelijk om dat te verwachten want er wordt ook geen skelet of consistente fysica gemodelleerd, dit is puur op frame-by-frame niveau. Heb je ondertussen de paper gelezen? Dit is namelijk een kansloze discussie als je steeds weer bewijst hoe weinig je er van af weet.
Dus nu zeg je dat de beweringen van de onderzoekers niet kloppen of dat het artikel van Tweakers de onderzoekers verkeerd quote?
De tool begrijpt volgens de onderzoekers ook hoe een driedimensionaal object is opgebouwd, om daar vervolgens rekening mee te houden tijdens het genereren van 3d-objecten.
Jij stelt echter dat er geen 3d object gegenereerd word.
Dus nu zeg je dat de beweringen van de onderzoekers niet kloppen of dat het artikel van Tweakers de onderzoekers verkeerd quote?
De quote van tweakers verteld niet het hele verhaal. De paper zegt het volgende:
Fig. 9 shows that Imagen Video possesses an understanding of 3D structure, as it
is capable of generating videos of objects rotating while roughly preserving structure. While the
3D consistency over the course of rotation is not exact, we believe Imagen Video shows that video
models can serve as effective priors for methods that do force 3D consistency.
De onderzoekers zijn dus een stuk voorzichtiger met hun claim. Als je wilt bewijzen dat het model begrip heeft van de 3D wereld moet je eerst met een goede definitie komen van wat dat begrip precies inhoudt. De onderzoekers definiëren dat als consistentie onder rotatie. Dat is een acceptabele definitie als je object in de video niet te complex is. Echter zie je dus bij complexere objecten zoals de video van de hond dat het af en toe mis gaat. Het 3D begrip van het model is dus niet compleet, wat ook niet redelijk is om te verwachten aangezien een jaar geleden zoiets als dit überhaupt nog niet mogelijk was.
Jij stelt echter dat er geen 3d object gegenereerd word.
Dat klopt, de simulatie vindt plaats in 2D en niet in 3D. Er wordt een video van een 3D object gegenereerd, niet het 3D object zelf.
Volgens de onderzoekers kan deze tekst-naar-video-AI-tool gebruikt worden om menselijke creativiteit een boost te geven.
Ik zie dit wel zitten. Ik stel me voor dat er een tijd was waarin je alleen een boek kon schrijven als je ook bereid was dat boek meerdere keren over te schrijven voor distributie. Dom werk, maar noodzakelijk om je creativiteit te kunnen delen met anderen. Tegenwoordig is het vele makkelijker (te makkelijk?) om hele lappen tekst met de wereld te delen, je hoeft niet meer netjes te kunnen schrijven, veel spel- en grammaticafouten kunnen automatische gecorrigeerd worden en zelfs vertalen kan steeds beter automatisch. De gereedschappen (van boekdrukkunst tot vertaalmachines en verder) die hiervoor beschikbaar kwamen hebben de drempel voor tekstuele creaties verlaagt.

Als ik een statische afbeelding wil maken moet ik echter nog wel kunnen tekenen, of een goede scene maken en deze fotograferen (en waar nodig nabewerken). Aan animaties of films ga ik helemaal niet beginnen, veel te veel werk. Maar met tools als deze hoeft creativiteit niet langer beperkt te worden door "te veel werk".

Daar staat wel tegenover dat er straks heel veel van deze creaties opduiken en dat veel er van de moeite van het kijken niet waard zijn. Er is dan "te veel werk" om een goede selectie te maken; het werk is van de auteur naar de consument verplaatst. Hopelijk komt de rol van uitgevers weer terug om een goede voorselectie te maken, bij voorkeur uitgevoerd door mensen, en niet algoritmes die ons zaken als "It finally happened, Elon Musk presented artifical gravity!!!" voorschotelen.

[Reactie gewijzigd door 84hannes op 22 juli 2024 15:10]

Anoniem: 1777010 @84hannes6 oktober 2022 15:32
Daar staat wel tegenover dat er straks heel veel van deze creaties opduiken en dat veel er van de moeite van het kijken niet waard zijn. Er is dan "te veel werk" om een goede selectie te maken; het werk is van de auteur naar de consument verplaatst. Hopelijk komt de rol van uitgevers weer terug om een goede voorselectie te maken, bij voorkeur uitgevoerd door mensen, en niet algoritmes die ons zaken als "It finally happened, Elon Musk presented artifical gravity!!!" voorschotelen.
Dit gebeurt al 400 jaar met boeken, sinds de uitvinding van de boekdrukkunst.
Dit gebeurt al 400 jaar met boeken, sinds de uitvinding van de boekdrukkunst.
Ik denk niet dat de boekdrukkunst een 'singularity' was waarna opeens iedereen boeken kon uitgeven. Zowel de gelleterdheid van burgers, de prijs van papier, de beschikbaarheid van drukpersen, de eenvoud van (digitaal) aanleveren etc. hebben er door de eeuwen heen aan bijgedragen dat publiceren steeds makkelijker werd.
We krijgen dan uiteindelijk ook allemaal een persoonlijke A.I. die al deze films voor ons gaat kijken om dan de besten voor te schotelen. Maar je hebt een punt dat er dan teveel aanbod komt. Ik maak me dan ook zorgen in hoeverre dit de entertainment waarde in z'n geheel beïnvloed van films/series. Wanneer elke film/serie uitmuntend is is geen 1 dat meer.
Kleine stapjes naar een wereld waar ‘nep’ niet meer te onderscheiden is van menselijke kunst. Ik vind het jammer. Wellicht komt er een soort certificaat voor menselijke kunst en AI, maar het doet wel afbreuk aan het creative proces.
Ik fotografeer en ben bezig met film. Elke keer moet ik duizenden keuzes maken. Regelmatig maak ik teleurstellende beelden, maar het hele proces geeft me plezier. Hoe meer automatisering, hoe verder ik kom af te staan bij mijn resultaten. Ik doe graag iets wat andere mensen niet kunnen.
Ik ben benieuwd hoe we in de toekomst echt van nep kunnen onderscheiden. Nu nemen we nog steeds aan dat er een oorlog gaande is in de Oekraïne.
Dit is natuurlijk al honderden jaren aan de gang. Automatisering haalt altijd het menselijke aspect weg van een handeling. In het begin werd er enkel spierkracht vervangen, later rekenkracht, fijn werk, nu gaan we het artistieke vervangen. Ik denk dat we er binnen een paar 100 jaar blij op terugkijken dat we niet meer zelf duizenden uren moeten werken om een leuke film te hebben. Maar dat we dit gewoon kunnen genereren.

Net zoals ik blij ben om niet zelf, met mijn menselijke voeten naar mijn werk te moeten stappen, maar ik gewoon een kan nemen die een groot deel van het werk overneemt.

Het artistieke proces zelf kan je gerust nog doen, zonder focus op het resultaat. Net zoals mensen ook gaan wandelen in het weekend.
Ik fotografeer en ben bezig met film. Elke keer moet ik duizenden keuzes maken. Regelmatig maak ik teleurstellende beelden, maar het hele proces geeft me plezier. Hoe meer automatisering, hoe verder ik kom af te staan bij mijn resultaten. Ik doe graag iets wat andere mensen niet kunnen.
Daar verandert niet zoveel aan. Mensen schilderen ook nog steeds, mensen wandelen en fietsen nog steeds. En andere mensen genieten daar weer van. Ondanks alle technologische vooruitgang die al die activiteiten zou kunnen vervangen.
Ik ben benieuwd hoe we in de toekomst echt van nep kunnen onderscheiden. Nu nemen we nog steeds aan dat er een oorlog gaande is in de Oekraïne.
Dat zal inderdaad niet altijd eenvoudig zijn. Maar dat probleem is nu nog beperkt tot de informatie die we via beeldschermen tot ons krijgen. Dan kunnen we namelijk alleen maar afgaan op twee van onze zintuigen (ogen en oren). En het lijkt erop dat het erg makkelijk is om mensen met die twee zintuigen heel erg om de tuin te leiden. Die andere (smaak, evenwicht, reuk, aanraking) kunnen we nog niet (goed) simuleren en daarmee is die nep-omgeving nog wel erg beperkt.
En ja, het is theoretisch inderdaad mogelijk dat de oorlog in de Oekraïne nep is omdat niemand van ons hier (neem ik aan) zelf bij die oorlog aanwezig is geweest. Echter: hier geldt Ockams Razor: als er voor een situatie meerdere verklaring mogelijk zijn, dan is de meest simpele het meest aannemelijk. En voor de oorlog in de Oekraine geldt dan hetzelfde als voor de maanlandingen: het simuleren ervan en het geheim houden van die simulatie is een heel veel grotere en complexere operatie dan de landing of de oorlog zelf :)
Ik ben benieuwd hoe we in de toekomst echt van nep kunnen onderscheiden.
Wat is nep en wie bepaald wat nep en echt is? Als een AI betere videos maakt dan de gemiddelde menselijke artiest dan moet je helaas een andere baan gaan zoeken. Dat klinkt hard maar zo gaat het al sinds de industriële revolutie. Op basis van de resultaten in het artikel gaat het nog wel even duren trouwens, het is duidelijk pas de eerste stap.
Menselijke 'kunst' is ook altijd al onderworpen geweest aan dezelfde definiëringen die we nu aan die AI-tool geven.
Schrijvers, beeldhouwers, schilders, filmmakers, enz. zijn altijd uitgegaan van een onderwerp dat afgebeeld moet worden. Miljoenen 'kunstenaars' doen dat met een 'eigen stijl' of een 'persoonlijk proces' maar feitelijk doen ze allemaal hetzelfde kunstje. Natuurlijk zijn er mensen die puur voor zichzelf dingen creëren, maar 99% van alle artistieke uitspattingen worden gemaakt voor anderen. Mensen moeten het mooi of bijzonder vinden.
Veel 'kunst' heeft daarom net zo goed regels. Hoe je met je materiaal omgaat, hoe een onderwerp het best in beeld gebracht wordt, hoe een verhaal verloopt, enz.. Workshops om te schilderen als Bob Ross zijn een goed voorbeeld. Het is geen kunst maar een creatieve activiteit.
Heel grof gezegd verschilt het amper met wat deze AI doet of kan doen.

Mensen denken graag dat ze iets bijzonders kunnen. Jij hebt het over het maken van duizenden keuzes. Maar dat zijn waarschijnlijk alle theoretische mogelijkheden die je hebt. In werkelijkheid heb je een idee, een beeld voor ogen hoe het eindproduct er uit moet zien. En dat beperkt onbewust die duizenden keuzes enorm.
Wat we tegenwoordig allemaal kunst noemen is ronduit zielig.
Voor de meeste mensen draait het alleen maar om wat ze voelen, beleven bij het eindresultaat en wie of wat het gemaakt heeft en hoe is daarbij van ondergeschikt belang.
waarom is die resolutie zo bijzonder?
het plaatje met x aantal pixels op basis van karakteristieken
kat, eten, gogh style
plaatje gegenereerd
en dan plaatje groter maken en scherpte toevoegen

eventueel nog plaatje begin state en plaatje end state
"morph" begin - end in "24" frames

dan is dat plaatje genereren het belangrijkste niet de resolutie ?
of zie ik dit nou verkeerd
worden er meer dingen in die resolutie erbij in gekopieerd uit de database, zoals gordijnen oid

edit
het is meer het gecascadeerde model wat er achter zit
https://imagen.research.google/video/
en dan ctrl+f cascaded diffusion models
het begint met iets kleins (het plaatje) en dat wordt "ge-upscaled"

[Reactie gewijzigd door xtrme op 22 juli 2024 15:10]

dan is dat plaatje genereren het belangrijkste niet de resolutie ?
Lijkt mij ook, maar het artikel maakt ook niet echt een punt van de resolutie.

Ik denk dat de resolutie vnl. wordt genoemd om te vergelijken met Meta's tool.

Inderdaad is het triviaal een filmpje te upscalen, daar hoeft google dus geen speciale implementatie voor te maken.
In de screenshots bij dit artikel zijn alleen beeldeffecten te zien en vroeg ik mezelf af waarom dit zo bijzonder is, maar de gelinkte paper laat voorbeelden zien zoals o.a. bladeren die in de vorm van een tekst op water vallen.

Oftewel, daar is te zien dat het inderdaad rekening houdt met vormen in 3d ipv dat het alleen maar een te hippe manier is om effecten op een video toe te passen.

Wel leuk :)
We describe how we scale up the system as a high definition text-to-video model including design decisions such as the choice of fully-convolutional temporal and spatial super-resolution models at certain resolutions, and the choice of the v-parameterization of diffusion models. In addition, we confirm and transfer findings from previous work on diffusion-based image generation to the video generation setting.
Klinkt heel erg als Stable Diffusion, een text-to-image model wat afbeeldingen genereert uit tekst. Er is een publieke demo beschikbaar, die kan je hier proberen. Subreddit r/StableDiffusion gaat ook helemaal los.
Dream studio doet hetzelfde alleen met mooie beelden.
Zie hier https://beta.dreamstudio.ai/dream
En Corridor crew heeft getest zie hun resultaat
https://www.youtube.com/w...M&ab_channel=CorridorCrew
De realiteit gaat enkel behoren tot de machtigste op aarde, de rest leeft in het onbestaande ...
Als je erin leeft, dan bestaat het toch? Als je het niet van echt kunt onderscheiden, wat is dan het verschil met de realiteit van 'de machtigste'? Want hoe machtig ook, winnen van de dood doen ze het niet.
Heeft Meta dit ook niet net uitgebracht?
https://www.theverge.com/...make-a-video-model-dall-e

[Reactie gewijzigd door al__in__gebruik op 22 juli 2024 15:10]

Ah dat klinkt logisch. Volgens mij is hun CEO ook computer gegenereerd.

Op dit item kan niet meer gereageerd worden.