Meta toont Movie Gen-model dat video kan maken en aanpassen via tekstprompts

Meta heeft een generatief-AI-model getoond waarmee gebruikers op basis van tekstprompts video's kunnen genereren. Movie Gen kan ook video's bewerken en audio genereren. Er zitten wel beperkingen aan de resultaten, zoals een maximale lengte en resolutie.

Meta noemt het product Movie Gen. Het is volgens het bedrijf een voortzetting van eerdere taalmodellen als Llama en Llama Image. "Movie Gen is de derde golf, waarbij we alle eerdere modaliteiten samenvoegen en meer en secuurdere controle geven aan gebruikers", schrijft Meta, dat een whitepaper heeft gepubliceerd met details over hoe het nieuwe model werkt.

Het nieuwe model kan volgens Meta vier taken uitvoeren. De voornaamste is het genereren van video's op basis van een tekst. Het model bevat dertig miljard parameters, wat opvallend veel is. Ter vergelijking; Stable Diffusions recentste model telt maximaal acht miljard parameters. Volgens Meta kan het model naast 'gewone' video's ook gepersonaliseerde video's maken met daarin een bepaalde persoon en met extra informatie die het model daar zelf bij zet zonder prompt.

Volgens Meta kan Movie Gen ook bestaande video's bewerken. Het is bijvoorbeeld mogelijk om bepaalde elementen te verwijderen of juist toe te voegen, of om bepaalde achtergronden te wijzigen. Meta zegt dat het ook mogelijk is de stijl van een video te veranderen. Het bedrijf geeft als voorbeeld een video van een vrouw met een headset, waarbij de headset kan worden verwijderd of aangepast.

Meta Movie Gen

De video's krijgen ook geluid mee, blijkt uit beelden die het bedrijf toont. Het kan dan om muziek gaan, maar ook het geluid van regen of een motor bij een auto. De trainingset voor audio telt dertien miljard parameters en kan ook losse audio genereren, zonder dat daar een video bij hoeft.

Er zitten wel veel beperkingen aan de video's en audiobestanden die het model genereert. Zo zijn de video's maximaal zestien seconden lang met een framerate van 16fps en maximaal 768 pixels. Audiobestanden kunnen maximaal 45 seconden lang zijn.

Voorlopig is het model nog niet publiek beschikbaar; Meta zegt dat het eerst feedback wil vragen aan videomakers over hoe het model hun werk bijvoorbeeld kan steunen of juist in de weg kan zitten. Meta zegt dat de modellen gebouwd zijn op basis van datasets met 'gelicenseerde en publiek beschikbare data'. In het whitepaper wordt niet beschreven om welke data het gaat, maar waarschijnlijk gaat het daarbij om gegevens van Facebook- en Instagram-gebruikers. Daarmee is het meteen ook de vraag of het model op den duur wel in Europa uitkomt. Eerder bleek bijvoorbeeld al dat Meta zijn multimodale AI-modellen niet in Europa wilde uitbrengen.

Door Tijs Hofmans

Nieuwscoördinator

04-10-2024 • 17:54

17

Reacties (17)

17
17
4
0
0
11
Wijzig sortering
768 pixels --> 32 bij 24 pixels?
Doe maar 32 x 24 dan krijg je de aantal pixels oftewel het is het zelfde

[Reactie gewijzigd door mitchell16 op 4 oktober 2024 18:48]

In de whitepaper staat 768 x 768 px als je verder leest
Wat gaat dit toch hard, niet lang terug waren we nog ons suf aan het lachen om ‘Will Smith eating spaghetti’ en nu zie je dat zaken als reflectie en licht effecten realistisch(ig) op het onderwerp komen…

Natuurlijk zijn we er nog niet dat we een hele 120 minuten bioscoop film kunnen maken, maar de sprongen zijn groots!
Ik heb alleen nog maar achtergronden op mijn telefoon die ik zelf genereer, omdat het beter bij mijn smaken aansluit dan wat dan.

Via "losgebroken" ChatGPT is het soms interessanter om eigen verhaallijnen uit te werken dan verhalen te lezen.

Over niet al te lange tijd zal hetzelfde voor andere media het geval zijn denk ik.
@TijsZonderH typfout in de titel denk ik?
AuteurTijsZonderH Nieuwscoördinator @Quacko4 oktober 2024 18:17
Yup, fixed :)
De trailer is een mix van verassend realistisch uitziende resultaten maar ook een aantal erg typisch AI ogende.
Ben benieuwd hoe snel het zal zijn, hoop dat ze het opensource maken net als Llama.
Tof dat het ook audio mee kan genereren, dat is wel echt nieuw.
Dit is wel gaaf en geeft een mooi beeld waar we heen gaan. Het gaat nu wel hard zeg!
Iedereen roept dat het hard gaat, dat we al ver zijn en dat de beelden al heel wat beloven.
Maar het zijn allemaal eigen filmpjes, we mogen nergens testen en er is ook niemand die 'andere' beelden heeft gemaakt hiermee.

Ofwel het wordt eens tijd dat 1 van de vele Beeld-AI bedrijven zijn model eens online gooit en wij ook mogen spelen.
Inderdaad. Kling AI is misschien wel de beste dit moment en gewoon beschikbaar voor iedereen.
Mijn opdrachten staan allemaal al meer dan 2 dagen te draaien zonder dat er wat af komt. Ga er iig geen geld in stoppen als het zo (niet) werkt :P
Kling AI werkt prima als je ervoor betaalt. Gebruik je het gratis dan wordt achteraan gezet in de rij en kan het gebeuren dat je video helemaal niet gegenereerd wordt.

Ik heb hetzelfde bij Pika nu (gratis variant). Twee dagen geleden daar een paar request gedaan voor video's. Nog steeds niets, alleen de melding "We're experiencing high demand right now (how flattering)!".
Gratis versus zijn naar mijn mening je advertentie richting potentiële gebruikers. Slechte reclame zo.

Lees trouwens zat over betalende klanten die hetzelfde hebben.
Klopt dat het ook een vorm van advertentie is. Echter maakt men maar bepaalde resources beschikbaar voor de gratis gebruikers.

Ik gebruik de betaalde versie van Kling dagelijks (vanaf het begin dat het beschikbaar is) en heb tot nu toe nog geen klachten. Werkt perfect.

Pika heeft ondertussen nog steeds niets gegenereerd :(

Ben nu ook Hailuo aan het testen, weer een nieuwe IMG2VID app.
Wat ik overigens nergens vermeld zie worden is dat in de voorwaarden van al deze aanbieders staat dat je ze een niet omkeerbaar recht geeft alles wat je upload te mogen gebruiken.

So don't upload anything you give a shit about.

Op dit item kan niet meer gereageerd worden.