Meta heeft een generatief-AI-model getoond waarmee gebruikers op basis van tekstprompts video's kunnen genereren. Movie Gen kan ook video's bewerken en audio genereren. Er zitten wel beperkingen aan de resultaten, zoals een maximale lengte en resolutie.
Meta noemt het product Movie Gen. Het is volgens het bedrijf een voortzetting van eerdere taalmodellen als Llama en Llama Image. "Movie Gen is de derde golf, waarbij we alle eerdere modaliteiten samenvoegen en meer en secuurdere controle geven aan gebruikers", schrijft Meta, dat een whitepaper heeft gepubliceerd met details over hoe het nieuwe model werkt.
Het nieuwe model kan volgens Meta vier taken uitvoeren. De voornaamste is het genereren van video's op basis van een tekst. Het model bevat dertig miljard parameters, wat opvallend veel is. Ter vergelijking; Stable Diffusions recentste model telt maximaal acht miljard parameters. Volgens Meta kan het model naast 'gewone' video's ook gepersonaliseerde video's maken met daarin een bepaalde persoon en met extra informatie die het model daar zelf bij zet zonder prompt.
Volgens Meta kan Movie Gen ook bestaande video's bewerken. Het is bijvoorbeeld mogelijk om bepaalde elementen te verwijderen of juist toe te voegen, of om bepaalde achtergronden te wijzigen. Meta zegt dat het ook mogelijk is de stijl van een video te veranderen. Het bedrijf geeft als voorbeeld een video van een vrouw met een headset, waarbij de headset kan worden verwijderd of aangepast.
De video's krijgen ook geluid mee, blijkt uit beelden die het bedrijf toont. Het kan dan om muziek gaan, maar ook het geluid van regen of een motor bij een auto. De trainingset voor audio telt dertien miljard parameters en kan ook losse audio genereren, zonder dat daar een video bij hoeft.
Er zitten wel veel beperkingen aan de video's en audiobestanden die het model genereert. Zo zijn de video's maximaal zestien seconden lang met een framerate van 16fps en maximaal 768 pixels. Audiobestanden kunnen maximaal 45 seconden lang zijn.
Voorlopig is het model nog niet publiek beschikbaar; Meta zegt dat het eerst feedback wil vragen aan videomakers over hoe het model hun werk bijvoorbeeld kan steunen of juist in de weg kan zitten. Meta zegt dat de modellen gebouwd zijn op basis van datasets met 'gelicenseerde en publiek beschikbare data'. In het whitepaper wordt niet beschreven om welke data het gaat, maar waarschijnlijk gaat het daarbij om gegevens van Facebook- en Instagram-gebruikers. Daarmee is het meteen ook de vraag of het model op den duur wel in Europa uitkomt. Eerder bleek bijvoorbeeld al dat Meta zijn multimodale AI-modellen niet in Europa wilde uitbrengen.