Alibaba brengt videogenereermodel Wan 2.1 met 14 miljard parameters uit

Chinese techgigant Alibaba heeft een videogenereermodel uitgebracht dat het openbaar beschikbaar maakt. Wan 2.1 is gebouwd op maximaal veertien miljard parameters en kan video's in 720p met 30fps maken, al zegt Alibaba niet hoe lang die video's kunnen zijn.

Wan 2.1 is de opvolger van versie 2.0 van Wan AI. De nieuwe versie van de tool is een videogenereermodel dat op basis van tekstprompts een video kan maken met een resolutie van maximaal 720p op een snelheid van 30fps. Ook kan het model video's maken op basis van een afbeelding, al dan niet in combinatie met een prompt.

Het model is getraind in Alibaba's eigen cloudomgeving, maar gebruikers kunnen het ook lokaal draaien. Alibaba zegt dat het kleinste model, T2V-1.3B met 1,3 miljard parameters, op een normale gpu kan draaien. Dat model heeft 8,19GB aan vram nodig. Alibaba geeft in een voorbeeld aan dat het model op die manier op een RTX 4090 een video van vijf seconden op 480p kan genereren in ongeveer vier minuten. Het model met 14 miljard parameters heeft tot maximaal 77GB aan vram nodig om video's te kunnen maken.

Alibaba heeft meerdere modellen vrijgegeven, variërend tussen de 1,3 en 14 miljard parameters die stuk voor stuk iets krachtiger zijn. De modellen zijn gebaseerd op een eigen vorm van VAE of variational autoencoder die Alibaba zelf heeft ontworpen. Dat Wan-VAE gebruikt onder andere minder geheugen. Alibaba heeft de modellen opensource beschikbaar gemaakt onder een Apache 2.0-licentie.

Update, 27 februari 15.31 uur - In het artikel stond aanvankelijk dat gebruikers een RTX 4090 nodig hadden om 480p-video's te genereren, maar dat is slechts een voorbeeld om aan te geven hoe lang videogeneratie duurt op gpu's met 8GB vram.

Alibaba Wan

Door Tijs Hofmans

Nieuwscoördinator

26-02-2025 • 20:04

20

Reacties (20)

20
19
10
1
0
6
Wijzig sortering
Waarom heeft het jaaaaaren geduurd voordat AI enigszins zo 'slim' werd. En nu opeens popt elke internet boer op met zijn eigen model? Is opeens pandora's box gevonden door iemand en heeft die dat publiekelijk online gezet waardoor iedereen het kopieert?
Volgens mij zit dat hem grotendeels in architectuur die voor dit soort modellen sinds 2017 bestaat. Toen kwam er een paper uit: https://en.m.wikipedia.org/wiki/Attention_Is_All_You_Need welke het enorm heeft versneld.
Dit is het antwoord. Alles gebruikt in meer of mindere maten het Attention mechanisme. Het bleek dat meer compute daarbij leidde tot betere prestaties. Nu zitten we op een waardevolle schaal waarbij modellen waardevol zijn. Er zijn daarnaast heel veel optimalisaties op veel fronten gaande waardoor modellen nog beter worden. Ook worden ze groter, en kleiner maar specialistischer.

Verder speelt mee dat oude ai modellen vaak cpu based waren en daardoor niet zo schaalbaar als gpu based. Dat is ook enorme winst.
Helemaal correct, ik denk dat het tweede deel is dat zelfs toen capabele modellen er kwamen zoals GPT-2 de daadwerkelijke interesse beperkt was. Er werd wel aandacht aan besteed als een soort noviteit. Github Copilot e.d. kwamen daarmee op en dat had ook wel wat gebruik. Onderzoek kwam toen wel meer op gang met steeds duidelijker wordende toepassingen.

Met de release van ChatGPT was er eigenlijk pas een echte explosie van interesse, terwijl dat vooral een kwestie was van een ander soort interface. Terwijl het model niet direct veel beter was dan bijv. Da-Vinci van OpenAI. Gewoon het meer toegankelijk worden van de technologie voor gebruikers deed een hoop.

[Reactie gewijzigd door kftnl op 27 februari 2025 10:55]

op een normale gpu kan draaien. Dat model heeft 8,19GB aan vram nodig en kan dan een video van vijf seconden op 480p creëren op een RTX 4090.
Eh, het is maar net wat je onder een 'normale' gpu verstaat maar ik een RTX 4090 nu niet direct een doorsnee normale gpu vind. En tja zelfs dan met zo'n high-end gpu een filmpje op de laagste resolutie van maar 5 seconden, hmmm, tja.

En ja verder vraag ik mij het nut er wel van af wat er nou leuk aan is dan een filmpje te laten genereren. Het is toch veel leuker om gewoon zelf filmpjes te maken en zelf creatief bezig te zijn. Daarvoor heb je in feite alleen maar je smartphone nodig en een wel dus 'normale' gpu. Dan kan je veel langere filmpjes maken met gewoon een 4K resolutie zonder dat je meteen high-end gpu's nodig hebt.
Met "normaal" wordt hier een (consumenten) GPU bedoelt die dus ook gebruikt kan worden om te gamen of als videokaart kan worden gebruikt met video uitgangen. Dat in tegenstelling tot bijvoorbeeld de GPUs die gemaakt worden door Nvidia voor AI doelen.

Overigens is dit het kleinste model als ik het zo goed lees dat 8GB VRAM nodig heeft. Aangezien een 4090 24GB VRAM heeft en een 5090 zelfs 32GB lijkt het erop dat deze ook een van de grotere modellen kan draaien. Edit: het lijkt erop als of het 1 na grootste model gelijk meer dan 70GB nodig heeft.

Het staat er in het oorspronkelijke bericht ook anders dan er hier geschreven wordt:

The T2V-1.3B model requires only 8.19 GB VRAM, making it compatible with almost all consumer-grade GPUs. It can generate a 5-second 480P video on an RTX 4090 in about 4 minutes (without optimization techniques like quantization). Its performance is even comparable to some closed-source models.
Dus je hebt niet perse een 4090 nodig maar wel 8GB aan VRAM voor het kleinste model. Ze geven dit mijn inziens alleen als voorbeeld om de tijd weer te geven die het een 4090 kost voor een 5seconden video in 480p.

[Reactie gewijzigd door Arjant2 op 27 februari 2025 12:21]

Evenzogoed, hoop dat je het met mij eens bent dat een RTX 4090 nu niet direct een normale gpu is en het voorbeeld foutief is. Als normaal beschouw ik dan op het Nvidiafront b.v. een RTX4060 of b.v. dan een RTX 4070 en dan de AMD varianten waarvan ik even niet de vergelijkbare typenummers zo uit het hoofd weet.
Nee ben ik niet met je eens. Nogmaals met "normaal" wordt een consumenten gpu bedoeld.
Dat is hoe tweakers het vertaald heeft. Het origineel geeft gewoon een voorbeeld hoe lang het duurt om een video te maken. Dus hoe kan een voorbeeld foutief zijn?

[Reactie gewijzigd door Arjant2 op 27 februari 2025 07:32]

Mijn fout, ik doel ook op het Tweakers artikel.
The T2V-1.3B model requires only 8.19 GB VRAM, making it compatible with almost all consumer-grade GPUs.
In de Steam Hardware Survey heeft ~31% van de videokaarten meer dan 8GB vram.
Oftewel, ~69% heeft 8GB vram of minder.

Vraag me af waarop hun claim gebaseerd is, en waarom het zo specifiek verwoord is.
"een videogenereermodel" tja leuk hoor de mass gebrukt een keer of 3 en dan klaar.
een hond op een scateboard...........
welke toepassing heeft hier echt wat aan ?
Nu nog niet zoveel, over een tijdje heel veel. Dit zijn leuke tijden, wij zitten aan het begin van de ontwikkeling en gaan t mee maken
Dat werd ook veel gezegd rond afbeeldingen, tot vandaag de helft van YouTube thumbnails en aardig wat websites nu gegenereerde afbeeldingen hebben. Wat nu geen nut lijkt te hebben, kan het altijd nog krijgen in de toekomst.
Makkelijk content maken en op youtube shorts gooien in de hoop dat korte termijn dopamine junkies veel views gaan genereren. Of gewoon foute info in de ether slingeren
Zie de recente video van de huidige president van de VS. https://www.npr.org/2025/...-5309695/trump-gaza-video het is een tool die gebruikt kan worden om iets te creeeren.
Elk historisch moment in welke cultuur dan ook, als het maar is beschreven, en zo niet dan beschrijf je hetzelf. Elk beeld ga je kunnen creëren. Voor op TV, of VR.....
scammers hebben er veel aan...
Zou dit ook met multi gpu kunnen draaien?
Helaas zit ik nu in verhuizing, dus zal wel even duren voordat ik dit oo me server kan gaan testen
Zou dit ook op een Mac kunnen draaien? Sinds Apple Silicon is de RAM gedeeld met GPU, dus daarmee heb je ineens bijv 64 GB "vram" beschikbaar. Wellicht kun je dan langere filmpjes maken (met veel geduld)?

Op dit item kan niet meer gereageerd worden.