Chinese techgigant Alibaba heeft een videogenereermodel uitgebracht dat het openbaar beschikbaar maakt. Wan 2.1 is gebouwd op maximaal veertien miljard parameters en kan video's in 720p met 30fps maken, al zegt Alibaba niet hoe lang die video's kunnen zijn.
Wan 2.1 is de opvolger van versie 2.0 van Wan AI. De nieuwe versie van de tool is een videogenereermodel dat op basis van tekstprompts een video kan maken met een resolutie van maximaal 720p op een snelheid van 30fps. Ook kan het model video's maken op basis van een afbeelding, al dan niet in combinatie met een prompt.
Het model is getraind in Alibaba's eigen cloudomgeving, maar gebruikers kunnen het ook lokaal draaien. Alibaba zegt dat het kleinste model, T2V-1.3B met 1,3 miljard parameters, op een normale gpu kan draaien. Dat model heeft 8,19GB aan vram nodig. Alibaba geeft in een voorbeeld aan dat het model op die manier op een RTX 4090 een video van vijf seconden op 480p kan genereren in ongeveer vier minuten. Het model met 14 miljard parameters heeft tot maximaal 77GB aan vram nodig om video's te kunnen maken.
Alibaba heeft meerdere modellen vrijgegeven, variërend tussen de 1,3 en 14 miljard parameters die stuk voor stuk iets krachtiger zijn. De modellen zijn gebaseerd op een eigen vorm van VAE of variational autoencoder die Alibaba zelf heeft ontworpen. Dat Wan-VAE gebruikt onder andere minder geheugen. Alibaba heeft de modellen opensource beschikbaar gemaakt onder een Apache 2.0-licentie.
Update, 27 februari 15.31 uur - In het artikel stond aanvankelijk dat gebruikers een RTX 4090 nodig hadden om 480p-video's te genereren, maar dat is slechts een voorbeeld om aan te geven hoe lang videogeneratie duurt op gpu's met 8GB vram.