Effe fact-checken:
- We hebben op school de waterkringloop geleerd. Water gaat sowieso niet "verloren" en datacenters vervuilen het water dat ze gebruiken niet (warmtevervuiling is een ander verhaal, maar daar hoor je juist niemand over). In "koude" klimaten (Nederland) verbruiken ze zelfs vrijwel helemaal geen water tenzij er een hittegolf is. Schoon water is in ontwikkelde landen meestal geen schaars goed.
- Formeel is nooit iets gezegd over het energieverbruik van Sora laat staan Sora 2. Het is puur giswerk, en de kwaliteit daarvan is meestal belabberd (zoals aannemen dat GPUs continu 100% van de TDP verbruiken, wat heel bizar zou zijn). Het werk van enkele onderzoekers aan MIT van maart is zwaar bekritiseerd omdat nota bene hun eigen onderzoek hun conclusies niet staaft. De conclusie stond kennelijk voorop.
- Ik kan lokaal op een "oude" 3080 een 720p-clip genereren van 5 seconden in ongeveer 2:30 minuten met Wan 2.2 (kwalitatief beter dan Sora 1, minder dan Veo 3). Dat verbruikt dus
helemaal geen water en het gemeten energievebruik is tijdens het genereren ongeveer de helft van wat de PC doet bij gamen. 5 seconden video is dus vergelijkbaar met 1:15 minuten gamen. Los van dat mijn 3080 nu al 5 jaar oud is, is compute in een datacenter nog eens in ieder opzicht veel efficienter dan op een lokale PC.
- Als een Sora-clip 1 kWh aan energie zou kosten, geeft OpenAI ongeveer dus zomaar 10 euro per gebruiker per dag weg (0.33 euro x 30 clips per dag), oftewel alleen al voor de eerste 1 miljoen gebruikers zo'n 4 miljard per jaar aan een
gratis dienst. Maar een social netwerk heeft natuurlijk meer dan 1 miljoen gebruikers nodig, je wilt zeker naar de 100 miljoen. Gaat OpenAI dus 400 miljard aan energie (!!!) per jaar gratis weggeven voor meme-filmpjes, oftewel de totale waarde van hun hele bedrijf, ieder jaar? Terwijl ze nu al alle zeilen moeten bijzetten om aan meer energie te komen? Klinkt dit aannemelijk?
- Het feit dat Sora 2 op deze manier "weggegeven" wordt, suggereert dat het een veel efficienter model is dan Sora 1, waarschijnlijk met een mixture-of-experts structuur en 4-bits inferentie op gespecialiseerde hardware. De "magie" van Sora 2 zit 'm er vooral in dat er een LLM het hele proces regisseert en de creatieve beslissingen neemt, in plaats van een diffusiemodel heel lang te laten draaien om een plausibel resultaat te generen. Het voelt de helft van de tijd alsof ChatGPT met jouw idee aan de haal is gegaan en zelf een filmscript geschreven heeft dat "leuker" was.
- Het hele begrip "grote" en "kleine" modellen is sowieso niet echt relevant meer. Sora 2 is vast een fors model, maar dat zegt niets over hoeveel "experts" ervan actief zijn, of in hoeveel "stappen" het een eindresultaat bereikt. Wat iedereen altijd verbaast: taalmodellen als ChatGPT zijn over het algemeen veel groter dan video- of beeldmodellen. De grootste open LLM's zitten op 800+ GB, de grootste open videomodellen op 28 GB.
Een AI reclame maken voor $500 aan gegenereerde clips is veel beter voor het mileu dan een filmploeg naar verschillende locaties rijden/vliegen. En voor je eigen lol AI-filmpjes genereren is een vorm van vermaak vergelijkbaar met streamen (iets minder energie-intensief) of gamen (iets meer). In alle gevallen geldt dat fietsen een gezondere hobby is.
De meneer in de link hieronder, overigens zelf veganist en milieuactivist, heeft alles meerdere malen doorgerekend:
https://andymasley.substack.com/p/a-cheat-sheet-for-conversations-about
Hij hoort 't graag als iemand er fouten in vindt, en werkt zijn conclusies dan ook bij.