Netflix komt met eigen AI-videotool onder opensourcelicentie - update

Netflix komt met een eigen AI-videotool genaamd VOID, wat staat voor Video Object and Interaction Deletion. De tool is gemaakt voor het bewerken van beelden waarbij door de bewerking de interactie tussen objecten verandert. De tool is verkrijgbaar onder de Apache License 2.0-licentie en gebruikt verschillende andere taalmodellen.

Netflix VOID
Klik voor .GIF

Volgens onderzoekers van Netflix kan VOID in allerlei situaties beelden aanpassen, met grote gevolgen voor de overige objecten in de beelden. Zo noemen de onderzoekers het voorbeeld van twee auto's die tegen elkaar botsen. VOID moet de ene auto kunnen verwijderen, waarna de tweede auto gewoon blijft doorrijden.

Ook tonen de onderzoekers een rij van omvallende blokken. Door VOID de middelste blokken te laten verwijderen, zou het laatste blok in de rij niet meer moeten omvallen. In tegenstelling tot 'gewone' videomodellen bewerkt VOID niet alleen visueel de beelden, maar dus ook inhoudelijk om de beelden in de nieuwe context kloppend te maken. Overigens zijn er meer modellen die over deze functie beschikken.

Het is onduidelijk in hoeverre Netflix de tool wil gaan gebruiken voor zijn eigen content. Vooralsnog gaat het om een wetenschappelijke tool die via Hugging Face te downloaden is. Gebruikers mogen het model onder de Apache License 2.0 hergebruiken, aanpassen en onder vermelding van deze licentie verspreiden.

Meerdere 'passes' voor eindresultaat

VOID werkt door de inputbeelden meermaals te analyseren en te bewerken om tot een realistisch resultaat te komen. Gebruikers zouden in eerste instantie een object kunnen aanklikken om het te verwijderen. Het zogenoemde vision language model verwijdert het object en maakt een berekening van hoe de andere objecten in de scène zouden moeten reageren.

Voor dat proces wordt Googles Gemini via een api-call gebruikt, waarna SAM2 van Meta wordt gebruikt om een laag bovenop de beelden te genereren. Ook de modellen Kubric van Google en Humoto dragen bij aan de beeldverwerking en -generatie.

De tweede pass is bedoeld om artefacten en andere visuele fouten te verwijderen. Deze tweede ronde is optioneel en vermoedelijk hangt het van de scène en de situatie af of er fouten in de eerste versie zitten.

Update, 13.00 uur – Er is informatie toegevoegd over de andere gebruikte modellen die Netflix 'bundelt' om VOID te kunnen maken. Met dank aan Quintiemero.

Netflix VOIDNetflix VOIDNetflix VOIDNetflix VOID

Door Yannick Spinner

Redacteur

05-04-2026 • 10:55

27

Submitter: TheVivaldi

Reacties (27)

Sorteer op:

Weergave:

Misschien ook goed om te benoemen dat het gewoon gebruikt maakt van LLM-modellen zoals gemini. Het is dus niet een volledig standalone AI-systeem.
Waar haal je dat vandaan? Op de site staat beschreven dat het Kubrik (van Google) en een ander mechanisme gebruikt.

Ik zou ook niet weten waar ze een taal-generator voor nodig hebben? Dat lijkt me redelijk omslachtig. Het hoeft alleen maar taal te interpreteren, niet te genereren.
Hij heeft wel gelijk.

VOID gebruikt "VLM" aka Vision Language models. Het is geen traditionele LLM, het is meer te vergelijken met een CLIP model.

Maar VOID gaat nog een stap verder en gebruikt Gemini 3 Pro voor "reasoning" om de context te begrijpen.

De VOID stack gebruikt:

- Gemini 3 Pro voor language

- SAM2 (Meta) voor het visuele

- CogVideoX om de inpainting te doen.

[Reactie gewijzigd door keejoz op 5 april 2026 12:00]

SAM (Segment Anything) wordt enkel gebruikt voor segmentatie ( ~object aanduiden met een masker). Volgens de paper gebruiken ze ook SAM3 ipv SAM2, hetgeen toelaat om segmentatie te doen op basis van tekst of een bounding box (bij SAM2 moest je nog punten plaatsen).

Voor het visuele (aanpassen van objecten, inpainting, ...) wordt inderdaad CogVideoX gebruikt.

Kubric en HUMOTO worden gebruikt om traingsdata te genereren.

@lenwar Gedetailleerde informatie is terug te vinden in de paper (de PDF op de projectpagina). Ik denk dat het LM gedeelte vooral handig is om meer controle te hebben: in plaats van "what if we remove the right car?", zou je ook kunnen vragen "what if we remove the right car, and replace it with an invisible wall/rock/...?"
Toch klopt het wat Quintiemero schrijft. De preprocessing gebeurt met externe modellen (Gemini voor objectidentificatie en SAM om precieze tracking/"masks" te maken voor de objecten). Als je de code bekijkt, voeden ze de video eerst aan een LLM (hun voorbeeld gebruikt Gemini) met een hele lange prompt. Die kan je hier lezen: https://github.com/Netflix/void-model/blob/f6495e45ba5927be8f403483ea9a5a150dc96bf1/VLM-MASK-REASONER/stage2_vlm_analysis.py#L256

Ze vragen dus eerst aan een enorm krachtige VLM om de objecten te identificeren die bewegen of zullen/kunnen bewegen door een fysieke reactie met andere objecten in de video. Als ik de code goed lees wordt daar dan een box rond getekend en die coordinaten worden aan SAM gegeven, een model van Facebook dat objecten veel fijner kan omlijnen in video. Na deze "preprocessing" heb je dus alle kandidaat-objecten die bewegen en hun exacte omlijning/coordinaten.

De gebruiker kan via een GUI dan selecteren welke van deze objecten verwijderd moeten worden. En pas daarna zal hu eigen model deze informatie gebruiken om de geselecteerde objecten effectief "uit te knippen" (inpainting).

Complexe, maar boeiende, pipeline.

[Reactie gewijzigd door BramVroy op 5 april 2026 12:10]

Zou die ook door Qwen3.5 of Gemma4 vervangen kunnen worden in de flow als vision model, of door een Yolo combinatie?
Vermoedelijk wel, al heb ik de code er niet op nagekeken. Maar in de code kan je lezen wat er verwacht wordt als "output" van de Gemini-call, dus zolang je andere model dezelfde output geeft, zou het moeten lukken.

Let wel dat het model een video-analyse moet doen, en niet louter een stilstaande afbeelding. (Elke frame apart zal minder goed werken dan een model dat een hele video kan bekijken.)
Staat in hun eigen paper :)
Zodat jij kan communiceren met een AI, zal er áltijd een LLM ertussen zitten.
Hoeft niet, kan ook een ASR of S2S interface zijn of gewoon een plaatje waar je wat omcirkelt of een video waar je gebaren op laat zien, etc.

[Reactie gewijzigd door djwice op 5 april 2026 17:08]

Ik heb wat info toegevoegd, bedankt!
Hey, wat leuk die verwijzing haha!
Je hebt daar een videokaart voor nodig die ver boven mijn budget gaat, ik zal er niet mee kunnen gaan spelen helaas maar wel nice dat het kan en er zullen vast straks wel alternatieven komen die minder resource vragen hopelijk
24GB geheugen eis is best klein voor een video model.
Theoretisch zou je ook voor een uurtje een videokaart kunnen huren bij een cloud provider als AWS of Azure of bij nvidia bijvoorbeeld.

[Reactie gewijzigd door djwice op 5 april 2026 17:10]

Had Netflix niet afgelopen maand de AI-startup InterPositive van Ben Affleck overgenomen voor iets van 600 miljoen dollar?

Wat dat niet iets soortgelijks?
Volgende maand: "Netflix slaat prijzen op: gemiddeld 2 euro per maand duurder"
Het is geen eerste levensbehoefte dus als het te duur wordt kunnen mensen het gewoon opzeggen. Zo werkt de markt. Maar als niemand wegloopt zal ieder bedrijf kijken hoe ver de inkomsten omhoog kunnen.

[Reactie gewijzigd door R_Zwart op 5 april 2026 11:50]

Na de miljarden die het ontvangt van Paramount? ;)
Alsof dat ze zou tegenhouden.
Naast games spelen kun je nu ookop Netflix de leeftijdsclassificatie aanpassen, AI past de scènes aan.

Het leukste zijn de horror films aangepast naar 3 jarigen. Een groot elkaar met ketchup bespuiten en met doperwten bespuug festijn.

Zit het hoofd Persson net rustig op de bank Télétubbies te kijken sluipt de buurjongen binnen en gelach op de achtergrond, piano voetstapjes van een trippelende muis en pffff, helemaal onder. Met lach track er bij en giegelende ontvanger die onteigend terug kijkt.

[Reactie gewijzigd door djwice op 5 april 2026 17:54]

"Als zelfs de schoenenpoetser beursadviezen geeft dan weet je dat je in een bubbel leeft."
Mijn indruk is dat NetFlix best wat ervaring heeft met video editing. En bijvoorbeeld ook in het verwijderen van object interacties die in de huidige tijd onwenselijk zijn.

Bijvoorbeeld iemand die gepest wordt in een film scène op een manier die vroeger "gewoon" was maar niets toevoegt in het verhaal.
Maar het wel een "verplaatsmoment" in de film is dus dat het niet weggelaten kan worden.
In dat geval wil je de scène behouden maar de pesters en de interactie daarmee verwijderen uit de scène.

Of je wil het bereik van een film vergroten door de leeftijd classificatie te verlagen, door bij een geweldige scène de tegenstander of een voorwerp te verwijderen of te vervangen krijgt het verhaal een andere wending.
(Vervang de glazen fles door een half opgeblazen opblaas knots bijvoorbeeld, piep geluidje er onder bij impact en je hebt een totaal andere beleving)

[Reactie gewijzigd door djwice op 5 april 2026 17:45]

Bijvoorbeeld iemand die gepest wordt in een film scène op een manier die vroeger "gewoon" was maar niets toevoegt in het verhaal.
Maar het wel een "verplaatsmoment" in de film is dus dat het niet weggelaten kan worden.
In dat geval wil je de scène behouden maar de pesters en de interactie daarmee verwijderen uit de scène.
For the love of god, dit is serieus een waarschijnlijke toekomst ja... Ik ga mijn NAS uitbreiden en nóg meer origineel materiaal veiligstellen. Bedankt voor de waarschuwing.
What if. We don’t use what if.

Is een emotieloos ding; remove the right car, remove the blocks
Met deze tool kun je de personen die jij kent met die opvattingen verwijderen uit de film alsof ze er nooit in zaten.
Uiteraard wordt het van je verwacht een verklaring of tip af te geven aan de politie als jij waarneemt dat mensen die jij kent zich inhumaan gedragen jegens andere mensen.

[Reactie gewijzigd door djwice op 5 april 2026 17:33]


Om te kunnen reageren moet je ingelogd zijn