Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Nvidia toont deeplearningmethode om 30fps-beeld in slowmotionvideo om te zetten

Onderzoekers van Nvidia hebben een methode ontwikkeld om neurale netwerken in te zetten voor de interpolatie van videobeelden. Daarmee is het mogelijk om een standaardopname in bijvoorbeeld 30fps om te zetten in een slowmotionvideo van bijvoorbeeld 240 of 480fps.

Nvidia schrijft dat het al wel mogelijk is om beelden met een hoge framedichtheid op te nemen, maar dat dit in veel situaties onpraktisch is. Met de deeplearningmethode, genaamd Super SloMo, zou het mogelijk zijn om alsnog een slowmotioneffect toe te voegen aan een bestaande standaardopname, bijvoorbeeld van 30fps. De onderzoekers claimen dat hun methode te gebruiken is om een willekeurig aantal frames tussen twee bestaande frames te genereren.

In de paper, die deze week wordt gepresenteerd op een conferentie in de VS, schrijven de onderzoekers dat ze een neuraal netwerk inzetten om de inhoud van een frame tussen twee andere frames te voorspellen. Daarbij voorspelt één netwerk, een cnn, de beweging tussen twee frames, terwijl een tweede netwerk wordt ingezet om artefacten te verminderen.

Het trainen van hun model vond plaats aan de hand van ongeveer 11.000 YouTube-video's op 240fps, waarbij het model zeven tussenliggende frames moest voorspellen. De onderzoekers stellen dat hun methode beter presteerde dan andere bestaande varianten. Ze tonen onder meer beelden van het YouTube-kanaal The Slow Mo Guys, die ze vervolgens verder hebben vertraagd.

Het onderzoek van Nvidia staat niet op zichzelf, zo zijn er ook andere mogelijkheden om bestaande video's achteraf te vertragen, zoals Twixtor.

Door Sander van Voorst

Nieuwsredacteur

18-06-2018 • 16:42

68 Linkedin Google+

Reacties (68)

Wijzig sortering
Wat ik mis (zeker bij de ballon opname) is de vergelijking met een echte slomo opname.
Veel van die bewegingen hebben blijkbaar "rare" effecten die niet gezien worden met een normale opname.
Deze slomo vertaal ik meer als "normale interpolatie" Maar de verloren rare bewegingen die gaan onherroepelijk verloren.
Ik mis nog het filmpje waarbij 30fps met interpolatie naar 240fps vergeleken wordt met een echte 240fps opname.
Nu is het maar giswerk of de interpolatie juist is geweest.
agreed, en ik had graag ook een vergelijking gezien met standaard optical flow.
https://www.youtube.com/watch?v=ajPY3Ppo7E4
vanaf 0:22 kan je een goede optical flow implementatie zien tegenover frame blending en gewoon frame sampling (geen interpolatie)

Het tweede filmpje met hockey laat ook flinke interpolatie fouten zien,
oa op zijn handschoen op de goal, en op zijn rug waar de schaal passeert een paar seconden later.

er is ook geen compensatie voor motion blur, maargoed dat is niet zo'n issue imho,
overall nog steeds best indrukwekkende resultaten! en leuk project :)

[Reactie gewijzigd door freaq op 18 juni 2018 20:45]

Ik vind dat twixtor dat vele malen beter doet, heb zelfs een keer geprobeert 1 seconde maar ongeveer een uur te verslomen, dit was in een zwembad en werkte zeer goed.
Zie dat effect niet terug in deze filmpjes
Slomo gebruik je natuurlijk ook veel om gedetailleerd te kunnen zien hoe een bepaalde beweging werkt. Als je daar beelden bij verzint, is het voor het filmische effect wel gaaf, maar voor onderzoek onbruikbaar, lijkt me.
Precies wat je hier zegt. Dat viel me bij die dansende vrouw ook op. Als dat een echte slomo opname zou zijn, zouden haar handen bijvoorbeeld erg scherp zijn. Nu was het een motion blurred hand.

Des al niet te min blijft het een gave ontwikkeling.
Realiteit is dat grootste gedeelte van het Slomo werk wordt gebruikt voor filmische effecten en niet voor onderzoek, dus een goede methode om wat langer met de opslag en de batterij van je gopro te doen
Bron? Statistieken? Het grootste gedeelte van de slomo opnames die *jij* ziet zijn misschien als entertainment bedoeld, maar dat wil nog niet zeggen dat slow-motion niet ook ingezet wordt in wetenschappelijk onderzoek. Dat zien wij dan gewoon niet.

Wil ook niet zeggen dat het wel zo is. Ik zuig dit net zo goed uit m'n duim.
Ok, bij zo'n stelling verwacht is dan toch een onderbouwde argumentatie waarom er een andere deel dan een minderheid wetenschappelijk gebruikt wordt. Is het aantal wetenschappers enorm gegroeid ? Zijn alle ski/surf/motor gopro eigenaars ineens proefjes op zolder gaan doen? Het is bijzonder aannemelijk dat mij stelling klopt, wat maakt dat jij jouw stelling eerst aannemelijk moet maken voordat je mijne ter discussie kunt stellen
Zo werkt het niet. *Jij* claimt letterlijk:
Realiteit is dat grootste gedeelte van het Slomo werk wordt gebruikt voor filmische effecten en niet voor onderzoek
Ik vraag daar een bron bij omdat ik dit niet evident vind. Ik beargumenteer dat slomo opnames voor wetenschappelijk onderzoek misschien gewoon minder zichtbaar zijn en dat het daardoor *lijkt* dat slomo meer ingezet wordt voor entertainment. Dat is de onderbouwing voor mijn twijfel. Ik claim echter niet dat het zo is (dat zeg ik zelfs letterlijk in mijn laatste zin), dus ik hoef daar ook geen bewijzen voor te leveren.
Ok, je zuigt het uit je duim en twijfelt of stiekem niet de halve wereld wetenschappelijk onderzoek doet. Prima, jij mag daaraan twijfelen
sure maar als jij wetenschappelijk onderzoek gaat doen dan ga je geode instrumenten gebruiken, en ja dan heb je hier gewoon niks aan, maatja zonder deze techniek had je ook geen slomo beeld.
ok prima toch?
Absoluut! Deze techniek lijkt me niet zo zinvol bij wetenschappelijk onderzoek. @arjandijk162 zegt echter dat het grootste gedeelte van de slomo opnames voor entertainment zijn dus dat dat niet belangrijk is (in reactie op @Jorgen's opmerking dat dit voor onderzoek niet nuttig is). Zijn claim wordt niet onderbouwd met bronnen en/of statistieken, vandaar mijn vraag daarna.
Andersom krijg je ook een effect. Het mooie van de filmpjes van de slow mo guys is dat ze weergeven wat er daadwerkelijk is gebeurd. Echter wanneer anderen dit ook gaan doen maar dan met deze techniek. Kan het gaan voorkomen dat de AI effecten toevoegd die in werkelijkheid niet hebben plaats gevonden. Kijkers kunnen deze effecten wel interpreteren als werkelijk maar niet met het blote oog zichtbaar.
Wat je zegt klopt er kan namelijk in echt video met zeg 240fps effecten en details zitten die net niet op de 30 fps beelden staan. Dan krijg je idd afwijkingen.

Neem niet weg dat deze techniek bij leuk is voor sportopnamen. Echt bal vertraagd het doel in zien gaan met origineel op 30 fps en dan on the fly naar 120 fps
Neem niet weg dat deze techniek bij leuk is voor sportopnamen. Echt bal vertraagd het doel in zien gaan met origineel op 30 fps en dan on the fly naar 120 fps
Dat zijn nu net de praktijken waar deze techniek ver weg moet blijven. Krijgen we straks een video-scheidsrechter, wordt die weer overtroffen doordat de media er met deze techniek beelden bij gaat verzinnen. Wordt leuk als in een finale WK een bal op de paal gaat en deze techniek vind dat er 1 frame tussen moet waarbij de bal over de doellijn gaat :)
Dat is wel heel ver gezocht en niet van toepassing aangezien het blijft bij interpoleren. Dus als tussen twee beelden geïnterpoleerd word, waarbij in die beelden de bal niet over de lijn gaat, zal in de intergepoleerde beelden de bal ook niet over de lijn gaan. Wat jij beschrijft komt voor bij extrapoleren.
Dus als je na een aantal beelden een volgende beeld gaat verzinnen zonder te weten wat het echte beeld daarna zal zijn.
Dat is hier niet het geval. Je gaat hier interpoleren tussen twee beelden en niet voorspellen/extrapoleren.

Met interpoleren mis je detail, maar er word geen data toegevoegd. Het zou eerder andersom kunnen zijn, dat in werkelijkheid de bal over de lijn gaat, maar niet te zien in op de echte beelden, en dus ook niet op geinterpoleerde beelden. Terwijl je dat wel zou kunnen zien op echte highspeed opnames.

[Reactie gewijzigd door gjmi op 18 juni 2018 23:34]

Tussen de frames in zou er zelfs een virtueel voetbal/antivoetbal-paar kunnen ontstaan die elkaar annihileren. Heisenberg draait zich om in z'n graf...
En zo kun je alles in het belachelijke trekken.

Voor vermaak van voetbal kijken zijn het mooi toepassingen.Als je ze als scheidsrechter wil gebruiken gebruik je lever hoge fps camera of doellijn camera's die daar speciaal staan.
Als het neural network video's heeft gezien van ballonnen die uit elkaar spatten leert het als het goed is die bewegingen na te bootsen. Net als het plooien van de stof van de ballerina. Het komt waarschijnlijk niet exact overeen met hoe het in het echt is gegaan maar met wat het netwerk eerder heeft geleerd.

Dat gezegd hebbende, ik ben zeer benieuwd of die theorie in deze praktijk ook zo op gaat!
De ballon opname is al een slow-motion opname. Dus die vergelijking is makkelijk te maken.

Daarnaast wordt er altijd informatie overgeslagen bij het maken van een opname, slow-motion of niet. Immers zou je altijd nóg meer frames in een seconden kunnen proppen om meer detail in momentopnames te krijgen. Waar trek je dan de lijn?

Waar het hier om gaat is het vertragen van bestaande opnames om zo tot nieuwe bevindingen te komen doordat het beeldmateriaal rustiger geanalyseerd kan worden zonder stotterende beelden.
Klopt.

Dit is leuk voor herhalingen bij sportopnames, waarbij je weet wat er gebeurt maar het gewoon even trager wil zien om er van te genieten, maar niet voor echte slomo opnames die je maakt om, zoals jij het zegt, een fenomeen waar te nemen dat normaal niet zichtbaar is.
en wat ik mis is de vergelijking met bestaande algorithmes zoals die bv in adobe premiere zitten. Ergens zo tegen het einde in onderstaande tutorial kan je zien wat optical flow doet als je de snelheid reduceert tot 3% van het origineel.

https://helpx.adobe.com/p...cx.js?ref=helpx.adobe.com
Ik zou het interessanter vinden als ze het voor elkaar krijgen om 30fps te laten "voelen" als 60fps in games (zoals TV's dat tegenwoordig doen met frame interpolation), ten koste van een kleine input latency ofzo.

Uiteraard is deze ontwikkeling (slo-mo) ook erg interessant, en ik ben benieuwd waar ze heen gaan met deze technologie.
Oculus asynchronous timewarp doet dat om VR op 90 fps te krijgen. Daarvoor overigens als meerdere keren in ander research gedaan. Maar dat werkt meestal met 3d pixels, motion fields en reprojection ("image warping"). Dit is wel interessant met AI, hoewel ik denk te traag om in <10ms per frame te doen.
Als je motion vectors al hebt is het een koud kunstje om de tussenliggende frames uit te rekenen. Bij VR/games is dit heel goed te doen, bij video is dit moeilijker. Killzone 2 deed dit ook, meer uitleg over de techniek hier : http://www.klemenlozar.co...ding-with-motion-vectors/ Je zou makkelijk op 30fps kunnen renderen en interpoleren naar 60fps. Of op een lage resolutie renderen en door image warping toch het idee kunnen geven van 4K of zo.

Probleem is alleen als de stappen te groot worden, je moet alpha blenden of andere rare edge cases hebt. Je zit namelijk nog steeds in 2d te kutten ipv 3d dus je mist echt informatie die je misschien nodig hebt. Als er half transparante rook is gaat bijna elke techniek onderuit.
Als je motion vectors al hebt is het een koud kunstje om de tussenliggende frames uit te rekenen
Valt nog wel tegen, je hebt veel cases van missende informatie vooral door occlusie en je wilt geen storende artifacts. En het moet nog snel genoeg en in parallel met je gewone rendering. Toendertijd was dit best tricky. Heb op dit onderwerp een jaar of 10 terug m'n phd gedaan en was wel verbaasd te zien jaren later ineens nog door facebook geciteerd te worden :)
In hun paper (https://arxiv.org/pdf/1712.00080.pdf) is te zien dat ze een fors netwerk met veel variabelen gebruiken om de fps te verhogen. Ik verwacht dat je een flinke GPU nodig hebt om dat met 30 fps te kunnen laten draaien.
Als het eenmaal getraind is heb je veel minder krachtige gpu nodig om het model te gebruiken. Kan de paper niet bekijken atm dus weet niet of je het over de training zelf hebt of daarna.
Inderdaad, voor het trainen van zo'n netwerk heb je een krachtige GPU nodig. Bij een zeer vergelijkbaar netwerk zeggen ze "...has a very reasonable training time of only 10 hours on a NVidia Titan GPU (6 GB)." (https://arxiv.org/pdf/1505.04597.pdf)

Maar ook om een neuraal netwerk als deze te kunnen uitvoeren is best wel wat rekenkracht nodig. Dit netwerk heeft grofweg 30 miljoen variabelen. Als ik de techniek goed begrijp (correct me if I'm wrong) moeten die allemaal één keer worden gebruikt per pixel. Dus voor full-HD moet er nogal wat werk worden verzet.
mijn smart TV heeft ook geen "flinke GPU" dus zo veel rekenkracht kost dat niet :p
Als tv-fabrikanten deze techniek/algoritme zouden toepassen bij frame interpolatie, dan zouden er - in theorie - sprake zijn van minder hinderlijke beeldartefacten.
Compleet niet mee eens.
Als je goed kijkt dan zie je best wel veel artefacten.
Stel je dan voor dat je een film interpoleert naar 2x de framerate.
Je hebt dan telkens een frame die je werkelijk had (dus 'iperfect' beeld zonder artefacten), gevolgd door een frame met interpolatieartefacten, etc.
Je krijgt dan een reeks beeld waarbij juist de artefacten gaan stotteren en dus extra zichtbaar worden.

Je kunt dit enigzins verhelpen door naar 4x te interpoleren, maar dan heb je dus telkens 3 frames met interpolatieartefacten en 1x een goed beeld. Dit zal mischien minder stotteren dan het vorige voorbeeld alleen heb je hier dan voor 75% van de tijd een artefact in beeld.

Ik denk dus niet dat het al te spectaculair gaat zijn voor dit soort toepassingen.
Dit is vergelijkbaar met wat tv fabrikanten doen alleen nu op krachtigere hardware. Dus mogelijk sat minder artifacts en hogere fps. Al heb ik toch al wat artifacts gezien in het voorbeeld filmpje.

Ik gebruik zelf maar hele lage motion settings op mijn Sony TV ( custom: level 3 met low interpolation) dat is meer 30 fps achtig als je 30 content kijkt zodat je niet te veel last hebt van het soap opera effect. Echter heb je zelfs dan af en toe nog artifacts maar dat is gelukkig zelden zo bij specifieke scenario's.
Alleen zit niet iedereen te wachten op een 250+ watt extra in een tv. En heb ik het nog niet over het lawaai van de fans die de boel moeten koelen, en over de extra aanschafkosten.
is dit ooit uitgegeven als een legit programma? ik kan er zo niks op vinden.
Ziet er wel interessant uit.
Het lijkt me dat ze beelden genereren tussen bestaande frames in. Je werkt van frame A naar frame B toe. Bij games weet je nog niet wat frame B is. Dus het algoritme zou moeten voorspellen wat er in de toekomst gebeurt. Dat is niet wat heer getoond word.

Dit soort realtime video is daarom ook heel lastig te comprimeren, voor game-streaming en remote-destop doeleinden bet een punt.
G-Sync of Freesync dus?
Niet helemaal hetzelfde, maar het komt toch zeer dicht bij met geringe input lag.
Helemaal niet hetzelfde eigenlijk...
Adaptive sync technieken zorgen er voor dat je geen timing problemen krijgt met frames die net op een iets anders tijdstip getoond worden dan waar de GPU het voor berekend had. Het doet helemaal niks om werkelijk meer frames te tonen (sterker nog, het toont eigenlijk minder frames, als je GPU minder dan 60 beeldjes per seconde uit spuugt).
Ik heb zelf een G-sync monitor, maar als ik dan op 30fps speel is dit gewoon 30fps, het voelt niet aan als 60 zoals mijn TV dat doet met mijn ps4 games.
Met gsync doen ze dat toch al een beetje?
Deze techniek kan waarschijnlijk niet realtime gedraaid worden en zeker niet binnen een redelijke hoeveelheid resources. Dus die zit er voorlopig zeker niet in.
Ik denk niet dat de bedoeling van deze technologie is om een nauwkeurig en waarheidsgetrouw resultaat te geven, maar meer om bestaande videos vloeiender te maken, en daarmee prettiger om te kijken. Het kan ook gebruikt worden om bijvoorbeeld spellen die op 30 fps draaien veel mooier weer te geven. Een soort van super motion blur.
eigenlijk is het juist geen motion blur. De truuk is om de tussenliggende beelden zo plausible mogelijk uit te rekenen alsof het ook scherpe beelden zijn.
Ik begrijp alle bovenstaande kritieken ook niet helemaal. Lijkt me niet dat dit als doel heeft om beelden juist nog meer te gaan vertragen. Maar het kan wel degelijk helpen als je die 4x vertraging weer terugbrengt naar de "originele vertraging" en je een veel vloeiender beeld hebt dan dat gestotter.
Vind dit totaal niet indrukwekkend. Het resultaat ziet er niet veel beter uit dan een simpele interpolatie.
Hier sluit ik me bij aan... er is geen detail toegevoegd (duh) dus je hebt er weinig aan.

Maar oh wat zal het lekker verkopen in de nieuwe Samsung TV, met extra clearmotion(tm) technologie voor slowmotion terugkijken van je tv! Tot wel 2400fps!

[Reactie gewijzigd door Gamebuster op 18 juni 2018 17:09]

Er is wel detail toegevoegd. Alleen dat detail is toegevoegd in de tijd, niet in het beeld. Dat zijn weer andere interpolatietechnieken.
Als je alleen in de tijd en niet in het beeld detail toevoegt krijg je gewoon elke frame 8x.
Moet uiteindelijk zien hoe het in de werkelijkheid gaat werken, maar dit kan heel handig zijn voor meerdere dingen. Zo kan je met niet al te hoge specs goed games spelen. Ook kan je met een relatief slechte camera (met lage framerates) toch veel op een kleine opslag stoppen, naar wel de volledige vrijheid hebben qua snelheid en slomotion. Als het echt goed gaat werken kan dit je heel veel geld besparen.
Misschien ook een interessante manier van compressie. Als je een kwart van de frames kunt weglaten, heb je dus 25% kleindere files. Daar wordt youtube wel blij van
Mooi, ziet er best goed uit. Ik vind het wel jammer dat er geen duidelijke vergelijking van prestaties is met echte high-speed-camerabeelden. Dat zou echt een beeld geven van hoe goed het werkt.
Vind je? Het hangt van de artifacts aan elkaar :|
Het hangt erg van het bronmateriaal af, maar bv het water bij die auto, of de jurk bij die spinnende ballerina, dat ziet er gewoon slecht uit...
Het water kon ik erg slecht zien (klein scherm). Die jurk valt me inderdaad op dat het erg slecht was, daarom zou ik ook juist de vergelijking met echt high-speed materiaal willen zien. Dan zou je echt de achterstand kunnen zien.
het is niet al te goed te merken als je er niet naar kijkt, maar als je dat wel doet, dan is het erg duidelijk. het haar bij de balletdanseres is een goed voorbeeld. je kunt zien dat bepaalde frames "computer generated" zijn. verder is het wel indrukwekkend
Leuk! Ik ben benieuwd wanneer we dit soort technieken in video editing tools gaan terugzien. Hoe goed het werkt zal wel afhangen van de snelheid van beweging t.o.v. de beeld frequentie, zou ik denken.
Is er al heel lang, waarschijnlijk langer dan sommige tweakers hier oud zijn.
En het word ook genoemd , twixtor , een professionele plug in voor adobe.
Naar mijn mening doet twixtor het ook beter dan wat ik hier zie in de videos

Op dit item kan niet meer gereageerd worden.


Call of Duty: Black Ops 4 HTC U12+ dual sim LG W7 Google Pixel 3 XL OnePlus 6 Battlefield V Samsung Galaxy S9 Dual Sim Google Pixel 3

Tweakers vormt samen met Tweakers Elect, Hardware.Info, Autotrack, Nationale Vacaturebank en Intermediair de Persgroep Online Services B.V.
Alle rechten voorbehouden © 1998 - 2018 Hosting door True