Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 78 reacties

Wetenschappers van MIT, Microsoft en Adobe hebben een manier ontwikkeld om geluid te achterhalen uit een videofragment zonder audio. Zij gebruiken daarvoor een algoritme dat kijkt naar bewegingen van objecten, geïnduceerd door geluidsgolven.

Het algoritme kan aan de hand van vibraties van een object dat op beeld is vastgelegd, audio reconstrueren. Die bewegingen ontstaan door geluidsgolven en zijn, afhankelijk van het geluid, eenvoudig of lastiger waar te nemen. Omdat het hierbij soms om bewegingen van een tiende van een micrometer ging, gebruikten de onderzoekers in de meeste gevallen camera's die beelden tot 6.000fps konden schieten.

Met het algoritme waren de wetenschappers in staat om het geluid uit een kamer te achterhalen, terwijl de videocamera buiten achter geluiddicht glas stond. Zij analyseerden daarvoor de bewegingen van een zak met chips die op het beeld zichtbaar waren. In andere experimenten wisten de onderzoekers het geluid op te vangen door enkel naar de bewegingen van aluminiumfolie, gras, water en een plant te kijken, zo meldde MIT News maandag.

Hoewel bij de meeste experimenten een hogesnelheidscamera werd gebruikt, kregen de wetenschappers het ook voor elkaar om met een reguliere filmcamera met 60fps geluid te achterhalen. In dit geval was het geluid minder duidelijk, maar was het wel mogelijk om te achterhalen of iemand iets zei. Afhankelijk van de akoestiek van de ruimte kon er zelfs iets worden gezegd over de identiteit van de spreker, zeggen de onderzoekers.

Doordat naar de reconstructie van audio in stille videobeelden weinig onderzoek is gedaan, zijn de precieze gevolgen van deze methode nog niet bekend. Volgens één wetenschapper is het hiermee mogelijk om materialen beter op geluid af te stemmen, omdat het algoritme nauwkeurigere inzichten biedt. Een ander zegt dat het met deze methode ook mogelijk is om later misdaden op te lossen die nooit op beeld zijn vastgelegd. Zo kan bijvoorbeeld aan de hand van de bewegingen van een zak chips worden achterhaald of een vermeende moordenaar op dat moment in de ruimte was.

MIT, Microsoft en Adobe presenteren de uiteindelijke resultaten van het onderzoek in een gezamenlijk paper. Ook zullen ze hun onderzoeksresultaten binnenkort presenteren op de Siggraph-conferentie.

Moderatie-faq Wijzig weergave

Reacties (78)

Voor iedereen die denkt dat ze dus 6000 FPS nodig hebben, bekijk even het filmpje volledig want met 60fps kunnen ze ook enorm indrukwekkende dingen, moet het wel een close-up van een object zijn denk ik zo ).

Ik ben benieuwd wat hier eventueel mee bereikt kan worden met beelden van een recente film gezien de resolutie enorm is (4k+) en de FPS ook hoog ligt (denk ik zo).
Met 6000FPS is het natuurlijk wel een stuk makkelijker. Dan kan je naar de intensiteits variatie op één punt (pixel) kijken, en die direct omzetten naar 6000Hz -> 6kHz geluid. En eventueel middelen over een wat groter gebiedje.

Bij 60FPS en 6000Hz gelud krijg je van één punt alleen maar aliasing effecten dus kan je nooit achterhalen wat de frequentie was.

Maar je heb het voordeel dat geluid met 343m/s per seconde voorplant. Dus stel dat een object filmt van 1 meter, en het geluid van links kom en je naar verschillende punten van links naar rechts op hetobject kijkt Dan zie je in één shot eigenlijk een geluids-fragement 3ms. Maar dan nog heb je 330fps nodig om de hele geluidsgolf te zien zoals in een Wav betand. Gelukkig is geluid vaak continue en kan je een ontbrekende fragement makkelijk interpoleren uit bekende fragmenten.
Bij een samplerate van 6000 Hz, kan je alleen frequenties lager dan 3000 Hz zonder aliassing reconstrueren.

https://en.wikipedia.org/wiki/Nyquist_frequency
Ligt eraan of de film met een CMOS of CCD is opgenomen. CCD heeft namelijk geen rolling shutter effect in tegenstelling tot CMOS chips.

Door rolling shutter heb je meer dan 60 samples per seconde. Je hebt nog altijd de Neyquist frequentie waar je rekening mee moet houden.

https://en.wikipedia.org/wiki/Nyquist_frequency
Omdat het hierbij soms om bewegingen van een tiende van een micrometer ging, gebruikten de onderzoekers in de meeste gevallen camera's die beelden tot 6.000fps konden schieten.
De amplitude van de beweging heeft niks te maken met de fps van de opnamen. Een micrometer verplaatsing kun je vastleggen met 2 frames per uur als het moet. Je neemt gewoon een foto voor en na de verplaatsing.

Wat WEL belangrijk is, is sampling rate en resolutie. Resolutie omdat je anders de beweging niet kan waarnemen, en sample rate omdat je anders de trillingen niet kan reconstrueren uit je opnames.

Dit idee is btw al erg oud, tijdens de jaren 80 waren er al technieken om trillingen in ramen te monitoren (via simpele laser reflectie) en zo te reconstrueren welk geluid er rondom het raam was. De daadwerkelijke uitvoering en berekening was wat ingewikkeld voor die tijd.
Ik kan me een heel oud artikel herinneren, volgens mij in de Kijk of zo, zal misschien ook jaren 80 geweest zijn. Het ging over handgemaakte stenen vazen en potten. Die werden gemaakt door met een puntvormig stuk hout de vorm van de vaas te 'frezen'. Omdat die 'naald' van boven naar beneden, of andersom, bewoog kreeg je een groevenpatroon zoals bij een grammofoonplaat. Geluid dat tijdens het maken van de vaas klonk veroorzaakte kleine trillingen in de naald en die werden dus vastgelegd in het groevenpatroon. Zo kon je dus geluid uit het verre verleden (voordat microfoons of zelfs camera's bestonden) toch achterhalen. Ik weet helaas niet meer of het slechts een theorie was of dat ze dit echt gedaan hebben.
Klopt, dat was een artikel in de Zo Zit Dat (ik meen 1994).
Dat was gebaseerd op een theorie, waarbij later de nodige vraagtekens werden gezet.

Hier een leuk stukje:
http://www.theepochtimes....ound-recorders-46622.html

Hier de 'busted' variant:
http://www.discovery.com/...recorded-into-pottery.htm
In de video wordt gesproken over bewegingen kleiner dan 1/100 pixel. In het artikel gaat het zelfs om bewegingen kleiner dan 5/1000 pixel. Hoe is het dan mogelijk om daar informatie uit te halen? Dat kan door te kijken naar de kleurveranderingen van een pixel over een bepaalde periode.
Suppose, for instance, that an image has a clear boundary between two regions: Everything on one side of the boundary is blue; everything on the other is red. But at the boundary itself, the camera’s sensor receives both red and blue light, so it averages them out to produce purple. If, over successive frames of video, the blue region encroaches into the red region — even less than the width of a pixel — the purple will grow slightly bluer. That color shift contains information about the degree of encroachment.
Bovendien wordt er een gerelateerd algoritme toegepast waarmee minuscule visuele veranderingen kunnen worden versterkt. Zo kan bijvoorbeeld zonder fysiek contact de hartslag van een baby worden gemeten. http://newsoffice.mit.edu...ying-invisible-video-0622

[Reactie gewijzigd door Perkunas op 4 augustus 2014 22:47]

Dus in principe kun je gewoon alle pixelwaarden bij elkaar optellen die met elkaar in fase bewegen, en degenen die in anti-fase bewegen ervan aftrekken, en dit door een versterker gooien (*). Of is dit te kort door de bocht?

Edit: (*) Uiteraard de DC component en andere ongewenste frequenties eerst wegfilteren.

[Reactie gewijzigd door twop op 4 augustus 2014 23:28]

Ze kijken naar de bewegingen van de kleurovergangen van een object. Wanneer een object wordt geraakt door geluidsgolven, kunnen de kleurovergangen ervan in verschillende richtingen bewegen. Het algoritme moet er voor zorgen dat die bewegingen elkaar niet uitdoven.

Ook wordt er rekening gehouden met de eigenschappen van de kleurovergangen. Wanneer het kleurverschil groot is krijgt het een hoger gewicht binnen het algoritme.

[Reactie gewijzigd door Perkunas op 4 augustus 2014 23:54]

Mijn vraag was eigenlijk meer waarom mijn aanpak niet gewoon ook zou kunnen werken.
Iets zegt me dat geheime diensten dit al lang weten. Het doet denken aan het scannen van de bewegingen van een raam met een laserstraal en dat omzetten in geluid. Dit is gewoon de volgende stap.
Waarschijnlijk is er een bepaald materiaal ideaal voor het afluisteren van spraak.
Wat doen we hierna? De luchtdrukvariaties zelf meten?
Een prachtige benadering om iets hoorbaar te maken, mooi werk.

half on topic:
Misschien een idee om bewakingscamera´s met microfoons uit te rusten? Ik weet dat die er zijn en ook camera´s die ¨ aan slaan ¨ bij bijvoorbeeld schreeuwen op straat. Maar geluid is zeker zo belangrijk als video, dus waarom hebben de reguliere bewakingscamera´s geen geluidsopnamens...

[Reactie gewijzigd door kritischelezer op 4 augustus 2014 22:35]

Het probleem met geluid is dat het niet ver reikt in tegenstelling tot licht en dus beeld.

Iedereen zit hier met bewakingscamera's in zijn hoofd en de NSA. Geen van beide heeft hier echt wat aan. Bewakingscamera's zijn doorgaans slechte kwaliteit en nemen vaak maar 1 frame per seconde of zelfs minder op. En als de NSA wilt meeluisteren zetten ze gewoon de microfoon van je gsm aan, veel simpeler en veel betere kwaliteit. En als je uit beeld loopt is het geen probleem.

En als men vanop afstand een gesprek wilt afluisteren van een kamer is een laser op de venster richten een betere en al lang op punt gezette techniek. Het bestaat immers al sinds 1947...
En als men geen vensters heeft en men weert alle mobieltjes dan zullen ze ook wel geen camera's toelaten.

Desondanks is dit een fantastische techniek, niet voor de NSA maar eerder voor de NASA.
Wie hangt een highspeed camera aan een goede telescoop? Even live luisteren naar de maan? Of toch is goed horen of er geen marsmannetjes aan het fluisteren zijn op Mars?

En dat is waarom deze techniek fantastisch is, het laat ons geluid opnemen op grootte afstand zonder dat er een venster voor moet zitten.
Met de zinlozekwaliteit die je af en toe ziet is dat hard nodig.
Geluidopname in combinatie met beelden, lijkt me schending van de privacy.
Jammer, dacht toen ik de titel las dat het om geluid bij "stomme films" zou gaan. Dit is ook mooi, maar ben benieuwd wat de praktijk straks gaat brengen. Zolang je 6000 fps video nodig hebt om 60 fps audio te kunnen genereren zal het nog lang duren voordat je geluid bij al die video's van bewakingscamera's kan reconstrueren.
Zolang je 6000 fps video nodig hebt om 60 fps audio te kunnen genereren
Dat klopt niet en 60 "fps" audio zou verschrikkelijk slecht klinken. Digitale audio heeft meestal 44.100 of 48.000 "fps". Dit wordt de sampling rate genoemd.
Ze kunnen uit video van 60fps veel hogere frequenties oppikken door van de rolling shutter (het feit dat de sensor lijn voor lijn afgelezen wordt) gebruik te maken. Hierbij is de kwaliteit wel lager, maar het werkt.
Hoewel bij de meeste experimenten een hogesnelheidscamera werd gebruikt, kregen de wetenschappers het ook voor elkaar om met een reguliere filmcamera met 60fps geluid te achterhalen. In dit geval was het geluid minder duidelijk, maar was het wel mogelijk om te achterhalen of iemand iets zei. Afhankelijk van de akoestiek van de ruimte kon er zelfs iets worden gezegd over de identiteit van de spreker, zeggen de onderzoekers.
Aldus het artikel.

[Reactie gewijzigd door Aham brahmasmi op 4 augustus 2014 22:14]

Oops, dat had ik dus niet goed gelezen. Ik zal wel weer veel te gehaast geweest zijn.
om nog maar te zwijgen over de benodigde computerkracht...
Alvast een leuk experimentje, hopelijk vloeit er nu nog iets praktisch uit voort...
Doet me denken aan de film "Eagle eye" hoe ARIIA in feite geluid opvangt door trillingen in een kop koffie (o.i.d)
Toen ik de eerste opnamen hoorde moest ik eigenlijk direct denken aan de allereerste en oudste opnamen die zijn gemaakt door Édouard-Léon Scott de Martinville rond 1860 op een fonograaf, zie het Wiki-artikel voor de geluidsfragmenten. De opnamen in het filmpje zijn niet heel goed te verstaan, maar je kunt het er wel in herkennen. Als ik dat vergelijk met de eerste fonograaf-opnames en de tijd die er overheen ging om te komen waar we nu staan, dan verwacht ik dat de techniek gepresenteerd in het filmpje met de tijd vast nog veel betere en verstaanbaarder geluid kan reconstrueren.

Wat ik me trouwens afvraag, als men nu geluid kan reconstrueren door een onderwerp te filmen, wat is dan alle ruis die je door de geluiden heen hoort? Is dat omgevingsgeluid en/of andere geluiden die dus ook op de onderwerpen trillen? Of is het ruis die ontstaat door het algoritme dat erachter zit?

Er was blijkbaar wel in het verleden al een techniek die ongeveer hetzelfde idee gebruikte maar dan d.m.v. lasers, een zogenaamde Laser microfoon. En bij de lasermicrofoon lees ik dat er mogelijk zelfs op de ramen van het Witte Huis vroeger een soort vibrators zaten om te zorgen dat er niet kon worden afgeluisterd met de lasermicrofoon.

Al met al toch een knap staaltje techniek.

[Reactie gewijzigd door Tjeerd op 4 augustus 2014 22:30]

Handig. straks hoef je allen video beelden te streamen. het geluid wordt dan thuis zelff berekend. vaag me allen af hoe je dit met dolby doet :)
Krijg ja natuurlijk wel het geluid van de regisseur en de film ploeg, leuk als dat je ding is maar ik luister toch graag naar de dialogen, effecten en muziek en die zijn achteraf toegevoegd dus helaas niet in de opname van de zak chips te vinden...

Misschien leuk als gimmick met een extra audio kanaal, naast de film kanalen in stereo, dobly surround, dts, cast comment en director comment nog een kanaal met video recovered audio...

Note: voor stereo heb je 2 zakken chips nodig...
Volgens mij is dit niet mogelijk:

Ten eerste moet er in elke shot dan iets aanwezig zijn wat vibreert. Ten tweede lijkt mij dat er nog een hoop manueel werk nodig is om deze audio uit de video te halen, het lijkt mij heel moeilijk om vanuit een zakje chips te achterhalen hoe hard het geluid moet zijn.

Daarnaast snap ik het nut er ook niet van, de audiostream neemt vergeleken met de videostream nauwelijks bandbreedte in, natuurlijk zal dit voor een dienst als Netflix veel uitmaken, maar de consument zal er weinig van merken.
Zie het al voor me...
'Nee, dat zakje chips is geen product placement, het is voor de audio!'
dit is maar het begin van een ontwikkeling. natuurlijk snap ik wel dat dit voor film nog niet mogelijk is maar er is een raam opengezet. deze ontwikkeling gaat verder met mogelijkheden waar wij nog niet aan dachten
Ik zat anders al even te denken aan het feit dat ik geen chips in huis heb... :|
Ik vind het echt een fantastisch dat ze dit kunnen, ik had nooit verwacht dat dit zou kunnen, maar ik snap echt niet (en ik vind het ook jammer) dat dit op SIGGRAPH gepresenteerd wordt.

Vroeger draaide SIGGRAPH nog om onderzoek naar Computer Graphics, nu komen die artikelen steeds meer op de achtergrond (de promo video van de technical papers draaide nauwelijks nog om graphics) en gaat het steeds meer om dit soort coole maar onrelevante onderzoeken en is steeds meer bedoeld voor CG artists in plaats van voor CG onderzoekers en developers.

Aan de ene kant vind ik dit erg jammer aangezien op SIGGRAPH altijd de meest vernieuwende artikelen worden gepresenteerd, maar andere kant vind ik het prima, de ACM en SIGGRAPH zijn waardeloos met hun paywalls en andere commerciële zooi.
Dit heeft wel degelijk veel met computer graphics te maken. Er moet een algoritme gebruikt zijn dat uit subtiele veranderingen in kleur en helderheid, bewegingen ter grootte van een fractie van een pixel kan detecteren. Nou kan je veel zeggen, maar zo'n algoritme wordt niet door artists gemaakt, en ook niet door mensen zonder inzicht in computer graphics.
Dit is Computer Vision, geen Computer Graphics. Er zit wel wat overlap tussen de twee disciplines, maar het is toch echt geen CG en het hoort niet op SIGGRAPH, er zijn zat andere conferenties waar dit gepubliceerd kan worden, maar bij de SIGGRAPH helaas een grote voorkeur voor dit soort onderzoek. Dit gaat ten koste van het echte Computer Graphics onderzoek aangezien dit soort papers ruimte innemen en daardoor andere artikelen niet geaccepteerd worden.

Ik heb trouwens nergens gezegd dat dit onderzoek door artists gedaan wordt, dit is namelikky erg indrukwekkend onderzoek. Wat ik wel zei is dat er op SIGGRAPH helaas te veel aandacht uitgaat naar artists en te weinig naar onderzoekers.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True