Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Wetenschappers creëren via audio-opname realistische mondbewegingen in video

Door , 51 reacties

Wetenschappers van de Amerikaanse Universiteit van Washington hebben kunstmatige-intelligentiealgoritmes ontwikkeld aan de hand waarvan audio-opnames omgezet kunnen worden in realistische mondbewegingen. Zij demonstreren de werking met beelden van ex-president Obama.

De wetenschappers willen hun onderzoek, getiteld 'Synthesizing Obama: Learning Lip Sync from Audio', presenteren op de komende Siggraph-conferentie in Los Angeles. Zij kozen voor de voormalige Amerikaanse president omdat er veel publiek beschikbaar videomateriaal van hem te vinden is. Om hun systeem op te zetten, maakten zij gebruik van twee stappen. Bij de eerste stap trainden zij een neuraal netwerk om Obama-video's te bekijken en de geluiden om te zetten in mondbewegingen.

Bij de tweede stap maakten zij gebruik van eerder onderzoek om de bewegingen toe te voegen aan een bestaande referentievideo van de ex-president. Daarbij was het belangrijk dat het neurale netwerk door een korte vertraging de tijd kreeg om te anticiperen op de woorden van Obama. Het resultaat is dat er een realistische video van hem te zien is, waarbij hij woorden uitspreekt die voortkomen uit eerder opgenomen audio. Zo toont de demonstratievideo een opname uit 1990.

Er zijn volgens de wetenschappers verschillende toepassingen denkbaar voor de techniek. Zo is het bijvoorbeeld mogelijk om videochats te verbeteren. Deze hebben volgens een van de onderzoekers vaak last van slechte beeldkwaliteit, wat ondervangen kan worden door beeld te genereren aan de hand van het geluid. De benodigde beelden voor het trainen van het model zouden verkregen kunnen worden door eerdere videochatopnames. Een andere toepassing is het verifiëren van de echtheid van een bepaalde video. Dit zou mogelijk zijn door het proces om te draaien en het netwerk te voorzien van video in plaats van audio. Dit kan bijvoorbeeld een manier zijn om door kunstmatige intelligentie gegenereerde video's te herkennen, zoals beschreven in een recent artikel in Wired.

De gebruikte techniek zou dermate realistisch zijn, dat er geen sprake is van het uncanny valley-verschijnsel. Dat houdt in dat als een menselijke verschijning zeer realistisch overkomt, maar toch kleine gebreken vertoont, er een soort afkeer ontstaat bij de kijker. Volgens onderzoeker Supasorn Suwajanakorn ligt het gebied rond de mond en de kin wat dit betreft bijzonder gevoelig.

 Demonstratievideo

Door Sander van Voorst

Nieuwsredacteur

12-07-2017 • 12:54

51 Linkedin Google+

Reacties (51)

Wijzig sortering
Er was al een techniek waarbij ze realtime de spraak van een persoon konden overrulen en vervangen voor hun eigen spraak.

https://www.youtube.com/watch?v=ohmajJTcpNk

Deze technieken zijn aan een kant heel mooi, maar aan de andere kant maakt het video opnames en uitzendingen ook ongeloofwaardig. Hoe kun je nog 100% zeker weten of datgene wat gezegd is ook daadwerkelijk klopt? Hier kun je in principe ook een hoop schade mee aanrichten.
Een soortgelijke technologie is deze, van adobe. Hier kunnen ze audio patronen analyseren, en naar tekst omzetten. Om vervolgens met dezelfde patronen en nieuwe tekst een nieuwe audiostream te kunnen genereren.

https://www.youtube.com/watch?v=I3l4XLZ59iw

Stel je nu deze combinatie voor:
* een bestaande videostream van een persoon die je dingen in de mond wilt leggen
* de techniek die beschreven wordt in de link van passkes voor alle gezichtsuitdrukkingen behalve de mond
* de techniek van adobe voor de nieuwe audiostream op basis van tekst, en
* de techniek uit het artikel om de mond te animeren

dan heb je 100% artificiele beelden en audio die niet/nauwelijks van echt te onderscheiden zijn.

De mogelijkheden tot misbruik zijn legio. geen wonder dat men in de video van adobe praat over watermarking om dit soort misbruik tegen te kunnen gaan. Maar er komen vast wel organisaties die met dezelfde algoritmes een stream kunnen genereren zonder watermerk.

[Reactie gewijzigd door DrClaw op 12 juli 2017 13:27]

Je bent disney nog vergeten, die heeft wat technieken om emotie on the fly aan te passen.
Wat denk je er van dat een speech ipv oprecht verdriet, in een keer boos of sarcastisch wordt.

https://www.youtube.com/watch?v=o-nJpaCXL0k
Hier moest ik inderdaad ook aan denken. Maar je was mij voor. Deze twee technieken in combinatie met elkander geeft een gevaarlijk goedje. Want inderdaad zoals je stelt hoe weet je zo meteen nog dat wat je ziet ook echt is of dat de video zo is gemanipuleerd en dat je eigenlijk helemaal niet naar de toespraak van Mark Rutte zit te luisteren? Heel gevaarlijk eigenlijk.
Daar moest ik ook aan denken maar kreeg zo snel het filmpje niet teruggevonden. Thnx voor de link! :)
Dit doet me denken aan dit filmpje van de VUB uit 2013 (!) waar ze, text-to-speech combineren met het genereren van een gezicht: https://www.youtube.com/watch?v=2c9adcIsDZ0

Het filmpje van Obama is wel wat beter, maar het toont toch aan de technieken in dit artikel eerder verfijningen zijn dan een echte revolutie.
Je zou er zelfs een huidige president van de VS dingen mee kunnen laten zeggen, die iedereen meteen herkent als "fake", want zoiets zegt geen mens die zijn ambt fatsoenlijk uitoefent :)

[Reactie gewijzigd door Knijper1962 op 12 juli 2017 14:58]

een soort hashsysteem wat je meteen bij de opnames moet doen. Men veranderd nu immers het beeld en het geluid, dus de hashes zouden dan wijzigen ook. Dus je zult met een soort echtheids certificaten moeten gaan werken. Is dat er niet bij een videoopname, dan moet je gaan aannemen dat iemand ermee heeft liggen rotzooien
De gebruikte techniek zou dermate realistisch zijn, dat er geen sprake is van het uncanny valley-verschijnsel. Dat houdt in dat als een menselijke verschijning zeer realistisch overkomt, maar toch kleine gebreken vertoont, er een soort afkeer ontstaat bij de kijker. Volgens onderzoeker Supasorn Suwajanakorn ligt het gebied rond de mond en de kin wat dit betreft bijzonder gevoelig.
Ik zie alleen het genoemde verschijnsel nog steeds? Zijn mond 'klopt' gewoon niet in de video. Nog steeds een hele prestatie, daar niet van.

Edit: Nog eens teruggekeken maar de audio/video synchronisatie mist telkens net met enkele tientallen ms en zijn gezicht 'trekt' de kaak mee.

[Reactie gewijzigd door NightFox89 op 12 juli 2017 13:06]

Het verschil is klein maar het valt inderdaad direct op. Met films op TV zie ik het ook heel soms, valt direct op en ik ga me er kapot aan ergeren.
Ja, daar heb ik de 'tik' ook van gekregen. Binnen Kodi kun je dat exact fijnstellen per video, en op een gegeven moment wordt je er goed in om in 1x het verschil eruit te krijgen haha.
Ja inderdaad. Bovendien is ook lichaamstaal heel belangrijk. Zijn gezicht en hoofdbeweging zijn af toe totaal in contrast met wat hij zelf verteld. Ik vind het ook erg knap dat ze zover zijn gekomen daar niet van, maar 'voor mij' is dit nog steeds de uncanny valley.

Ik gok dat wij Tweakers iets te veel op detail letten dan >90% van de wereldbevolking :P . Het is echt knap gedaan tot nu toe, ik doe ze niet na :+ .
Precies inderdaad, ook bijv. zijn ogen/wenkbrauwen kloppen dan totaal niet. Heel soms zijn ook de bewegingen rondom de mond vrij abrupt. Maar wel erg goed gedaan verder!
Over een jaar is het dan perfect.

Deze video komt van Siggraph 2017, hier worden alle nieuwe computer technieken en algoritmes (veelal met whitepapers) getoont. Erg interessante dingen, playlist van dit jaar.
Offtopic: geen whitepapers maar papers. (Significant verschil.)

[Reactie gewijzigd door gday op 13 juli 2017 08:48]

Thnx voor de link, gaan we van het weekend eens rustig bekijken :)
Realtime met mogelijk wat vertraging zou idd best mogelijk moeten zijn denk ik in theorie :P
Realtime met vertraging is geen realtime... |:(
Ik ben het ook met je eens, dat een Real-Time Strategy spelen met internet-lag, het spel een Turn-Based Strategy maakt
Maar ik ben het ook met je eens dat een Shooter spelen met 10 frames/seconde, niet echt Real-Time is
:9

[Reactie gewijzigd door Flipull op 12 juli 2017 13:34]

Realtime is niet direct, want dat bestaat niet. Realtime is binnen een vooraf gestelde maximale uitvoertijd.

In geval van de synchronisatie van audio en video ligt de uitvoertijd op maximaal15ms (lead) en 45ms (lag), daarbuiten is het merkbaar.
Nee dat is 'Near Realtime'.
Nou ja, aangezien veel live uitzending met vertraging worden uitgezonden, bv voor de ondertiteling of om op tijd te kunnen stoppen mocht er wat gebeuren, is dat best mogelijk en de kijker merkt het niet.
Vind het maar eng, wat voor misbruik kan hier mee gemaakt woorden straks?
Erg gaaf. Maar in de verkeerde handen kan het "nepnieuws" en propaganda wel naar een heel nieuw niveau tillen.
Ik denk dat er ook een dito AI gemaakt kan worden dat onderscheid leert maken tussen echte beelden en synthetische beelden. Met natuurlijk ongeveer dezelfde foutmarge/error rate als de AI in het artikel (Dus geen idee of je er wat aan hebt) :+
Staat letterlijk in de tekst:
Een andere toepassing is het verifiëren van de echtheid van een bepaalde video. Dit zou mogelijk zijn mogelijk door het proces om te draaien en het netwerk te voorzien van video in plaats van audio. Dit kan bijvoorbeeld een manier zijn om door kunstmatige intelligentie gegenereerde video's te herkennen, zoals beschreven in een recent artikel in Wired.
Klopt, dat had ik ook al gelezen. Maar tegelijkertijd is het gemiddelde Facebook publiek niet in staat gebleken om nep nieuws te herkennen. Laat dus staan als er een filmpje bij staat waarin de woorden worden gesproken door een hoog persoon (koning, president, minister, vertegenwoordiger) van land of organisatie X.
Dit lijkt mij ook erg handig voor games. Is deze techniek ook [deels] daarvoor bruikbaar? :9
dat zou inderdaad wel makkelijk zijn, en het zou ook veel tijd besparen op de spraakanimaties.

dan kan je met alleen een stukje spraak toch een mooie animatie maken. ik denk zelfs dat deze techniek mooiere spraakanimaties kan maken dan op dit moment gebruikelijk is in de game industrie.
Ik zie nog een toepassing: het fabriceren van nepnieuws. Syntetisch de stem namaken kon al heel goed, en nu beeld erbij. Ik ben bang dat het straks heel moeilijk wordt om nog onderscheid te maken wat echt en wat nep is in wat je te zien krijgt. Nog moeilijker dan het nu al is.
Tot nu toe is het mooi dat we overal videocamera's ophangen, dashcams hebben en andersoortige video-opnameapparaten om wanneer nodig te gebruiken in rechtszaken e.d. Die beelden zijn nu nog betrouwbaar als bewijsmateriaal. Maar afhankelijk van wie in de toekomst de eigenaar is van die videobeelden kan het wel eens gaan gebeuren dat we in de nabije toekomst geen beeldmateriaal meer kunnen gebruiken in rechtszaken als bewijs. Dus wat je gegarandeerd zal zien gaan gebeuren is een soort beveiligingslaag die verplicht wordt in video-opnamen die bijhoudt of de beelden (achteraf) gemanipuleerd zijn. Een soort van DRM die manipulatie van video-opnamen onmogelijk maakt. Totdat die gehackt wordt natuurlijk.

Als je beeldmateriaal laat zoals het nu is, dan is het met technieken die nu in ontwikkeling zijn vast zo dat deze in de toekomst misbruikt gaan/kunnen worden en beeldmateriaal dus minder betrouwbaar wordt om te gebruiken als bewijs in bijv. rechtszaken e.d.

[Reactie gewijzigd door Tjeerd op 12 juli 2017 13:43]

Zou dit realtime mogelijk zijn? dan zouden dove mensen die kunnen liplezen de radio toch kunnen 'beluisteren'
Dan kijken ze radio en hoe wil je muziek liplezen?
BNR Nieuwsradio :P
Geen muziek
Goed punt. Als ik aan radio denk, denk ik vrij snel aan muziek en niet aan een Nieuwsradio ;)
grappig, als ik aan radio denk, denk ik aan informatie. Muziek is playlists zonder gepraat of reclames.

Hou zou dit algoritme omgaan met Gaston, de kruidvat stem of de new-kids typetjes?
Was een domme fout van mij hoor :P niet over nagedacht dat dit met muziek niet of niet goed zou gaan
Zangeressen met strakke leggings? :P
Dat kan toch al met realtime voice to text..
Ja iets soortgelijks is er al.
Werkt in dat geval met facecapture.
https://youtu.be/ohmajJTcpNk
Heel fraai, maar je ziet soms toch wel dat het fake is. Met name doordat de beweging van de rest van het hoofd en lichaam (knikken, schudden, meedraaien enzovoort) niet overeenkomen met de mond en de gesproken tekst.

Wel zeer knap want de gegenereerde/geprojecteerde mondbewegingen en de gesproken tekst matchen erg goed.
Nog even en je kan je eigen audiovisuele bewijs creëren en gebruiken in rechtzaken etc omdat het niet meer van echt te onderscheiden is. Dat belooft nog wat. :+
Ik denk eerder dat zulk bewijs gewoon niet meer toegelaten wordt.

Op dit item kan niet meer gereageerd worden.


Apple iPhone X Google Pixel 2 XL LG W7 Samsung Galaxy S8 Google Pixel 2 Sony Bravia A1 OLED Microsoft Xbox One X Apple iPhone 8

© 1998 - 2017 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Hardware.Info de Persgroep Online Services B.V. Hosting door True

*