Er is ook onderzoek te vinden dat zich bezighoudt met de relatie tussen beeld en geluid. Zo demonstreerden onderzoekers van de universiteit van Oxford vorig jaar een methode om een video van een pratend gezicht te genereren aan de hand van een audioclip en afbeeldingen van het gezicht dat de woorden moet uitspreken.
Zij waren niet de enigen die zich bezighielden met het genereren van mondbewegingen. Dat deden ook andere onderzoekers, die hun resultaten halverwege vorig jaar presenteerden. Ook hier weer een Amerikaanse president, in dit geval Barack Obama. Andere wetenschappers, achter het zogenaamde Face2Face-project, toonden dan weer aan dat het mogelijk is om beeld in real time aan te passen aan de gezichtsbewegingen van een andere persoon door deze op te nemen met een gewone webcam.
Geluid
Op het gebied van audio vindt eveneens veel onderzoek plaats, bijvoorbeeld door wetenschappers die probeerden de eerdergenoemde gan's in te zetten om geluid te produceren in plaats van beeld. Dat lukte aardig, zo blijkt uit hun online gepubliceerde resultaten. Dat is allemaal erg leuk, maar interessanter wordt het als je bijvoorbeeld een bestaande stem kunt nadoen, het liefst zo realistisch mogelijk. Op dat gebied wordt ook vooruitgang geboekt, bijvoorbeeld door onderzoekers van de Amerikaanse Carnegie Mellon-universiteit. Die richtten zich op het daadwerkelijk nadoen van stemmen, wat betekent dat ze de spreekstijl van een bepaalde persoon zo goed mogelijk willen imiteren om het te doen voorkomen dat die persoon specifieke woorden heeft uitgesproken. Ook hiervan staan resultaten online.
Dat het mogelijk is om een stem te 'klonen' op basis van een klein aantal voorbeeldopnames, toonden onderzoekers van de Chinese techgigant Baidu aan. Ze claimen dat ze een stem kunnen imiteren op basis van audio met een gemiddelde duur van 3,7 seconden. De beste resultaten behalen ze echter aan de hand van honderd korte audioclips. Ze presenteren niet alleen resultaten die het klonen demonstreren, maar ook voorbeelden van het veranderen van het accent en het geslacht van de spreker, bijvoorbeeld van Amerikaans naar Brits en van mannelijk naar vrouwelijk.
Geluidsbestanden afkomstig van Baidu, voorbeelden op volgorde: origineel, kloon met 1 sample en kloon met 100 samples
Er bestaat ook een bedrijf dat een dienst aanbiedt om je eigen stem na te doen, of die van een ander als daar 'toestemming voor is verkregen'. Het bedrijf, genaamd Lyrebird, claimt dat het minimaal een audioclip van een minuut nodig heeft om een stem na te kunnen doen. Aan de hand van meer materiaal zou het betere resultaten kunnen behalen. Ook dit bedrijf toont voorbeelden aan de hand van de presidenten Obama en Trump, al klinken hun huidige demo's nog enigszins blikkerig. Een ander bedrijf is Adobe, dat eind 2016 een project onder de naam VoCo presenteerde. In een demonstratie toonde het dat het mogelijk was om aan de hand van een clip van twintig minuten een stem nieuwe woorden te laten uitspreken.