Microsoft presenteert AI-model dat portretfoto's laat praten en zingen

Microsoft heeft een onderzoek gepubliceerd over zijn AI-model VASA-1. Met dit model kunnen portretfoto's worden gekoppeld aan audiobestanden. Vervolgens genereert VASA-1 video's waarin de foto's 'op een realistische wijze kunnen praten en zingen'.

Het AI-model is voornamelijk bedoeld voor het ontwerpen van virtuele karakters. "VASA-1 is in staat lipbewegingen te produceren die voortreffelijk gesynchroniseerd zijn met de audio. Het kan echter ook een groot spectrum subtiele gezichtsuitdrukkingen en natuurlijke hoofdbewegingen vastleggen die bijdragen aan de perceptie van authenticiteit en levendigheid", aldus Microsoft.

Het bedrijf heeft verschillende video's gedeeld die dit demonstreren, waaronder een van een rappende Mona Lisa. Gebruikers van het model kunnen zelf aanpassingen doen, zoals aan de hoofdbewegingen of de blikrichting. In de offlinemodus genereert VASA-1 video's van 512x512 pixels met 45fps en het ondersteunt tot 40fps in de onlineversie. Microsoft benadrukt dat het geen plannen heeft om VASA-1 op de markt te brengen uit vrees voor misbruik van het AI-model voor het maken van deepfakes.

VASA-1
Bron: Microsoft

Door Loïs Franx

Redacteur

19-04-2024 • 15:46

67

Submitter: wildhagen

Reacties (67)

Sorteer op:

Weergave:

Hoi papa, ik ben mijn bankpas vergeten, kan je €100 overmaken, in de video-oproep zie je mij echt...

Dat gaat nog wat worden binnenkort. * overal profielfoto verwijderen en niet meer praten als een vreemde belt.

[Reactie gewijzigd door bombadil op 22 juli 2024 13:21]

Ik denk dat de AI gegenereerde video bepaalde uitdrukkingen genereert op het gezicht die de persoon in het echt nooit doet. Niet iedereen beweegt de 20 spieren in het gezicht op de zelfde manier.
Maar goed dat betekent niet dat scammers in de toekomst het zo niet gaan proberen..
AI maakt momenteel echt enorme sprongen, want er zijn een aantal grote spelers die constant het neusje van de zalm aan willen kunnen bieden. Dat iets nu niet goed werkt, of niet helemaal realistisch oogt, wil helemaal niks zeggen. Grote kans dat het binnen een jaar een compleet ander verhaal is en dat gegenereerde beelden niet meer van echt te onderscheiden zijn.

Zo was een volledig door een computer gegeneerd muzieknummer tot voor kort ondenkbaar... Het is echt bizar wat er tegenwoordig mogelijk is.

[Reactie gewijzigd door SomerenV op 22 juli 2024 13:21]

Udio is naar mijn mening Sudo gepasseerd afgelopen week:
https://www.udio.com/songs/pF2pqe2CjJZcdE8jro9Mzi
Precies wat ik ook wilde schrijven; Udio lijkt Suno gepasseerd te zijn in kwaliteit. Bizar hoe snel dat ging!
PS. Sudo blijft natuurlijk nog steeds niet vervangbaar door AI ;)
Ondertussen ben ik verslaafd aan udio.com, ik ben benieuwd wanneer het achter een betaalmuur verdwijnt... Maar voorlopig even genieten :-)
hmm, vind hoe de zang loopt nog erg houtje touwtje ivm Suno.

Edit: al heb ik hem net een instrumental metal backing track laten maken voor videomateriaal van een spel en wat eruit kwam was zo absoluut Ranzig (goed) dat ik er met vertrokken bek naar zat te luisteren, koooolere....

[Reactie gewijzigd door Diavire op 22 juli 2024 13:21]

Ik vind engelse nummers op suno nog mooier/natuurlijk heel eerlijk gezegd. Maar het gaat allemaal zo bizar snel.

edit: nu zelf mee gespeeld en ook verrassend mooi spul uit udio kunnen krijgen. Blijft bizar dit.

[Reactie gewijzigd door CR35 op 22 juli 2024 13:21]

Udio is echt een paar stappen verder inmiddels. Heb al een leuke gezongen jingle voor een radioprogramma lopen. In perfect Nederlands, waar Suno met gekke accenten en verdraaide teksten komt. Is geen werk aan verloren, want zonder Udio was er gewoon geen jingle geweest. Maar die kant gaat het wel op natuurlijk.
The pacing van de tekst in die liedjes is nog altijd wel een beetje gek, zoals in dat liedje de zinnen
"In this twisted symphony
I find my peace"
Maar het gaat wel hard inderdaad.
Tot nu toe klinkt het allemaal ook wel een beetje robotisch, maar ook dat zal wel snel verdwijnen

Edit:
Deze is verassend goed
https://suno.com/song/93288786-8d6a-4e6a-95fd-4e3ba1aca02c

[Reactie gewijzigd door Edgar Wagt op 22 juli 2024 13:21]

Heb je Udio al geprobeerd? In mijn optiek nog veel beter dan Suno.
https://www.rollingstone....-chatgpt-suno-1235001675/
Straks hebben we extra ai security apps die controleren of je met ai te maken hebt.
Hoi papa, ik ben mijn bankpas vergeten, kan je €100 overmaken, in de video-oproep zie je mij echt..
Hoi papa, ik ga je ook even bellen of jij het ook echt bent ;)

Het is soms ook spijkers zoeken op laag water…
Met een AI voicechanger is dat ook geen probleem.
Moet de oplichter ook wel achter het goede tel. nr. zitten...
papa, ik ben mijn telefoon kwijt en heb nu dus een nieuw nummer. De oude kan je meteen weggooien, die doet het niet meer...
Gelukkig heb je met je volwassen kinderen afgesproken dat ze nooit zullen bellen om geld, toch? Al helemaal niet als ze volwassen zijn.

De truuk van telefoon kwijt en om geld vragen is al best wel oud. Als je daar als gezin nog intrapt dan heb je toch echt nog wat te bespreken bij de volgende familie etentje zeg maar.
Er zijn helaas ook veel mensen op leeftijd die te maken krijgen met deze vormen van oplichting. Voor hen is het gewoon heel ingewikkeld. Normale bankzaken kunnen al een uitdaging zijn, laat staan iemand die je willens en wetens om de tuin wil leiden. Met deze waanzinnige technieken denk ik dat zij voor een nog grotere uitdaging staan.
En ook dat kan gewoon. Maar het wordt wel een stuk moeilijker.

Het punt is denk ik, dat deze scams nu al werken zonder ai. Met ai gaat de roi waarschijnlijk nog groter worden.
Kan je ook even uitleggen hoe je een ontvangende call onderschept? Lijkt me al wel wat buiten de toolbox van de gebruikelijke scammer te vallen.

Bij een uitgaande call je telefoonnummer vervalsen is dan wel weer heel makkelijk.
Dit is anders wel al een bekende manier van oplichting waarbij er met een ander nummer een bericht gestuurd wordt met de melding: "hoi, gsm is plat en heb geld nodig voor de bus, kan je even snel wat geld overmaken op <fraude link>."

Vaak aangevuld met informatie te vinden op de socials. Dus met ai wordt het nog makkelijker.

Waarmee ik niet anti-ai ben, maar dit gaat zeker voor meer fraude zorgen.
Helaas trappen ouderen daar dus wel in.
En "Sorry ik zit in een vergadering" of zoiets gebruiken die gasten ook.
Dus spijkers op laag water zoeken?, met een magneet gaat dat sneller...
Helaas trappen ouderen daar dus wel in.
En "Sorry ik zit in een vergadering" of zoiets gebruiken die gasten ook.
Dus spijkers op laag water zoeken?, met een magneet gaat dat sneller...
Stigmatiserend, het kan ook een jongere overkomen of iemand van middelbare leeftijd.

En met spijkers op laag water zoeken, je begrijpt heel goed wat ik bedoel want het is altijd "Als dit" of "Als dat" Ja, geen enkel systeem is waterdicht, maar een stukje gezond verstand kan al een heleboel doen.
ben benieuwd hoe dat gaat met mijn profielfoto :+

De ontwikkeling van AI gaat mij een beetje te snel. Het gevaarlijkste, na het menselijke verstand, is het menselijke onverstand - "unforeseen consequences"

[Reactie gewijzigd door shades op 22 juli 2024 13:21]

Voor de Nederlanders, ben ik benieuwd of ze de lokale dialecten ook mee kunnen kopiëren, want mn ouders zullen het heel raar vinden als ik ABN tegen hun ga praten...als Limburgs zijnde :D

Zowiezo weten ze hoeveel geld ik op de rekening heb,omdat we gewoon open met elkaar zijn .. en ik denk dat dat een goede preventie kan zijn tegen AI ... waarom heeft Jimmy 100eur nodig ?? hij heeft toch een goed inkomen ???
Wordt al lang gedaan. Soms alleen met een nep stem, soms zelfs om de selfie controle bij de bank mee te omzeilen!
Daarom wordt ook altijd geadviseerd om bij zo'n bericht altijd even daadwerkelijk contact te zoeken. Dan voorkom je dit soort dingen heel eenvoudig.

Daarnaast vind ik "maar het kan ook misbruikt worden' niet een valide argument om een ontwikkeling maar stop te zetten. Dan kan je uiteindelijk niks meer bereiken qua techniek, want het kan vast wel op één of andere manier mibruikt worden...

Verder vind ik dit wel een mooie techniek eigenlijk, en als ik die voorbeeld-filmpjes zie werkt het nog best goed ook. Jammer dat ze het niet in de praktijk uit gaan brengen, maar wellicht nog in de toekomst?
Wie heeft er überhaupt overal een profielfoto aan gehangen? Zelfs voor AI vond ik dat al een linke zaak.
AI verandert niets aan eeuwen oude oplicht praktijken. Of het nu via brief, telefoon, sms of video gesprek is: als je geld naar een onbekende rekening overmaakt ben je niet zo verstandig bezig.
Lastig pinnen zonder bankpas!
Ik pin al een paar jaar zonder bankpas.
Met een Smartphone of smartwatch is in feite ook vorm van pinnen!
Of een code woord afspreken dat jullie beiden moeten zeggen met je naasten waarvan je geld zou lenen of uitlenen.
back to basics

Mijn dochter komt nog thuis. Wij zijn ouderwets.

Ik houd het zo.
Misschien een stomme vraag, maar zou papa zich niet afvragen hoe dat overgemaakte geld opgenomen kan worden zonder bankpas?
Hoi papa, ik ben mijn bankpas vergeten, kan je €100 overmaken, in de video-oproep zie je mij echt...

Dat gaat nog wat worden binnenkort. * overal profielfoto verwijderen en niet meer praten als een vreemde belt.
Dat is makkelijk op te lossen... met je familie eerst afspreken en laat ze een lange code onthouden, niets mag opgeschreven worden.
Wanneer het gebeurt, vraag ze eerst naar lange code om hun id te bevestigen.
Weten ze het niet... tabee! (zwaai smiley)

[Reactie gewijzigd door Dark Angel 58 op 22 juli 2024 13:21]

Misschien iets voor Apple met hun Vision Pro avatars?
Netjes dat ze hem niet op de markt brengen, maar het idee ligt op tafel en er zal zeker iemand komen die het wel gaat doen. Andere kant.. een goeie deepfake is nog niet voorbij het uncanny niveau.
Mochten mensen denken dat het allemaal wel meevalt: hier een video van Deutsche Telekom, over de gevaren van social media en A.I.. Deze video is vooral gericht op ouders met kinderen, maar is van toepassing op praktisch iedereen.

Ik vind het echt heel vet wat er tegenwoordig allemaal mogelijk is, maar het kent ook wel echt een enorm enge keerzijde.
Must-see. Scary.
Ik vind het aardig wat betreft bewustwording, maar de video mist wel een heel relevante nuance. Als Ella 15 is pleurt ze haar hele hebben en houwen toch wel dagelijks zelf op social media en tegen de tijd dat ze volwassen is heeft ze hoogstwaarschijnlijk zelf al voor een aardig online archief gezorgd. En zelfs als ze dat niet doet zijn er ook genoeg situaties waarbij je er als volwassene niet onderuit komt om als onderdeel van je werk linkedin vol te spammen.

Iedereen is Ella.

Om die ouders dan maar de schuld van het eindresultaat te geven vind ik nogal flauw.
Je kan het nog onderscheiden. Uitdrukking nog artificieel en het haar zit vast als ze bewegen. Maar blijft natuurlijk indrukwekkend op basis van 1 foto.

[Reactie gewijzigd door lighting_ op 22 juli 2024 13:21]

Dat op zich wel leuke ontwikkeling, maar ook zit er wel gevaarlijke kant aan dat de criminelen gebruik van maken van AI-technologie. Ze kunnen ook een portretfoto misbruiken met AI, weliswaar ook dat mensen gemakkelijk in kan trappen. Ik ben hoe dan ook bang dat AI wordt op grote schaal wordt gebruikt in criminele circuit, wel ook foto's makkelijk beïnvloed kan worden.
daar heb je geen portretfoto voor nodig. Je hoeft maar een AI fotofilter app te lanceren en half nederland staat collectief zijn biometrische gegevens af in ruil voor een kattensnor of piratenlapje op z'n gezicht.
Alle risico’s op oplichting terzijde, als dit goed werkt hang ik m’n huis vol met Harry Potter foto’s!
Heeft Apple met FaceID de enige gezichtsherkenning die dankzij diepte informatie bestand is tegen AI gegenereerde videos obv een profielfoto? Of hebben andere fabrikanten ook zoiets?
Was dit niet al een ding eerder? Ik herinner me een hele meme met allemaal AI-video's op een of ander Aziatisch numer
Ik moest meteen denken aan Wombo.AI, maar ik denk dat het grote verschil is dat deze AI blijkbaar met ieder geluidsbestand gebruikt kan worden. De 'AI' van Wombo en vergelijkbare apps deed eigenlijk alleen gezichtsdetectie, vervolgens kon je alleen kiezen uit nummers met voorgeprogrammeerde bewegingen, en dat aspect is eigenlijk gewoon de moderne 'zingende zeebaars'.

[Reactie gewijzigd door ThePendulum op 22 juli 2024 13:21]

Ik verveel me behoorlijk op dit moment maar nooit erg genoeg om daar iets mee te doen, wtf.

Op dit item kan niet meer gereageerd worden.