Nieuwe AI van Google DeepMind maakt soundtracks voor video’s

Google DeepMind werkt aan een kunstmatige intelligentie die soundtracks kan genereren voor video’s. Het geluid wordt gegenereerd aan de hand van de beelden die de AI te zien krijgt in combinatie met tekstuele inputs.

De technologie, video-to-audio, kan geluid genereren door videopixels te herkennen. De AI kan muziek genereren, maar ook dialoog en omgevingsgeluiden. De technologie kan gebruikt worden met video’s die door AI zijn gegenereerd, zoals die van Google Veo of OpenAI’s Sora. V2A werkt ook met echte beelden, bijvoorbeeld met films zonder geluid.

De technologie werd getraind op bestaande video en audio, en ook op met AI gegenereerde beschrijvingen van geluiden en transcripties van dialogen. V2A heeft daardoor specifieke geluiden leren associëren met bepaalde beelden. De technologie werkt ook met tekstuele inputs. Die laatste kunnen volgens Google DeepMind vooral gebruikt worden om al gegenereerde audio te verbeteren.

Er zijn volgens Google DeepMind nog hindernissen. De geluidskwaliteit neemt bijvoorbeeld af als de beelden van slechte kwaliteit zijn. Stemgeluid wordt ook nog niet goed gesynchroniseerd met lippen op het scherm, vooral als de beelden met AI zijn gegenereerd. Google DeepMind heeft niet gezegd wanneer de tool beschikbaar komt. Voordat dit gebeurt, zal de technologie worden onderworpen aan ‘strenge veiligheidsbeoordelingen en tests’.

Door Andrei Stiru

Redacteur

18-06-2024 • 14:51

18

Lees meer

Reacties (18)

Sorteer op:

Weergave:

Ik zoek eigenlijk iets andersom: ik heb een muziekmix van zeg 1 a 2 uur (veel zonder stem) en ik wil daar een video bij genereren in een bepaald thema en stijl. Kent iemand een tool daarvoor? Liefst superminimalistisch, met alleen een licht bewegende achtergrond.

[Reactie gewijzigd door Dooxed op 22 juli 2024 16:54]

WinAmp had in de jaren negentig allemaal kekke visualisation plugins...
Op 1 of andere reden dacht ik hier ook direct terug aan.
Ik kan me niet voorstellen dat er bij YouTube geen gelijkaardige optie beschikbaar is.

Wat ik vaak zie zijn loop video's dat ingesteld worden, maar deze lopen natuurlijk niet synchroon met de bassen of andere instrumenten in de video's. Maar het is alvast leuker dan naar een foto te staren, zeker als je vaak via chromecast wat youtube setjes opzet zoals ik doe :)
Kijken naar gratis Gif's of Korte videos (vast genoeg bronnen daarvoor) . Dit kan je dan 2 uur lang repeaten in een video editor, muziek/audio er onder plakken voila.
Winamp AVS Visualisation Toolkit? :Y)
Ik zie een aantal mensen de WinAmp visualizer noemen.

Inmiddels is er BeatDrop, een moderne stand-alone applicatie die op basis van dezelfde Milkdrop2 visualisatie werkt: https://github.com/OfficialIncubo/BeatDrop-Music-Visualizer

Je zou een preset kunnen maken naar wens qua stijl, de 'preset slideshow mode' kunnen uitzetten en de output van de visualiser capturen met bijv. OBS Studio terwijl de muziek speelt.
Mooi al die aankondigingen maar ik wil inmiddels ook met beeld en geluid gaan spelen.
Is er een beta invite methode hiervoor?
Dat kan toch alleen maar oninteressante muzak opleveren?
check de video, dat is geen muziek, maar gewoon spraak
Er zit toch echt muziek bij de spraak
"Hmm, human music. I like it."
Het is leuk speelgoed maar ik kan me voorstellen dat dit soort tools oneindige stromen aan oninteressante content gaan opleveren. Er wordt nu al 500 uur aan videomateriaal per MINUUT geüpload naar youtube, dat wordt straks helemaal een vloedgolf.
Net als die AI ingesproken dropship ads op youtube, too much allemaal
Maar YouTube gaat dit uiteindelijk filteren doordat je verplicht een vinkje 'Gemaakt met AI' moet aanvinken.
En die content zal dan weer er uit gefilterd kunnen worden.

Ik zag bij het toevoegen van een boek bij Amazon KDP al deze optie, kwestie van tijd.
ik zoek een AI tool, waar ik een aantal mp3's in gooi en de tool deze mixt.
Ik heb hier dubbele gevoelens over: aan de kant vet! Mooi dat iedereen binnenkort hun eigen producties kunnen maken zonder te specialiseren in verschillende kunstvormen. Maar ik vrees eigenlijk dat beginnende artiesten (of zelfs huidige) hierdoor minder werk krijgen, en de producties die wel volledige menselijk invoer hebben, zullen achterlopen op een gegenereerde video. Waardoor menselijke kunst juist alleen voor de rijke en vrije mensen is.

Maar goed tot nu toe ben ik alleen aan het speculeren. En kan ik hopen op een betere toekomst, maar deze ontwikkelen verzuren mijn visie wel een beetje op mijn vak.
Zoals ik er tegen aan kijk en dit al jaren op die manier doe, de artiest moet optreden, dat CDtje moet niet het eindresultaat zijn. En dat zal AI voorlopig nog niet vervangen lijkt mij.

Op dit item kan niet meer gereageerd worden.