Meta introduceert tekst-naar-muziekgenerator AudioCraft

Facebook-moederbedrijf Meta heeft een opensourcemuziekgenerator onthuld waarbij gebruikers door middel van tekstprompts muziek en geluiden kunnen laten genereren. AudioCraft kan ook gebruikt worden om audio te comprimeren.

AudioCraft bestaat uit drie AI-modellen. MusicGen kan worden gebruikt om tekstinvoer te veranderen in muziek. Volgens Meta is het model getraind op '20.000 uur aan muziek'. Het gaat hierbij om muziek in eigendom van Meta en om gelicentieerd materiaal. Het model AudioGen is in staat om geluiden te creëren op basis van prompts, zoals blaffende honden of voetstappen. Dit model is getraind op openbare geluidseffecten. Daarnaast heeft het techbedrijf het bestaande EnCodec-model verbeterd. De decoder kan gebruikt worden om muziek naar een hogere kwaliteit om te zetten.

Google heeft aan het begin van dit jaar een soortgelijk taalmodel uitgebracht, genaamd MusicLM. Dit model is niet publiekelijk toegankelijk. Hieruit kwam onder meer een nummer voort met een stem die lijkt op die van Drake en The Weeknd. Het AI-gegenereerde lied Heart On My Sleeve werd al snel van streamingdiensten verwijderd en roept bovendien de vraag op in hoeverre een dergelijk AI-nummer het auteursrecht van muzikanten schendt.

Meta AudioCraft

Door Sabine Schults

Redacteur

02-08-2023 • 18:41

42

Reacties (42)

Sorteer op:

Weergave:

Knap dat ze de sfeer van die genres weten te produceren. Maat voor maat bekeken lijkt het net echt. Muzikaal gezien, qua opbouw, akkoorden, verhaal, is het niets, leeg. Maar voor veel mensen is muziek toch een soort muzikaal behang, een aankleding van een ruimte, dus dat is een goeie match. Ik verwacht dat je dit tzt wel in supermarkten etc hoort, waar ze gewoon met 'muziek' wat 'sfeer' willen creeeren.
Bedenk dat dit dus nog maar echt helemaal in het begin is.

Twee jaar verder en dan is het beter dan de beste muzikant kan bedenken en spelen.

Ik vraag me wel af hoe de wereld er uit gaat zien als je alles on demand en real time kan laten genereren.

Muziek, stemmen, video en alles levensecht
Daarnaast vraag ik me ook af wat generatieve ai voor bewijsvoering in rechtszaken gaat betekenen. Foto, video en geluidsmateriaal kan eigenlijk nauwelijks meer als bewijs worden opgevoerd. Dan blijft er natuurlijk nog heel veel over, maar bewijzen wordt toch aanzienlijk lastiger.
In bewijsvoering is eigenlijk altijd sprake van één is geen. Een foto of video is in feite niet genoeg bewijs op zich. Net als een verklaring of verhaal of wat dan ook dat ook niet is. Het moet altijd ondersteuning vinden in de rest van het bewijs.

Maar ik ben het met je eens dat het lastiger wordt om te stellen dat iets echt is. Al bestaat Photoshop ook al jaren, en is dat ook geen grote belemmering geweest tot op heden.
...Al bestaat Photoshop ook al jaren, en is dat ook geen grote belemmering geweest tot op heden.
Dat is eigenlijk wel interessant. Ik weet weinig van bewijsvoering in rechtszaken. Maar ik vraag me wel af waarom dit geen grote belemmering is geweest.
Worden foto's weinig gebruikt als onderdeel van de bewijsvoering? Dan is het inderdaad over het geheel genomen niet zo relevant, hoewel voor individuele gevallen misschien wel.
Wordt de echtheid van foto's weinig in twijfel getrokken? Dat zou enigszins zorgwekkend zijn.
Of zijn gemanipuleerde foto's goed herkenbaar? Dat zou wel eens kunnen veranderen.
https://hackerfactor.com/blog/
Dit is een interessante blog van iemand die een website heeft gemaakt om mogelijke wijzigingen aan foto's te detecteren en dit uitgebreider ook als forensisch expert al gedaan heeft.
Naast het detecteren van wijzigingen in de pixels zelf is er ook een hoop onderzoek dat je kunt uitvoeren op het bestand zelf om te kijken hoe waarschijnlijk het is dat het bestand een origineel is dat zo uit de camera/telefoon kwam waarvan men beweerde dat het kwam.
Heb je de nieuwe aflevering van Black Mirror, 'Joan is Awful', al gezien? Die gaat precies daarover. Stof tot nadenken idd.
Twee jaar verder en dan is het beter dan de beste muzikant kan bedenken en spelen.
Denk je dat echt? Dan denk ik (aanname) dat je je nog nooit echt in muziek hebt verdiept.
Misschien kan zo'n ding een vreselijk complex stuk bedenken dat een mens niet kán spelen, zoals stukken van Rachmaninov erg moeilijk zijn, maar een origineel muziekstuk bedenken zoals Imagine van John Lennon dat door tekst en muziek een emotie weet op te wekken....I seriously doubt it. Zeker niet binnen 2 jaar, maar ik denk nooit.

Muzikaal behang, prima. Dat wordt nu ook al zat gemaakt, dus het publiek dat daarvan houdt, zal niets merken.
Ik ben het daar niet mee eens.

Het lijkt mij dat een AI veel beter bepaalde emoties bij mensen weet op te wekken en ook veel consequenter kan dan welke zanger of songwriter.

En het kan ook geluiden maken die nog nooit gemaakt zijn door een mens en de AI zal precies
de juiste toon en emotie weten te raken.

Het gevaar gaat natuurlijk zijn dat AI veel slimmer en manipulatiever gaat zijn dan wie dan ook.
Je ziet dat nu al gebeuren en naarmate AI verder ontwikkeld wordt gaat dit nog veel groter worden.

Maar goed, luisteren is geloven.
Dus ga maar goed opletten de komende maanden en paar jaar.
Veel succes. Ik heb er niet zoveel vertrouwen in als jij, dat blijkt wel... :+
Zo ver zou ik nog maar even niet gaan. Het duurt echt nog wel een paar jaar voordat AI zelfstandig kan programmeren zonder tussenkomst van mensen na het eerste paar prompts. Muziek schrijven, laat staan het geschrevene laten klinken, is echt niet minder complex. Om nog maar niks te zeggen over muzikanten die deze tools gebruiken om weer te creëren; autonome beslissingen op basis van intuïtie/smaak zijn belangrijke onderdelen van prompts, niet snel 'goed' of 'fout' te classificeren en dus zeker niet triviaal of überhaupt mogelijk om generatief mee om te gaan.

Kleine kanttekening aangaande bovenstaande: alle geluidsvoorbeelden zijn duidelijk herkenbare recreaties, geen nieuwe creatieve werken. Juist dat laatste ontbreekt in alle door AI gegenereerde uitingen, hetzij in tekst, beeld of geluid. Of het nou een computer of een mens is: Bach of Drake of Mondriaan of van Gogh nadoen is een kwestie van tijd investeren. Iets nieuws maken dat anderen inspireert tot nadoen/voortbouwen is een hele andere tak van sport.
Voor de context: ik ben part time ontwikkelaar (nu zo'n 15 jaar), consultant, actief als theorie- en gehoordocent op een van de conservatoria van Nederland, en commercieel arrangeur en componist, en ik volg de AI-ontwikkelingen op de voet sinds de eerste neurale netwerken begonnen met handschriften erkenning mid/eind jaren 90 (in ieder geval voor het eerst met duidelijke publiek domein-code) t/m nu.

[Reactie gewijzigd door graey op 24 juli 2024 18:40]

Ik denk dat AI het juist goed zal doen ook op creatief vlak. Muziek (althans zoals wij die in het westen gebruiken ) is een vrij simpele vorm van uiting. Het volgt meestal een zeer beperkte stramien en is ook vrij goed gedocumenteerd in muziek theorie and notatie regels.

Vooral pop en klassieke muziek zal vrij snel voor zelfs de experts niet meer te onderscheiden zijn en de geluiden zullen zo realistisch zijn en gepersonaliseerd dat je zelfs de instrumenten in 360 graden op verschillende locaties kan laten spelen.

Ik denk dat je een fout maakt door te denken dat het niet zo vaart zal lopen.

De versnelling die we nu meemaken met generative AI kan je niet vergelijken met alles wat je daarvoor over AI gezien hebt.

Muziek, film, kunst gaat hele andere vormen krijgen. En dit gaat sneller dan je denkt.
Dat is lang niet voor alle muziek het geval. En de versnelling zoals we die nu meemaken loopt nog tegen een aantal muren aan, die niet zonder nieuwe -nog ontbrekende- ontwikkelingen kunnen worden doorbroken. Je ziet dit al in de stagnatie van groei van de ontwikkeling van LLM's; nieuwe generaties nu daarvan bieden lang niet dezelfde sprongen als drie/vier generaties terug. Daarmee zitten de text-based modellen nog lang niet op het niveau kwalitatieve creatieve werken te creëeren, geen korte verhalen, geen scripts/scenario's, niks. Niet zonder een hele lading bijsturing en redactie, en zelfs dan in beperkte mate echt kwalitatief en bruikbaar. Het is nogal naïef om te denken dat het dan op andere vlakken, waar het complexer ligt, dit een grotere vaart zal hebben.
Ook hier denk ik dat je een vergissing maakt om te denken dat er stagnatie is.

We zullen over een paar maanden of jaren wel terug kijken en zien wie er gelijk had :)
Kom dan met inhoudelijke voorbeelden; je zegt alleen de hele tijd 'ja maar ik denk van niet'. Dat was al duidelijk, maar dat krijgt pas waarde als je ook inhoudelijk kan aangeven waar je dat op baseert, niet alleen met geschetste toekomstdromen.
Ik denk dat de voorbeelden die je ziet met deze nieuwe meta modellen al duidelijk genoeg zijn.

Als je dan ook kijkt wat je allemaal kan doen met bijvoorbeeld midjourney en de laatste stable diffusion models.

Als je ziet dat in Amerika er een giga staking bezig is door acteurs, schrijvers en redactie, omdat die wel zien wat de grote Studios gaan doen.

Als je kijkt naar hoe echt stemmen kunnen worden nagemaakt met bijvoorbeeld elevenlabs.

Als je ziet hoeveel onderzoek en geld er naar dit onderwerp gedaan word en de snelheid van de progressie.

Ik zit echt niet toekomst te dromen, maar ik heb het gevoel dat jij nog altijd onder een steen blijft.

Maar goed nogmaals. We gaan het wel zien. En spreek me er dan maar op aan
Ik ken én gebruik deze voorbeelden, én ik bevind me in het vakgebied waarover dit artikel gaat. Maar jij hebt dezelfde artikelen op internet gelezen en denkt iets anders. Vervolgens leef ik onder een steen? Dat is volgens mij niet hoe je een gesprek of discussie voert, en ook niet echt een goede manier van conclusies trekken.
De opmerking dat jij onder een steen leeft is voor mij vergelijkbaar als het stellen dat ik aan het toekomst dromen ben.

:)
Niet zeker of ik het eens ben met de opmerking 'onder een steen blijven', maar de ontwikkelingen op het gebied van nieuwe toepassingen van AI gaan nog steeds snel.

Mensen experimenteren met nieuwe manieren om AI te benutten, zoals te zien is in HuggingFace Spaces, en vooral het laatste voorbeeld dat in het artikel wordt getoond, is interessant.

[Reactie gewijzigd door fluvenHarfort op 24 juli 2024 18:40]

Makkelijk te roepen. Als over 5 jaar alle muziek die veel geluisterd wordt kunstmatig is, praten we weer. Voor nu is dat absoluut niet het geval, en is dat ook nog niet in zicht. Daarnaast: beter voor de mensheid? Creatief vermogen en doorontwikkeling daarvan is verbetering van mensen en gezondheid, en uitspanningen daarvan uitbesteden aan AI is daarvoor in ieder geval niet bevorderlijk. De focus op een eindproduct en het vergeten van het proces is vanuit een consument misschien op korte termijn een makkelijke en aantrekkelijke aanvliegroute, maar op termijn houdt dat imho zeker geen stand.
Voor niet muziekliefhebbers, dus. Kan aan mij liggen, maar volgens mij is een groot deel van de bevolking toch wel muziekliefhebber, al verschilt het nogal per cultuur.
De tafels van 1 tot 10 zou in supermarkten door de speaker moeten worden afgespeeld.
Of de stelling van Pythagoras. Daar heb je wat aan.
Tja van AI verwacht ik alleen maar zielloze muzak. Het lijkt mij toch verdomd moeilijk om iets echt origineels door AI te laten creëren. Desalniettemin is AI nu al aardig bruikbaar als tool, voor saaie procsessen, zoals het masteren. En de Stems-functie, bij DJ software werkt al aardig (geluiden isoleren).
Erg onder de indruk van de samples, ik ben benieuwd naar de mogelijkheden om bijvoorbeeld een bassline te genereren en zelf verder te verwerken in een eigen track. Getraind met muziek in eigendom zorgt wel voor wat interne onrust, waar liggen de copyrights maar dat is m.i. ook nog een probleem met LLM’s.
Ik ben nog op zoek naar zoiets met MIDI als uitvoer, maar ben nog niet tevreden met de opties.

Iemand suggesties?
ChatGPT kan dit eigenlijk al, je kan hem vragen om muziek te verzinnen en uit te schrijven als midi. Hier kan je dan zelf een midibestand van maken. Tenzij je betaalt en plugins kan gebruiken, dan kan ABC Music Notation dit voor je verwerken.

Ik heb het net getest met instrumenten en het werkt aardig.
Vet idee, thanks! Dan zal ik dat eens proberen. 👍
Dan kaats je de bal toch terug? Zeg gewoon dat jouw muziek geproduceerd is door jouw eigen AI model en dat dat model alleen de complete Meta bibliotheek opgezogen heeft "ter inspiratie" en dat je dat als Fair Use beschouwd.
Tot er een rechtszaak komt, en jouw bankrekening iets minder saldo heeft dan die van Meta.

Zo werkt Stichting BREIN immers ook, door consumenten / uploaders onder druk te zetten met een verkapte schikkingsvoorstel.
Het was ook niet helemaal serieus 🙂
Kun je even met jou model, de seed en de prompt de muziek hergenereren in de rechtzaal? Nee?
GUILTY!!! :+
Hoe valt dat ooit te controleren? Als je een track wil gaan verkopen, neem je het gewoon opnieuw op en verander je het een heel klein beetje.
Dat geldt dan toch voor elk muziek fragment dat je gebruikt... maar toch zijn er elk jaar nog steeds meer dan genoeg rechtszaken. Dus zo makkelijk ligt het niet.
Je kunt tegenwoordig een "watermark" in je samples en tracks maken. Meestal niet hoorbaar maar wel te achterhalen met de juiste software.
Ja stenography heet het dacht ik.
Doen ze mat plaatjes ook. Ik heb er wel eens ingedoken.
Grappige concepten.
Lang geleden zocht ik CD covers voor mensen en als die niet waren te vinden maakte ik zelf wel eens eentje. De voorkant van een poster bijvoorbeeld en dan simpel uitvergroot in de "blokjes" een tekst gezet.
Niet veel later kwam de officiële CD uit in de winkel en de front helemaal uitvergroot bleek "mijn" tekst nog te bevatten ;-)
Copyright merktekens vinden was destijds nog eenvoudig en werd steeds lastiger om bijvoorbeeld opvallende watermerken te verwijderen maar ik denk dat het kat en muis spel nog steeds doorgaat.
"tags" in bestanden (openen als tekst zoiets als in binaries gedaan werd) zou je met AI wel kunnen vinden neem ik aan, overbodig voor de "werking" of als "corrupt" duiden.
Met mp3 tags had ik vroeger ook wel iets gedaan, een CD digitaal gemaakt en daarna de losse nummers voorzien van de juiste naam, album, artiest etc. informatie. Maar geluid verbetering zat er toen nog niet in, eenmaal weg gecomprimeerde tonen terughalen was niet mogelijk, lossless (WAV,APE etc.) of een bitrate 320 (destijds te groot om te bewaren op de schijf :-) ) stond toen nog in de kinderschoenen.
Dude.. My man!
Ik weet niet of er al upscaling voor muziek is, voor afbeeldingen wel, maar dat gaat er zeker wel komen.

Anyway.. je lijkt me iemand die zich met audio bezig houdt en dit misschien interessant vindt. :)
Ik was met audio bezig van de week en stuitte in een tutorial op UVR5.
Het kan stemmen en muziek scheiden. Maar ook achtergrond geluid uit spraak halen (mijn toepassing).
Ik was sceptisch maar.. MIND BLOWN!
Ik had lp en Cassette bandjes omgezet vroeger en "ruis" eruit halen was destijds vrijwel handmatig.
Maar tegenwoordig doe ik eigenlijk niks meer, de plannen zijn er wel maar te weinig tijd.
AI ontwikkelingen volg ik wel maar het is nog te geknutseld vind ik, eigenlijk nog niet geschikt voor het grote publiek maar de massa is nodig voor de door ontwikkeling ervan.
Toen er zoekmachines kwamen was het ook nodig dat er veel gebruikers kwamen waardoor de resultaten beter werden zonder gesponsorde resultaten kon je door te manipuleren zo in de top 10 van Google komen.
Nu zul je de eerste pagina bijna moeten overslaan, ik denk dat, bij AI Bing in ieder geval gemerkt, ook zo gaat.
EaseUS VideoKit pagina net gelezen (UVR5), dank voor de info.
Ik denk dan aan de 4 tot 16 sporen bandrecorder die mijn vader vroeger had en de geluidsbanden die ik digitaal heb gezocht voor anderen. Na Mono geluid kwam Stereo waar stem en geluid gescheiden werden opgenomen (rechts muziek en links instrumenten bijvoorbeeld heel duidelijk hoorbaar bij Jim Reeves toen), eigenlijk is er nog niets aan veranderd alleen door compressie werd het lastiger, daarom een hoge bitrate (RAW als WAV) om het helemaal "uit te rekken". Voor veel dingen zijn scripts, programma's en apps waarin de basis routine is geworden. Ik weet niet veel van Python, Pytorch, Java en klein beetje meer C++ (om een paar dependenties in UVR5 te noemen) maar vind het knap gedaan.
Ik zou dit ook wel willen zien in bijvoorbeeld gehoor apparaten die enorm duur zijn vanwege de miljoenen transistoren terwijl dit in principe exact per bijvoorbeeld 5 of 10 Hz afgestemd kan worden ;-)
Begrijp ik goed dat als ik bijvoorbeeld oude uitgaves van muziek op 4 of 8 track zou kunnen vinden ergens dat de voice apart staat? Heb je geen eens zo iets als UVR nodig. (Behalve voor ruis dan)
Ik vind dat het ook een beetje bij vinyl hoort.

Er was ook nog een tijd een systeem met een metalen draad op een spoel die dan gemagnetiseerd werd.
Wel eens YouTube van gekeken. Sommige mensen zijn zo slim en bedenken dat allemaal voor ons.
"geluidsbanden" zijn er ook gedigitaliseerd te vinden.
Zachte tikjes die tijdens beluisteren van een LP erin zitten "horen erbij" maar de scherpe tikken waar een ik "scheur" hoorde haalde ik er wel uit.
Comprimeren was voor mijn gehoor ook niet geschikt, ik hoor "te scherp" zei de audicien maar ik hoor minder geluidssterkte. Gehoorapparaten waren voor mij daarom niet geschikt. Goedkopere hebben een miljoen transistoren en als daar eentje van is doorgeslagen hoor ik dat, bij de duurdere met miljoenen waar dan de "dode" zouden worden uitgeschakeld (oa zoals geluiden die wel hard binnen komen gefilterd kunnen worden) zijn niet te betalen.
De banden die ik destijds zocht waren van NL muziek, van Engels talig zou je er makkelijker kunnen vinden, veel meer dan 4 of 8 track, mijn vader had destijds (70's) al een bandrecorder met maximaal 16 sporen. Karaoke had dit vroeger ook alhoewel mensen toch vaak over zangers heen blèren :-)
Voor het magnetiseren zijn er ook veel methodes geweest als drager van muziek, en eigenlijk lijkt het er nog steeds een beetje op (draaiorgel: o - open / i - dicht)
Plaatjes in laten vullen door pixels te vervangen of toe te voegen, dan video's (enorm veel plaatjes achter elkaar in principe), maar uitgaand van het origineel zou je dat toch zien. Met fotografie achteraf bewerken met filters zie je al veel minder van dan vroeger en ik verwacht dat we met het blote oog op korte termijn te kort schieten, net als de meeste mensen geluidscompressie vaak niet horen.

Op dit item kan niet meer gereageerd worden.