Het onderzoeksinstituut voor kunstmatige intelligentie OpenAI heeft Jukebox ontwikkeld, een model dat volledig muzieknummers kan genereren in verschillende genres, inclusief de zangpartijen.
OpenAI publiceert 7131 samples van songs die zijn gemaakt met Jukebox. De nummers variëren van pop, rock en jazz tot reggae en hip-hop. Naast volledig eigen gegenereerd materiaal in bepaalde stijlen, zijn er ook herinterpretaties van nummers en voorbeelden van bekende tracks zoals Hotel California van The Eagles, die Jukebox 12 seconden na het originele begin een totaal andere wending geeft.
Het onderzoeksinstituut maakt voor zijn model geen gebruik van een representatie van muziek, zoals muzieknoten of midi-data, maar van directe audio. Zijn vorige ai-muziekgenerator Musenet trainde OpenAI nog wel op duizenden midi-bestanden. Het nadeel is volgens de makers dat bij trainen op representaties de menselijke stem niet wordt meegenomen en dan missen ook subtiele eigenschappen op het gebied van dynamiek en expressiviteit.
Trainen op pure audio is een stuk moeilijker, omdat de modellen de grotere mate van diversiteit en langere structuren moeten laten meewegen. Voor het trainen heeft OpenAI een dataset van 1,2 miljoen tracks gebruikt. Daarvan waren er 600.000 Engelstalig, maar de ontwikkelaars willen in de toekomst meer internationale muziek gebruiken om Jukebox te trainen. De muziek is gecombineerd met bijbehorende songteksten van LyricWiki en met metadata over het genre, de artiest en andere steekwoorden.
Het encoderen van bestaande muziek en genereren, upsamplen en decoderen van nieuwe audio door Jukebox
OpenAI gebruikt 32bits 44.1kHz-audio als basis en comprimeert voor het trainen tracks op drie niveaus: 8x, 32x en 128x. Deze niveaus dienen voor het encoderen van de input. Bij dit downsamplen gaat veel audio-informatie verloren, maar de essentiele details op het gebied van pitch, timbre en volume blijft behouden. Op basis van de input op drie niveaus worden codes gegenereerd, eveneens op drie levels. Het bovenste niveau modelleert de lange structuur van tracks, met zang en melodieën en aan deze laag kan informatie zoals het genre worden toegevoegd. De audiokwaliteit van deze uitput is laag. De middelste en onderste niveaus zorgen voor de overige muzikale structuren en verbeteren de audiokwaliteit.
Volgens de onderzoekers heeft Jukebox nog enkele flinke nadelen en is het nog niet in staat goede muzikale structuren als refreinen te genereren. Ook zorgt het down- en upsamplen voor ruis en is het model traag: het duurt het zo'n negen uur om een minuut audio te genereren. Wel noemen ze het model een stap voorwaarts wat betreft het door een neuraal net maken van coherente muziek waarbij op artiest, genre en songteksten gedifferentieerd kan worden.