Nvidia demonstreert tool om via eigen stem spraakalgoritmes te trainen

Nvidia heeft op de Interspeech 2021-conferentie een tool gepresenteerd waarmee het ai-stemmen een natuurlijke uitspraak van woorden kan aanleren. Met behulp van de RAD-TTS-tool kunnen onderzoekers een opname van hun eigen stem gebruiken om een spraakalgoritme te trainen.

Tijdens de GPU Technology Conference in 2017 demonstreerde onderzoekers van Nvidia de vooruitgang die ze hadden gemaakt op het gebied van ai-ontwikkelingen. Ze lieten toen ook een artificiële stem horen, maar waren nog niet helemaal tevreden over de prestaties.

In 2020 werd een nieuwe ai-stem gepresenteerd: flowtron. Deze artificiële stem klonk natuurlijker en menselijker, maar nog steeds waren de onderzoekers niet klaar. De volgende stap was volgens de onderzoekers om het algoritme bij te sturen wanneer er fouten werden gemaakt tijdens uitspraak, en dat op ongeveer dezelfde wijze zoals dat bij mensen gebeurt: door middel van nabootsing.

De onderzoekers ontwikkelden hiervoor een ai-model, genaamd RAD-TTS, waarmee ze een ai-text-to-speech-algoritme aanleren hoe een woord, of groep van woorden, uitgesproken moet worden. Ze doen dit door een eigen stemopname up te loaden naar het algoritme, deze om te zetten in parameters die dan vervolgens door het algoritme kunnen nagebootst worden.

Met RAD-TTS kan ook de hoogte en de klank van een opgenomen stem drastisch gewijzigd worden. Dat stelde een van onderzoekers in staat om zijn eigen, mannelijke stem om te vormen tot een artificiële vrouwelijke stem. Die stem werd gebruikt als voice-over in het promotiefilmpje. Een deel van de nieuwe technologie is volgens Nvidia open-source en wordt beschikbaar gesteld op Nvidia NeMo-toolkit.

Door Jay Stout

Redacteur

31-08-2021 • 18:48

18

Reacties (18)

18
14
5
1
0
3
Wijzig sortering
Lijkt me een leuke tool voor indy game devs die geen budget hebben voor 50 voice actors.
Wellicht kunnen ook modders ermee aan de slag om karakters toe te voegen aan games, of om al bestaande karakters nieuwe uitspraken te geven.
Dat zou echt geweldig zijn! Dan kunnen er nog betere en dieper op het verhaal ingaande mods komen voor allerlei story games.
Zou wel fijn zijn om voor domotica je eigen lokale voice assistant te kunnen trainen. Dus zonder afhankelijkheid van de cloud.
volgens mij gaat het hier over stem reproductie. bij voice assistance ligt de nadruk meer op taal (commandos) begrijpen. Om dat te kunnen is andere rekenkracht nodig. En in de cloud heb je die meer dan lokaal, voor amazon dan, heb me nooit in google verdiept :)
Je kunt eens kijken naar Kaldi:
https://kaldi-asr.org/

Die werkt ook met Nederlands:
https://github.com/opensource-spraakherkenning-nl/Kaldi_NL

Kun je zelf hosten en is open-source.
Alleen dan moet je een heleboel lijnen gaan inspreken. Voordat een lokale VA precies doorheeft wat je zegt duurt wel een tijdje... Paar duizend zinnen op z'n minst, indien niet al tienduizenden.
Zou mij niks verbazen dat er iemand uiteindelijk zichzelf genoeg zal vervelen om met preconfigurations te komen of zelfs templates om het zelf opzetten wat makkelijker te maken.
(Als we deze kant opgaan uiteraard)

Lijkt mij persoonlijk best geinig om een voice assistant zelf te hosten

[Reactie gewijzigd door Zurazan op 28 juli 2024 04:28]

Lijkt mij persoonlijk best geinig om een voice assistant zelf te hosten
Dan doe je dat toch.... https://mycroft.ai/
Op zich zou je daar heel goed bestaande werken zoals audioboeken voor kunnen gebruiken

Omdat er relatief veel diverse werken zijn en de voorlzer vaak als doel heeft om het verhaal natuurlijk te vertellen

Kortom ik kan niet wachten op een eerste Nederlandse dtem die gebaseerd is op deze techniek
Vooral omdat bijvoorbeeld studie materiaal vaak niet of in zeer slechte kwaliteit wordt aangeboden in gesproken vorm
Ooit een programmatje gevonden om je eigen instucties voor Tomtom te maken.
Was er er na zin 5 al wel klaar mee.
De eigenschap van al die domotica 'smart' speakers om als afluisterapparaat dienst te doen en alles wat je zegt potentieel door te sturen naar eoa datacenter (en zoals al eens gebleken is ook gewoon door te sturen naar mensen om te luisteren naar wat je zegt als de computer er niet uit komt) is voor mij de hoofdreden dat ik mij altijd verre houdt van alles wat voice commando's zegt te gebruiken.

Ik vind het onbegrijpelijk dat dat uberhaupt mag.
Volgende stap is dan om ai de stem ook met een bepaalde emotie te kunnen laten praten. Je stem veranderd immers met bepaalde emotie.

Combineer het met een deepfake en ai getrainde stem en je hebt over x jaar geen acteur meer nodig.

Op dit item kan niet meer gereageerd worden.