Nvidia demonstreert tool om via eigen stem spraakalgoritmes te trainen

Nvidia heeft op de Interspeech 2021-conferentie een tool gepresenteerd waarmee het ai-stemmen een natuurlijke uitspraak van woorden kan aanleren. Met behulp van de RAD-TTS-tool kunnen onderzoekers een opname van hun eigen stem gebruiken om een spraakalgoritme te trainen.

Tijdens de GPU Technology Conference in 2017 demonstreerde onderzoekers van Nvidia de vooruitgang die ze hadden gemaakt op het gebied van ai-ontwikkelingen. Ze lieten toen ook een artificiële stem horen, maar waren nog niet helemaal tevreden over de prestaties.

In 2020 werd een nieuwe ai-stem gepresenteerd: flowtron. Deze artificiële stem klonk natuurlijker en menselijker, maar nog steeds waren de onderzoekers niet klaar. De volgende stap was volgens de onderzoekers om het algoritme bij te sturen wanneer er fouten werden gemaakt tijdens uitspraak, en dat op ongeveer dezelfde wijze zoals dat bij mensen gebeurt: door middel van nabootsing.

De onderzoekers ontwikkelden hiervoor een ai-model, genaamd RAD-TTS, waarmee ze een ai-text-to-speech-algoritme aanleren hoe een woord, of groep van woorden, uitgesproken moet worden. Ze doen dit door een eigen stemopname up te loaden naar het algoritme, deze om te zetten in parameters die dan vervolgens door het algoritme kunnen nagebootst worden.

Met RAD-TTS kan ook de hoogte en de klank van een opgenomen stem drastisch gewijzigd worden. Dat stelde een van onderzoekers in staat om zijn eigen, mannelijke stem om te vormen tot een artificiële vrouwelijke stem. Die stem werd gebruikt als voice-over in het promotiefilmpje. Een deel van de nieuwe technologie is volgens Nvidia open-source en wordt beschikbaar gesteld op Nvidia NeMo-toolkit.

IT-banen

Reacties (18)

cnieuweboer 31 augustus 2021 20:03

Lijkt me een leuke tool voor indy game devs die geen budget hebben voor 50 voice actors.

NoThankYou @cnieuweboer • 1 september 2021 10:49

Wellicht kunnen ook modders ermee aan de slag om karakters toe te voegen aan games, of om al bestaande karakters nieuwe uitspraken te geven.

JASMein03M @NoThankYou • 1 september 2021 15:13

Dat zou echt geweldig zijn! Dan kunnen er nog betere en dieper op het verhaal ingaande mods komen voor allerlei story games.

BrBuggyB

31 augustus 2021 19:54

Zou wel fijn zijn om voor domotica je eigen lokale voice assistant te kunnen trainen. Dus zonder afhankelijkheid van de cloud.

sIRwa3 @BrBuggyB • 31 augustus 2021 22:07

volgens mij gaat het hier over stem reproductie. bij voice assistance ligt de nadruk meer op taal (commandos) begrijpen. Om dat te kunnen is andere rekenkracht nodig. En in de cloud heb je die meer dan lokaal, voor amazon dan, heb me nooit in google verdiept

tedades @BrBuggyB • 31 augustus 2021 23:23

Je kunt eens kijken naar Kaldi:
https://kaldi-asr.org/

Die werkt ook met Nederlands:
https://github.com/opensource-spraakherkenning-nl/Kaldi_NL

Kun je zelf hosten en is open-source.

Verwijderd @BrBuggyB • 31 augustus 2021 21:09

Alleen dan moet je een heleboel lijnen gaan inspreken. Voordat een lokale VA precies doorheeft wat je zegt duurt wel een tijdje... Paar duizend zinnen op z'n minst, indien niet al tienduizenden.

Zurazan @Verwijderd • 31 augustus 2021 21:13

Zou mij niks verbazen dat er iemand uiteindelijk zichzelf genoeg zal vervelen om met preconfigurations te komen of zelfs templates om het zelf opzetten wat makkelijker te maken.
(Als we deze kant opgaan uiteraard)

Lijkt mij persoonlijk best geinig om een voice assistant zelf te hosten

[Reactie gewijzigd door Zurazan op 28 juli 2024 04:28]

Zer0 @Zurazan • 31 augustus 2021 21:50

Lijkt mij persoonlijk best geinig om een voice assistant zelf te hosten

Dan doe je dat toch.... https://mycroft.ai/

i-chat @Verwijderd • 1 september 2021 10:11

Op zich zou je daar heel goed bestaande werken zoals audioboeken voor kunnen gebruiken

Omdat er relatief veel diverse werken zijn en de voorlzer vaak als doel heeft om het verhaal natuurlijk te vertellen

Kortom ik kan niet wachten op een eerste Nederlandse dtem die gebaseerd is op deze techniek
Vooral omdat bijvoorbeeld studie materiaal vaak niet of in zeer slechte kwaliteit wordt aangeboden in gesproken vorm

jrutgers @Verwijderd • 2 september 2021 00:41

Ooit een programmatje gevonden om je eigen instucties voor Tomtom te maken.
Was er er na zin 5 al wel klaar mee.

aldieaccounts @BrBuggyB • 1 september 2021 14:58

De eigenschap van al die domotica 'smart' speakers om als afluisterapparaat dienst te doen en alles wat je zegt potentieel door te sturen naar eoa datacenter (en zoals al eens gebleken is ook gewoon door te sturen naar mensen om te luisteren naar wat je zegt als de computer er niet uit komt) is voor mij de hoofdreden dat ik mij altijd verre houdt van alles wat voice commando's zegt te gebruiken.

Ik vind het onbegrijpelijk dat dat uberhaupt mag.

bbob

Marktontwikkelingen

31 augustus 2021 21:16

Volgende stap is dan om ai de stem ook met een bepaalde emotie te kunnen laten praten. Je stem veranderd immers met bepaalde emotie.

Combineer het met een deepfake en ai getrainde stem en je hebt over x jaar geen acteur meer nodig.

sIRwa3 @WokeBroke • 31 augustus 2021 22:10

was adobe daar niet al heel ver mee? https://www.youtube.com/watch?v=I3l4XLZ59iw

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (18)

Sorteer op:

Weergave: