Nvidia heeft op de Interspeech 2021-conferentie een tool gepresenteerd waarmee het ai-stemmen een natuurlijke uitspraak van woorden kan aanleren. Met behulp van de RAD-TTS-tool kunnen onderzoekers een opname van hun eigen stem gebruiken om een spraakalgoritme te trainen.
Tijdens de GPU Technology Conference in 2017 demonstreerde onderzoekers van Nvidia de vooruitgang die ze hadden gemaakt op het gebied van ai-ontwikkelingen. Ze lieten toen ook een artificiële stem horen, maar waren nog niet helemaal tevreden over de prestaties.
In 2020 werd een nieuwe ai-stem gepresenteerd: flowtron. Deze artificiële stem klonk natuurlijker en menselijker, maar nog steeds waren de onderzoekers niet klaar. De volgende stap was volgens de onderzoekers om het algoritme bij te sturen wanneer er fouten werden gemaakt tijdens uitspraak, en dat op ongeveer dezelfde wijze zoals dat bij mensen gebeurt: door middel van nabootsing.
De onderzoekers ontwikkelden hiervoor een ai-model, genaamd RAD-TTS, waarmee ze een ai-text-to-speech-algoritme aanleren hoe een woord, of groep van woorden, uitgesproken moet worden. Ze doen dit door een eigen stemopname up te loaden naar het algoritme, deze om te zetten in parameters die dan vervolgens door het algoritme kunnen nagebootst worden.
Met RAD-TTS kan ook de hoogte en de klank van een opgenomen stem drastisch gewijzigd worden. Dat stelde een van onderzoekers in staat om zijn eigen, mannelijke stem om te vormen tot een artificiële vrouwelijke stem. Die stem werd gebruikt als voice-over in het promotiefilmpje. Een deel van de nieuwe technologie is volgens Nvidia open-source en wordt beschikbaar gesteld op Nvidia NeMo-toolkit.