Microsoft toont een nieuw AI-model, genaamd Vall-E. Dit text-to-speechmodel kan volgens de techgigant gesproken zinnen in vrijwel ieder stemgeluid genereren na een sample van drie seconden gehoord te hebben. Het AI-model kan daarbij ook intonatie en emotie nabootsen.
Vall-E maakt gebruik van een taalmodel en is getraind met 60.000 uur aan Engelstalige spraakopnames, schrijven onderzoekers in een researchpaper. De tool kan volgens de makers een stemgeluid nadoen na een sample van drie seconden gehoord te hebben. Daarmee kan de tool vervolgens via een geschreven prompt audioclips produceren met de stem uit de input.
Het Vall-E-model is uitgeprobeerd door studenten van Cornell University, die een website met verschillende demo's publiceerden. Op deze webpagina zijn verschillende echte spraakopnames te horen, die zijn gebruikt als sample voor Vall-E. Bij iedere sample worden een of meer synthetische spraakopname gepubliceerd die door Vall-E zijn gegenereerd. De kwaliteit daarvan varieert; enkele opnames klinken overtuigend, terwijl bij andere opnames duidelijk is te horen dat deze door software zijn gegenereerd.
Onderzoekers stellen dat Vall-E in veel gevallen beter presteert dan huidige text-to-speech-modellen. De onderzoekers schrijven echter ook dat het AI-model op dit moment nog verschillende problemen heeft. Het kan bijvoorbeeld gebeuren dat bepaalde woorden uit het tekstprompt onduidelijk worden uitgesproken, volledig worden gemist of juist dubbel voorkomen in de output. Daarbij heeft het model momenteel nog moeite met het nadoen van bepaalde stemmen, vooral stemmen met een accent.
Dergelijke AI-modellen zijn verder omstreden, aangezien ze ook gebruikt kunnen worden om zonder toestemming iemands stemgeluid te imiteren. De onderzoekers erkennen in hun researchpaper dat het AI-model misbruikt kan worden. Ze stellen dat het mogelijk is om een detectiemodel te ontwikkelen dat kan herkennen of een geluidsfragment door Vall-E is gegenereerd.
Op dit moment is Vall-E nog niet openbaar beschikbaar. Microsoft heeft wel een Vall-E-repository op GitHub gezet, maar deze bevat momenteel alleen nog een beperkt readme-bestand. De techgigant zegt niet of en wanneer het tts-model breed beschikbaar komt.