OpenAI heeft een tool gemaakt die op basis van een fragment van vijftien seconden een stem na kan bootsen. Het bedrijf heeft samples van Voice Engine uitgebracht, maar wil niet meteen het hele model openbaar maken.
OpenAI, het AI-bedrijf dat ook ChatGPT maakt, beschrijft de tool in een blogpost. Het model heet Voice Engine en kan teksten oplezen die een gebruiker als tekstuele input geeft. Op basis van een audiofragment beweert OpenAI dat de AI een stem volledig kan nabootsen, inclusief intonatie en emotie. Zo'n fragment hoeft maar vijftien seconden te duren, zegt het bedrijf.
Het bedrijf maakt geen data openbaar over de tool en er is ook geen whitepaper of andere technische beschrijving beschikbaar. Daarom is bijvoorbeeld niet duidelijk op basis van welke audiofragmenten Voice Engine is getraind. OpenAI zegt tegen TechCrunch dat het gaat om een combinatie van gelicenseerde en publiek beschikbare data. Volgens het bedrijf is Voice Engine niet getraind op gebruikersdata. Ook worden samples die gebruikers maken na afloop verwijderd.
Volgens TechCrunch moet de tool in de toekomst geld gaan kosten, al zegt OpenAI daar niets over in het openbaar. Het bedrijf zou volgens documenten 15 dollar vragen per miljoen tekens of zo'n 160.000 woorden die kunnen worden uitgesproken.
Voice Engine is nog niet beschikbaar voor gebruikers, zoals dat tegenwoordig vaker gebeurt bij soortgelijke diensten. Meta toonde vorig jaar Voicebox dat ook op basis van korte audiobestanden gesproken tekst kan genereren, maar het bedrijf maakt die tool ook niet beschikbaar. OpenAI zegt dat het daar nu ook voorzichtig mee is vanwege de implicaties. De tool zou al snel kunnen worden misbruikt. OpenAI verwijst specifiek naar de VS, waar eind dit jaar presidentsverkiezingen worden gehouden en de verkiezingsstrijd inmiddels is losgebarsten.
Het bedrijf heeft wel een aantal voorbeelden op een blog geplaatst waarin het toont wat de tool kan. Daarnaast test OpenAI Voice Engine met een beperkt aantal testers. Die hebben vooraf een verklaring moeten tekenen dat ze geen teksten genereren als ze daar geen toestemming van de betrokken persoon voor hebben. De tool krijgt bovendien een watermerk waaruit blijkt dat de audio gegenereerd is en OpenAI zegt dat het 'proactief monitort' hoe het systeem wordt gebruikt. Als de tool in de toekomst uitkomt, dan wil OpenAI ook een lijst opstellen met stemmen die niet mogen worden gekloond.