Nieuw OpenAI-text-to-speechmodel laat gebruikers toon en spreekstijl aanpassen

OpenAI heeft een aantal nieuwe audiomodellen uitgebracht waarmee het mogelijk is de spreekstijl en toon van een stem aan te passen via instructies. Die worden in de api verwerkt zodat ontwikkelaars het weer in hun apps kunnen doorvoeren. Ook zijn de nieuwe modellen accurater.

OpenAI schrijft in een blogpost dat het onder meer twee nieuwe speech-to-textmodellen uitbrengt. Dat zijn GPT-4o Transcribe en GPT-4o mini Transcribe. Die zijn onder andere beter geworden in het uitschrijven van gesproken woorden. De twee modellen hebben een veel lagere word error rate dan bestaande taalmodellen van OpenAI, specifiek de Whisper-modellen. De wer ligt voor Nederlands op 3,78 en 5,44 procent voor het GPT-4o- en het GPT-4o mini-model, tegenover 6,49 en 5,19 procent voor Whisper Large v2 en Whisper Large v3. De wer is een benchmarkresultaat voor speech-to-textmodellen om de foutmarge in vertalingen te meten, dus hoe lager het percentage ligt, hoe beter het model presteert.

Dat betekent in de praktijk dat de nieuwe audiomodellen bijvoorbeeld minder woorden verkeerd opschrijven na uitspraken. Dat geldt volgens OpenAI met name in situaties waarbij er veel achtergrondgeluid is of als sprekers een accent hebben of snel praten.

Daarnaast heeft OpenAI een nieuw text-to-speechmodel uitgebracht genaamd GPT-4o mini TTS. Ook dat is toegevoegd aan de api's van onder meer ChatGPT. Dat model is niet alleen een accurater model dat geschreven tekst beter uitspreekt, maar maakt het ook mogelijk om te beschrijven hoe dat moet. OpenAI heeft een demowebsite gemaakt waarin gebruikers kunnen experimenteren met meerdere, vooraf opgestelde prompts.

Het is vooralsnog alleen nog mogelijk te kiezen uit die voorselectie en niet zelf een uitspreekvorm te beschrijven. Ontwikkelaars kunnen met de tool onder andere het accent, de toon en de snelheid van de uitspraak beschrijven.

OpenAI text to speech

Door Tijs Hofmans

Nieuwscoördinator

21-03-2025 • 14:55

14

Reacties (14)

14
14
6
0
0
8
Wijzig sortering
Kent iemand een text to speech systeem die goed presteert voor het Nederlands? Misschien kan dit nieuwe systeem een goed resultaat opleveren...
Ik heb voor de hobby een kinderboekje geschreven maar ik ben ook developer. Vind het leuk om met AI te experimenteren voor editing en zo. Met een goed TTS systeem zou ik kunnen een audioboek genereren.

(Word niets commercieel hoor. Hobby. 'k Was kwaad op Disney en ik heb een eigen versie van Sneeuwwitje geschreven voor de kinders waarin de protagoniste geen onuitstaanbaar wicht is.)

[Reactie gewijzigd door Xorbit17 op 21 maart 2025 15:02]

Een text-to-speech-systeem wat ik bij mijn werk gebruikt heb is ElevenLabs. Nederlands is nog steeds wel minder goed dan Engels, maar beide talen steken wat mij betreft ver boven de concurrentie uit! Belangrijk is wel dat je een van de vier Nederlandse stemmen gebruikt.
Bedankt voor je suggestie. 'k Heb al met Elevenlabs geëxperimenteerd en het Nederlands is nog net niet goed genoeg. Een audioboek moet je meerdere uren kunnen naar luisteren zonder dat het vermoeiend word dus de lat ligt hoog. Het is interessant om scripts te schrijven dat naast de text extra prompts toevoegt die een hint zijn voor de TTS AI. Die promps kan ik genereren met lama ofzo die ik lokaal draai.
Het lijkt me fijn om verschillende stemmen te mengen zodat elk personage een eigen stem heeft. Maar dan is consistentie een hele uitdaging denk ik.

Edit: net gpt-4o-mini getest in de playground en ik ben onder de indruk. Haalt direct het niveau van Elevenlabs.
(Link naar playground)

[Reactie gewijzigd door Xorbit17 op 21 maart 2025 15:15]

Ik ben het er mee eens dat het voor de getrainde luisteraar nog net niet goed genoeg klinkt bij ElevenLabs. Wel interessant om te horen dat dit OpenAI-model hetzelfde niveau haalt!
Bedtime Story kiezen en dan voor Coral of Sage gaan. Een echte verteller klinkt natuurlijk beter, maar ik moet zeggen dat dit absoluut niet slecht klinkt. Ik heb een tekst in het Nederlands gebruikt en de vibe-prompt gewoon gelaten zoals ie is. Werkt best tof dit!
Het werk tof. Ik heb net een fragment getest met meerdere personages. Het ding is slim genoeg om mijn LaTeX source te lezen en om de stem aan te passen in functie van het personage dat spreekt; i.e. hogere stemmen voor kinderen en vrouwen en lagere stemmen voor mannen. Het lijkt ook zinvolle inferenties over emotie te maken.

Voorbeeld is dit fragment. Het systeem infereert wat ik tussen haakjes geschreven heb.
``Verdomme. Zo regenen,'' zei de vader. (Zware stem. Niet blij)
``Zeiknat,'' sakkerde de moeder. (Lichter, vrouwelijker stem. Niet blij)
Het jongste kind klampte haar aan.
``Mama, mag ik pannenkoeken?'' (Duidelijk een jong kind, aanklampend)
``Ja hoor schat. We moeten toch iets eten.'' (Vriendelijker)
``Cool! Ik verga van de honger!'' zei het oudste kind. (Iets ouder kind)
Ligt het aan mij of niet?
Ik vind een stukje Nederlandse tekst nogal een sterk Vlaams accent hebben.
Kan zijn dat het model nog niet geoptimaliseerd is voor de Nederlandse stem.
Ik ben Vlaming inderdaad. Het is een Vlaams boekje natuurlijk.
Goed gespot!
Ik heb de eerste getest (lerares). Klinkt mij als slechte adventure voice artist.
Binnen een paar seconden heb ik al een "Dit is nep" gevoel.
En, kwam het script er goed uit? @TijsZonderH ;-)
Ik gebruik nu GPT voice soms tijdens het autorijden. Je praat dan letterlijk tegen een AI in een converstatie. Volledig handsfree via de luidsprekers en microfoon van mijn auto. Werkt perfect. Hij reageert zelfs niet op de GPS die laat weten dat er 5min meer fille op het traject is dan voorspeld.

Een mega tip is om eerst te vragen om kort en krachtig te antwoorden dan lijkt het echt op een conversatie. Heb nog niet meegemaakt dat hij niet begreep wat ik zei. Zelfs al stel ik mijn vraag warrig. Echt waanzin.

Ik leer bijvoorbeeld dingen bij over een onderwerp en je kan vragen stellen. Je kan ook wat verhalender tewerk gaan. Beetje een podcast maar dat is nog niet zo goed als de podcast modus van Notebook LM.

Het staat nog in zijn kinderschoenen maar het werkt al wel veelbelovend.
chatGPT is zo 2023. Gemini maar vooral DeepSeek is het tegenwoordig. stuk accurater voor sommetjes.
Waar kan ik de TTS API van Deepseek of Gemini vinden?

Op dit item kan niet meer gereageerd worden.