OpenAI heeft een aantal nieuwe audiomodellen uitgebracht waarmee het mogelijk is de spreekstijl en toon van een stem aan te passen via instructies. Die worden in de api verwerkt zodat ontwikkelaars het weer in hun apps kunnen doorvoeren. Ook zijn de nieuwe modellen accurater.
OpenAI schrijft in een blogpost dat het onder meer twee nieuwe speech-to-textmodellen uitbrengt. Dat zijn GPT-4o Transcribe en GPT-4o mini Transcribe. Die zijn onder andere beter geworden in het uitschrijven van gesproken woorden. De twee modellen hebben een veel lagere word error rate dan bestaande taalmodellen van OpenAI, specifiek de Whisper-modellen. De wer ligt voor Nederlands op 3,78 en 5,44 procent voor het GPT-4o- en het GPT-4o mini-model, tegenover 6,49 en 5,19 procent voor Whisper Large v2 en Whisper Large v3. De wer is een benchmarkresultaat voor speech-to-textmodellen om de foutmarge in vertalingen te meten, dus hoe lager het percentage ligt, hoe beter het model presteert.
Dat betekent in de praktijk dat de nieuwe audiomodellen bijvoorbeeld minder woorden verkeerd opschrijven na uitspraken. Dat geldt volgens OpenAI met name in situaties waarbij er veel achtergrondgeluid is of als sprekers een accent hebben of snel praten.
Daarnaast heeft OpenAI een nieuw text-to-speechmodel uitgebracht genaamd GPT-4o mini TTS. Ook dat is toegevoegd aan de api's van onder meer ChatGPT. Dat model is niet alleen een accurater model dat geschreven tekst beter uitspreekt, maar maakt het ook mogelijk om te beschrijven hoe dat moet. OpenAI heeft een demowebsite gemaakt waarin gebruikers kunnen experimenteren met meerdere, vooraf opgestelde prompts.
Het is vooralsnog alleen nog mogelijk te kiezen uit die voorselectie en niet zelf een uitspreekvorm te beschrijven. Ontwikkelaars kunnen met de tool onder andere het accent, de toon en de snelheid van de uitspraak beschrijven.