OpenAI komt met nieuwe audiomodellen die kunnen transcriberen, vertalen en meer

OpenAI heeft drie nieuwe audiomodellen uitgebracht, die speciaal zijn bedoeld voor ontwikkelaars om eigen apps mee te maken. De modellen kunnen onder andere complexe vragen beantwoorden, spraak in real time vertalen en gesprekken transcriberen.

De drie modellen hebben ieder een eigen doel. GPT-Realtime-2 is bijvoorbeeld bedoeld om gesprekken mee te voeren. Dat model kan vragen beantwoorden. Volgens OpenAI is dat zijn eerste spraakmodel dat 'redenering op GPT-5-niveau' kan bieden.

Het model heeft een vier keer grotere contextwindow dan zijn voorganger, GPT-Realtime-1.5. Daarmee kan het nieuwe model beter lange gesprekken voeren en moeilijke taken uitvoeren. Ook kan de toon makkelijker aangepast worden op basis van de situatie, en kan het model korte 'voorwoorden' houden. Het model zegt dan dingen als 'ik ga dat even nakijken' of 'een momentje, ik kijk er even naar', voordat het een uitgebreider antwoord geeft.

Real time vertalingen en live meeschrijven

GPT‑Realtime‑Translate is, zoals de naam al doet vermoeden, juist bedoeld voor vertalingen. Ontwikkelaars kunnen die bijvoorbeeld gebruiken in hun eigen spraakdiensten. Twee gebruikers kunnen zo ieder hun eigen taal praten, waarna het AI-model dat in real time vertaalt. OpenAI verwacht verschillende toepassingen, bijvoorbeeld voor klantenservice van bedrijven, het onderwijs, evenementen en andere diensten.

GPT‑Realtime‑Whisper is tot slot een transcriptiemodel dat spraak omzet in geschreven tekst. Terwijl mensen praten, herkent het model de woorden en schrijft het automatisch mee. Dat kan bijvoorbeeld verwerkt worden in meetingsoftware, zoals Teams, schrijft OpenAI.

De drie modellen zijn per direct beschikbaar via de OpenAI Realtime-api voor ontwikkelaars. Bedrijven kunnen GPT-Realtime-2 gebruiken voor 32 dollar per 1 miljoen tokens. GPT-Realtime-Translate kost 0,034 dollar per minuut, terwijl GPT-Realtime-Whisper 0,017 dollar per minuut kost.

GPT-Realtime-Translate
Vertalingen in real time met GPT-Realtime-Translate. Bron: OpenAI

Door Daan van Monsjou

Nieuwsredacteur

07-05-2026 • 21:08

30

Reacties (30)

Sorteer op:

Weergave:

34 dollar voor 1000 minuten transcriberen is erg duur. Als VoIP oplossing kan bv. Yeastar dat voor 18 dollar per 1000 aanbieden, met samenvatting (algemeen & actie punten) inclusief.

3CX is over gegaan op Grok omdat het ook significant goedkoper is.
edit: even opgezocht, het blijkt 0,20 dollar per UUR zijn, of 0,10 als het in batch is ipv streaming.. Dat is 3,33 dollar per 1000 minuten. Grok Speech to Text and Text to Speech APIs | xAI

[Reactie gewijzigd door SmokingCrop op 7 mei 2026 22:08]

34$ per 1000 minuten is voor de realtime2 api, niet voor transcribe api, die kost 0,017 per minuut, 17$ per 1000.

Dit is ergens ook logisch bij de realtime api want dat zijn drie functies gecombineerd
  1. Speech-to-text: jij spreekt, dit wordt omgezet naar text (= transcribe)
  2. Text gaat door een normale openai verzoek (dus input en output tokens
  3. Text-to-speech (je krijgt audio retour)
Ik heb hier vorig jaar veel mee gespeeld omdat de realtime api erg duur is. Maar de latency is gewoon veel beter. Dit kunnen ze bij openai (en de andere grote llm providers) natuurlijk veel beter managen en maken. Daar betaal je voor, is er een provider die voor 3,33$ / 1000 min kan transcriben? Vast wel, maar is de kwaliteit van hetzelfde niveau?

Ik heb ook lang de tool Whisper gebruikt, dit is dezelfde als dat openai gebruikt en ik vond dat verreweg de beste speech-to-text, ik gebruik zeer veel speech-to-text (denk wel een paar uur per dag op een goeie dag) en ben zelf nog geen betere tegengekomen. Prijzen zullen elkaar volgen en kwaliteit (meer of minder) is een stuk diversificatie. De techniek volgt elkaar wel op en het first mover advantage op technisch vlak, wat openai had (en ze zeer goed hebben gebruikt) is inmiddels al weg.

Wat over blijft zijn geringe technische verschillen en gebruikersvoorkeur (of vendor lockin, dat mag je zelf bepalen ;)). Net zoals het gaat in de automarkt. Weinig echt technische verschillen omdat de techniek nu eenmaal bekend is. Maar een BMW X5 is wel wat beter dan een Dacia Duster. Afhankelijk van je persoonlijke voorkeur en betalingsbereidheid maak je een keuze. De ene wil gewoon economisch vervoer met een wagen die daar prima toe in staat is en vind het niet erg om wat in te leveren in kwaliteit. De ander moet misschien een drie dubbele paardentrailer trekken.
Uit interesse, waar gebruik je de meerdere uren transcriptie per dag voor?
- opmaken van documentatie van processen van mijn afdeling (compleet nieuw en van nul opgezet)

- maken van presentaties

- standaard agentic werk (elke chat die ik thuis doe, doe ik via speech input en text output) spreken gaat sneller dan typen maar lezen gaat sneller dan luisteren en ik vraag code (SQL, python, powerquery) retour maar net zo goed als me door SAP heen loodsen wanneer dat mogelijk is.

In mijn vorige rol (was al een afdeling) sprong ik ook wel bij bij user tickets. Die deed ik altijd via speech to text (met de Whisper app en een sneltoets), zelfde voor teams/zoom messages en email.
Er zijn geen speech-to-text of text-to-speech stappen nodig voor dit model. Er gaat direct audio in en audio uit (net als bijvoorbeeld afbeeldingen bij andere modellen). Zie https://openai.com/index/introducing-gpt-realtime/:
Unlike traditional pipelines that chain together multiple models across speech-to-text and text-to-speech, the Realtime API processes and generates audio directly through a single model and API.
Ook bijv. het equivalente Live model van Google Gemini heeft dit. OpenAI gebruikt hier zelf dus geen Whisper voor.

[Reactie gewijzigd door fliepeltje op 8 mei 2026 13:53]

De stappen zijn niet nodig omdat openai dat voorziet, maar technisch gezien wordt dat wel gedaan, alleen high speed zeer goed afgestemd.

Net zo goed dat text wordt omgezet naar vectoren en dat daar op wordt berekent wat statistisch de hoogste probabiliteit geeft wiskundig gezien wat het volgende woord is. Alleen zien wij text-to-text, wordt toch wel omgezet naar nummertjes om mee te rekenen :)

Het was ook meer ter illustratie waarom de transcribe api goedkoper is dan de realtime api
Ik denk dat we hier twee dingen door elkaar halen. Natuurlijk wordt audio intern omgezet naar numerieke representaties/tokens, net zoals tekst intern ook naar tokens/embeddings gaat. Maar dat is niet hetzelfde als een aparte STT-stap waarbij eerst een transcript wordt gemaakt, daarna een tekstmodel redeneert, en daarna TTS wordt gedaan.

OpenAI zegt juist expliciet over de Realtime API: “Unlike traditional pipelines that chain together multiple models across speech-to-text and text-to-speech, the Realtime API processes and generates audio directly through a single model and API.”

Dus ja: onder de motorkap rekent het model met getallen. Maar nee: dat betekent niet dat het technisch gezien alsnog gewoon STT → LLM → TTS is. Dat was juist de oudere/traditionele pipeline.

Dat de Transcribe API goedkoper is dan Realtime bewijst niet dat Realtime “eigenlijk STT” is. Het prijsverschil kan juist komen doordat Realtime méér doet: lage latency, streaming, beurtwisseling/interruptions, audio-output, eventueel tool use, persistent sessiebeheer, etc.
Je hebt helemaal gelijk, wat ik schreef is inderdaad de ouderwetse manier :) waarbij het inderdaad tegenwoordig speech-native is! Ik ga er weer eens mee spelen om te zien hoe het resultaat is.

Blijft natuurlijk wel dat realtime vanzelfsprekend meer kost dan alleen een transcribe model
Alles wat je spreekt of tegen je gesproken wordt in het model van Grok invoeren, I'll pass. GPT is niet zaligmakend, maar je data bij Elon stallen is niet bepaald verstandig.
Sorry maar... bij OpenAI wel ?

Het zou een moooie toepassing zijn om dit model offline beschikbaar te maken, op mobile NPU te draaien bijvoorbeeld. Maar ik verwacht dat deze variant veel te groot is om in (V)RAM te laden. Op termijn. Als OpenAI daar geld in ziet.

Desktop misschien, voor de meer fancy GFX kaarten. Of MacOS met z'n Unified Memory.
Je kan nu al faster Whisper en een lokale LLM gebruiken om dit lokaal te doen?

Ik heb bij een klant al een notulen maker gebouwd die gewoon een .Wav/.mp3 ingest en daar een transcript en notulen van maakt met spreker detectie.

Draait prima op een rtx 4500 blackwell
Dit klinkt heel goed, kan je er meer details over geven? Ik zoek ook nog zoiets qua oplossing.
Klopt, ik heb Whisper Turbo (Huggingface) ook draaiend op een Ubuntu met 3090GTX, aangesloten op VoIP via Asterisk.
Dat werkt inderdaad goed, maar ik ben soms een beetje skeptisch over de kwaliteit helaas.
Jammer ik hoopte op modellen die op een consumer graka konden draaien. Ik houd mijn data letterlijk liever 'in house'. Hard pass.
Whisper (specifiek een van de “faster” varianten) is uitstekend om lokaal op een recent videokaart te draaien, is mijn go-to oplossing om lekker privé te transcriberen.
Absoluut! Zelf maak ik gebruik van Buzz. Simpele GUI, gebruikt ook Whisper, en kan allerlei vormen audio transcriberen en vertalen op je eigen hardware. Realtime, specifieke audio files of gewoon YouTube links. Ben er erg tevreden mee. En uiteraard helemaal gratis.

[Reactie gewijzigd door IlIlIllII op 8 mei 2026 08:24]

Oeh, die ga ik ook eens proberen!

Gebruik zelf op dit moment Faster-Whisper-XXL-GUI, ook FOSS.
Hoop op een veilige daadwerkelijke teams integratie. Want teams zelf is dramatisch.
Wij werken met/ via granola, helemaal top! Samenvatting na de meeting in gpt en Lets go!
Getest met ChatGPT maar deze zegt geen mp3 bestanden te kunnen omzetten naar tekst.
Getest met ChatGPT maar deze zegt geen mp3 bestanden te kunnen omzetten naar tekst.
Of je leest even: "De drie modellen zijn per direct beschikbaar via de OpenAI Realtime-api voor ontwikkelaars"
Is ChatGPT geen ontwikkelaar?
Als het al een ontwikkelaar is, niet een die de openAI api voor ontwikkelaars gebruikt
Hopelijk wordt het ook mogelijk deze te gebruiken als je hem zelf host (dat las ik zo snel even niet). Ik heb momenteel subgen draaien met Whisper large v3 voor series en films (als laatste 'reddingsmiddel' als er geen goede subtitles beschikbaar zijn) en dat werkt heel erg goed.
Ik zou graag een nog beter model willen draaien er voor
Je stuurt een audio-stream naar deze apis, het is niet zomaar een bestandje uploaden.
voor transcriben zou dat wel zo moeten werken, meestal stuur je een S3 link oid naar de API
Niet met deze realtime API, die stuur je audio streams. Dan krijg je steeds stukjes transcriptie teruggestuurd. Dit is voor als je zo snel mogelijk de tekst wilt hebben, bijvoorbeeld omdat je er iets op wilt laten reageren. Je kan ook instellen hoe snel je de transcriptie wilt, tussen 0.4 en 3 seconde. Al gaat de kwaliteit omlaag als je die sneller wil hebben.

[Reactie gewijzigd door Pieter_621 op 7 mei 2026 22:03]

nee realtime natuulijk niet via een file, dit is wel interessant om bijvoorbeeld je asterisk centrale slim te maken zodat een beller live vragen kan stellen. Ik zou daar zelf wel het liefst een eigen local model voor draaien en niet afhankelijk van een api zijn.

Om te kunnen reageren moet je ingelogd zijn