OpenAI komt met nieuwe audiomodellen die kunnen transcriberen, vertalen en meer

OpenAI heeft drie nieuwe audiomodellen uitgebracht, die speciaal zijn bedoeld voor ontwikkelaars om eigen apps mee te maken. De modellen kunnen onder andere complexe vragen beantwoorden, spraak in real time vertalen en gesprekken transcriberen.

De drie modellen hebben ieder een eigen doel. GPT-Realtime-2 is bijvoorbeeld bedoeld om gesprekken mee te voeren. Dat model kan vragen beantwoorden. Volgens OpenAI is dat zijn eerste spraakmodel dat 'redenering op GPT-5-niveau' kan bieden.

Het model heeft een vier keer grotere contextwindow dan zijn voorganger, GPT-Realtime-1.5. Daarmee kan het nieuwe model beter lange gesprekken voeren en moeilijke taken uitvoeren. Ook kan de toon makkelijker aangepast worden op basis van de situatie, en kan het model korte 'voorwoorden' houden. Het model zegt dan dingen als 'ik ga dat even nakijken' of 'een momentje, ik kijk er even naar', voordat het een uitgebreider antwoord geeft.

Real time vertalingen en live meeschrijven

GPT‑Realtime‑Translate is, zoals de naam al doet vermoeden, juist bedoeld voor vertalingen. Ontwikkelaars kunnen die bijvoorbeeld gebruiken in hun eigen spraakdiensten. Twee gebruikers kunnen zo ieder hun eigen taal praten, waarna het AI-model dat in real time vertaalt. OpenAI verwacht verschillende toepassingen, bijvoorbeeld voor klantenservice van bedrijven, het onderwijs, evenementen en andere diensten.

GPT‑Realtime‑Whisper is tot slot een transcriptiemodel dat spraak omzet in geschreven tekst. Terwijl mensen praten, herkent het model de woorden en schrijft het automatisch mee. Dat kan bijvoorbeeld verwerkt worden in meetingsoftware, zoals Teams, schrijft OpenAI.

De drie modellen zijn per direct beschikbaar via de OpenAI Realtime-api voor ontwikkelaars. Bedrijven kunnen GPT-Realtime-2 gebruiken voor 32 dollar per 1 miljoen tokens. GPT-Realtime-Translate kost 0,034 dollar per minuut, terwijl GPT-Realtime-Whisper 0,017 dollar per minuut kost.

GPT-Realtime-Translate — Vertalingen in real time met GPT-Realtime-Translate. Bron: OpenAI

Vorig nieuwsartikel Volgend nieuwsartikel

Door Daan van Monsjou

Nieuwsredacteur

Feedback • 07-05-2026 21:08 30

07-05-2026 • 21:08

Lees meer

OpenAI geeft Amerikanen persoonlijk financieel advies bij koppeling rekeningen

OpenAI geeft Amerikanen persoonlijk financieel advies bij koppeling rekeningen Nieuws van 16 mei 2026

'Apple laat Siri andere stem gebruiken bij ander AI-model in iOS 27'

'Apple laat Siri andere stem gebruiken bij ander AI-model in iOS 27' Nieuws van 6 mei 2026

'OpenAI wil smartphone in 2027 uitbrengen, waarschijnlijk met MediaTek-soc'

'OpenAI wil smartphone in 2027 uitbrengen, waarschijnlijk met MediaTek-soc' Nieuws van 5 mei 2026

Defensie VS wil AI-first leger door deals met acht techreuzen, zonder Anthropic

Defensie VS wil AI-first leger door deals met acht techreuzen, zonder Anthropic Nieuws van 3 mei 2026

Google sluit AI-deal met Amerikaanse overheid voor geheim militair werk

Google sluit AI-deal met Amerikaanse overheid voor geheim militair werk Nieuws van 28 april 2026

Gerucht: OpenAI werkt aan smartphone met AI-agent als interface

Gerucht: OpenAI werkt aan smartphone met AI-agent als interface Nieuws van 28 april 2026

OpenAI stapt af van exclusief gebruik Microsoft-cloud en krijgt minder geld

OpenAI stapt af van exclusief gebruik Microsoft-cloud en krijgt minder geld Nieuws van 28 april 2026

OpenAI verbetert beeldgenerator en moet minder fouten in details maken

OpenAI verbetert beeldgenerator en moet minder fouten in details maken Nieuws van 22 april 2026

OpenAI brengt net als Anthropic cybersecuritymodel uit voor kleine groep klanten

OpenAI brengt net als Anthropic cybersecuritymodel uit voor kleine groep klanten Nieuws van 15 april 2026

'ChatGPT komt als zoekmachine onder strengere EU-regels van DSA te vallen'

'ChatGPT komt als zoekmachine onder strengere EU-regels van DSA te vallen' Nieuws van 12 april 2026

ChatGPT werkt op Apple CarPlay

ChatGPT werkt op Apple CarPlay Nieuws van 1 april 2026

Meer producten en artikelen

Bedrijfsnieuws Generatieve AI Kunstmatige intelligentie OpenAI

IT-banen

Meer vacatures

Reacties (30)

30

29

12

0

0

13

Wijzig sortering

SmokingCrop 7 mei 2026 21:50

34 dollar voor 1000 minuten transcriberen is erg duur. Als VoIP oplossing kan bv. Yeastar dat voor 18 dollar per 1000 aanbieden, met samenvatting (algemeen & actie punten) inclusief.

3CX is over gegaan op Grok omdat het ook significant goedkoper is.
edit: even opgezocht, het blijkt 0,20 dollar per UUR zijn, of 0,10 als het in batch is ipv streaming.. Dat is 3,33 dollar per 1000 minuten. Grok Speech to Text and Text to Speech APIs | xAI

[Reactie gewijzigd door SmokingCrop op 7 mei 2026 22:08]

Zorg @SmokingCrop • 8 mei 2026 07:33

34$ per 1000 minuten is voor de realtime2 api, niet voor transcribe api, die kost 0,017 per minuut, 17$ per 1000.

Dit is ergens ook logisch bij de realtime api want dat zijn drie functies gecombineerd

Speech-to-text: jij spreekt, dit wordt omgezet naar text (= transcribe)
Text gaat door een normale openai verzoek (dus input en output tokens
Text-to-speech (je krijgt audio retour)

Ik heb hier vorig jaar veel mee gespeeld omdat de realtime api erg duur is. Maar de latency is gewoon veel beter. Dit kunnen ze bij openai (en de andere grote llm providers) natuurlijk veel beter managen en maken. Daar betaal je voor, is er een provider die voor 3,33$ / 1000 min kan transcriben? Vast wel, maar is de kwaliteit van hetzelfde niveau?

Ik heb ook lang de tool Whisper gebruikt, dit is dezelfde als dat openai gebruikt en ik vond dat verreweg de beste speech-to-text, ik gebruik zeer veel speech-to-text (denk wel een paar uur per dag op een goeie dag) en ben zelf nog geen betere tegengekomen. Prijzen zullen elkaar volgen en kwaliteit (meer of minder) is een stuk diversificatie. De techniek volgt elkaar wel op en het first mover advantage op technisch vlak, wat openai had (en ze zeer goed hebben gebruikt) is inmiddels al weg.

Wat over blijft zijn geringe technische verschillen en gebruikersvoorkeur (of vendor lockin, dat mag je zelf bepalen

). Net zoals het gaat in de automarkt. Weinig echt technische verschillen omdat de techniek nu eenmaal bekend is. Maar een BMW X5 is wel wat beter dan een Dacia Duster. Afhankelijk van je persoonlijke voorkeur en betalingsbereidheid maak je een keuze. De ene wil gewoon economisch vervoer met een wagen die daar prima toe in staat is en vind het niet erg om wat in te leveren in kwaliteit. De ander moet misschien een drie dubbele paardentrailer trekken.

WiiiLDFARMER @Zorg • 8 mei 2026 08:21

Uit interesse, waar gebruik je de meerdere uren transcriptie per dag voor?

Zorg @WiiiLDFARMER • 8 mei 2026 12:55

- opmaken van documentatie van processen van mijn afdeling (compleet nieuw en van nul opgezet)

- maken van presentaties

- standaard agentic werk (elke chat die ik thuis doe, doe ik via speech input en text output) spreken gaat sneller dan typen maar lezen gaat sneller dan luisteren en ik vraag code (SQL, python, powerquery) retour maar net zo goed als me door SAP heen loodsen wanneer dat mogelijk is.

In mijn vorige rol (was al een afdeling) sprong ik ook wel bij bij user tickets. Die deed ik altijd via speech to text (met de Whisper app en een sneltoets), zelfde voor teams/zoom messages en email.

fliepeltje @Zorg • 8 mei 2026 13:52

Er zijn geen speech-to-text of text-to-speech stappen nodig voor dit model. Er gaat direct audio in en audio uit (net als bijvoorbeeld afbeeldingen bij andere modellen). Zie https://openai.com/index/introducing-gpt-realtime/:

Unlike traditional pipelines that chain together multiple models across speech-to-text and text-to-speech, the Realtime API processes and generates audio directly through a single model and API.

Ook bijv. het equivalente Live model van Google Gemini heeft dit. OpenAI gebruikt hier zelf dus geen Whisper voor.

[Reactie gewijzigd door fliepeltje op 8 mei 2026 13:53]

Zorg @fliepeltje • 8 mei 2026 17:40

De stappen zijn niet nodig omdat openai dat voorziet, maar technisch gezien wordt dat wel gedaan, alleen high speed zeer goed afgestemd.

Net zo goed dat text wordt omgezet naar vectoren en dat daar op wordt berekent wat statistisch de hoogste probabiliteit geeft wiskundig gezien wat het volgende woord is. Alleen zien wij text-to-text, wordt toch wel omgezet naar nummertjes om mee te rekenen

Het was ook meer ter illustratie waarom de transcribe api goedkoper is dan de realtime api

fliepeltje @Zorg • 9 mei 2026 11:02

Ik denk dat we hier twee dingen door elkaar halen. Natuurlijk wordt audio intern omgezet naar numerieke representaties/tokens, net zoals tekst intern ook naar tokens/embeddings gaat. Maar dat is niet hetzelfde als een aparte STT-stap waarbij eerst een transcript wordt gemaakt, daarna een tekstmodel redeneert, en daarna TTS wordt gedaan.

OpenAI zegt juist expliciet over de Realtime API: “Unlike traditional pipelines that chain together multiple models across speech-to-text and text-to-speech, the Realtime API processes and generates audio directly through a single model and API.”

Dus ja: onder de motorkap rekent het model met getallen. Maar nee: dat betekent niet dat het technisch gezien alsnog gewoon STT → LLM → TTS is. Dat was juist de oudere/traditionele pipeline.

Dat de Transcribe API goedkoper is dan Realtime bewijst niet dat Realtime “eigenlijk STT” is. Het prijsverschil kan juist komen doordat Realtime méér doet: lage latency, streaming, beurtwisseling/interruptions, audio-output, eventueel tool use, persistent sessiebeheer, etc.

Zorg @fliepeltje • 9 mei 2026 13:56

Je hebt helemaal gelijk, wat ik schreef is inderdaad de ouderwetse manier

waarbij het inderdaad tegenwoordig speech-native is! Ik ga er weer eens mee spelen om te zien hoe het resultaat is.

Blijft natuurlijk wel dat realtime vanzelfsprekend meer kost dan alleen een transcribe model

pagani @SmokingCrop • 7 mei 2026 23:14

Alles wat je spreekt of tegen je gesproken wordt in het model van Grok invoeren, I'll pass. GPT is niet zaligmakend, maar je data bij Elon stallen is niet bepaald verstandig.

hawke84 @pagani • 8 mei 2026 00:06

Sorry maar... bij OpenAI wel ?

Het zou een moooie toepassing zijn om dit model offline beschikbaar te maken, op mobile NPU te draaien bijvoorbeeld. Maar ik verwacht dat deze variant veel te groot is om in (V)RAM te laden. Op termijn. Als OpenAI daar geld in ziet.

Desktop misschien, voor de meer fancy GFX kaarten. Of MacOS met z'n Unified Memory.

themadone @hawke84 • 8 mei 2026 06:55

Je kan nu al faster Whisper en een lokale LLM gebruiken om dit lokaal te doen?

Ik heb bij een klant al een notulen maker gebouwd die gewoon een .Wav/.mp3 ingest en daar een transcript en notulen van maakt met spreker detectie.

Draait prima op een rtx 4500 blackwell

AcidBanger @themadone • 8 mei 2026 08:39

Dit klinkt heel goed, kan je er meer details over geven? Ik zoek ook nog zoiets qua oplossing.

hawke84 @themadone • 8 mei 2026 10:46

Klopt, ik heb Whisper Turbo (Huggingface) ook draaiend op een Ubuntu met 3090GTX, aangesloten op VoIP via Asterisk.
Dat werkt inderdaad goed, maar ik ben soms een beetje skeptisch over de kwaliteit helaas.

jmk 7 mei 2026 22:11

Jammer ik hoopte op modellen die op een consumer graka konden draaien. Ik houd mijn data letterlijk liever 'in house'. Hard pass.

drdelta @jmk • 7 mei 2026 23:50

Whisper (specifiek een van de “faster” varianten) is uitstekend om lokaal op een recent videokaart te draaien, is mijn go-to oplossing om lekker privé te transcriberen.

IlIlIllII @drdelta • 8 mei 2026 08:23

Absoluut! Zelf maak ik gebruik van Buzz. Simpele GUI, gebruikt ook Whisper, en kan allerlei vormen audio transcriberen en vertalen op je eigen hardware. Realtime, specifieke audio files of gewoon YouTube links. Ben er erg tevreden mee. En uiteraard helemaal gratis.

[Reactie gewijzigd door IlIlIllII op 8 mei 2026 08:24]

drdelta @IlIlIllII • 8 mei 2026 11:13

Oeh, die ga ik ook eens proberen!

Gebruik zelf op dit moment Faster-Whisper-XXL-GUI, ook FOSS.

Quintiemero 7 mei 2026 21:59

Hoop op een veilige daadwerkelijke teams integratie. Want teams zelf is dramatisch.

forclanz @Quintiemero • 7 mei 2026 22:36

Wij werken met/ via granola, helemaal top! Samenvatting na de meeting in gpt en Lets go!

Verwijderd 7 mei 2026 21:23

Getest met ChatGPT maar deze zegt geen mp3 bestanden te kunnen omzetten naar tekst.

Mathijs Kok @Verwijderd • 7 mei 2026 21:35

Getest met ChatGPT maar deze zegt geen mp3 bestanden te kunnen omzetten naar tekst.

Of je leest even: "De drie modellen zijn per direct beschikbaar via de OpenAI Realtime-api voor ontwikkelaars"

@Mathijs Kok • 7 mei 2026 22:49

Is ChatGPT geen ontwikkelaar?

pietje63 @YGDRASSIL • 7 mei 2026 22:57

Als het al een ontwikkelaar is, niet een die de openAI api voor ontwikkelaars gebruikt

Quintiemero @Mathijs Kok • 10 mei 2026 18:28

Voor vibe coders dus.

thomas1907 8 mei 2026 01:14

Hopelijk wordt het ook mogelijk deze te gebruiken als je hem zelf host (dat las ik zo snel even niet). Ik heb momenteel subgen draaien met Whisper large v3 voor series en films (als laatste 'reddingsmiddel' als er geen goede subtitles beschikbaar zijn) en dat werkt heel erg goed.
Ik zou graag een nog beter model willen draaien er voor

Noxious @seweso • 7 mei 2026 21:39

Je stuurt een audio-stream naar deze apis, het is niet zomaar een bestandje uploaden.

witi77 @Noxious • 7 mei 2026 21:50

voor transcriben zou dat wel zo moeten werken, meestal stuur je een S3 link oid naar de API

Pieter_621 @witi77 • 7 mei 2026 22:02

Niet met deze realtime API, die stuur je audio streams. Dan krijg je steeds stukjes transcriptie teruggestuurd. Dit is voor als je zo snel mogelijk de tekst wilt hebben, bijvoorbeeld omdat je er iets op wilt laten reageren. Je kan ook instellen hoe snel je de transcriptie wilt, tussen 0.4 en 3 seconde. Al gaat de kwaliteit omlaag als je die sneller wil hebben.

[Reactie gewijzigd door Pieter_621 op 7 mei 2026 22:03]

witi77 @Pieter_621 • 7 mei 2026 22:31

nee realtime natuulijk niet via een file, dit is wel interessant om bijvoorbeeld je asterisk centrale slim te maken zodat een beller live vragen kan stellen. Ik zou daar zelf wel het liefst een eigen local model voor draaien en niet afhankelijk van een api zijn.

Om te kunnen reageren moet je ingelogd zijn