OpenAI komt met nieuwe audiomodellen die kunnen transcriberen, vertalen en meer

OpenAI heeft drie nieuwe audiomodellen uitgebracht, die speciaal zijn bedoeld voor ontwikkelaars om eigen apps mee te maken. De modellen kunnen onder andere complexe vragen beantwoorden, spraak in real time vertalen en gesprekken transcriberen.

De drie modellen hebben ieder een eigen doel. GPT-Realtime-2 is bijvoorbeeld bedoeld om gesprekken mee te voeren. Dat model kan vragen beantwoorden. Volgens OpenAI is dat zijn eerste spraakmodel dat 'redenering op GPT-5-niveau' kan bieden.

Het model heeft een vier keer grotere contextwindow dan zijn voorganger, GPT-Realtime-1.5. Daarmee kan het nieuwe model beter lange gesprekken voeren en moeilijke taken uitvoeren. Ook kan de toon makkelijker aangepast worden op basis van de situatie, en kan het model korte 'voorwoorden' houden. Het model zegt dan dingen als 'ik ga dat even nakijken' of 'een momentje, ik kijk er even naar', voordat het een uitgebreider antwoord geeft.

Real time vertalingen en live meeschrijven

GPT‑Realtime‑Translate is, zoals de naam al doet vermoeden, juist bedoeld voor vertalingen. Ontwikkelaars kunnen die bijvoorbeeld gebruiken in hun eigen spraakdiensten. Twee gebruikers kunnen zo ieder hun eigen taal praten, waarna het AI-model dat in real time vertaalt. OpenAI verwacht verschillende toepassingen, bijvoorbeeld voor klantenservice van bedrijven, het onderwijs, evenementen en andere diensten.

GPT‑Realtime‑Whisper is tot slot een transcriptiemodel dat spraak omzet in geschreven tekst. Terwijl mensen praten, herkent het model de woorden en schrijft het automatisch mee. Dat kan bijvoorbeeld verwerkt worden in meetingsoftware, zoals Teams, schrijft OpenAI.

De drie modellen zijn per direct beschikbaar via de OpenAI Realtime-api voor ontwikkelaars. Bedrijven kunnen GPT-Realtime-2 gebruiken voor 32 dollar per 1 miljoen tokens. GPT-Realtime-Translate kost 0,034 dollar per minuut, terwijl GPT-Realtime-Whisper 0,017 dollar per minuut kost.

GPT-Realtime-Translate
Vertalingen in real time met GPT-Realtime-Translate. Bron: OpenAI

Door Daan van Monsjou

Nieuwsredacteur

07-05-2026 • 21:08

16

Reacties (16)

Sorteer op:

Weergave:

34 dollar voor 1000 minuten transcriberen is erg duur. Als VoIP oplossing kan bv. Yeastar dat voor 18 dollar per 1000 aanbieden, met samenvatting (algemeen & actie punten) inclusief.

3CX is over gegaan op Grok omdat het ook significant goedkoper is.
edit: even opgezocht, het blijkt 0,20 dollar per UUR zijn, of 0,10 als het in batch is ipv streaming.. Dat is 3,33 dollar per 1000 minuten. Grok Speech to Text and Text to Speech APIs | xAI

[Reactie gewijzigd door SmokingCrop op 7 mei 2026 22:08]

Alles wat je spreekt of tegen je gesproken wordt in het model van Grok invoeren, I'll pass. GPT is niet zaligmakend, maar je data bij Elon stallen is niet bepaald verstandig.
Sorry maar... bij OpenAI wel ?

Het zou een moooie toepassing zijn om dit model offline beschikbaar te maken, op mobile NPU te draaien bijvoorbeeld. Maar ik verwacht dat deze variant veel te groot is om in (V)RAM te laden. Op termijn. Als OpenAI daar geld in ziet.

Desktop misschien, voor de meer fancy GFX kaarten. Of MacOS met z'n Unified Memory.
Hoop op een veilige daadwerkelijke teams integratie. Want teams zelf is dramatisch.
Wij werken met/ via granola, helemaal top! Samenvatting na de meeting in gpt en Lets go!
Jammer ik hoopte op modellen die op een consumer graka konden draaien. Ik houd mijn data letterlijk liever 'in house'. Hard pass.
Whisper (specifiek een van de “faster” varianten) is uitstekend om lokaal op een recent videokaart te draaien, is mijn go-to oplossing om lekker privé te transcriberen.
Je stuurt een audio-stream naar deze apis, het is niet zomaar een bestandje uploaden.
voor transcriben zou dat wel zo moeten werken, meestal stuur je een S3 link oid naar de API
Niet met deze realtime API, die stuur je audio streams. Dan krijg je steeds stukjes transcriptie teruggestuurd. Dit is voor als je zo snel mogelijk de tekst wilt hebben, bijvoorbeeld omdat je er iets op wilt laten reageren. Je kan ook instellen hoe snel je de transcriptie wilt, tussen 0.4 en 3 seconde. Al gaat de kwaliteit omlaag als je die sneller wil hebben.

[Reactie gewijzigd door Pieter_621 op 7 mei 2026 22:03]

nee realtime natuulijk niet via een file, dit is wel interessant om bijvoorbeeld je asterisk centrale slim te maken zodat een beller live vragen kan stellen. Ik zou daar zelf wel het liefst een eigen local model voor draaien en niet afhankelijk van een api zijn.
Getest met ChatGPT maar deze zegt geen mp3 bestanden te kunnen omzetten naar tekst.
Of je leest even: "De drie modellen zijn per direct beschikbaar via de OpenAI Realtime-api voor ontwikkelaars"
Is ChatGPT geen ontwikkelaar?
Als het al een ontwikkelaar is, niet een die de openAI api voor ontwikkelaars gebruikt

Om te kunnen reageren moet je ingelogd zijn