OpenAI heeft drie nieuwe audiomodellen uitgebracht, die speciaal zijn bedoeld voor ontwikkelaars om eigen apps mee te maken. De modellen kunnen onder andere complexe vragen beantwoorden, spraak in real time vertalen en gesprekken transcriberen.
De drie modellen hebben ieder een eigen doel. GPT-Realtime-2 is bijvoorbeeld bedoeld om gesprekken mee te voeren. Dat model kan vragen beantwoorden. Volgens OpenAI is dat zijn eerste spraakmodel dat 'redenering op GPT-5-niveau' kan bieden.
Het model heeft een vier keer grotere contextwindow dan zijn voorganger, GPT-Realtime-1.5. Daarmee kan het nieuwe model beter lange gesprekken voeren en moeilijke taken uitvoeren. Ook kan de toon makkelijker aangepast worden op basis van de situatie, en kan het model korte 'voorwoorden' houden. Het model zegt dan dingen als 'ik ga dat even nakijken' of 'een momentje, ik kijk er even naar', voordat het een uitgebreider antwoord geeft.
Real time vertalingen en live meeschrijven
GPT‑Realtime‑Translate is, zoals de naam al doet vermoeden, juist bedoeld voor vertalingen. Ontwikkelaars kunnen die bijvoorbeeld gebruiken in hun eigen spraakdiensten. Twee gebruikers kunnen zo ieder hun eigen taal praten, waarna het AI-model dat in real time vertaalt. OpenAI verwacht verschillende toepassingen, bijvoorbeeld voor klantenservice van bedrijven, het onderwijs, evenementen en andere diensten.
GPT‑Realtime‑Whisper is tot slot een transcriptiemodel dat spraak omzet in geschreven tekst. Terwijl mensen praten, herkent het model de woorden en schrijft het automatisch mee. Dat kan bijvoorbeeld verwerkt worden in meetingsoftware, zoals Teams, schrijft OpenAI.
De drie modellen zijn per direct beschikbaar via de OpenAI Realtime-api voor ontwikkelaars. Bedrijven kunnen GPT-Realtime-2 gebruiken voor 32 dollar per 1 miljoen tokens. GPT-Realtime-Translate kost 0,034 dollar per minuut, terwijl GPT-Realtime-Whisper 0,017 dollar per minuut kost.
:strip_exif()/i/2008164148.jpeg?f=imagenormal)