OpenAI zou werken aan een 'multimodale digitale AI-assistent'. Gebruikers kunnen er gesprekken mee voeren en de assistent zou objecten op foto's kunnen herkennen. Het bedrijf kondigt het stemmodel mogelijk maandag al aan.
Volgens bronnen van The Information zou dit nieuwe, multimodale model audio 'sneller en accurater' kunnen begrijpen dan het huidige text-to-speechmodel van OpenAI. De site schrijft dat het AI-product onder meer de intonatie van sprekers beter kan begrijpen, waardoor het onder meer doorheeft als ze sarcastisch zijn. Dit moet bijvoorbeeld van pas komen bij zakelijke toepassingen, zoals de geautomatiseerde klantenservice, aldus The Information.
Daarnaast moet de tool in staat zijn om objecten te herkennen die gebruikers fotograferen, net als al mogelijk is bij Google Gemini. Volgens de bronnen 'kan het model studenten helpen met hun wiskundehuiswerk, borden in de echte wereld vertalen of autoproblemen oplossen'. The Information schrijft dat het model 'sommige soorten vragen' beter zou kunnen beantwoorden dan GPT-4 Turbo, al wordt daar niet verder op ingegaan.
Volgens de bronnen zou dit model op zijn vroegst maandag al aangekondigd worden. Op die dag houdt OpenAI om 19:00 uur namelijk een livestream. Appontwikkelaar Ananay Aorora ontdekte referenties in de code van ChatGPT die erop wijzen dat er een functie komt waarmee gebruikers binnen de tool telefoongesprekken kunnen voeren. Aorora verwacht dat deze functie ook maandag wordt aangekondigd.
Bronnen van Reuters zeiden eerder deze week dat het AI-bedrijf die dag een eigen zoekmachine gaat aankondigen. Vrijdag ontkende OpenAI-topman dat gerucht. Ook liet hij weten dat GPT-5 niet tijdens het evenement wordt onthuld. The Information schrijft dat het laatstgenoemde model naar verluidt later dit jaar publiekelijk wordt uitgebracht.