OpenAI stelt release Voice Mode voor ChatGPT uit tot het najaar

OpenAI heeft de release van Voice Mode, zijn modus om realtime te babbelen met ChatGPT, uitgesteld tot het najaar. Het bedrijf heeft meer tijd nodig om onder meer de infrastructuur te bouwen om miljoenen realtimegesprekken tegelijkertijd te voeren.

Daarnaast is de tijd nodig om het model te trainen om bepaalde content te blokkeren of te verwijderen, zegt OpenAI. Een beperkte test start over een maand, waarna alle betalende gebruikers toegang moeten krijgen tot Voice Mode in het najaar. Die functie laat gebruikers realtime praten met ChatGPT, als een virtuele AI-assistent. De functie heeft 'de lat om het uit te brengen nog niet gehaald', zo zegt OpenAI.

Over de functies voor video en het delen van het scherm met ChatGPT zegt het bedrijf dat het daarvoor nog niet weet wanneer het klaar zal zijn om die aan te bieden. Al die functies kondigde het bedrijf aan voor een snelle release medio mei. De toen beloofde Mac-app is wel dinsdagavond Nederlandse tijd uitgekomen.

ChatGPT voor macOS
ChatGPT voor macOS

Door Arnoud Wokke

Redacteur Tweakers

26-06-2024 • 07:04

50

Reacties (50)

50
50
11
1
0
31
Wijzig sortering

Sorteer op:

Weergave:

Waarin verschilt voice mode dan van het nu al kunnen babbelen met chatgpt via stem? Dat gaat redelijk goed al.
Nu wordt jouw stem eerst nog getranscribed door Whisper, dit doorgegeven aan het onderliggende model, en die genereert een antwoord. Daarna geven ze het antwoord weer een stem met TTS.

Met deze nieuwe versies wordt de audio direct aan de LLM gegeven in plaats van met al die tussen stappen.
Concreet voordeel van de directe integratie voice-llm is bijvoorbeeld dat je een antwoord kan onderbreken en zo sneller en natuurlijker kan converseren. Met de camera integratie kan het om ook meekijken en bv emoties aflezen van de gebruiker wat ook in de conversatie gebruikt kan worden. Dit is nu ook uitgesteld. OpenAI heeft meerdere demo’s van deze verbeteringen in CatGPT. 4o
CatGPT bestaat inderdaad ook maar zit nog niet op 4o :+
Gaat dit zover dat dit bijvoorbeeld ook een sarcastische ondertoon zou kunnen herkennen?
Herkennen is een groot woord, maar gelet op het feit dat het meeste wat LLMs kunnen voortkomt uit zogenaamde 'emergent behavior', aka iets kunnen waarop ze niet specifiek getraind zijn is het mogelijk. Uiteindelijk zal het erom draaien of dat soort nuances duidelijk genoeg te onderscheiden zijn van 'normaal gedrag'.
Ze hadden het eerst over "the coming weeks", wat al lekker vaag is, en nu ineens het najaar? Hoe kunnen ze er zo ver naast zitten?

Lijkt me een typisch gevalletje dat een stel managers dachten dat ze het wel beter wisten dan de programmeurs.
Het werd gepresenteerd een dag voor Google event. En dat is niet de eerste keer dat ze toevallig iets samen laten vallen met iemand anders zijn shine moment (sora).
Google faalt volledig met AI
Als dat laatste het geval is ben ik blij dat ze het uitstellen en niet een gemankeerde versie uitbrengen. Daar hebben we er de afgelopen tijd al teveel van gehad (menig game en laatst ook een zekere speakerfabrikant zouden ze al voor zijn gegaan).
Los je op met een "Enable experimental features" slider in de settings van de user.

Ik vermoed dat het eerder wordt tegen gehouden omdat het bvb niet overweg kan met brillen, hoofddoeken, snorren, ...

Je wilt niet dat ChatGPT dan vraagt: "is het karnaval vandaag?"
Typisch gevalletje van deal met Apple?
Dit is geen programmering vraagstuk. We lopen tegen het einde van “the never ending capacity of the cloud”, en dit is hier een voorbeeld van.

Er is gewoon niet genoeg elektriciteit beschikbaar. Microsoft kan niet meer uitbreiden, regio WestEurope zit vol.

We hebben gewoon met z’n allen verkeken wat hiervoor nodig was infrastructureel gezien, en de ruimte is er gewoon niet.
ik snap het niet want op mijn telefoon kan gewoon praten tegen chatgpt en regeert weer terug met een stem is dit een functie van -o4 of niet
Ik herken wat je zegt, maar dit gaat denk ik een stap verder en is
meer interactief dan het uitspreken van een door AI opgesteld antwoord.
ooh oke nu snap ik het wel dankje
Dat werkt wat lomper, want dat zet je stem gewoon om naar een prompt en daarna de response weer terug om in een stem. Met als grootste nadeel dat dit dus echt heen en weer prompts zijn en dus om ste beurt (steeds vraag->antwoord) wat niet echt als een natuurlijk gesprek voelt. Stel hij begrijpt je vraag verkeerd en begint een antwoord te geven, dat gaat hij eerst helemaal afmaken ipv dat je hem in de reden kan vallen met een "nee, dat bedoel ik niet" en zo praat je nogal snel lang elkaar heen. Wat prima werkt voor tekst-chat, maar voor voice-chat heb je eigenlijk toch wel meer nodig dan alleen wat voice omzetten naar text en andersom en doorvertalen naar de al bestaande systemen (en bestaat ook al wat langer, lullen tegen je siri/alexa bijv).

Dat is dus wat dit moet worden.
Met ChatGPT-4 spreken lijkt op het praten met een walky-talky. Je spreekt een boodschap in en na 2 tot 5 seconden krijg je een antwoord. Dit zorgt ervoor dat het gesprek minder natuurlijk en dynamisch aanvoelt. Bij ChatGPT-4o is de interactie daarentegen veel sneller en natuurlijker. Je kunt ChatGPT-4o tijdens het spreken onderbreken, wat een meer vloeiende en realistische conversatie mogelijk maakt. Bovendien heeft ChatGPT-4o meer emotie in de stem, kan zingen en kan beter inspelen op de sfeer en emotie van het gesprek. Daarnaast kan ChatGPT-4o verschillende accenten en stemtimbres aannemen, en kan het de intonatie en snelheid van de spraak aanpassen aan de context van het gesprek.
[May 22] the timeline is in the coming weeks a very small number of ChatGPT Plus users will have alpha access to the new voice mode.
Was dit bewust misleidend?
Op reddit heeft geen enkele gebruiker toegang.
Deze aankondiging was voor mij een reden om mijn betaalde abonnement aan te houden.
We are planning for all Plus users to have access in the fall.
Eind december? We gaan het zien..

[Reactie gewijzigd door pim op 22 juli 2024 22:01]

Ja, ze moesten per se hun aankondiging een dag voor Google I/O doen!
"Daarnaast is de tijd nodig om het model te trainen om bepaalde content te blokkeren of te verwijderen".

Zijn er transparante definities van deze procedure? Is toch wel belangrijk om te weten wie en hoe deze beslissingen neemt.
AI-bedrijven geven doorgaans liever geen inzicht in hoe een AI getraind en geïnstrueerd wordt. Zie ook de rechtszaak tegen Udio en Suno.
Dit is wel een grote blunder. Hoe on earth hebben ze er zo gigantisch naast gezeten? Je hebt toch wel even intern overleg voordat je deze demo’s geeft en datums gaat noemen? 😣
Het gekke is nog dat het bij mij in de Android app gewoon werkt?
Nee. 4O is al enige tijd beschikbaar, maar er is een maand geleden veel meer gepresteerd dat dat 🙂. De presentatie omvatte een véél natuurlijke manier van praten en het gebruik kunnen maken van video. Dat zit niet in je Android versie. Er zit wel spraak in, maar niet op de wijze waarop het is gepresenteerd.

[Reactie gewijzigd door kamerplant op 22 juli 2024 22:01]

Toch mis ik die voice "Sky" die werd gepresenteerd in de aankondiging wel, dat klonk het minste robot van alle andere voices.
Er komt een stem uit als in de film ‘her’ en jullie vinden het stom dat het niet in een week komt? 😁
Ja, omdat het in de demo's al zo goed werkte. Daarnaast claimde OpenAI het in "the coming weeks" te lanceren. Dus onze verwachtingen zijn niet goed gemanaged.
Dat ging toch niet meer door i.v.m. dat Scarlett Johansson probleem?
Zou dit voor eenzame mensen een mogelijke optie zijn om lekker er op los te babbelen? Eenzame mensen moet je ook op andere manieren betrekken, maar misschien dat dit ook een klein beetje helpt.
Ik denk dat het beter is dan praten tegen een pop
Dit is echt de teloorgang van enige menselijkheid als je denkt dat gezelschap vervangen door AI je een goed idee lijkt.
Ik stel een vraag en ik zeg nergens dat AI vriendschap moet vervangen maar dat je ze ook op andere manieren moet betrekken.

Maar goed, bedankt voor je mening. Ik ben maar zelf op zoek gegaan en vond enorm veel artikelen hierover. Ik quote maar uit eentje
Overall our results indicate that social support can come from either humans or AI – and that working with AI can indeed help people.

But since human social support was the largest predictor of lower loneliness, it seems likely that underlying feelings of loneliness can only be addressed by human connection. In simple terms, entirely replacing in-person friendships with robot friendships could actually lead to greater loneliness.
Bron
Ja ik denk dat het veel potentie heeft. Er werden al tijden zo’n kleine robotjes ingezet bij ouderen en dat schijnt te helpen met eenzaamheid. Als de spraakfunctie echt goed is kan het denk ik heel erg helpen ook bij sociale angst en eenzaamheid
De demo's die ze lieten zien waren stiekem ook te mooi om waar te zijn en voelde ook wel echt next gen tegenover het huidige model. Ik neem aan dat dit ook het 'see' model aangaat.

Ik vind het filmpje met de programmeur die op sollicitatie ging met een hoedje en ongekamd haar echt nog steeds zo komisch en had dit ook graag getest.

*Legt hawai shirt terug in de kast

Edit: Ik heb sinds vandaag wel een Alpha GPT-4o (S2S) er bij gekregen!?

[Reactie gewijzigd door Ruffian op 22 juli 2024 22:01]

Waarom denk je dat de demo's niet realistisch zijn? Ik verwacht dat het systeem precies zo reageert (minus wat pauzes hier en daar weggehaald), maar dat het inderdaad de infrastructuur van openai is die het niet gaat bijbenen als je het nu released. Als dit model uitgebracht wordt zit iedereen, zeker de eerste paar dagen, tegen dat model te praten als een gek. Ze draaien nu al op restcapaciteit op Azure, dus even nog twee of drie keer opschalen voor zo'n event zit er niet in voor ze.
Waarom denk je dat de demo's niet realistisch zijn?
Wil niet alle demo's over een kant scheren, maar als ik kijk naar de demo's mbt AI de afgelopen paar jaar zijn ze toch regelmatig door de mand gevallen, met als toppunt Devin.

Op dit item kan niet meer gereageerd worden.