Gerucht: OpenAI werkt aan AI-stemassistent die foto's kan herkennen

OpenAI zou werken aan een 'multimodale digitale AI-assistent'. Gebruikers kunnen er gesprekken mee voeren en de assistent zou objecten op foto's kunnen herkennen. Het bedrijf kondigt het stemmodel mogelijk maandag al aan.

Volgens bronnen van The Information zou dit nieuwe, multimodale model audio 'sneller en accurater' kunnen begrijpen dan het huidige text-to-speechmodel van OpenAI. De site schrijft dat het AI-product onder meer de intonatie van sprekers beter kan begrijpen, waardoor het onder meer doorheeft als ze sarcastisch zijn. Dit moet bijvoorbeeld van pas komen bij zakelijke toepassingen, zoals de geautomatiseerde klantenservice, aldus The Information.

Daarnaast moet de tool in staat zijn om objecten te herkennen die gebruikers fotograferen, net als al mogelijk is bij Google Gemini. Volgens de bronnen 'kan het model studenten helpen met hun wiskundehuiswerk, borden in de echte wereld vertalen of autoproblemen oplossen'. The Information schrijft dat het model 'sommige soorten vragen' beter zou kunnen beantwoorden dan GPT-4 Turbo, al wordt daar niet verder op ingegaan.

Volgens de bronnen zou dit model op zijn vroegst maandag al aangekondigd worden. Op die dag houdt OpenAI om 19:00 uur namelijk een livestream. Appontwikkelaar Ananay Aorora ontdekte referenties in de code van ChatGPT die erop wijzen dat er een functie komt waarmee gebruikers binnen de tool telefoongesprekken kunnen voeren. Aorora verwacht dat deze functie ook maandag wordt aangekondigd.

Bronnen van Reuters zeiden eerder deze week dat het AI-bedrijf die dag een eigen zoekmachine gaat aankondigen. Vrijdag ontkende OpenAI-topman dat gerucht. Ook liet hij weten dat GPT-5 niet tijdens het evenement wordt onthuld. The Information schrijft dat het laatstgenoemde model naar verluidt later dit jaar publiekelijk wordt uitgebracht.

Door Kevin Krikhaar

Redacteur

12-05-2024 • 12:26

44

Reacties (44)

Sorteer op:

Weergave:

Als ik zelf een foto maak weet ik zelf ook wel wat het is, daar heb ik geen AI voor nodig.......... ;-)

[Reactie gewijzigd door renecl op 23 juli 2024 03:16]

Sinds deze functie al in gpt4 zit, gebruik ik het wekelijks meerdere keren. Gisteren nog, toen ik een paar beestjes in de tuin zag en wilde weten wat het was, of afgelopen week om te zien welk type ventilator in een koelbox zat. En het wordt retegoed herkend in de inmiddels tientallen keren dat ik het zelf gebruik hebt.
Daarvoor (flora en fauna) gebruik ik al járen Seek (2018), toen werd dat ook nog niet zo zwaar als AI in de markt geslingerd.

Wikipedia: iNaturalist

Seek by iNaturalist, a separate app marketed to families, requires no online account registration and all observations may remain private. Seek incorporates features of gamification, such as providing a list of nearby organisms to find and encouraging the collection of badges and participation in challenges. Seek was initially released in the spring of 2018.

[Reactie gewijzigd door nms2003 op 23 juli 2024 03:16]

Aanvullend op herkenning en is de vogelgeluidenherkenapp van Merlin van CornellLab trouwens ook een goede. Hoorde er laatst over van een collega en dat maakt wandelen door de natuur en ook weten wat je hoort net weer even wat interessanter. Stond er als amateur van verbaasd wat voor vogels er zijn te horen. Je laat de app gewoon draaien een paar minuten en je krijgt netjes een lijstje. Ik zie dat in de toekomst ook wel iets zijn dat geïntegreerd gaat worden in zoiets als OpenAI.

Je kunt aan de ene kant zeggen mensen worden luier en leren zelf niet vogelgeluiden herkennen, maar aan de andere kant denk ik dat de meerderheid überhaupt het nooit zou kunnen of weten of willen. Met dit soort apps krijg je juist misschien een groep mensen die laagdrempeliger iets leren.
O nice. Thnx voor de tip.
Er worden zat alternatieven aangeboden (waarvoor dank, vogeltjes vind ik ook leuk om soms te weren hoe/wat als je ze alleen hoort). Maar daar ligt mijn inziens direct het probleem, een app voor vogel geluiden, een app voor plantjes, een app voor beestjes, een app voor muzieknummers etc etc.

de ‘grote droom’ ligt hem in die ene wonder app waar ik alles van kan vragen.

ChatGpt kon mij mooi helpen bij een transformer poppetje uit mijn jeugd die ik niet kon plaatsen uit de serie en ook niet kon vinden all googlend wat geniaal was mijn inziens
Best grappig want de energiehonger die nutteloze AI-queries vereisen zijn nefast voor de beestjes waar je zo nieuwsgierig naar bent.
Misschien wel handig voor blinden en slechtzienden
Misschien wel handig voor blinden en slechtzienden
Dat dan weer wel ;-)
Dat bestaat al, BeMyAI functie binnen de app BeMyEyes. Ik gebruik het al ‘n aantal maanden naar volle tevredenheid. Ook de app SeeimgAI vam Microsoft is erg nuttig. Beidem werken zover ik weet op basis van gpt 4 of afgeleide daarvan.
Niet altijd, je hebt best populaire apps die je bijvoorbeeld helpen te herkennen wat voor (kamer)plant je voor je hebt staan.
Ja, maar als je het als een chatbot wilt gebruiken op de klantenservice is het wel handig als hij ook problemen kan afhandelen op basis van een gestuurde foto. Dus dan heeft de chatter niks aan de functie, maar het bedrijf wel. Scheelt toch weer behoorlijke kosten van klantenservicemedewerkers
Klantenservice als kostenpost zien.... dan is je bedrijf behoorlijk van het pad af (maar ik zie het inderdaad ook steeds meer gebeuren).
Wat zou het anders moeten zijn dan?
En een service kost iets om te bieden, maar levert geen geld op. Ergo: een kostenpost.
De service is een dienst om het product te verkopen. En soms wordt extra service ook verkocht tegen geld, zoals een jaar langer ondersteuning.
Een stuk fatsoen naar je klanten toe. Maak je producten beter en de kosten kunnen naar beneden bijvoorbeeld ipv. snijden en de producten stommer maken.
Als jij 50 man op de klantenservice hebt zitten om vragen te beantwoorden die OpenAI hiermee kan beantwoorden. Kun je dus wellicht naar 10 man om nog de 'echte' problemen te behandelen. Het is bizar hoeveel simpele vragen er beantwoord moeten worden bij de klantenservice die een bezoeker ook prima zelf had kunnen beantwoorden door eens de FAQ te lezen. Maar uit gemak wil men een conversatie hebben. Ik denk dat OpenAI echt wel 80% van de vragen zou kunnen beantwoorden. Hierdoor worden de wachttijden dus ook korter voor de mensen die een daadwerkelijk probleem hebben. Lijkt mij dus een win-win. De simpele vragen kunnen hierdoor 24/7 worden behandeld en de complexere problemen kunnen tussen 9:00-22:00 behandeld worden met een wachttijd die aanzienlijk is ingekort.

Mensen in dienst hebben kost nou eenmaal geld, dus tuurlijk is de klantenservice ook een kostenpost. Het hebben van servers is ook een kostenpost. Wil niet zeggen dat je zonder ze kan.
Ik weet dat op een klantenservice eenvoudige vragen de boventoon voeren. Wat ik ook vaak zie is dat deze antwoorden niet terug de organisatie in gaan om het product te verbeteren. Een AI neerzetten om die vragen te beantwoorden maakt het product nog steeds niet beter tenzij er dan ineens wel een feedback lus ontstaat.
Alleen als ik al me foto’s wil taggen kijkt ai veel sneller dan ik.
Gisteren nog een foto gemaakt van een bloem die spontaan begint te bloeien in mijn tuin. Zelf niet gezaaid of geplant, het is er ineens. Ik heb geen idee wat voor bloem dat is, dus ik vraag het Google lens. Blijkt het "Bos-vogelmelk" te zijn, nog nooit van gehoord.

Dus nee, als ik zelf ergens een foto van maak, weet ik juist soms NIET wat het is en heb ik daar AI voor nodig om erachter te komen.
Je hebt een punt ;-)
De huidige GPT4 voice functie werkt redelijk goed maar is eentonig en redelijk traag. Het zou een hele meerwaarde zijn dat je gewoon een gesprek kan voeren. Stel je voor dat GPT4 een podcast zou kunnen produceren op uw maat en dat je op de koop toe extra vragen kan stellen.

Helpdesks kunnen het zeker gebruiken maar dan moeten hun systemen wel via een API aanpasbaar zijn want zover ik weet kan GPT geen muis/keyboard gebruiken. Op termijn kan men dan API-only apps bouwen zonder interface omdat AI dan rechtstreeks de code aanpast en niet via een visuele interface moet.
Ik vind dat nog wel meevallen! Regelmatig voer ik gesprekken met GPT als ik in de auto zit en bepaalde dingen wil begrijpen
Moet wel indd af en toe zeggen dat ze niet te langdradig moet zijn!
Maar al mijn meetings die ik heb kan ik perfect vragen over stellen! Er zit wel een beetje delay maar niet heel erg dat het storend is.

Punt is ook dat omdat het zo eenvoudig lijkt we ook ongeduldig worden! Als ik een stukje python laat maken gebruik ik soms v3 omdat die sneller is en v4 als de kwaliteit beter moet zijn. De snelheid van v4 is mager, maar nog steeds 10x hoger dan dat ik het zelf moet bedenken. Toch vind ik het langzaam
De huidige versie kan toch al objecten op foto’s herkennen (gpt4 met de dall-e plug), ik gebruik dat regelmatig…


Ermee praten werkt op zich ook best prima, ik gebruik dat niet veel omdat het vrij langzaam is…

Maar als dat sneller is zien ik wel een tabletje hangen met een ai assistent die wakker wordt als ik voorbij de tablet loop en me eventueel zelfs herkent.. het kersje op de taart zou nog een visuele avatar zijn (ik weet dat die er zijn, maar direct van openai ipv derde partij met api geprutst zou ik mooier vinden.

[Reactie gewijzigd door helm71 op 23 juli 2024 03:16]

Dit kan chatgpt4 toch al? Ik upload regelmatig foto’s met tekst en cijfers en de ai kan het allemaal al begrijpen.
Het begint een beetje dood te bloeden met Open AI. Wat zullen we deze week verzinnen om aan te kondigen voor een nieuw abonnementsvorm (of toekomstig).
Ik heb liever een AI tool die herkent wat op de foto's staat en daarvan steekwoorden in de EXIF zet..
Kan dat niet al met CLIP van stable diffusion? Voor wat steekwoorden werk dat best aardig.
In iOS kun je al op die manier door je foto’s zoeken. Verwacht alleen niet dat het in de Exif wordt geplaatst, maar in een lokale database.
Dit moet bijvoorbeeld van pas komen bij zakelijke toepassingen, zoals de geautomatiseerde klantenservice
En daar gaan de banen. Hallo uwv.
Voor adviseurs wilde ik lang terug een model maken die micro expressies herkent, zodat als je bijvoorbeeld financiëel advies geeft, de computer kan herkennen dat de klant wel zegt dat ie het begrijpt, maar eigenlijk niet, maar bijvoorbeeld zich 'dom' voelt als ie dat laat blijken.
Goede adviseurs merken dat van nature en anticiperen daarop met extra uitleg, kleinere stapjes en aangepaste woordkeuze.
Maar niet iedereen is altijd 100% alert, uitgerust, kijkt continu de cliënt in het gezicht of is 'perfect' in het signaleren en anticiperen op micro expressies, dus leek mij zo'n tool ontwikkelen een goed idee.
Dat was in de tijd van nieuws: Algoritme beter dan mensen in herkennen van micro-gezichtsuitdrukkingen.
Helaas nooit gestart omdat het bedrijf net van plan was het adviesbedrijf te verkopen.

[Reactie gewijzigd door djwice op 23 juli 2024 03:16]

En daar komen weer de nieuwe banen...
Hallo nieuwe kansen

[Reactie gewijzigd door P_Tingen op 23 juli 2024 03:16]

Precies.
Iedere baan die vervangen wordt door AI creëert weer een nieuwe baan.
Het enige wat nodig is, is de bereidheid van mensen om in zichzelf te investeren d.m.v. omscholing etc.
Ok en welke baan wordt er gecreëerd bij het vervangen van een callcenter medewerker? Men roept dat altijd maar dat is een loze kreet zonder concreet bewijs. Let wel die volgende baan zal dan ook op een gelijkwaardig niveau moeten zitten waar je je naar om kan scholen want echt niet elke callcenter medewerker is een student die dat als bijbaan doet terwijl hij/zij hogere wiskunde studeert.
Mensen begrijpen niet echt dat de economie draait op mensen die geld uitgeven, en niet op mensen die geld verdienen.
Als mensen allemaal geen geld meer hebben dan maakt het niet echt uit hoeveel banen er "verloren" gaan, als niemand meer iets koopt is er geen reden om iets te maken. Er is dus meer reden om mensen op bvb een basisinkomen te zetten dan alle mensen zonder "employable skills" maar te laten sterven.
Ligt vast aan mij maar
Volgens bronnen van The Information zou dit nieuwe, multimodale model audio 'sneller en accurater' kunnen begrijpen dan het huidige text-to-speechmodel van OpenAI.
Sinds wanneer kan een "text-to-speechmodel" "audio begrijpen"? Wellicht wordt er speech-to-text bedoeld?
Oplossing opzoek naar een probleem als je het mij vraagt.
Nu wachten tot er foto herkenning komt waar ook geluid bij wordt geproduceerd. Zo, ik heb het net verzonnen.
En dan? Als je geluid bij een foto wil kun je dat, lijkt mij, best wel goed tegelijk opnemen. Maar aangezien niemand deze “feature” ooit heeft gemaakt, zit niemand daar echt op te wachten.
Als je al een reeds bestaande foto hebt, dan is er geen geluid bij (want het is geen video) Met AI zou je aan de hand van herkende objecten in een foto er achteraf geluiden bij kunnen genereren.

Het gaat mij erom dat er allerlei toepassingen worden verzonnen waarvan je je kan afvragen wat je aan hebt.
Ik ben benieuwd hoe de tool hier mee omgaat:
Daarnaast moet de tool in staat zijn om objecten te herkennen die gebruikers fotograferen
De interpretatie hier is natuurlijk de objecten die de gebruikers zelf fotograferen, maar zonder context kunnen het ook de objecten zijn die foto’s maken van gebruikers.

Nederlandse taal zit vol met dit soort zaken. Mijn ervaring (copilot/chatgpt) is dat dit vaak eenzijdig wordt geïnterpreteerd door de tools

Op dit item kan niet meer gereageerd worden.