ChatGPT kan met Vision in real time video analyseren, maar nog niet in Europa

OpenAI voegt beeldherkenning toe aan Advanced Voice Mode in ChatGPT. Met die Vision-toevoeging kan ChatGPT niet alleen audio, maar ook beelden herkennen. Abonnees kunnen daarmee bijvoorbeeld ook hun camera op een menu richten of hun scherm delen met de app.

OpenAI laat in een video op X zien hoe Advanced Voice Mode Vision werkt in de mobiele app. Gebruikers kunnen de functie op dezelfde manier gebruiken als de audioassistent, maar dan met videobeelden erbij. Gebruikers kunnen bijvoorbeeld iets zeggen in de camera, inclusief beeld. ChatGPT kan vervolgens bepaalde beelden op de camera herkennen. OpenAI toont als voorbeeld dat ChatGPT herkent welke persoon in beeld een bepaald kledingstuk droeg.

Het is op die manier ook mogelijk om bijvoorbeeld via de camera een menu te herkennen of vragen te stellen over een voorwerp. Gebruikers hoeven dan geen foto te uploaden. Gebruikers kunnen ook hun scherm delen. In een demo toont OpenAI de mogelijkheid dat ChatGPT een chat leest en daarop een antwoord geeft.

Advanced Voice Mode Vision is alleen te gebruiken voor betalende gebruikers. Die moeten een Plus- of Pro-abonnement hebben. De functie komt begin volgend jaar ook beschikbaar voor Enterprise- en Education-gebruikers. Gebruikers in de Europese Economische Ruimte moeten voorlopig nog wachten voor ze de functionaliteit kunnen gebruiken. OpenAI zegt deze 'zo snel mogelijk' naar Europa en landen als Noorwegen en Zwitserland te willen brengen, maar zegt nog niet wanneer dat zal zijn.

ChatGPT Advanced Voice Mode Vision

Door Tijs Hofmans

Nieuwscoördinator

13-12-2024 • 14:51

32

Submitter: Joeyarrowxxl

Lees meer

Reacties (32)

32
32
9
0
0
19
Wijzig sortering
OK, dus je zou de camera van een Tesla kunnen koppelen en de AI kunnen vragen: waar gaat die auto heen? Kan ik daar parkeren? Hoe doe ik dat dan? Is dat een vuilnisbak of een Smart? Wat betekent dat bord?
Met andere woorden: hoe wijkt deze ontwikkeling af van wat Tesla (en anderen) doen met autonome auto's?
Dat de Tesla's niet op basis van zo'n beetje het hele internet getraind zijn, en ChatGPT wél.

Als je die analogie wil volgen gaat die Tesla je vertellen wie de architect van de parkeergarage is geweest, wat de drukste dag en -moment is et cetera.
Dat is natuurlijk niet wat ik bedoelde. Kennelijk is ChatGPT al zo ver dat het video's in reactie kan analyseren. Dat is wat Tesla ook doet voor hun Self Driving. Dit lijkt dus een parallelle, maar nieuwe ontwikkeling met hetzelfde doel.
En beide werken ze super goed…. In een labo.
Ik probeerde een inhoudelijke discussie te starten over twee technisch ontzettend interessante ontwikkelingen. Maar dat lukt op Tweakers nooit zo goed. Hoe zou dat toch komen?
Probeer het forum eens ipv de frontpage voor een diepgravender discussie. Maar volgens mij mist er nog iets aan de kadering van het verhaal. Self driving machine learning en algemene vision machine learning zijn vrij verschillend:
- de ene moet niet afleiden tijdens het rijden
- de ene moet vooral voorspelbaar zijn, niet creatief
- 'de camera van een Tesla kunnen koppelen en de AI kunnen vragen' is vermoedelijk niet iets waar je aan mag koppelen zelfs, of je moet die ene camera op een display zetten en daar je OpenAI Vision op richten. Vermoedelijk moet bij een meer directe koppeling tussen de twee namelijk de RDW dan je auto opnieuw keuren.
- Een extra camera zelf monteren laat staan met OpenAI Vision eraan gekoppeld zal snel neerkomen op de dash cam discussie

Al met al is er dus zeker wel sprake van twee technisch interessante ontwikkelingen, maar kan het best nog eens lastig zijn om die in samenhang te bespreken. Maar probeer zeker het forum nogmaals, wie weet zijn daar meer mensen te vinden op deze intersectie van technologie
Het zijn verschillende toepassingen met elk hun eigen "doel". Bij Self Driving staat voorop dat het systeem moet handelen binnen zeer strikte kaders en inderdaad zeer voorspelbaar. Maar ook in die systemen begint het met het analyseren van bewegende beelden en het herkennen en voorspellen van gedrag. In dat stuk zou de technologie hierboven toegepast kunnen worden. De mens doet niet anders: wij interpreteren wat onze ogen zien op soms heel creatieve manieren, maar wij zijn daar ook ontzettend veelzijdig in. De handelingen (bijvoorbeeld in de auto) die we op basis van die beelden uitvoeren is een compleet ander proces, een proces dat wel binnen erg strakke kaders uitgevoerd moet worden.
Gebruik je nu iets van 9 dagen geleden als bewijs dat het wel goed werkt? Na het trackrecord van tesla is er toch meer nodig om mij en hopelijk menig medemens te overtuigen.
Hier in Europa krijgen we dat niet zo mee omdat we hier nog op het oude Autopilot zitten, waar al zo'n 2-3 jaar niet meer aan gewerkt wordt. Vaak als het in het nieuws komt gaat het ook over Autopilot.

In de VS rijden de meeste Teslas nu met FSD, een compleet andere versie die veel beter werkt. Sinds de laatste paar updates afgelopen maanden zijn er ook enorme verbeteringen te zien. Dus ja, dit staat wel in lijn met een trend die we de afgelopen tijd zien.
Die van tesla is erg beperkt. Niet te vergelijken
Man, wat een stroperige discussie :)
Een poging op inhoud.

Op het eerst gezicht lijkt het hetzelfde. Beide reageren obv wat ze zien. Maar deze zijn niet hetzelfde.

Aantal verschillen:
- Real-time: Bij Tesla is de tijd tussen wat de camera ziet en de actie die ondernomen wordt (sturen, remmen, acceleren, richting aangeven e.d.) zo kort mogelijk.
- Anticperen, een auto moet anticiperen wat andere deelnemers (mogelijk) van plan zijn, dit heb ik nog niet bij ChatGPT gezien
- Hardware: Tesla's hebben meerdere camera's en de chip lokaal, en vereist geen internet verbinding.
- Energieverbruik: De chip is energiezuinig ontworpen waardoor dit geen significant effect heeft op het bereik
- Flexible: ChatGPT Vision is wel flexibeler. Buiten autorijden ook direct te gebruiken.

Beide zijn op hun eigen manier
- Interface: ChatGPT geeft met spraak/text terug wat deze herkent, Tesla heeft alleen een simpele visuele laag om de bestuurder te informeren wat de auto van plan is en wat deze ziet.


De variant dat je een normale auto uitrust met een zelfrijdende-module bestaat (deels) al. Als Telsa de apple is, dan is Comma.ai de andriod van de zelfrijdende auto software/hardware: https://comma.ai

[Reactie gewijzigd door JVos90 op 14 december 2024 00:03]

Een poging op inhoud.

Op het eerst gezicht lijkt het hetzelfde. Beide reageren obv wat ze zien. Maar deze zijn niet hetzelfde.

Aantal verschillen:
- Real-time: Bij Tesla is de tijd tussen wat de camera ziet en de actie die ondernomen wordt (sturen, remmen, acceleren, richting aangeven e.d.) zo kort mogelijk.
- Klopt, maar de "lag" bij ChatGPT is een technische, geen systematische. Dat kan dus opgelost worden door (net zoals Tesla dat doet in de auto) er genoeg rekenkracht tegenaan te gooien.
- Anticperen, een auto moet anticiperen wat andere deelnemers (mogelijk) van plan zijn, dit heb ik nog niet bij ChatGPT gezien
Maar dat is nu precies wat ChatGPT wel doet: ChatGPT "begrijpt" wat het ziet en kan dus in principe ook veel beter voorspellen wat er gebeurt. In een Tesla is het (volgens mij) voornamelijk trajectberekenen en daarmee voorspellen waar een object heen gaat. ChatGPT zou in staat moeten zijn om bijvoorbeeld te voorspellen dat een auto gaat stoppen voor een stoplicht, of te voorspellen dat een kind achter een bal aan gaat rennen.
- Hardware: Tesla's hebben meerdere camera's en de chip lokaal, en vereist geen internet verbinding.
- Energieverbruik: De chip is energiezuinig ontworpen waardoor dit geen significant effect heeft op het bereik
Dit zijn technische details.
- Interface: ChatGPT geeft met spraak/text terug wat deze herkent, Tesla heeft alleen een simpele visuele laag om de bestuurder te informeren wat de auto van plan is en wat deze ziet.
Dit heeft niets met de techniek te maken, maar met een bewuste keuze die te maken heeft met de meestgebruikte interface waarmee ChatGPT wordt benaderd. Als je een text kunt genereren, dan kun je ook een rempedaal bedienen.
De variant dat je een normale auto uitrust met een zelfrijdende-module bestaat (deels) al. Als Telsa de apple is, dan is Comma.ai de andriod van de zelfrijdende auto software/hardware: https://comma.ai
Daar heb ik over gelezen, maar ik heb me nog niet verdiept in de achtergrond. Ga ik eens doen!
Het lijkt hetzelfde omdat er bij beiden gebruik wordt gemaakt van:
1) Een sensor die video registreert;
2) Een of meerdere modellen die uit de video een object kunnen herkennen.

En hier houdt de vergelijking wel zo'n beetje op. Self-driving is totaal anders:
- Meerdere verschillende typen sensoren moeten combineren;
- Veel strakkere latency eisen;
- Model(len) moeten uiteindelijk een vector met acties genereren, geen vector met producten
- Veel strakkere veiligheidseisen; er moeten backups zijn; veelal zal daarin een vorm van expliciete modellering van de voertuigdynamica zitten, iets waar een simpele Chatbot geen rekening mee hoeft te houden

Voor de gemiddelde leek klinkt het alsof het hetzelfde is, maar het is echt lichtjaren verwijderd van elkaar. Self-driving is veel meer een control engineering probleem; plaatjes herkennen is een data probleem.
Voor de gemiddelde leek klinkt het alsof het hetzelfde is, maar het is echt lichtjaren verwijderd van elkaar. Self-driving is veel meer een control engineering probleem; plaatjes herkennen is een data probleem.
En daar ging het me om. Je zou het ChatGPT systeem kunnen gebruiken om de detectie, analyse en voorspelling van de verkeerssituaties te ondersteunen, waarna de Self Driving unit besluit wat te doen. Misschien was het niet duidelijk, maar ik plaatste ChatGPT aan de voorkant van het hele proces van Self Driving. Ook het Tesla systeem probeert te voorspellen wat objecten gaan doen, dat houdt ook in dat je zoveel mogelijk probeert te begrijpen wat je "ziet'.
Of dat het gebouw, een parkeer garage van 3 verdiepingen, een middeleeuws grachtenpand is of andere hallucinatie. Hallucinatie is het woord dat ze gebruiken voor AI fouten.
Is dat een vuilnisbak of een Smart? _/-\o_ Geniaal.
om een kort antwoord te geven.

ChatGPT's implementatie werkt via server, niet lokaal.
Reactie tijd is belangrijk. Bij tesla moet hij om de zoveel ms zijn beslissing bijsturen, opnieuw zijn beslisisng analyseren. Er is geen andere tijd dan de nu tijd in een auto.

ChatGPT kan een geformuleerd antwoord geven en wachten op nieuwe input, maar zal niet bijsturen tijdens het antwoord wordt gegeven.

Als natuurlijk A) het lokaal kan denken en B) de reactie hetzelfde is dan dat van de auto, en C) moet ook ergens met multiple sensors kunnen omgaan, dan heb je een concurrent.

Misschien is dit ooit iets voor de Teslabot.
Helemaal juist, daarnaast kan het algoritme van tesla veel eenvoudiger gehouden worden omdat het classificatie moet doen en geen identificatie. Of het nu een boom, paal of gebouw is maakt niet uit. Het is niet de weg.

Dat maakt het efficiënter en sneller wat weer belangrijk is om na classificatie actie erop te ondernemen.
Uitgeprobeerd met VPN (ja, bekend met mogelijke risico's :) ) en het is een erg leuke functie. Zolang het nog niet beschikbaar is in Europa maar verder met gratis gemini 2.0 in google's ai studio ;)
En al gebanned of niet? Zit te twijfelen om met VPN te doen.
Ik ben nog niet gebanned. Maar bij twijfel probeer gemini 2.0 (het principe is hetzelfde)

[Reactie gewijzigd door Westpjotr op 14 december 2024 10:15]

Apart, ik gebruik geen VPN en ik heb deze functie wel gewoon in advanced voice mode sinds vanochtend.
Volgens de AI zag ik er vanochtend slaperig uit maar zou het mooie uitzicht vanuit mijn kantoortje me snel op moeten vrolijken.

Edit:
Ik heb er nu nog eens wat meer mee zitten spelen en het is werkelijk waar bizar indrukwekkend.
Hij kan me precies uitleggen wat hij ziet, ook als ik hem vrij abstracte en niche zaken laat zien kan hij vertellen wat het is en ook zijn mening geven over wat hij ziet.

Waar ik het voor ga gebruiken weet ik niet, maar het is indrukwekkend.

[Reactie gewijzigd door sterkeronline op 13 december 2024 15:32]

Volgens de AI zag ik er vanochtend slaperig uit maar zou het mooie uitzicht vanuit mijn kantoortje me snel op moeten vrolijken.
Hahaha, ik zei altijd tegen een collega van me dat ze er verlopen uit zag 's morgens en dan kreeg ik altijd wat van de poppen op haar bureau naar mijn hoofd geslingerd. Nice dat ChatGPT ook humor heeft.
Ik ben een Team licentie gebruiker en bij mij werkt de vision feature in advanced voice al wel.
Werkt gewoon hier zonder vpn. Pro abonnement
Ik heb de functie al….? Draai soms een VPN maar niet altijd ongeveer 1% van de tijd…
Bij elke verbetering denk ik: weer een extra argument om persoonlijke data te delen zonder bij na te denken.

Als je maar zorgt dat je er genoeg waarde voor terug krijgt dan denkt niemand meer over privacy.

Op dit item kan niet meer gereageerd worden.