OpenAI toont beter presterende o3-modellen; release volgt eind januari

OpenAI heeft o3 en o3-mini aangekondigd. De nieuwe AI-modellen zouden in benchmarks beter presteren dan het o1-model. De modellen zijn momenteel enkel beschikbaar voor wetenschappelijk onderzoek. Eind januari volgt een officiële release voor het brede publiek.

Uit de aankondigingsvideo van OpenAI blijkt dat het o3-taalmodel een score van 87,5 behaalt op de ARC-AGI-benchmark. Deze test is in 2019 ontwikkeld door het Alignment Research Center en is een benchmark die volgens maker François Chollet in staat is om de 'algemene intelligentie' van AI-tools te vergelijken met aspecten van menselijke intelligentie. Tot op heden heeft geen enkel AI-model honderd procent op deze test gehaald. Het o3-model haalde via zijn low-compute-modus een score van 75,7 procent. In de high-compute-modus kon een score van 87,5 procent op de ARC-AGI-benchmark worden behaald. In deze modus ging de benodigde rekenkracht, en dus ook de kostprijs van de berekeningen, echter wel de hoogte in. Het o1-model haalde in deze benchmark, in de high-compute-modus, een maximale score van 32 procent.

OpenAI heeft ook nog enkele andere benchmarkresultaten gedeeld. Het o3-model zou op de American Invitational Mathematics Examination-test bijvoorbeeld een score van 96,7 procent halen. Het o1-model haalde in deze dan weer test een score van 83,3 procent. O3 haalde op de GPQA Diamond Test ook een score van 87,7 procent. Het o1-taalmodel haalde op deze test een score van 78 procent.

Zowel o3 als o3-mini zijn nog niet beschikbaar voor het grote publiek. OpenAI heeft de taalmodellen wel opengesteld worden voor wetenschappelijk onderzoek dat gericht is op de publieke veiligheid. Onderzoekers kunnen zich hiervoor aanmelden bij het bedrijf. Ceo Sam Altman verwacht dat o3-mini eind januari beschikbaar wordt gesteld. Het o3-model wordt kort daarna beschikbaar gesteld. Het is niet duidelijk welke prijs OpenAI voor het gebruik van deze modellen zal aanrekenen.

Door Jay Stout

Redacteur

21-12-2024 • 10:31

75

Lees meer

Reacties (75)

75
75
25
2
0
46
Wijzig sortering
Wat mij vooral opvalt, is dat deze modellen slimmer lijken te worden door vooral meer rekenkracht en data in te zetten, niet per se door een revolutionaire nieuwe doorbraak in de achterliggende technologie.

Zelf gebruik ik ChatGPT dagelijks en merk ik een flinke productiviteitsboost. Toch zie ik dat veel mensen AI nog beoordelen alsof het een mens is: ze klagen dat het “hallucineert” en niet te vertrouwen is. Maar ik denk dat je AI echt als een tool moet zien, niet als een mens. Dat is net zoiets als zeggen tegen een rekenmachine dat-ie zelf maar even alles moet uitvogelen. AI is nog een jonge technologie, en we hebben simpelweg nog niet allemaal de skills om er goed mee te werken.

Door te “klungelen” met ChatGPT ontdek ik steeds meer toepassingen. Je leert beter prompts formuleren, je ontdekt welke context je moet geven, en dan blijkt het opeens een enorm handige assistent. Naar mijn idee zit de grootste winst momenteel in hoe we AI gebruiken, in plaats van in de evolutie van de techniek zelf. Zolang je je verwachtingen realistisch houdt en AI inzet op de juiste manier, is de potentie echt gigantisch.
Mensen hallucineren ook. Zo vaak hoor je op feestjes mensen dingen zeggen over techniek, computers, wat dan ook wat gewoon totale onzin is.

Eigenlijk is dat ook hallucineren, maar we vinden het heel normaal.

Het verschil is dat mensen AI beoordelen alsof het een expert is die geen of nauwelijks fouten maakt, en dat is helaas niet zo; het is nu idd vooral een assistent die best veel feitjes kent maar ook regelmatig de fout in gaat. Maar die expert gaat er wel komen straks.

NB: het lijkt er wel op dat o1/o3 nieuwe achterliggende techniek hebben rondom het redeneren, wat zover ik het begrijp ook deels los van taal gaat.
Als je geen domein expert bent of je mist de skill kritisch denken is het lastig om een antwoord goed in te schatten. Daarnaast is goed stellen van een (vervolg)vraag ook erg belangrijk voor het antwoord.
Sterker nog halucineren is nodig, als ik twee getallen wil optellen dan moet ik die eerst halucineren. In de wetenschap moet je vaak variabelen kiezen (halucineren) en uitgangspunten hebben (moet je ook halucineren)

Elke vorm van communicatie vergt " filling the blanks" en soms is het niet duidelijk dat iets een blank is, maar heb je toch nodig om iets uit te vinden in het over te brengen.

Het zijn de antwoorden die niet mogen gehalucineerd worden, en dat is waar redenering modellen net verandering in brengen. Vermoedelijk doen wij dat onbewust als messen ook.
Verzinnen en hallucineren is toch echt niet hetzelfde. Compleet anders zelfs.
Noch zijn "filling in the blanks"/invullen en hallucineren synoniemen.

Hallucineren is het verliezen van de connectie met de realiteit. Invullen en verzinnen hebben alle twee een basis in de realiteit.
Als een persoon iets verzint weet deze dat dit verzonnen is. Dus dan is de connectie met de realiteit bekend. Bij invullen of filling in the blanks doe je aan 'afleiden van'.

Dit gaat dus compleet mis bij de AI, ze verzinnen iets en zien dat als de realiteit. Dat is hallucineren, AI kan compleet de connectie met de realiteit verliezen want AI heeft geen besef van realiteit.
Ik denk dat we eerst duidelijk moeten zijn over één ding: hallucineren bestaat niet in AI. AI is getraind op data, en wat wij hallucineren noemen, is dat hij (in onze mening) verkeerde data toont uit zijn getrainde data. Maar dat betekent niet dat het daadwerkelijk verkeerde data is voor de AI zelf. Hij is getraind, en zijn inputdata heeft hem aangezet om bepaalde data daaruit te laten ontstaan. Dat is waarom wij reinforcement learning toepassen, zodat zijn realiteit overeenkomt met onze realiteit van mensen. Maar niets zegt dat onze notie van realiteit juist is en dat wij het model dus soms de verkeerde richting uitduwen met onze reinforcement. Het zal wel menselijker aanvoelen als het dezelfde fouten maakt als ons.

Gezien hallucineren niet bestaat bij AI’s, is de output altijd het gevolg van een filling in the blanks-concept om menselijk te lijken. Als hij dat niet zou doen, dan zouden de antwoorden onmenselijk aanvoelen. Vandaar dat ik zei dat hallucineren gedeeltelijk nodig is om met een menselijk antwoord af te komen. Ik zie trouwens niet in waarom je mij hiervoor een 0 score hebt gegeven, ik heb proberen te helpen een relevant aspect duidelijk te maken.

[Reactie gewijzigd door sebastienbo op 23 december 2024 10:59]

Ach als je het zo bekijkt dan kunnen mensen ook niet hallucineren. Immers is er een reden, kan van alles zijn maar er is vroegere input wat het verklaart.

Als iemand een draak ziet door weet ik veel wat, hallucineert hij die draak. Maar omdat hij plaatjes van draken heeft gezien in kinderboeken vroeger hallucineert hij niet volgens jouw argument. Die vlieger gaat bij mij niet op.
Dat is waarom wij reinforcement learning toepassen, zodat zijn realiteit overeenkomt met onze realiteit van mensen. Maar niets zegt dat onze notie van realiteit juist is en dat wij het model dus soms de verkeerde richting uitduwen met onze reinforcement.
Een AI heeft geen realiteit. Om een realiteit te hebben moet je ook het tegenovergestelde hebben, fantasie, dat heeft AI niet.
Ook gebruikt ChatGPT in zijn kern geen reinforcement learning. Alleen voor het fine-tunen, zeggen dat hallucineren door reinforcement learning komt is incorrect. Het wordt wel gebruikt om het hallucineren te verminderen. ChatGPT gebruikt dus RLHF, reinforcement learning human feedback.
Gezien hallucineren niet bestaat bij AI’s, is de output altijd het gevolg van een filling in the blanks-concept om menselijk te lijken. Als hij dat niet zou doen, dan zouden de antwoorden onmenselijk aanvoelen.
Een computer of AI kent het concept filling in the blanks niet. Noch voelt ChatGPT bijzonder onmenselijk dus iets gaat hier mis. ChatGPT reageert altijd en heeft geen blanks, daarom gaat het juist mis. Want ook wanneer het model te weinig data heeft om iets te weten reageert het nog steeds. Dat noemen we hallucineren.
Vandaar dat ik zei dat hallucineren gedeeltelijk nodig is om met een menselijk antwoord af te komen.
Ook dat klopte niet. Een AI heeft hallucineren nodig om een antwoord te geven, niks met het menselijke gedeelte te maken. Want dan moet het model weten wat het niet weet wat momenteel op bepaalde schaal kan. Net nog gevraagd aan chatgpt wat hudopping betekent, kwam met een ridicuul antwoord dat heel normaal lijkt.
Ik zie trouwens niet in waarom je mij hiervoor een 0 score hebt gegeven, ik heb proberen te helpen een relevant aspect duidelijk te maken.
Omdat hallucineren en het verzinnen van variabelen compleet andere dingen zijn en een irrelevante vergelijking is. Proberen bij te dragen terwijl er kennis mist is exact ook wat er mis gaat bij AI's en soms ook wel als hallucineren wordt genoemd. Cirkeltje rond.
Sommige mensen hebben de status een betrouwbare bron te zijn over een onderwerp. We begrijpen uiteindelijk wel dat mensen op feestjes onzin uitkramen. Terwijl je er van uit kan gaan dat een professor over zijn vakgebied wel de juiste dingen zegt. Daar zijn we aan gewend in communicatie. Het is dus heel menselijk om die mindset door te trekken naar AI, terwijl dat niet goed gaat.

[Reactie gewijzigd door PB. op 22 december 2024 14:01]

Eigenlijk is dat ook hallucineren, maar we vinden het heel normaal.
ik vind het toch weleen wezenlijk verschil. een computer/internet/AI heeft voor een groot deel het boek als naslagwerk vervagen. een mens is nooit een naslagwerk (al zijn er ongetwijfeld wandelende encyclopieen). een naslagwerk moet je toch wel kunnen vertrouwen (nee, niet blind, maar wel grotendeels). een naslagwerk zal niet hallucineren toch?
Dit argument hoor ik erg vaak van AI-evangelisten, dat het probleem ejg emijk bij het publiek ligt: die niet zo moeilijk jij, jij maakt toch ook fouten?

Het probleem is dat jij er nu voor oppert om een stuk software als een mens te behandelen, en dat is het niet. Zelfs de beste modellen van dit moment zijn overduidelijk niet in staat te redeneren. Zo loop ik er nog altijd tegenaan dat wanneer ik zon model op een foutje betrap en ik zeg "hey, X is fout, dat moet Y zijn", het antwoord wordt "oh ja, excuses, dat is inderdaad fout. Het juiste antwoord is X", of een dergelijk absurd iets. Een mens, zelfs eentje die nul kennis van het onderwerp heeft, zou meteen zien dat dit gesprek helemaal fout loopt.

Dit systeem op dezelfde manier behandelen als een mens slaat dus nergens op, omdat het niet op dezelfde manier als een mens "redeneert".
Op zich allemaal waar. De ergernis zit 'm voor mij met name bij mensen die er veel te hoge verwachtingen van hebben. Ik maak op mijn werk mee dat mensen juridisch advies vragen aan een LLM. Of dat ik memo's krijg van 8 pagina's die duidelijk door een LLM zijn geproduceerd. Lekker: voor jou 5 minuten om deze lap tekst te produceren en ik moet nu deze generieke troep gaan doorlezen om te achterhalen wat je precies wil vertellen. En daar zit dan geen enkele originele gedachte bij en wel een heleboel wollige taal die duidelijk afgeleid is van Amerikaanse commerciële kopij.

Een ander probleem is dat 't spul behoorlijk onder de kostprijs wordt aangeboden. Als je kijkt naar de investeringen versus de rentabiliteit van de ondernemingen die 'AI' aanbieden dan moet je concluderen dat het een grote gok is. Op de korte termijn gaan 95% van die OpenAI-wrappers gewoon omvallen, zeker als OpenAI uiteindelijk kostendekkende tarieven moet gaan rekenen. Dan is het feest heel snel afgelopen.
Een perfect voorbeeld dus hoe mensen GenAI niet moet gebruiken. Het gaat om productiviteit verhogen, niet om tekst uitkotsen zodat anderen dit moeten lezen en zich hieraan kunnen ergeren.
Ja precies. Meeting notes niet gewoon doorblaffen (er staat nota bene een waarschuwing bij) maar eerst doorlezen. Vaak zie ik veel fouten terugkomen zoals het toeschrijven van actiepunten aan degene die er over begon, maar niet aan de persoon waarvan besloten was dat die het ging doen. Dat soort dingen.

Het nalezen is veel sneller dan zelf schrijven, en versterkt bovendien de herinnering aan het gesprek. Maar mensen zijn lui en blaffen het gewoon door. Wat krijg je dan: Allerlei onzin die niet klopt maar waar jij volgend jaar over aangesproken werd (in de notulen stond dat het jouw actiepunt was!!) en de originele opnames inmiddels al verwijderd zijn :(
Daar ben ik het ook 100% mee eens!

Mensen die AI als een soort van autonoom ding zien dat zelfstandig taken kan uitvoeren is verschrikkelijk. Ik gebruik gelukkig zelf genoeg AI, om al een beetje te kunnen ruiken of iets volledig door AI is gegenereerd. En dan ga ik het niet eens doorlezen.

Wat ik persoonlijk bijvoorbeeld doe als het om schrijven gaat, is rommelig maar explicit uitschrijven wat ik geschreven wil hebben en het door een LLM netjes laten maken, waarna ik het alsnog hier en daar aan laat passen om aan te laten sluiten op mijn persoonlijke tekst stijl. Ik maak ook Custom GPT's voor verschillende gelegenheden waarbij ik het LLM heel veel persoonlijke tekst heb gevoerd, in een bepaalde schrijfstijl, om zo te zorgen dat hij mijn schrijfstijl een beetje hanteert. Dit gaat nog niet 100% goed, maar helpt wel.
Of dat ik memo's krijg van 8 pagina's die duidelijk door een LLM zijn geproduceerd. Lekker: voor jou 5 minuten om deze lap tekst te produceren en ik moet nu deze generieke troep gaan doorlezen om te achterhalen wat je precies wil vertellen. En daar zit dan geen enkele originele gedachte bij en wel een heleboel wollige taal die duidelijk afgeleid is van Amerikaanse commerciële kopij.
Dit merk ik zelf ook. ChatGPT is erg slecht in korte, bondige en duidelijke communicatie. Als ik zie dat mensen het uitgebreid gebruiken en het leidt tot ergernis, dan spreek ik ze er op aan. Ik vind juist een groot pluspunt als mensen moeite doen om wel duidelijk te communiceren.
Je kunt vragen om korte bondige teksten met hoge informatiedichtheid en dat werkt best goed.
Gewoon die 8 pagina zelf weer door ChatGPT halen voor een antwoord. Lekker AI met AI laten praten.
k maak op mijn werk mee dat mensen juridisch advies vragen aan een LLM. Of dat ik memo's krijg van 8 pagina's die duidelijk door een LLM zijn geproduceerd.
Ja bij ons op het werk de juristen zelf hebben er de hoogste verwachtingen van.

Die dumpen er twee juridische documenten in van 80 pagina's en verwachten een uitgebreide juridische analyse van de verschillen op elk punt van de overeenkomst enzo. Daar moet je echt geen copilot voor hebben. Die brabbelt wat, vooral op het begin van beide documenten gebaseerd en negeert de rest.

Ik snap het ook niet dat ze dat zo graag willen hebben want je kan er donder op zeggen dat zodra een AI dat betrouwbaar en snel kan doen, zij geen werk meer hebben.
Lekker: voor jou 5 minuten om deze lap tekst te produceren en ik moet nu deze generieke troep gaan doorlezen om te achterhalen wat je precies wil vertellen.
Dat kun je dan weer perfect laten samenvatten door chatGPT ;-)
Eens, Ai is ondersteuning, geen vervanging.
Maar doordat het ondersteuning is, is het vervanging. Als al je medewerkers 10% productiever worden door AI, dan kan je er dus ook voor kiezen om 10% van je personeel te ontslaan.
Dat kan, maar je kan ook meer met dezelfde mensen doen. Historisch gezien is menselijke arbeid de limiterende factor voor economische groei.
Zijn veel afdelingen waar je niet perse meer hoeft te doen maar waar efficiëntie wel fijn is, als je er op HR, Finance/Administratie mensen uit kan gooien terwijl dienstverlening gelijk blijft dan is die keuze snel gemaakt.
Dat is heel kortcyclisch gedacht. Ondanks Excel en rekenmachines is het aantal accountants niet afgenomen.
Klopt maar het aantal accountants dat geen excel gebruikt is 0.
Techniek vervangt nooit mensen op dat vlak. Mensen die de techniek niet gebruiken worden zeker weten vervangen door mensen die de techniek wel gebruiken.

Alleen al met whisper icm een simpele api call text hoef ik geen email meer te schrijven en zijn emails taalkundig meer dan goed genoeg. Hierdoor ben ik efficiënter dan mijn peers die dat niet doen. Dus onder gelijke omstandigheden zal ik een voordeel hebben tov diegene die dat niet doen.

Klusjesman met een handschroevendraaier versus eentje met een deftige Makita

Natuurlijk moet je er wel mee om kunnen gaan, dat is eerder het probleem!
Ja, dat bedoel ik ook te zeggen. De persoon waar ik op reageert zegt dat er mensen uitgaan. Ik denk niet dat dat zo snel gebeurt, er zal eerder dat gaat gebeuren wat jij zegt: dat mensen die de nieuwe technologieën niet omarmen vervangen worden door mensen die dat wel doen. Net zoals het geen optie meer is om als accountant geen Excel te gebruiken.
Klarna gaat zijn aantal werknemers halveren vanwege AI, dat zal op alleen maar meer plekken gebeuren.

https://www.bobsguide.com...g-over-1000-jobs-with-ai/

En hier nog meer voorbeelden:
https://tech.co/news/companies-replace-workers-with-ai
En ergens anders ontstaan er straks weer nieuwe banen. Automatisering heeft er ook niet voor gezorgd dat we massaal werkloos zijn geworden. Tenzij het werk "op" is en we geen nieuwe toepassingen voor menselijke arbeid kunnen bedenken. Maar historisch gezien is er altijd meer werk dan handen geweest, dus als er handen vrijkomen vanwege AI kunnen die nu ingezet worden op andere plekken waar voorheen niemand voor beschikbaar was.
Tja vroeger werkte een groot deel van de mensen in de textielindustrie, ook dat is grotendeels weg geautomatiseerd. Toch is dat grote deel niet werkloos.

AI heeft ook meer dan zat nieuwe banen gecreëerd.

En lees je bronnen alsjeblieft. Je tweede bron begint ongeveer elk bedrijf met "ze hebben het niet publiekelijk gezegd..".
Daarnaast zijn er 2 industrieën waar mensen vervangen worden door AI.
- Shit-media zoals MSN (die schrijven hun nieuws als sinds 2020 met AI)
- Eerste lijns klantenservice. Daar is de huidige AI best goed in.
Snap wat je zegt. En tegelijkertijd moet je nog steeds AI controleren met je eigen kennis. Dus in dat opzicht vervangt het niet. Maar dat het tijdswinst oplevert staat buiten kijf
Maar 10 % van de mensen ontslaan in een tijd van personeelstekorten zijn niet realistisch denk ik? Volgens mij zal het er in een branches juist voor kunnen zorgen dat het werk allemaal wel te behappen is, zonder dat iedereen overspannen raakt.
AI is nu ondersteuning. In de toekomst vervanging.

De snelheid waarmee AI zich ontwikkeld is nu ongekend, het is parabolisch. En het stopt niet mij menselijke intelligentie, er is geen enkele reden om aan te nemen dat dat zo zou moeten zijn. Het is de consensus dat er kunstmatige superintelligentie komt.

Verbaasd mij altijd een beetje dat zelf op tweakers iedereen zo laconiek is met een "zal wel loslopen".
Terwijl de deskundigen ofwel super bullish zijn over AI (binnen de industrie) of de alarmbel luiden over wat er op ons afkomt.

Bijvoorbeeld John Hopfield die dit jaar de nobel prijs voor zijn baanbrekend werk voor AI heeft gekregen.
Die is nu fulltime activist om te waarschuwen voor wat er komt.
Voor een aantal zaken zal dat zeker gelden. Maar AI kan geen verantwoordelijkheid dragen, en AI kan (nog) niet letterlijk alles zien en daar conclusies uit trekken. Ik denk dat het grote verschil gaat worden als je AI combineert met video en bijvoorbeeld een gespreksverslag laat maken op basis van wat er gezegd wordt icm wat men nonverbaal communiceert. Maar het grote issue bij AI zal denk ik wel blijven hoe men met privacy omgaat. Want we hebben (hoop ik) wel geleerd om grote bedrijven niet op hun blauwe ogen te geloven. Dus ook al heb ik een betaald account op ChatGPT, bij mijn komt er geen privacygevoelige informatie in.
Ik snap de link tussen een tool zijn en hallucineren niet. Doordat het haalucineert is het een slechte tool die frustrerend is om te gebruiken.

Grootste probleem is juist dat het zich als mens probeert te gedragen. Met reacties als 'sorry, mijn excuses, ik begrijp'

Wat ik niet snap is waarom ze het hier over versie 1 en 3 hebben maar de link met 4 (de meest geavanceerde op dit moment?) niet leggen.
Voor mijn gebruik (hulp bij onderzoek en schrijven) is juist technische vooruitgang heel erg noodzakelijk Want het gebrek aan logisch redeneren is zeer frustrerend. Alsof je met een bot mes probeert te snijden. Het lukt wel, maar met heel veel pijn en moeite.
Hallucineren komt voornamelijk voor bij onkundig gebruik. Er zijn ontzettend veel mensen die LLM's zonder ervaring proberen en afschrijven op slechte prestaties, niet wetende dat ze zelf gewoon de vaardigheden missen om het juist te gebruiken.

Het is een tool die je moet leren gebruiken. Ik heb persoonlijk 0,0 last van hallucinaties, omdat ik in de afgelopen 2 jaar mijn vaardigheden heb vergroot in het gebruik van LLM's.

Ik trek je veronderstelling in twijfel dat in jou geval technische vooruitgang van LLM's je zal helpen betere resultaten te krijgen. Om in je eigen termen te spreken: Je houd het mes nog ondersteboven. Zeker als je nog met 4 werkt en niet met o1, dat HEEL veel beter is.

Als je niet serieus veel tijd investeert in het leren toepassen van een LLM, zal het de komende tijd niet nuttig voor je zijn. Het gebruik van een LLM vereist serieuze vaardigheid, maar als je die vaardigheid ontwikkeld zijn de productiviteitswinsten gigantisch, en de betrouwbaarheid bepaal je zelf, ook door je eigen vaardigheid.
Ik ga tot op een zekere hoogte in je redenaties mee, maar ik loop dagelijks tegen, wat volgens mij, de fundamentele beperkingen van LLM's zijn aan.

ChatGPT is inderdaad een stuk gereedschap, maar mijn probleem is dat het niet het ideale gereedschap voor mijn klus is. Het is alsof je probeert te schroeven met een drilboor, het kan wel, maar met een schroevendraaier is meestal makkelijker en zelfs sneller. GPT mist in mijn ervaring nog steeds de fijngevoeligheid van een elektrische schroevendraaier die speciaal ontworpen is om te schroeven.

Maar ik zal m'n laatste sessies dan eens in o1 overnieuw proberen te doen. Ik hield het bij 4(o) omdat GPT me dat zelf aanraadde (op basis van een uitgebreide omschrijving en voorbeeld documenten en documenten met bronnen.)

Als je nog goede bronnen voor tips en info over hoe de vaardigheden te ontwikkelen hebt hoor ik het graag, maar als schrijver/onderzoeker blijf ik m'n twijfels houden of LLM's ooit de oplossing zullen zijn voor mijn specifieke toepassing - het blijft in mijn ogen veredelde T9: tekst voorspelling zonder enig begrip.
In het algemeen vind ik dit een heel nuttig YouTube kanaal: https://www.youtube.com/@NateBJones
En in jou geval zou ik vooral o1 gaan proberen! Ik gebruik persoonlijk 80% o1 en 20% 4o. Openai raad 4o graag aan omdat het veel minder resources gebruikt. Maar in de praktijk is 4o alleen in extreem simpele gevallen bruikbaar.

En die beperkingen waar je dagelijks tegen aanloopt met 4o snap ik, 4o is gewoon heel beperkt bruikbaar. Ik heb ze zo vaak beide gebruikt, dat ik een antwoord van 4o direct herken. Soms start chatgpt op in 4o, en heb ik het te laat in de gaten. Als ik een beetje een "domme" respons zie, weet ik meteen, ooh ik heb hem nog op 4o staan.

[Reactie gewijzigd door Emielio op 21 december 2024 14:30]

Ik moet zeggen dat ik hier volledig mee akkoord ben.
Ik gebruik het als een stagiair of intern dat specifieke dingen moet opzoeken voor me..
Waarna ik het nakijk en valideer….

Ook het feit dat whimsicial als addon bestaat maakt flow charts maken een zaligheid.
Investeerders en fanboys hadden teveel stoom op de hype train waardoor mensen de onderliggende techniek vergaten, LLMs blijven token guesstimators, dus gokken ze op de volgende token, en ook denken ze niet zelf (er blijft een drijfkracht nodig). Dat AGI of zelfdenkende AI op termijn een echt ding wordt betwijfel ik niet, maar de huidige techniek is puur werk versnellend.
Ik zie het als 'analist' en niet als 'consultant'. M.a.w. GenAI kan prima data analyseren en samenvatten. Maar het kan er niet echt zelf over nadenken, slimme dingen zeggen en conclusies trekken.
We zijn slim genoeg om AI te maken, te dom om er onafhankelijk van te zijn en te stupide om in te schatten of dit alles uberhaupt een goed idee is. [Quote van Seinfeld]
Ik beoordeel chat-gtp niet als mens maar behandel die wel als een, ik zeg steeds please and thanks :)
Ik zie het ook als een “rubber duck die terug praat”. Je eigen gedachten externaliseren, die aanscherpen, dan even laten bezinken, nieuwe ideeen krijgen
Het is absoluut een fijne assistent die me dagelijks veel helpt en daardoor tijd scheelt. Ik moet wel bekennen dat ik relatief (nu nog?) veel tijd investeer in de prompts voordat ik het gewenste resultaat er uit vandaan krijg

[Reactie gewijzigd door terror-oehoe op 21 december 2024 14:04]

Ik deel dezelfde ervaring, al moet ik bij complexe problemen nog wel eens ‘shoppen’ tussen modellen omdat soms bijvoorbeeld ChatGPT o1 het niet snapt en Claude 3.5sonnett weer wel of omgekeerd. Ik gebruik tijdens het programmeren daarvoor Cursor.AI (VS Code kloon) waar je per chatbericht zelfs kan wisselen.

En gaat wel vlot vooruit, een jaar geleden werd ik nog vaker het bos in gestuurd met compleet verkeerde oplossingen of snapte hij er gewoonweg niks van. Nu komt dat bijna niet meer voor, als ik het maar bij hapklare brokken houd. Ik merk vooral bij een zelf-controlerend model als o1 dat dat niet goed werkt als er een complex of vaag vraagstuk ligt, maar zeg je letterlijk ‘los dit op waar het X doet in plaats van Y’ dan gaat het doorgaans goed.

Ik had het gister nog met whishper, een all-in-one audio-naar-ondertiteling converter inclusief web-interface. Wilde bij mij niet draaien met allerlei foutmeldingen, was zelf niet goed genoeg bekend met de gebruikte talen en libraries. Heb toen de source code in Cursor geladen en met AI het laten debuggen tot ‘we’ erachter kwamen waar en wat er mis ging. Zo had ik het in een half uur opgelost waar je vroeger een issue op de github tracker voor moest openen en dan maar wachten op hulp, of ik had het alweer gelaten en alles handmatig zelf zitten doen.

[Reactie gewijzigd door The Third Man op 21 december 2024 11:54]

Heel herkenbaar, ik switch de hele dag tussen modellen. Zeker omdat niet alle modellen evenveel mogelijkheden van gegevens inlezen hebben. Ik hoop bijvoorbeeld dat o1 snel een keer websites, en documenten kan inlezen.
Herkenbaar, ik wissel ook regelmatig tussen o1 en Sonnet. Dit kan overigens ook gewoon met copilot in VS code tegenwoordig zonder problemen kan je per chatbericht wisselen van LLM.
Ik zag het inderdaad, nu men de bekende modellen daar ook heeft ga ik waarschijnlijk komende maand terug naar (vanilla) VS Code. Begreep dat de auto-complete nog wel wat vlotter werkte bij Cursor en daar kan je met Tab te blijven drukken door je hele bestand de actie herhalen (soort van macro on-the-fly). Maar Co-Pilot gaat zo snel vooruit dat ze waarschijnlijk dat soort achterstanden inlopen waardoor ik het geen groot beletsel vind.

[Reactie gewijzigd door The Third Man op 21 december 2024 23:21]

Wat ik bijzonder vindt is dat we willen/verwachten dat een AI 100% gelijk heeft en daar met alles aan twijfelen. Maar er zijn ook genoeg mensen die “hallucineren” of iets vertellen alsof het de waarheid is terwijl ze iets niet zeker weten.
Zet het op tiktok of instagram en de zelfde AI tekst wordt al snel als waarheid gelooft.
Nee. Maar wat ik zou verwachten is dat als een AI iets niet weet dat die het zegt en niet zelf iets probeert te verzinnen. Natuurlijk zoals hierboven aangehaald is zijn het token guestimators en is dat misschien niet mogelijk
Zo jong is AI niet echt vanuit technisch oogpunt. Als we een AI zien als een neuraal netwerk waarmee je interactie hebt, is het niet gek dat als dat netwerk getraind is op meer informatie dan de gebruiker, dat de gebruiker het gevoel krijgt met een ervaren expert te spreken.

Dat hebben we immers ook als we spreken met een specialist in een bepaald vakgebied, die jaren lang zijn vak met liefde heeft onderhouden en zijn vak te pas en te onpas heeft toegepast op dingen die ie tegen kwam.
Ik bedoel jong vooral in toepassing, en al helemaal in de vaardigheid die mensen hebben in het toepassen. Als je bijvoorbeeld naar computers en internet kijkt, was alle techniek er eind jaren 90 al, om massaal met zijn allen online boodschappen te doen. Het heeft alleen nog een hele tijd geduurd voordat men massaal op Amazon en bol inkopen is gaan doen.

Zelfs met de huidige stand van zaken van LLM's zijn werkelijk onmetelijke dingen te doen, maar de komende decennia gaat dat pas zijn effect hebben in de maatschappij. In dat perspectief is het nog wel jong. Bedrijven en mensen moeten nog systemen en vaardigheden bouwen.
Effecten zijn er al, mensen in het buitenland maken Nederlandstalige websites met fake adressen en adverteren in het Nederlands en verkopen dingen van Temu voor 4x de prijs met reclame alsof je 50% korting krijgt.

Let op retourneren blijkt ineens niet naar het Nederlandse adres te mogen...

Gelukkig ook anders, we kunnen nu Sinterklaas gedichten laten maken door een goede agent te schrijven.

Software en infrastructuur code genereren die in 1x goed werkt en aan de strengste audit / security / accessibility eisen voldoet.

Of een psycholoog agent maken die mensen ook echt helpt. Die lokaal draait bij de cliënt, de informatie die de cliënt vertelt blijft dan privé en van de cliënt.
We kunnen nu mensen helpen die eerder niet bereikt konden worden.

En er zijn mensen die modellen trainen om bijvoorbeeld malaria in een vroeg stadium te detecteren, zodat een arts alleen de meest likely examples hoeft te bekijken.

Er wordt aan AI gewerkt al voordat er internet was voor het publiek.

Mijn eerste webshop was er inderdaad pas begin 2005, ik verkocht tweedehands spulletjes. Mijn eerste website had ik in 1998. Je vergeet denk ik ebay trouwens die was er naast mijn webshop ook.

Maar goed het transformer model is best al oud : https://research.google/b...r-language-understanding/

En zowel gepensioneerden als pubers gebruiken het al. Dus de uitrol en adoptie is vele malen sneller dan kopen via internet. Het is ook veel toegankelijker. Overigens waren al webshops voordat er www was, dat ging via bbs-en en post-order en sommigen kennen viditel of vidiotex nog wel.
YouTube: 7 augustus Viditel (1980)
YouTube: Videotex Nederland reclame (1990)

[Reactie gewijzigd door djwice op 21 december 2024 15:44]

Alles wat je zegt klopt, maar wat is nu je punt?
Dit klopt, er liggen geen technieken op de plank om dit nog een stap verder te brengen. Dit lijkt misschien een doorbraak, maar het slechts meer van hetzelfde. Dat maakt het absoluut nog weer iets nuttiger, maar een enorme vooruitgang is het niet.

Er is denk ik inderdaad nog heel veel potentie in toepassingen verder ontwikkelen. We hadden voor ML/AI altijd al behoorlijk lange projecten nodig om het in te zetten. Mensen verwachten nu omdat het een taalmodel is waar je direct mee kunt converseren dat het ineens taken kan uitvoeren, maar dat is zelfde het geval. Ik denk dat ontwikkeltrajecten nog precies even lang zijn, want aan de omliggende MLOps is eigenlijk niets veranderd, maar er zijn wel veel meer gebruiksscenario's.
Grappig, ik zie het juist wel als een mens, maar dan als eentje die fouten maakt en antwoorden geeft terwijl hij het eigenlijk niet (zeker) weet. Precies als mij medemens dus :)

De verwachtingen van de meeste mensen die AI gaan gebruiken zijn te hoog, ze verwachten een foutloos antwoord en schrijven het al snel af als dat niet komt. Maar zou je een nieuwe collega ook zo behandelen? Of zou je het dan wel accepteren.

Okee, het stoort soms dat het niet gewoon zegt dat het iets niet weet, maar daar moet je dus beducht op zijn.
Wat ik merk met het gebruik van ChatGPT, en gebruik het niet veel, dat het heel goed is om tekst te verbeteren.

Zoals “maak deze tekst formeel” en dan krijg je mooie lappen tekst. Je kut bijvoorbeeld ook zeggen “vat de inhoud van deze A4 samen in 2 hoofd zinnen” ben best onder de indruk.
Ja als je het over die specifieke taken hebt, raak je ook wel exact de sweetspot van LLM's. LLM's zijn in weinig zo goed als het schrijven van formele teksten. Het informeel, in je eigen schrijfstijl laten schrijven is dan weer een hele kunst. In eerste instantie vroeg ik een LLM bijvoorbeeld informeel taalgebruik te hanteren, maar dan komt het met echt cringy teksten. Dus ik ben steeds meer zelf input gaan leveren op mijn schrijfstijl, door het maken van een custom GPT bijvoorbeeld.
Wat mij vooral opvalt, is dat deze modellen slimmer lijken te worden door vooral meer rekenkracht en data in te zetten, niet per se door een revolutionaire nieuwe doorbraak in de achterliggende technologie
Multimodaliteit is een doorbraak. Denken dat je met één model alles kunt doen, werkt niet. De hersenen hebben ook gespecialiseerde gebieden. Er is daadwerkelijk veel veranderd aan de manier waarop multimodaliteit in het model geïntegreerd kan worden.

Een goed voorbeeld dat er geen extra computer nodig is om betere modellen te krijgen, is Llama 3.3 70B, dat de 405B kan evenaren en zelf beter is in redeneren. Bij OpenAI zien we dat de O3 Mini 0,99 seconden nodig heeft om te antwoorden, terwijl de o1 3,8 seconden nodig had, zonder kwaliteitsverlies. Het is dus vier keer performanter geworden terwijl ze ook slimmer worden.

Dit is trouwens odig voor "voice mode", waar de reactietijd niet hoger dan 0,5 seconden mag zijn. Dat is de reden dat Google vorige week haar Gemini Flash 2.0 heeft uitgebracht: multimodaal met extreem snelle respons. De hardware is daarvoor ook niet geüpgraded.

Ze liggen het gewoon niet op straat te smijten wat ze exact in de mechaniek hebben gedaan om dat gedaan te krijgen (wat logisch lijkt). Maar als ik kijk naar Llama 3.3 70B dan loopt die niet veel achter op de commercieele LLM's. Hooguit een paar maandjes terwijl je daar wel kan zien wat ze gedaan hebben (papers). Misschien kan je je daarin verdiepen als je nieuwschierig bent. Er komt ook langzaam een onderscheid tussen statische modellen en dynamische modellen (dat laatste gebeurd wanneer er compute toegepast word om het model aan te sturen of te laten redeneren), dat kan in LLama niet gebeuren, je moet dan software hebben die dat modellen kan aansturen op basis van "input" en "intermediate responses". Ik hoop dat hier snel een standaard voor komt, die dat toelaat op statische modellen.

Maar ik ben dus niet akkoord dat ze slimmer geworden zijn door compute te verhogen, want dat klopt niet. Onder de motorkap gebeurt veel, heel veel.
En je tweede bewering van meer data in te zetten klopt ook niet, aangezien het hun lukt om modellen kleiner en kleiner te maken (zie llama van 405b naar 70b) of kijk naar microsoft phi 3.5 3B -> ongelofelijk klein en nochtans zo goed in zoveel taken. Het verbaasd mij hoe ze zoveel data op ampre 2GB geperst hebben gekregen. Vergeet niet, dat een model een vorm van compressie is, je kan bestaande tokens herbruiken, maar gewoon andere relaties geven met andere data. Het is extreem efficient.

[Reactie gewijzigd door sebastienbo op 21 december 2024 16:24]

Yep, helemaal mee eens. Nu is het grootste probleem de energie die het kost, maar qua gebruik is het maar net hoe je het gebruikt. In coderen neem ik uiteraard gewoon niet aan dat wat het zegt helemaal klopt, maar ben ik het gaan zien als een "rubber ducky", ik heb meer dan eens ideeen gekregen dankzij een werkwijze of suggestie in het antwoord. En in mijn homelab, wat ik gebruik om netwerk tech te leren, heeft het me al eens geholpen met een compleet vastgelopen configuratie. :)
merk je een verschil tussen chatgpt en copilot? Ik gebruik het vooral voor code, c++ of python. Inderdaad productivity boost maar niet altijd correcte code. Maar wel vaak een begin en dan kom ik er zelf wel uit.

[Reactie gewijzigd door tw_gotcha op 22 december 2024 14:46]

Ik ben zelf geen coder. Ik heb Chatgpt wel een keer een hele simpele applicatie voor mij laten maken in Python. Chatgpt heeft mij door het hele proces geloodst van het installeren van Python, Pip, het schrijven, tot aan het maken van een executabele. Dat werkte wel goed, maar ik kan de kwaliteit van de code niet beoordelen. Het enige dat ik weet is dat he programmatje precies doet wat het moet doen.

Verder heb ik geen ervaring met Copilot, maar ik heb net even een test gedaan door de zelfde vraag aan zowel 4o, als o1, als Copilot te stellen. Dit is een vraag in het snijvlak natuurkunde en brandveiligheld. (Mijn persoonlijke vakgebied).
Het antwoord van 4o krijgt van mij een: 3
Het antwoord van o1 krijgt van mij een: 8
Het antwoord van Copilot krijgt van mij een: 6
Interessant!. Je bent zelf expert, is de ranking hetzelfde als je een leek bent, naar jouw oordeel?
Als leek had ik moeite gehad met het onderscheiden van de kwaliteit van de antwoorden van o1 en Copilot. Het 4o antwoord kan je makkelijk aan zien dat het erg beperkt is. Het geeft amper een antwoord op de vraag. Het maakt zich er lui vanaf met wat simpele algemeenheden.
Precies dit "door vooral meer rekenkracht en data in te zetten, niet per se door een revolutionaire nieuwe doorbraak"
Zelfde als met mensen toch, sommigen hebben nou eenmaal meer rekenkracht dan anderen. Maar alsnog hangt het er gedeeltelijk vanaf met welke informatie een persoon gevoed is zijn hele leven.

Mensen zijn net als AI, rekenkracht en input gedurende het leven leiden tot output in situaties op basis van kennis en ervaring.
Ik zie het als co-intelligentie. Iets wat je eigen capaciteiten aanvult. Zonder goede prompt is het namelijk nog steeds niets meer dan een gimmick. Maar zet je goede en zeer gedetailleerde prompts in, dan scheelt het je echt veel werk.
Maar het hele idee van zulk soort AIs / LLMs is toch juist dat je niet exact de juiste code hoeft te gebruiken om een fatsoenlijk antwoord te krijgen?
Ik zeg ook niet dat je code moet gebruiken. Ik bedoel vooral dat als je iets heel specifieks wilt je er ook zo specifiek naar moet vragen. Je kunt niet met een korte zin verwachten dat er wonderen gebeuren. Prompt engineering is een groeiend ’vakgebied’.
Tja, en dat laatste is dus vooral mijn punt. Als je een "prompt engineer" moet zijn om LLM te gebruiken, dan moeten ze nog redelijk wat werk verzetten om LLMs te verbeteren. Of is het gewoon een hype term die gebruikt wordt in combinatie met de andere hype (AI) om net te doen alsof je hele speciale kennis en kunde hebt?
Prompt engineering heeft geen toekomst. Het doel van een LLM is net om interactie tussen mens en computer zo natuurlijk mogelijk te maken: dus zodat een mens gewoon met een computer kan praten.

Een tussenpersoon (de "prompt engineer") heeft daar logischerwijs geen toekomst in. Indien wel, dan is het opzet van een LLM gefaald.
Het is de grote vraag of dat het hele idee is. De meeste criticasters van LLM's, die zeggen dat het nutteloos is, zien het inderdaad vanuit die bril. De andere helft van de mensen, die LLM's als een assistent gebruiken, en zichzelf getraind hebben in goed gebruik halen gigantische productiviteitsvoordelen uit een LLM.
Ik denk dus dat het nuttig is het juist niet zo te zien. Ik zie het als hulpmiddel.
Als een vergelijking: Met een fiets kom ik in 1/3 van de tijd van a naar b ten opzichte van wandelen. Dus die fiets geeft mijn een 200% productiviteitswinst. Maar als ik de fiets als een autonoom ding zie dat mij van a naar b zou moeten brengen zonder te weten hoe je moet fietsen, dan beoordeel ik het als waardeloos. De fiets blijft niet eens vanuit zichzelf rechtop staan. Hij valt meteen om.
Een prompt kost echter (nu nog) rond de 3000 dollar met dat model. De benchmark doorlopen heeft waarschijnlijk meer dan een miljoen gekost. Dus ben benieuwd of ze de kosten omlaag krijgen of dat 2000 dollar per maand abbonement wat geopperd werd gaat toch werkelijkheid worden.
Wat ik online lees is dat ze toegang hebben gekregen tot de test data en dat het resultaat dus doorgestoken kaart is. De tijd zal het leren of dit echt het geval is, maar als het klopt dan is deze benchmark niets meer waard.
Side note, Als je - net zoals ik - last heb van het Anchoring Effect en niet verder kunt volgen tot je weet wat hij met zijn “Out of respect for friends at Telefónica" bedoelt. Telefónica UK bezit o2.com en hun europees netwerk heet dan ook zo.

Op dit item kan niet meer gereageerd worden.