OpenAI brengt o3-mini-model uit voor alle ChatGPT-gebruikers

OpenAI heeft o3-mini beschikbaar gemaakt voor zowel betaalde als gratis gebruikers van ChatGPT. Het vorige redeneermodel o1-mini zat nog achter een betaalmuur. O3-mini moet 24 procent sneller zijn dan o1-mini en nauwkeurigere antwoorden geven.

Volgens OpenAI is o3-mini bedoeld voor 'technische domeinen die precisie en snelheid vereisen', zoals programmeren, wiskunde en wetenschap. Het minimodel moet zich op deze vlakken kunnen meten met het huidige o1-model, dat beschikbaar blijft als breder redeneringsmodel voor algemene kennis. Het o3-mini-model laat net als zijn voorganger zien hoe het tot een antwoord is gekomen, in plaats van enkel het antwoord te geven.

Gratis gebruikers kunnen het o3-mini-model gebruiken door 'Reason' te selecteren bij het opstellen van een bericht. Het is voor het eerst dat een redeneermodel beschikbaar is voor gratis gebruikers van ChatGPT. Betalende gebruikers kunnen overschakelen naar o3-mini in het modelselectiemenu. Ook kunnen zij kiezen voor o3-mini-high, die een hogere intelligentie biedt, maar ook een iets langere reactietijd heeft. Het o1-mini-model is niet langer te vinden in het keuzemenu.

Ontwikkelaars kunnen o3-mini gebruiken via de api-diensten van OpenAI. Microsoft heeft aangekondigd dat het model ook beschikbaar is in Azure OpenAI Service, GitHub Copilot en GitHub Models. Eerder deze week bracht OpenAI ook een 'agent' uit die zelfstandig acties kan uitvoeren in de browser. De Operator-agent is momenteel alleen beschikbaar voor Amerikaanse gebruikers met een ChatGPT Pro-abonnement van 200 dollar per maand.

De publieke release van het o3-mini-model volgt kort na de komst van de Chinese AI-app DeepSeek, die de afgelopen tijd veelvuldig gedownload werd in de Amerikaanse App Store van Apple. De app is gebaseerd op het R1-model van het bedrijf dat in meerdere tests op een soortgelijk niveau presteert als het o1-model van OpenAI. De Autoriteit Persoonsgegevens uitte eerder deze week zijn zorgen over privacy bij het gebruik van DeepSeek.

OpenAI maakte de komst van o3-mini in december van vorig jaar bekend. Naast het minimodel wordt er een breder o3-redeneermodel verwacht. Dit moet een verbeterde versie worden van het huidige o1-model. Eerder werd al bekend dat o3 een score van 87,5 procent heeft behaald in de highcomputemodus op de ARC-AGI-benchmark. Het o1-model haalde in deze benchmark een maximale score van 32 procent. Het is nog niet bekend wanneer het o3-model beschikbaar wordt voor het grote publiek. Het model is al wel enige tijd opengesteld voor wetenschappelijk onderzoek.

Door Sabine Schults

Redacteur

01-02-2025 • 09:58

74

Submitter: Antrax

Lees meer

Reacties (74)

74
74
38
5
0
30
Wijzig sortering
Helaas stort de boel nog steeds als een kaartenhuis in elkaar als je deze (geavanceerde?) taalmodellen vraagt om iets waar die weinig kennis van heeft (bijvoorbeeld iets wat niet heel populair is of waarover weinig discussie is). Zelfs met "Reasoning" aan en een expliciete instructie dat die mag toegeven als die iets niet weet, hallucineert die nog steeds de boel aan elkaar.

Dan heb je nog steeds een waterval aan tekst en is er geen speld tussen te krijgen als "leek" over deze informatie, maar slaat die de plank totaal mis.

Het ergste zijn niet de taalmodellen, die doen gewoon wat ze doen, maar de mensen die het niet snappen en het ding gewoon geloven. Er worden fouten gemaakt, ze nemen dingen klakkeloos over zonder er iets over te weten en gaan soms zelf zo ver dat ze een autoritatieve bron niet geloven over iets wat zo'n taalmodel uit z'n duim zuigt. (Bijvoorbeeld softwareprojectjes waar ChatGPT bijvoorbeeld beweert dat iets kan, de auteur duidelijk maakt dat dit onzin is en dat de auteur dan wordt beschuldigd van liegen???)

Leuk, zo'n "Reason" knopje waar je een inkijkje hebt in het taalmodel heen-en-weer ziet bij het genereren van de antwoorden, maar dat maakt de bruikbaarheid en betrouwbaarheid van zo'n taalmodel er niet heel veel beter op. Eerder nu het omgekeerde omdat mensen gaan denken dat het taalmodel ook "nadenkt" en het taalmodel nog sneller (onterecht) geloven.
Klopt. Veel mensen vergeten dat AI gewoon een domme technologie is en dichten het bijna menselijke eigenschappen toe, met alle gevolgen van dien.
Het is zeker geen domme technologie; waarom vind je het dom?
Sorry, maar het is niet mijn mening zoals je doet voorkomen, maar een feit.
De naam AI alleen al is misleidend en in zichzelf 'kunstmatig'.
De oorspronkelijke naam die bedacht werd hiervoor tijdens de Darthmouth conference was een die weergeeft wat het wel is: complex information processing. Hier was en is helemaal niks intelligents aan.
De naam AI klonk marketingtechnisch alleen veel beter en koos men uiteindelijk hiervoor.
Je hoeft geen sorry te zeggen; ik wil je best geloven maar de naam AI is niet hetzelfde als Complex Information Processing... hoewel dat ook al erg slim klinkt en niet dom zoals je zei. Geef me maar bronnen, probeer het overtuigend te brengen.
De bron is voor je simpel te checken. Als je het gebruikt merkt je dat de LLM niet kan erkennen iets niet te weten. En dat is wat intelligentie is wat mij betreft
Hij refereert hier aan (als ik het wel heb). Wikipedia: Dartmouth workshop

Alleen is het nogal een lastige discussie, natuurlijk. Wat is “slim” en wat is “dom”? Als je met “slim” bedoelt dat het dingen daadwerkelijk “begrijpt”, ben ik het met bursche eens. Het voorspeld het volgende woord in de zin, niks meer niks minder. Zelfs als je heel goed kunt gokken, begrijp je nog steeds niet waar je het hebt.
Ik denk dat we een beetje langs elkaar heen gaan en denk dat we stiekem nog hetzelfde erover denken ook. Ik zie 'domme technologie' en dat is van een afstandje gezien natuurlijk niet zo.

AI is precies wat jullie zeggen. Het kan helemaal niet nadenken. Het is door mensen gebouwd, bevat informatie van mensen en doet wat (bepaalde) mensen willen. Ik vind het verre van een transparant systeem.

De input door mensen moet door het model vertaald worden van in principe gevoelloze 1 en 0 etjes. Dan probeert het het menselijke na te bootsen door wat mensen hebben geprogrammeerd het te moeten doen. Het zal nooit mensen na kunnen bootsen.

En het mooie is; je zegt iets met een hele gedachte erachter die niemand kan lezen. AI doet dat wel en manipuleert onze gedachtengang.

Laat ik het zo zeggen; het is mooi dat het zo'n grote informatie database heeft en wij mensen dingen lezen waar we zelf niet aan gedacht hebben, mogelijke toevoeging maar geen invulling.

[Reactie gewijzigd door DJanmaat op 2 februari 2025 12:22]

Jammer dat je je stelling positioneert als een feit. Weg nuance, weg mogelijkheden tot conversatie en dus leren van elkaar
Het is ook niet een mening, bekijk iedere technische video van bijvoorbeeld een OpenAI en het gaat enkel over optimalisaties in statistische analyse en simpelweg langer getraind hebben op grotere hoeveelheden data. De huidige modellen zijn niets meer dan zoekmachines met een bak statistische analyse en postprocessing over de resultaten.

Dat betekent niet dat het geen goed gereedschap is, er bestaat momenteel simpelweg geen software die intelligentie zoals we die kennen in de natuur benaderd. Bijvoorbeeld het kunnen beredeneren wat een gevolg kan zijn van een actie die nog nooit beschreven is.

De enige plek waar huidige modellen intelligent genoemd worden is marketing.
Deze avond gaf ik de AI een stuk programmacode (zelf geschreven, volledig uniek, nooit eerder gezien door de AI),

De code ontvangt een bericht en transformeert het naar een ander bericht. Het is echter gelaagd, records met sub-records.

Ik vroeg de AI om een aantal aanpassingen te doen in die code.
--> Meteen correct uitgevoerd.

Daarna vertelde ik de AI dat ik die code wou testen. Ik vroeg de AI om fictieve input data te genereren en te voorspellen wat de verwerkte output zou zijn, en daarvoor een geautomatiseerd script te schrijven dat de code uitvoert en controleert of ze werkt.
--> meteen juist en foutloos
De AI bedacht daarbij zelf een 4-tal relevante scenario's.

Ik bespaar hierdoor enkele uren werk uit. Ik vind dat heel slim.

Is het niet perfect zoals ik wil, dan leg ik uit wat ik anders wil. De AI begrijpt mijn opmerkingen en maakt aanpassingen. Maar vaak is het meteen juist (misschien ook omdat ik vooraf mijn verwachtingen erg duidelijk maak)

Is het niet eerder zo dat heel wat mensen niet weten hoe ver de technologie al staat?

[Reactie gewijzigd door anno361 op 3 februari 2025 00:59]

En is het niet lastig controleren of dat script van de robot wel helemaal klopt, ook in zeldzamere gevallen? En om te controleren of die input en output die hij gegenereerd heeft wel echt deugdzaam zijn? En als hij jouw code aanpast, wat als hij er ergens een foutje in zet dat alleen onder bepaalde omstandigheden gevolgen heeft en verder niet merkbaar is?
Uhm ja en dat is anders bij iets van een collega developer? Oh wacht iedereen doet grondig pull requests en snapt lijn voor lijn de intentie 😂.

Excuus voor passieve agressie, maar iedereen heeft wel wat te zeuren. Gebruik t als een tool en je hersens. Samen komt er vast wat uit wat minstens zo goed is

[Reactie gewijzigd door TrasherXL op 3 februari 2025 18:32]

Van een mens weet je alleen beter wat voor fouten je zou kunnen verwachten. GPT doet de raarste dingen, en bluft op zo'n manier dat je het alleen doorhebt als je echt goed kijkt. Het is anders. Ik wil niet zeggen dat je het niet kunt gebruiken op de manier zoals jij het gebruikt. Maar ik ben benieuwd naar de mogelijke problemen.
De hallucinaties bij de eerste chatGPT versies waren inderdaad onwerkbaar. Je kon eigenlijk niks vertrouwen.

De laatste versies kunnen vrij online dingen opzoeken/nakijken (als je dat toelaat). Nu zie ik zelden nog hallucinaties.
Nou, ik zie de hele tijd nog hallucinaties, in elk geval bij andere dingen dan programmeren.
Niet zo lastig eigenlijk.

Er zijn altijd 2 goedkeuringen nodig van andere ontwikkelaars. Daarbij wordt alle code diagonaal nagelezen. Bijna elke wijziging krijgt iets van commentaar.

Nu moet ik meteen bekennen dat we ook daar al AI inschakelen, voor erg kleine code changes (< 5 lijnen code) schakelen we ook al goedkeuringen in die door de AI worden gegeven.

Maar zoals ik dus al aan gaf, al onze code wordt meerdere keren per dag getest door geautomatiseerde E2E testen waarbij alle frequente scenarios worden doorlopen.

Daar bovenop schrijven we unit testen, die individuele componenten gaan testen op meer exotische scenarios.

En dan hebben we nog het team van analisten die goedkeuring moet geven voor elke grote release. Zij testen ook manueel scenarios.
OK en vinden de mensen wel eens een fout van de robot?
Het is niet zo dat de robot zelf al zaken gaat "pushen". Alles wordt nagelezen en als er fouten in zitten worden die erg vroeg gedetecteerd.

Wat ik ook wel al gedaan heb: code van collega's integraal gekopieerd en naar die bot gestuurd. De bot haalt daar soms ook al fouten uit.

Als de bot iets vindt dan controleer ik dat natuurlijk eerst. Ik ga niet zomaar mensen bekritiseren op basis van een vermoeden. En ik ga wel natuurlijk zelf met de eer lopen.

Dat we ons werk door een AI laten doen is niet iets om trots op te zijn.

Maar zowel mensen als bots maken fouten. En vaak als ik advies vraag aan die bot zijn de eerste voorstellen die ik krijg ook de zaken die ik zelf al geprobeerd heb. Dat stelt ook al gerust, het ding redeneert logisch, komt met logische voorstellen eerst.

Maar als je doorvraagt komen dan toch ook wel creatieve ideeën die je verwacht als je al wat dingen hebt geprobeerd maar nog steeds vast zit.

We staan echt al ver. Net iets slimmer dan een schoolverlater, en super snel.

[Reactie gewijzigd door anno361 op 1 maart 2025 21:39]

De geschiedenis herhaalt zich ook steeds sneller.

Ik zit in een vereniging die het bordspel Go beoefend. Rond 2016, kwam AlphaGo, een AI die plots bovenmenselijke resultaten neerzette.

Eerst was er de ontkenning: mensen die beweerden dat de AI eerder geluk had, maar bepaalde dingen niet kon. Het was een "domme AI, die kopieerde wat het van mensen had geleerd". - In die fase zitten we nu met onze taalmodellen.

Daarna, begon de AI nieuwe zetten te bedenken die nooit eerder waren gezien. Toen ontstonden er 2 kampen.
Enerzijds, zij die voluit met AI gingen studeren, en anderzijds zij die beweerden dat we niks van AI konden leren omdat de AI een slechte leraar was, een ondoorgrondelijke speelstijl had. Sommigen dachten zelfs dat het ging verdwijnen (heel naief).

We zijn nu 8 jaar verder, slechts 1 kamp schiet over. Iedereen studeert nu Go met AI. De zetten van de AI blijken helemaal niet complex, maar juist eenvoudig en toch efficient.

En diezelfde lifecycle ontplooit zich nu bij LLMs. Ze gaan echt niet weg.

[Reactie gewijzigd door anno361 op 3 februari 2025 01:04]

Ben het met je eens en herken het wel in enige mate maar ik ben toch wel benieuwd naar wat voorbeelden ook rondom dat mensen als reactie beticht worden van liegen. Zijn dat serieuze gebruikers van die software dan?

Grap is nu ergens dat je jezelf zonder concrete voorbeelden ook als authoritive bron poneert. Neemt niet weg hoor dat ik jou geloof en AI niet zo snel :*)
Ik heb dat met Dart gehad. Als je daar bijvoorbeeld web gerelateerd over vraagt, is het best matig en is het steeds gebaseerd op de legacy Dart:html package. Vraag je of het Dart:web wil gebruiken dan zegt hij oké en voegt een Dart:web import toe bovenaan maar geeft hij code die gebaseerd is op Dart:html :)
Wat je schrijft geldt voor informatieverwerking in het algemeen.
Als je geen expert bent dan ben je niet in staat om e.e.a. inhoudelijk te toetsen.Je neemt iets voetstoots aan voor waar o.b.v. bijvoorbeeld een bron.
Een expert ziet dat het vol fouten, onjuistheden, misinterpretaties staat, welke een leek niet kan opmerken.
Eigenlijk komt het er op neer dat je AI niet buiten je eigen expertise gebied moet inzetten omdat je eventueel aanwezige onjuistheden (hoe groot of klein ook) niet kan opmerken.
Of AI alleen mag bevragen over zaken waarvan je het antwoord al weet.
In de praktijk zal AI in omgekeerde vorm ingezet worden.

Dit geldt natuurlijk ook voor andere vormen van informatie-overdracht zoals kranten, boeken, enz.

Erwin Knoll's Law of Media Accuracy
"Everything you read in the newspapers is absolutely true except for the rare story of which you happen to have firsthand knowledge."
(“Alles wat je in de kranten leest is absoluut waar, behalve het zeldzame verhaal waarvan je toevallig uit de eerste hand kennis hebt.”)

Of het door Michael Crichton bedachte "Gell-Mann Amnesia Effect", dat nageoeg hetzelfde probleem beschrijft.
Ik vind dat ieder zelf mag bepalen in hoeverre het buiten het kennisniveau vragen stelt, je kan er niet dommer van worden. Het voor bepaalde doeleinden waar meer dan alleen persoonlijk gebruik mee is gemoeid, daar geef ik je zeker gelijk in.
Snap je het probleem?
Na nogmaals te lezen begrijp ik het nu nog beter. De context is ook anders te lezen. Buiten je kennisgebied informatie vergaren is nooit mis, maar inderdaad hou het bij officiele bronnen. Ik zou ook een boek, cursus, opleiding doen ipv. op AI vertrouwen.
Exact dit. Nog erger wordt het als een technologie wijzigt. Vraag je iets over bv Tailwind v4, dan krijg je een hoop v3 syntax bullshit want v4 was nog niet eens alpha bij de cutoff
Voor iemand die zich niet met frontend design bezig houdt, maar af en toe de looks van een formuliertje moet wijzigen, is het totaal onbruikbaar.

[Reactie gewijzigd door fenrirs op 2 februari 2025 07:32]

Klopt. Zo wilde ik eens testen hoe het model een migratiescript zou schrijven voor twee open-source softwarepakketten waarvan het databasemodel bekend is.

Er komt op zich wat uit, maar het probleem is dat ChatGPT tabellen gaat bedenken die helemaal niet bestaat. Maar daarbij worden wel de bestaande prefixen gebruikt, waardoor je al snel denkt dat het dan wel moet kloppen. Uiteindelijk ben je voor dit soort klussen dan zoveel aan het nalopen dat je eigenlijk enkel iets aan de scaffolding hebt.
Probeer copiloot van microsoft eens… vind die beter te steuren dan chatgpt…
Is dat verschil zo groot dan? Ze zijn allebei gebaseerd op ChatGPT 4 toch? Natuurlijk zit er bij Copilot een Microsoft sausje over, maar er zijn genoeg andere LLM's die veel meer verschillen, lijkt me.
Nou gebruik ik af en toe chatgpt om mij te helpen met hobbycode, dit doet het goed dus ik dacht nou dan zou o3 hier beter in moeten zijn. Maar tot mijn schrik is de ‘knowledge cutoff’ van dit model sept 2021, vraag mij af hoe relevant dit model voor dit doel dan is met hoe snel zaken veranderen.
"The knowledge cutoff for o3-mini models is October, 2023." https://platform.openai.com/docs/models#o3-mini
Dat heeft denk ik te maken met het massaal doorvoeren van het uitsluiten van CommonCrawl en ChatGPT voor AI training in robots.txt er na. Dit is goed zichtbaar in het aantal pagina's dat in CommonCrawl zit.
https://data.commoncrawl....C-MAIN-2023-40/index.html (oktober 2023 - 3.35 miljard)
vs
https://data.commoncrawl....C-MAIN-2024-46/index.html (oktober 2024 - 2.68 miljard)
december 2024 - 2.64 miljard: https://data.commoncrawl....C-MAIN-2024-51/index.html

Er lijkt echter een ommekeer gaande:
https://data.commoncrawl....C-MAIN-2025-05/index.html (3 miljard afgeslopen week).

[Reactie gewijzigd door djwice op 1 februari 2025 15:25]

Het verschil zit hem vooral in wat voor complexe taken hij kan uitvoeren.

Ik had een prompt waar 4o niet uit kwam. Elke keer kwam hij met een verkeerd antwoord, hoe ik hem ook probeerde te sturen of na liet denken. Hij pakte het probleem gewoon verkeerd aan en was dan heel zeker van zijn zaak dat het een juiste oplossing was.

o3 kwam na 2 minuten nadenken tot een werkende oplossing voor het probleem. Dat had ik na mijn eerdere ervaringen niet verwacht.
Met betrekking tot 'hobbycode' veranderen zaken niet snel. Sterker, programmeertalen veranderen gelukkig uberhaupt niet snel.
Talen minder, frameworks wel. Ik werk de laatste tijd veel met vue3, en de meeste taalmodellen hebben een bias naar vue2 wat voor verwarring zorgt (composition vs option api). En test frameworks van jest naar vitest etc. configureren en de boel werkend krijgen kan lastig zijn.

Zelfde geldt voor Laravel 11, de meeste taalmodellen weten niet dat je een globale middleware in boostrap/app.php moet registereren, en niet in app/http/kernel.php. Voor je het weet is je beginners codebase gevuld met verschillende generaties framework code, en haal daar maar eens bugs uit..

En het komt regelmatig voor dat bepaalde functies in talen deprecated zijn, zoals bij PHP. Dus ja het is wel handig als de LLM met recente data is getraind EN dat deze nieuwere frameworks/taal updates meer gewicht krijgen (finetuning) zodat deze niet worden ondergesneeuwd door oudere manieren van werken.

Qwen 2.5 is recent genoeg om Laravel 11 te kennen, maar de LLM weights zijn zodanig dat hij steeds naar oudere versies van Laravel verwijst in code generatie ook al geef je expliciet Laravel 11 aan.

Dit is tevens het nadeel van LLM die LLM traint, er komt geen recente data in het model, dit zal bij pretraining aan toegevoegd moeten worden, maar zal niet altijd of alleen selectief gebeuren. RAG is zeker een oplossing, maar leunt dan zwaarder op de omringende software en zit dus niet standaard in de LLM. RAG gaat ten koste van de context grootte, dat leidt dan weer tot hoger token verbruik en langere generatie tijden.
Ik weet niet in welke talen jij werkt, maar bij Python en JS (met name React) waar ik veel in werk komen toch behoorlijke wijzigingen in het ecosysteem voorbij. Ik moet bijvoorbeeld al de AI terugfluiten dat het met type hints als typing.List komt die sinds Python 3.9 gewoon vanuit het normale type list gehaald horen te worden en hetzelfde qua Optional[int] dat sinds 3.10 int | None is geworden. Of dataklasse library pydantic heeft een grote stap naar hun versie 2 gemaakt maar de AI kan zich alsnog verslikken en soms met versie 1 code komen. Ik heb dit zowel met Claude als ChatGPT, al is met name o1 er vaak wel beter in.
Wie zegt dat, chatgpt of een echte source?
Want dat is wat chatgpt zegt, en ik denk niet dat dat correct is.

[Reactie gewijzigd door fuse.core op 1 februari 2025 10:20]

Hij kent iig .NET versie 8 uit november 2023:
.NET 8 is the current stable version, released in November 2023, which covers both .NET Core and Framework.
Weet je het zeker? Heb je inhoudelijke .net 8 vragen gesteld? Het pretendeert ook Laravel 11 te kennen maar specifieke Laravel 11 vragen kan deze niet beantwoorden.
Ik heb hem gevraagd een voorbeeld van Primary Constructors te geven. Dat doet hij ook maar hij zegt erbij dat een preview feature is van .NET 8. Dus hij zit ergens tussen .NET 7 en 8. Dat komt overeen met wat @Westpjotr schrijft.

Keep in mind that since this is a preview feature, there may be further refinements before its final release in .NET 8.
Nee alleen wat de nieuwste versie is.
Dat is wel heel ironisch. 😉
Ja he, vond het wel mooi
In verschillende talen kunnen antwoorden anders zijn, ik merk dat modellen - ondanks dat het Transformers zijn - toch bepaalde kennisvragen met een andere nauwkeurigheid beantwoorden in een andere taal. Wil je een antwoord in het Engels, Frans, Nederlands, Duits, Spaans, het maakt uit per vakgebied uit in welke taal het antwoord sterker is.

Soms in werken in die taal en daarna het laten vertalen accurater, dan werken in de doeltaal (zelfs als je werkt in het Engels kan het zijn dat een andere taal accurater is voor het onderwerp).

Ik kan helaas geen oosterse taal, ik vermoed dat daar ook veel kennis zit.

[Reactie gewijzigd door djwice op 1 februari 2025 15:33]

Op zich ook geen probleem zolang ie web access heeft toch? Met RAG kun je veel zolang de taalconcepten goed gemodelleerd zijn.

[Reactie gewijzigd door dutchminator op 1 februari 2025 14:04]

Zeker wel een probleem (mits het ook echt klopt). De mogelijkheid om het web te doorzoeken geeft niet dezelfde output in vergelijking met informatie die al in de training data zit.
Wellicht https://devdocs.io/ beschikbaar maken voor je AI?
Het testen van dit soort geavanceerde modellen wordt steeds uitdagender. Steeds vaker schiet het antwoord voorbij mijn eigen kennisniveau en het kunnen toetsen van de antwoorden blijft m.i. nodig/essentieel.
Daarom gebruik steeds vaker een ‘chatbox’ op OpenRouter, dan kan je meerdere modellen toevoegen en als een soort comittee laten overleggen en mekaar controleren.
Dan weet je het nog steeds niet zeker of het antwoord klopt, kan nog altijd een hallucinatie zijn. Maar statistisch is de kans wel wat groter natuurlijk.
“Kloppen” is toch ook een bepaalde drempel van zekerheid behalen, geen absoluut gegeven? Als ik aan een hoogleraar iets vraag is de kans ook groter dat het klopt maar ook daar heb je diezelfde kansfactor dat die het mis heeft.
Dit is exact waar ik vind dat het fout gaat als mensen gebruik maken van AI. Gebruik als je twijfelt een model die de bronnen erbij geeft en anders vraag de bronnen.

Gebruik van AI zou iets helpends moeten zijn en moet je zeker niet direct als waarheid beschouwen. AI met zijn knowledgde base is far beyond human capacity, maar is zeker niet gelijk aan een mens. Het is door mensen gebouwd, leunt op informatie van mensen, doet alleen wat mensen willen dat het doet en bevat dus menselijke fouten.

Ik gebruik het meer als hulp in mijn werk als IT automation engineer en alleen om mij extra informatie te geven waar ikzelf over nadenk of besluiten in neem. Ik ga nooit zomaar uit van de output van informatie, maar geeft me wel meer context over een onderwerp waar ikzelf op voort kan borduren.
Big Agi is een LLM chat client met specifieke functionaliteit voor dit. De beam functionaliteit waar ik naar link werkt in de praktijk best goed. Afgezien daarvan vind ik het in het dagelijks gebruik een prettigere client dan de alternatieven. De chatbox van OpenRouter werkt aardig maar had in het verleden nogal wat rare bugs voor bovendien zit je dan aan OpenRouter vast. Open WebUI is erg populair, maar heeft ook wat obscure bugs en heeft sowieso veel weg van "we implementeren gewoon alles en zien wel waar het schip strandt" wat nooit echt een stabiel gevoel geeft.
Je reactie bracht mij op nog een ander idee: tree- of-thought prompting (verlengde van chain of thought prompting). Blijkt prettig/goed te werken in reasoning models (in elk geval voor mijn use cases).
Het mooist is dat je een eigen lijstje met requirements opgeeft en de output steeds daaraan conformeert. Het lijstje is hoe de output voor jou moet zijn.
Hier een test van Wes Roth waarin hij eerst vraagt om het snake spel in python te programmeren. Daarna vraagt hij om code te schrijven om de snake te besturen. Vervolgens maakt hij het spel moeilijker. Last but not least vraagt hij om een AI model te trainen voor de besturing van de snake en dit te gebruiken. Al dit alles is geen probleem voor het o3 model. Het werkt gewoon!
Opzich niet zo vreemd dat snake wel werkt: https://github.com/search...ositories&s=updated&o=asc

Zie ze liever een test doen om iets compleet nieuws te maken, niet van die tergend simpele 13 in een dozijn projectjes.
Veel nieuwe programmeerklusjes komen neer op het slim combineren van bestaande code om iets nieuws te creëren. AI is daar meestal behoorlijk handig in. Met een beetje kennis van programmeertalen kun je al snel veel complexere oplossingen maken dan je anders zelf zou kunnen. Ik heb meerdere keren meegemaakt dat iets waar ik normaal drie dagen mee bezig zou zijn, in een half uurtje klaar was.
En het begrijpt mij steeds beter. Waar in in ChatGPT vroeger alleen deel programma's kon schrijven (losse functies etc). Kan Claude gewoon echt een volledig programma schrijven. Regelmatig moet je het een beetje kneden, of zelf ideeën voeren, maar het doel kan ik er over het algemeen volledig mee bereiken.
Voor mij is Claude ronduit geweldig. Ik zit al een jaar of 25 in het vak en werk vrij vlot vergeleken met collega’s. Maar met dank aan Claude x Cline gaat het nu nog eens maal 10. Ik heb een prototype van iets nu bijna sneller af dan dat ik de wireframes op papier kan zetten.
Dat er op Github veel snake projecten zijn wil nog niet zeggen dat het o3 model daar extra op getraind is. Ik denk niet dat het 01 model (02 bestaat niet i.v.m. trademark problemen) de prompts uit het YouTube filmpje kan oplossen. Met name het trainen en gebruiken van een AI model voor de besturing lijkt me heel bijzonder. Ik zie vooruitgang en ben blij als ik binnenkort geen simpel "standaard programmeerwerk" meer hoeft te doen.
Klopt, LLM's zijn heel slecht in het oplossen van nieuwe problemen die nog nooit eerder zijn opgelost.

Ik heb gister o3-mini drie bestanden uiit mijn codebase gegeven om een bug te fixen, allemaal relatief kleine bestanden, en hij wist er werkelijk geen raad mee. Het gaf op het eerste gezicht goeie antwoorden van wat er aan de hand is maar toen het code begon te schrijven ging helemaal nergens over. Het wist niet waar wat stond, welke bestanden bewerkt moesten worden, ging alles onnodig opnieuw schrijven waardoor hele features wegvielen. Niks van wat het mij gaf was compatible met mijn codebase. Kreeg meteen gpt 3 flashbacks. En ik werk echt veel met andere modellen en nooit zulke waardeloze antwoorden gekregen.
Deze test zal waarschijnlijk een default test zijn die bekend is om modellen te testen en zo geinstrueerd is om feilloos te werken. De ervaring is dat dit soort programming/coding zeker niet altijd, zo niet nooit, direct volledig werkend is.
Interessante ontwikkeling, ik vraag me af of ze deze mini varianten iets eerder hebben uitgebracht vanwege DeepSeek R1.

Ik heb er net wat mee zitten spelen en tot nu toe lijken de resultaten wel beter als die van o1-mini en in sommige gevallen ook beter dan die van o1 zelf. Hoewel met reasoning modellen de resultaten nog steeds heel wisselend blijven, in sommige gevallen kunnen ze echt door een probleem heen prikken en leveren ze echt meerwaarde. Maar in sommige andere gevallen leveren ze geen meerwaarde op vergeleken met modellen zoals GPT-4o of Claude Sonnet3.5. Sowieso blijft het mijn ervaring dat ik meer haal uit het hybride gebruik van meerdere modellen als ik tegen iets ingewikkelds aanloop. Simpelweg een probleem aan twee verschillende modellen voorleggen en dan deze ook elkaars antwoorden laten controleren levert vaak ook vergelijkbare resultaten op.
Nee, o3 was in december al aangekondigd dat deze eind januari zou worden gereleased.
Ik zag de modellen gisteren er ineens tussen staan. Fantastisch die keuzes, en ook dat ze erbij zetten waar het goed in is. Het is soms lastig te bepalen welke nou goed is voor hetgeen je wilt; Antrophic Claude 3.5 Sonnet fantastisch voor programming/coding, maar zeer snel bereik je de rate limits wat vaak contra is met het doel. Haiku kan het goed, maar doet reasoning minder. Gemini Advance 1.5 is perfect met zijn 2 million token context window en memory functionaliteit maar minder geschikt voor programming/coding. Ook hebben ze sinds kort wat problemen wat waarschijnlijk met de migratie van de aparte subscriptie naar de enterprise subscriptie te maken heeft. Ik betaalde de aparte subscriptie en heb de enterprise, ze hebben het ook niet even automatisch omgezet. Ook zo vaag en kostentrekkend. ChatGPT 4o verliest vaak bij grotere chat history zijn context en vind ik soms wel en soms niet geschikt voor projecten, afhankelijk hoe groot project je hebt. DeepSeek R1 ligt er meerendeels steeds uit en nu als zeer onveilig beschouwt. CoPilot Pro... zou verwachten dat het Microsoft eigen model alles weet van hun cloudomgevingen maar geeft vaak verouderde en niet kloppende resultaten. Het mag echt duidelijker per model aangegeven worden waar je gebruik van maakt.
Technisch gezien is het niet voor ALLE gebruikers, maar alleen voor ingelogde gebruikers. Want de gratis variant waarvoor je geen account nodig hebt heeft wel de knoppen gekregen, maar als je er op hovered zegt het dat je moet inloggen of account moet aanmaken.
Hier in Zuid-Amerika is het behoorlijk minder als het gaat om toegang tot de gratis services van zowel ChatGPT en Claude. 1 tot 2 simpele vragen per dag en dan krijg je permanent 'user limitation'-fouten voorgeschoteld.

Ik draai nu liever lokaal een LLM, deze geven al redelijk goede antwoorden, ondersteunen context en ik zal vast meerdere vragen nodig hebben om tot hetzelfde antwoord te komen als ChatGPT in 1 of 2 keer vragen voor elkaar krijgt. Met de lokale LLM heb ik in elk geval altijd de beschikking erover. De gratis online versies zijn qua toegang te onbetrouwbaar in dit werelddeel.

Het verschil tussen antwoorden van lokaal en gratis online is wat mij betreft niet groot genoeg voor een abonnement. Nu ken ik hier genoeg mensen die wel een abonnement hebben, maar dan nog loop je hier snel tegen 'user limitation'-fouten aan.
Weet iemand of de modellen ook gebruikt worden voor custom gpt's? Op dit moment wordt Gpt 4 Turbo nog gebruikt (dus nog voor 4o).
Bedoel je de varianten van modellen die je op bijvoorbeeld Hugging Face vind?
Nee, ik bedoel de GPT's die je zelf kunt maken met custom GPT functie van ChatGPT.
Chatgpt gevraagd en die zegt ja 😬
Ik ga het eens testen, ik heb al een mooi programma geschreven in python van bijna 300 lijnen code, 100% door chatgpt, waar ik af en toe wel moest zeggen wat aan te passen, maar heel mn programma werkt!

Toch loop ik soms in een loop als ik iets probeer toe te voegen maar ook andere delen van de code wil laten aanpassen, dan durft het wel eens mis te lopen en moet je echt stapje voor stapje de zaken uitbreiden. Benieuwd of dit beter zou gaan.
Dat reasoning kun je ook bij deepseek zien als je het lokaal draait via bijv Ollama. Wel grappig en het geeft soms meer nuttige info dan het eindresultaat.

Op dit item kan niet meer gereageerd worden.