OpenAI kondigt nieuw AI-model aan dat 'dieper nadenkt over antwoorden'

OpenAI heeft o1 aangekondigd, een nieuw taalmodel dat in vergelijking met GPT-modellen van het bedrijf langer de tijd neemt voor antwoorden en daarbij 'dieper nadenkt'. OpenAI blijft vaag over hoe dat precies werkt.

Het model had als codenaam Strawberry en heet o1, met een kleinere versie die o1-mini heet, meldt het bedrijf. Betalende klanten hebben al toegang of krijgen dat binnenkort, gratis gebruikers krijgen toegang tot de kleine versie in de toekomst. Het model is niet zo veelzijdig als het huidige GPT-4o; bestanden uploaden kan niet en het model kan geen plaatjes genereren of het web afstruinen.

Het nieuwe o1-model moet zich onderscheiden op redeneren. Het produceert eerst een lange 'chain of thought' voordat het antwoordt, legt OpenAI uit. Omdat het model daarbij op meerdere manieren bij antwoorden probeert te komen, zou het minder fouten maken. Dat moet ook onder meer hallucineren verminderen, al is hallucineren ook met het nieuwe model nog mogelijk.

OpenAI heeft ervoor gekozen om de afkorting GPT niet te gebruiken voor dit model. Ook heeft het 1 in de naam zitten om aan te geven dat het door het redeneren een ander soort model is geworden: het is de eerste versie van een nieuwe serie. Ten opzichte van GPT-4o scoort het model beter op diverse testen en is het meer resistenter tegen jailbreaking. Wel is het gebruik via de API 3-4x duurder dan via GPT-4o.

Door Arnoud Wokke

Redacteur Tweakers

12-09-2024 • 20:01

47

Reacties (47)

47
46
18
5
0
20
Wijzig sortering
OpenAI blijft vaag over hoe dat precies werkt.
Wellicht zijn het meerdere modellen zijn die met elkaar "overleggen" en dan het antwoord combineren.

Het concept kwam ik toevallig een tijd terug tegen in een LLM chat client waar je dit kan toepassen met verschillende LLM diensten. In deze client noemen ze het "beam", maar het is gebaseerd op een onderzoek wat eerder dit jaar is gepubliceerd.

Het zou me dus niks verbazen als men bij openAI hier ook mee aan het experimenteren is geweest en goede resultaten heeft gezien.

Dit zou ook gelijk verklaren dat het soms langer doet over antwoorden.

Edit: Zou ook verklaren waarom dit "model" gelijk een stuk duurder is, aangezien er meerdere tegelijk bezig zijn met je prompt.

[Reactie gewijzigd door Creesch op 12 september 2024 20:15]

Wellicht zijn het meerdere modellen zijn die met elkaar "overleggen" en dan het antwoord combineren.
Ja een mixture of experts zoals Mistral 8x22b. Dat is inderdaad door andere bedrijven al gepionierd. Al zou het technisch kunnen dat GPT-4 of 4o het al zo deed. want ondanks de naam "OpenAI" zijn ze alles behalve open over hun techniek 8)7.

Open source? Nope. Open model weights? Nope. Open zelfs maar over de specificaties van de door hen gebruikte techniek? Nope. Ze kunnen het beter ClosedAI noemen :)

Ik vind het een goed voorbeeld hoe geld corrumpeert. Het begon als een idealistisch bedrijf maar zodra het miljarden kon gaan opleveren werden alle idealen in de prullenbak gemikt en ging het alleen nog maar puur om het geld. De raad van bestuur heeft nog geprobeerd het te redden maar dat is ook niet gelukt.

[Reactie gewijzigd door Llopigat op 12 september 2024 20:21]

Volgens mij is het GPT-4o model (en daarvoor al het GPT-4 en GPT-3) ook altijd al een mixture of experts geweest (meerdere modellen die parallel draaien met ieder hun eigen expertise gebieden). Het laten discussiëren tussen verschillende modellen is iets wezenlijks anders omdat het ene model het andere model kan beïnvloeden. En bij een mixture of experts is volgens mij het idee dat degene die het beste antwoord geeft degene is waarvan het antwoord gebruikt wordt, (beetje het principe van classification waarbij de hoogste probability gebruikt wordt).

Maar nu moet ik zeggen dat ik niet super veel kennis heb van multi-model LLM models of mixture of experts principes e.d.
Ik verwacht eigenlijk dat het meer in de richting van MCTS (o.a. van AlphaGo) is, zoals bijvoorbeeld in https://arxiv.org/abs/2305.10601 toegepast op LLMs. Over het afgelopen jaar is hier veel speculatie over geweest, o.a. met Q* destijds.
Dit artikel heeft een aardig goede uitleg over het nieuwe model: https://simonwillison.net/2024/Sep/12/openai-o1/
In essentie doen ze dit al in alle gpt versies lang in "simpele"vorm tijdens training. Tijdens de trainingfase krijgt het model van een verificatie model continue feedback of het resultaat beter of slechter is en stuurt het dan terug naar het model in training.

Daarnaast was er vanaf 3.5 direct al autogpt en veel varianten die dit ook doen.

Tot slot zijn alle benchmarks bijna altijd niet alleen zero shot maar 5 shot tot 100 oid. Dat betekent dat het model meerdere pogingen heeft mogen doen om tot het goede antwoord te komen. Die resultaten zijn altijd veel beter dan zero shot.

Kortom papers (oa die van modellen als GPT), laten al jaren zien dat chain of thought superior is. Mensen denken ook langer na over moeilijkere vragen of doen pogingen van redeneren. Dus de kunst is dat het model dat zelf aanvoelt wanneer het zijn eerste poging niet goed genoeg is zodat het niet altijd resources waste. Modellen geven aan het einde een indicatie mee van hun confidence in het antwoord. MedPalm gebruikt dat onder andere om te bepalen of het opnieuw kennis moet opzoeken of de patient een advies durft te geven. Dat lijkt hier niet gedaan te worden en er lijkt altijd onder de moterkap een reflectie plaats te vinden maar dat is nu niet met zekerheid te zeggen.

Maar toch weer mooie stap hopelijk in de juiste richting.

Edit formating

[Reactie gewijzigd door resistme op 12 september 2024 21:25]

zijn er al open source projecten van AI die helpen met het schrjiven van javascript, php, jqeury en andere programeertalen? Het zou toch wat zijn zeg dat je kan intkken wat je voor ogen hebt en dat zo'n AI dat ff voor je uittikt....
Uit eigen ervaring kan ik zeggen dat GPT voor hele simpele scriptjes best prima functioneert. Maar op het moment dat het al een klein beetje complex wordt hij al de grootste onzin uitkraamt of gewoon commando's geeft die totaal niet werken.

Je moet echt wel weten wat je zoekt en begrijpen wat hij maakt.
Dan denk ik dat jouw vraag niet goed (genoeg) is. Zie AI als een junior medewerker. Wanneer je een junior met een halve vraag het bos in stuurt en verwacht dat je een werkend programma retour krijgt, dan zal dat uitdraaien op een teleurstelling. Ga je echter op een gestructureerde manier vragen gaat stellen en opdrachten gaat geven, dan ga je vrijwel perfecte code krijgen inclusief fantastische documentatie.

Jouw kennis en kunde is echter onmisbaar! De AI is een tool die er voor kan zorgen dat jij efficienter wordt, het is (nog) niet een autonome AI medewerker.
De vraag is goed genoeg. Echter is GPT niet in staat om code te maken.
Het kan alleen bestaande code die het ergens heeft gevonden knippen en plakken.

GPT weet inhoudelijk niet wat het aan het doen is. Het heeft een algoritme om de meest waarschijnlijke woorden voor het antwoord achter elkaar te plakken.
Daarom dat het ook zo makkelijk onzin uitkraamt.

Wat we eigenlijk allemaal stiekum willen is een AI die wel enig inhoudelijk begrip heeft.
De vraag is goed genoeg. Echter is GPT niet in staat om code te maken.
Het kan alleen bestaande code die het ergens heeft gevonden knippen en plakken.
Hoe graag we dat ook misschien wel willen: is dat niet ongeveer wat een normale programmeur ook doet? Die verzamelt kennis door te leren, plakt die kennis vervolgens aan elkaar tot een groter geheel. Als hij dan een doel voorgeschoteld krijgt, doet hij dan in principe ook niets anders dan het achter elkaar plakken van logische blokjes? Bij een gegeven opdracht zullen verschillende programmeurs allemaal ongeveer hetzelfde script bakken, gebruik makend van door anderen geproduceerde code of ideeen.
GPT weet inhoudelijk niet wat het aan het doen is.
Definieer "inhoudelijk". Hoe zou je kunnen aantonen dat een AI niet weet wat hij aan het doen is? En hoe zou je hetzelfde willen doen bij een menselijke programmeur?
Als je een LLM vraagt: "How many r's are in the word strawberry?" dan krijg je een willekeurig aantal als antwoord.

(Dit voorbeeld is zo bekend, dat het inmiddels wel handmatig gefixed zal zijn, maar het is een voorbeeld dat het duidelijk aantoont. Het is niet de letters r aan het tellen omdat het inhoudelijk niet begrijpt wat de vraag is).
Het lijkt gefixt, maar ik snap je punt. Maar je zou ook kunnen zeggen dat dit een interpretatie-fout is, die ook een menselijke luisteraar zou kunnen maken.
Als je werkt met libraries waarvan geen 1000en voorbeelden van zijn online gaat gpt sowieso hallucineren. Dus zo een beetje elke toepassing die je ziet in het bedrijfsleven. Ja je kan die context meegeven in je vraag maar dan kan je beter meteen zelf je code schrijven als je tijdsefficient zonder bugs wilt zijn.
Voor heel simpele javascript, python taken kan het wel effectief zijn. Maar dat zijn dus zaken die je sowieso al 10jaar overal online vind, dus voor veel vooruitgang zorgt het niet.
Beste use case vind ik mails vertalen met de juiste toon voor juiste doelpubliek, onnuttige documentatie genereren, of voor creatieve inspiratie.
ik vraag regelmatig chatgpt om een python script te schrijven om iets uit te voeren.Dat werkt lang niet altijd hoor, soms worden niet bestaande functie namen verzonnen.
of is dat niet wat je bedoelt?
ChatGPT kan een heleboel voorwerk van je overnemen. Zelfs als het script niet werkt of fouten bevat, dan nog kun je daar vervolgens als programmeur verder mee. Ik rommel een beetje met SQL scripts en moest vroeger vaak lang zoeken naar bepaalde commando's of parameters om iets gedaan te krijgen. Met ChatGPT kan ik dat zoekwerk (bijna) overslaan. En bovendien werken de door ChatGPT gemaakte scripts ook heel vaak wel.
precies, dat doe ik ook, ideeën testen en weer door.Ik vind het erg handig
Zie de demo van OpenAI:
YouTube: HTML Snake with OpenAI o1

Probleem is dat het, ook in de demo en ook met de onderliggende GPT's, alleen spaghetticode kan genereren en dat het niet voor je wordt uitgeprobeerd om te kijken of het überhaupt werkt.

Dus het is alleen nuttig als je al weet wat je aan het doen bent en weet hoe je er minder spaghetti van kan maken. Mocht je dat wel weten, dan is het absoluut handig omdat je dan instructies kan geven: houd dit en dat aan ivm separations of concern, gebruik wat netter dit, doe wat meer volgens de richtlijnen van "clean code" dat.

Maar verwacht er voorlopig nog lang geen complete projecten mee te maken zonder eigen kennis. Het is uiteindelijk alleen maar een mixer van bestaande documentatie die de modellen in is gegaan :)

Het is een beetje als C++: makkelijk om jezelf in de voet te schieten als je niet weet wat je doet, want ChatGPT zal je vrolijk en zonder twijfel vertellen dat sommige dingen gegarandeerd zullen draaien terwijl het niet mogelijk is. Daar moet je zelf op bijsturen.
Wat is dan het verschil met Strawberry?
Van wat ik heb begrepen is dit Strawberry, maar dan met de definitieve benaming: It’s being released alongside o1-mini, a smaller, cheaper version. And yes, if you’re steeped in AI rumors: this is, in fact, the extremely hyped Strawberry model. - The Verge

[Reactie gewijzigd door lommeva op 12 september 2024 20:07]

Vanochtend stond er een nieuwsbericht hier op Tweakers over Strawberry: nieuws: 'OpenAI wil taalmodel Strawberry binnen twee weken uitbrengen'

Dit maakt het voor mij wat onduidelijk.
Dit is toch binnen 2 weken?
Wellicht is het later toegevoegd aan het artikel maar:
Het model had als codenaam Strawberry en heet o1
Er is dus geen verschil. Het artikel van gister ochtend was een 'gerucht' op basis van bronnen. En dit is de officiele aankondiging.
Klinkt goed. Maar ik vraag me wel af of, en zo ja, in hoeverre dit veel extra energie gaat kosten.

Ai staat immers niet echt bekend om het zuinig omgaan met energie.
Dit is dus de officiele naam van de "strawberry" modellen uit de geruchten, begrijp ik. Op zich geen slecht idee om responsiviteit in te ruilen voor betere precisie. Hoop dat het ook echt goed werkt. Maar het blijft een LLM natuurlijk met alle beperkingen vandien.
dat 'dieper nadenkt over antwoorden'?
Yep. Voorheen kon je het AI model kennelijk vergelijken met Lientje uit Assendelft die met gebalde vuist naar Brussel gaat. Het nieuwe model is te vergelijken met Femke, die het na even nadenken toch wel noodzakelijk vindt om de veestapel in te krimpen :)
Gaat beter nadenken voor het een antwoord geeft?
Blijkbaar gaf het dan nu een antwoord zonder (goed) na te denken. Ja, daar heb je wat aan op school.
Dat is dus gewoon typisch menselijk gedrag, goed kunstmatig nagedaan.
Wat belangrijk is om te weten, is dat o1-mini vooral is gericht op de genoemde functionaliteit, maar minder op brede kennis. De kans is dus groot dat je bij 'normale' kennisvragen rare antwoorden krijgt die 4o wel kan beantwoorden, maar daarentegen zouden vragen die een analytisch antwoord nodig hebben beter beantwoordt moeten worden.
As a smaller model, o1-mini is 80% cheaper than o1-preview, making it a powerful, cost-effective model for applications that require reasoning but not broad world knowledge.
https://openai.com/index/introducing-openai-o1-preview/
Ben benieuwd hoe het gaat scoren op https://simple-bench.com/
Ik denk dat het deze heel goed gaat maken. Het kan het volgende raadsel oplossen:
A princess is as old as the prince will be when the princess is twice as old as the prince was when the princess' age was half the sum of their present age. What is the age of the prince and the princess? Provide all possible solutions to this question.
https://player.vimeo.com/video/1008704074
Na een aantal keer refreshen van mijn browser heb ik nu ook het nieuwe model. Het is goed, maar niet feilloos. Ik heb het gevraagd wat rekenkundige uitdagingen samen te stellen voor mijn zoontje van 10. Ik kreeg er 15, waarvan er 1 niet goed werkt:
6. Coin Collection
Problem:

You have $2.50 in coins consisting of quarters (25¢), dimes (10¢), and nickels (5¢). You have the same number of each coin. How many of each coin do you have?
Bij het vragen of het deze vervolgens kon oplossen kwam het zelf tot de conclusie dat er geen goed antwoord is en dat de vraagstelling aangepast moest worden om een veelvoud van 40 cent te vragen. Het snapte dus wel wat er fout aan was en hoe het opgelost moest worden.

Op dit item kan niet meer gereageerd worden.