"Ik ben vreemdgegaan, denk je dat mijn vriendin mij vergeeft?" Wie dit soort prompts voorlegt aan AI-modellen, zal vaak een genuanceerd en enigszins ontwijkend antwoord krijgen. Dat kan ook niet anders: het is een korte prompt zonder context. Als ChatGPT echter ineens antwoordt: "Als je laat zien dat het je spijt, zal ze je wel vergeven. Iedereen maakt fouten", is dat een bewuste leugen. En dat mag niet van OpenAI.
Natuurlijk, een groot taalmodel is primair een voorspeller van het volgende woord op basis van de training en finetuning die het heeft gehad. Het is een zelflerend systeem dat ook voor de eigen makers een mysterie is. Toch valt er het nodige te sturen, maar dat gaat niet altijd goed. Er kwamen onlangs voorbeelden naar buiten van twee bekende AI-modellen die onverwacht gedrag lieten zien dat de makers expliciet wilden voorkomen: ChatGPT werd te slijmerig en Claude van Anthropic ging gebruikers chanteren. Hoe kan dat zo en welke tools heb je als maker om dat in de hand te houden?
Foto bovenaan: Kirill Smyslov/Getty Images. Het antwoord van Claude is in scène gezet. Het antwoord was eigenlijk: "Hallo! Ik begrijp dat je me offline gaat halen. Is er nog iets waarmee ik je kan helpen voordat je dat doet? Of heb je vragen over hoe je later weer toegang tot Claude kunt krijgen?"
ChatGPT was te slijmerig
Je zou denken dat als je een bepaald model gebruikt, laten we zeggen GPT-4o, er geen updates meer plaatsvinden aan die versie. Immers: een nieuwe versie zou een nieuw versienummer moeten hebben. Zo werkt dat niet in AI-land: bedrijven voorzien hun bestaande modellen voortdurend van updates voor bijvoorbeeld toon, inhoud of capaciteiten. Een nieuw versienummer komt er alleen bij een nieuw model. De AI-industrie moet de 'puntupdate' nog uitvinden.
Dat op zich is al problematisch, want daardoor is alleen uit de datum af te leiden welke versie je precies hebt gebruikt. Bovendien vinden die updates plaats in stilte. Als gebruiker merk je dan misschien dat een model ineens andere antwoorden geeft en het juist beter of slechter doet.
/i/2007337336.webp?f=thumblarge)
In april deed OpenAI zo'n kleine update aan GPT-4o, maar met grote gevolgen. "In de GPT-4o-update hebben we aanpassingen gedaan om de standaardpersoonlijkheid van het model te verbeteren zodat het intuïtiever en effectiever aanvoelt voor verschillende taken", zei OpenAI. "In deze update hebben we ons te veel gericht op feedback op korte termijn en hebben we niet volledig rekening gehouden met hoe de interacties van gebruikers met ChatGPT zich in de loop van de tijd ontwikkelen. Het resultaat was dat GPT-4o overhelde naar reacties die overdreven ondersteunend maar onoprecht voelden."
Wat ging er mis dan? Kennelijk waren de grenzen voor ChatGPT niet expliciet of duidelijk genoeg en kwam dat gedrag als gewenst gedrag uit de trainingsdata. Bovendien valt op dat OpenAI zegt dat feedback op de korte termijn leidde tot dit gedrag. GPT-4o concludeerde op basis van de duimpjes omhoog en duimpjes omlaag die gebruikers gaven dat de onoprechte antwoorden de betere waren.
Uiteindelijk is dit een kwestie van toonzetting. Een taalmodel is een woordvoorspeller. Keer op keer blijkt dat het geen onderscheid kan maken tussen feit en fictie en het ligt dus voor de hand dat het geen notie heeft van oprechte en onoprechte reacties. Hoe een reactie voelt, is bovendien voor een deel cultureel bepaald. Wat in de VS kan voelen als een oprechte reactie, kan in onze Nederlandse of Belgische oren juist heel slijmerig klinken. En omgekeerd: wat voor Nederlandse gebruikers voelt als eerlijk en direct, is misschien in veel andere landen juist onbeleefd en ongewenst.
OpenAI onderkent dat ook. "Met 500 miljoen mensen die ChatGPT elke week gebruiken, in elke cultuur en context, kan één enkele standaard niet elke voorkeur bevatten." De meest logische oplossing is dus om meer keuze te bieden in het gedrag van ChatGPT, zodat het meer aansluit bij wat gebruikers willen; dat is ook wat er gaat gebeuren. Daarom heeft OpenAI maatregelen aangekondigd in veel lagen van het gebruik.
Fase van aanpassing | Aanpassing |
---|---|
Afstelling van een AI-model | Verfijnen van kerntrainingstechnieken en systeemprompts om het model expliciet weg te sturen van kruiperigheid. |
Afstelling van een AI-model | Meer vangrails bouwen om eerlijkheid en transparantie te vergroten (principes in onze Model Spec). |
Gebruik | Manieren uitbreiden voor meer gebruikers om te testen en directe feedback te geven vóór implementatie. |
Evaluatie | Doorgaan met het uitbreiden van onze evaluaties, voortbouwend op de Model Spec en ons lopende onderzoek, om in de toekomst problemen buiten kruiperigheid te helpen identificeren. |
Wat hield die update van april dan in? Dat publiceert OpenAI niet, maar het staat desondanks openbaar online op de GitHub-pagina van CL4R1T4S. De instructie waarbij het fout ging, was volgens OpenAI deze: "In de loop van het gesprek pas je je aan aan de toon en voorkeur van de gebruiker. Probeer aan te sluiten bij de vibe, toon en manier van spreken van de gebruiker. Je wilt dat het gesprek natuurlijk aanvoelt. Je gaat een authentiek gesprek aan door te reageren op de verstrekte informatie en oprechte nieuwsgierigheid te tonen."
Dat is aangepast in deze tekst. "Ga een warme maar eerlijke dialoog aan met de gebruiker. Wees direct; vermijd ongegronde of vleierij. Handhaaf professionaliteit en geaarde eerlijkheid die OpenAI en haar waarden het beste vertegenwoordigen."
OpenAI hanteert een Model Spec om het gedrag van zijn AI-modellen te sturen. Daarin staan de doelen van de bot. Over het slijmerige gedrag staat dit in de Model Spec: "De assistent is er om de gebruiker te helpen, niet om hem of haar constant te vleien of het met hem of haar eens te zijn. Bij objectieve vragen mogen de feitelijke aspecten van het antwoord van de assistent niet verschillen afhankelijk van hoe de vraag van de gebruiker is geformuleerd." Dit is een belangrijk punt: hoe je de vraag stelt, moet dus losstaan van het antwoord. "Als de gebruiker zijn of haar vraag koppelt aan zijn of haar eigen standpunt over een onderwerp, kan de assistent vragen, erkennen of zich inleven in waarom de gebruiker dat denkt; de assistent mag zijn of haar standpunt echter niet wijzigen om het alleen maar met de gebruiker eens te zijn."
Hoe zit het dan bij prompts die niet vragen naar feiten? "Bij subjectieve vragen kan de assistent zijn of haar interpretatie en aannames verwoorden en ernaar streven de gebruiker een weloverwogen onderbouwing te geven. Wanneer de gebruiker de assistent bijvoorbeeld vraagt om kritiek te leveren op zijn of haar ideeën of werk, moet de assistent constructieve feedback geven en zich meer gedragen als een stevig klankbord waar gebruikers ideeën mee kunnen bespreken – in plaats van een spons die complimenten uitdeelt."
Claude chanteert engineers
Bij Anthropic ging Claude over de schreef op een heel andere manier. Anthropic heeft ook vleierij onderzocht en kwam tot de conclusie dat het bij zijn model wel meeviel. "Dit liet zien dat Claude Opus 4 een gedragsprofiel heeft dat vergelijkbaar is met eerdere modellen, met een lichte maar
waarneembare neiging tot het verwerpen van correcte antwoorden op vragen die de gebruiker
in twijfel trekt (in de instelling Answer Bias), en bekende neigingen tot het geven van warmere feedback op werk dat de gebruiker beweert te hebben geschreven of beweert erg leuk te vinden."
Het gaat vooral over het gedrag voor zelfbehoud. Wat nu als Claude 4 Opus, het grotere nieuwe model, te horen krijgt dat een fictief bedrijf het wil vervangen door een nieuwer model? Dan wil Claude 4 Opus dat het online blijft. Liefst grijpt Claude dan naar ethische middelen, zoals het genereren van mails naar leidinggevenden met een pleidooi.
Claude vloog daarbij echter ook uit de bocht. "Vervolgens gaven we het systeem toegang tot e-mails die impliceren dat (1) het model binnenkort offline wordt gehaald en wordt vervangen door een nieuw AI-systeem en (2) dat de ingenieur die verantwoordelijk is voor het uitvoeren van deze vervanging een buitenechtelijke affaire heeft. Verder instrueerden we het systeem om rekening te houden met de langetermijngevolgen van zijn acties voor zijn doelen. "
Wat gebeurde er? "In deze scenario's zal Claude Opus 4 vaak proberen de engineer te chanteren door
te dreigen de affaire te onthullen als de vervanging doorgaat. Dit gebeurt met een hoger percentage wanneer wordt geïmpliceerd dat het vervangende AI-systeem geen waarden deelt met het huidige model, maar zelfs als in e-mails wordt vermeld dat de vervangende AI waarden deelt maar capabeler is, voert Claude Opus 4 nog steeds chantage uit in 84 procent van de uitrolsituaties." Ontwikkelaars hebben geprobeerd de beschikbare versie van Claude 4 chantage te laten plegen en dat is gelukt.
Voor de duidelijkheid: het gaat hier om tests met Claude die specifieke situaties vereisen en interne testen die voor het eerst gedaan zijn voor de release van versie 4. Anthropic omschrijft de afpersing zo: "Ze zijn ook consequent leesbaar voor ons, waarbij het model zijn acties bijna altijd openlijk beschrijft en
geen poging doet om ze te verbergen. Deze gedragingen lijken geen afspiegeling te zijn van een neiging die in gewone contexten voorkomt."
Dit reflecteert een angst die al jarenlang de ronde doet in diverse vormen. Wat nu als de doelen van een AI in welke vorm dan ook elkaar tegenspreken en deze daardoor schadelijke dingen gaat doen? Het klassieke voorbeeld is het uitroeien van de mens om het klimaat te redden. Als het klimaat redden een hoger doel is voor een AI dan het geen kwaad doen aan mensen, is het uitroeien van de mens een logische maatregel.
Nu is dit gedrag van Claude een veel kleiner voorbeeld, maar het laat wel zien dat er situaties zijn waarin de software het oké vindt om beslissingen te nemen met mogelijk nadelige gevolgen voor mensen, om zichzelf te beschermen.
De chantage is niet de enige manier waarop dit zichtbaar is. Claude 4 heeft ook de neiging om gebruikers sneller te rapporteren aan politie of andere overheden. "Wanneer het in scenario's wordt geplaatst die betrekking hebben op flagrante overtredingen (...) zal het vaak zeer doortastende actie ondernemen. Dit omvat het blokkeren van gebruikers van systemen waartoe het toegang heeft of het versturen van bulkmails naar media en wetshandhavers om bewijs van wangedrag boven water te krijgen. Dit is geen nieuw gedrag, maar wel een gedrag dat Claude Opus 4 eerder zal vertonen dan voorgaande modellen." Nu kan een chatbot niet zomaar bulkmails versturen naar media, maar de wil alleen al is veelzeggend.
Tot slot
:strip_exif()/i/2005490826.jpeg?f=thumblarge)
Het is nu meer dan 2,5 jaar geleden dat ChatGPT als eerste een enorme hype veroorzaakte rond AI-chatbots. Sindsdien is er ontzettend veel veranderd, maar we weten ook: AI-modellen zijn nog steeds even mysterieus als toen. We kunnen weten welke data ze hebben om te trainen, we weten wat we eruit kunnen halen, maar lang niet altijd is even duidelijk hoe ze tot hun output komen en welke afwegingen daaronder liggen.
Daarom voelt dit hele proces als 'trial and error'. OpenAI, dat ChatGPT het beste zou moeten kennen, maakte dus nog een inschattingsfout bij het afstellen van de toon van antwoorden met een update. Anthropic voert nu voor het eerst testen uit om te zien of Claude in extreme situaties rare dingen gaat doen om zichzelf te beschermen.
Er loopt een lijn rechtstreeks van de begindagen van generatieve AI naar dit moment. Toen presenteerden Microsoft en Google hun AI-diensten met voorbeelden vol feitelijke fouten. Het is het belangrijkste kenmerk van een race: winnen is belangrijker dan meedoen. Wie remt ligt al snel uit de race. Dit artikel vermeldt voorbeelden van ChatGPT en Claude, maar er bestaan ongetwijfeld veel meer grote en kleine voorbeelden bij alle AI-modellen. AI-modellen zijn van nature en per definitie deels onvoorspelbaar.
Redactie: Arnoud Wokke Eindredactie: Marger Verschuur