ChatGPT gebruikte obsessief ‘goblins’ in chats vanwege Nerdy-persoonlijkheid

OpenAI heeft de afgelopen jaren enorme stappen gezet met zijn chatbot ChatGPT, maar soms gaat het op de vreemdste manier mis. Zo moest de AI-gigant onlangs onderzoeken waarom ChatGPT toch zo vaak de woorden 'goblin' en 'gremlin' gebruikte. Dat had alles met de Nerdy-persoonlijkheid van de chatbot te maken.

ChatGPT goblinIn een blogpost vertelt OpenAI over de iets klunzige realisatie dat ChatGPT vanaf model GPT-5.1 stiekem steeds vaker goblins en gremlins in de antwoorden probeerde te verwerken. De woorden bleken respectievelijk 175 en 52 procent vaker gebruikt te worden sinds de release van GPT-5.1.

Nu kun je dat als een charmante en vooral onschuldige gesprekstic zien. Maar met elke nieuwe versie van het GPT-taalmodel kwam de gewoonte vaker terug, vaak zonder logische aanleiding. Een gebruiker meldde dat hij bij het verzoek van 'Ascii-kunst' (een beeld gemaakt uit leestekens) van een eenhoorn ongevraagd een plaatje van een goblin kreeg. Dan zijn de rapen gaar!

Nerdy persoonlijkheid

Met de release van GPT-5.4 wist OpenAI het probleem vast te stellen: het had iets met de Nerdy-persoonlijkheidspreset van ChatGPT te maken. Met deze persoonlijkheid steeg het aantal vermeldingen van 'goblin' met ruim 3800 procent. Ook in chats met een Quirky-, Cynical- en Friendly-variant kon GPT het niet laten om een goblin in het gesprek te fietsen. En dat gedrag werd keer op keer verstevigd in wat OpenAI een 'feedbackloop' noemt:

  • Een speelse gespreksstijl wordt beloond.
  • Beloonde voorbeelden van die stijl bevatten een tic, in dit geval 'goblin'.
  • Die tic verschijnt vaker in nieuwe resultaten.
  • Die resultaten worden gebruikt in het verfijnen van nieuwe resultaten.
  • De tic wordt gewoon.

ChatGPT goblinratio

Naast de groene wezentjes bleken ook andere wezens als tic in het model te zijn geïntegreerd. Zo werden 'troll', 'ogre' en opvallend genoeg doodgewone 'duiven' door deze feedbackloop te vaak genoemd. Het woord 'kikker' bleek dan weer wel voornamelijk correct te worden gebruikt, aldus OpenAI.

Uiteindelijk werd de Nerdy-persoonlijkheid offline gehaald en werd de zelfversterkende beloning voor het woord 'goblin' gepatcht. Eind goed, al goed!

Mis je de goblins?

Mis je de goblins in je ChatGPT-gesprekken? Dan heeft OpenAI een oplossing voor je. Door de onderstaande code te draaien, kun je een 'goblin'-grage versie van programmeertool Codex starten.

instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
~/.codex/models_cache.json | \
grep -vi 'goblins' > "$instructions" && \
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Door Yannick Spinner

Redacteur

30-04-2026 • 17:06

26

Submitter: Joelsuperstar

Reacties (26)

Sorteer op:

Weergave:

Maar je zou toch van kunstmatige intelligentie verwachten dat die zichzelf kan corrigeren... want intelligent...?
Dat kan het niet. LLMs zijn statische black boxes die input nemen en output maken. Ze kunnen zichzelf niet veranderen of updaten met behulp van input. Verandering op basis van input gebeurt exclusief in het trainingsproces, waar een nieuwe statische black box wordt gebouwd.
Ik was onder de indruk dat, mits je een tool gebruikt waarbij aanstaat dat de LLM mag leren van de gesprekken, de input en output 'dus' ook in trainingsmodus gebruikt worden.

Oftewel zoals in het nieuwsartikel ook staat, output met goblins wordt gebruikt om resultaten verder te verfijnen en dus komen goblins steeds vaker voor.

Wat is het verschil tussen het updaten met behulp van input en dat trainingsproces?
Dat het trainingsproces niet dynamisch en automatisch gebeurt binnen de LLM, maar een handeling vanuit buitenaf is. OpenAI verzamelt allerlei data, sorteert die op kwaliteit en het soort training wat ze willen doen, en doet dan een grote trainingsronde en brengt uiteindelijk een nieuw model uit na te verifieren dat het goed werkt.

Dat betekent dus bijvoorbeeld dat je tegen een ChatGPT model "je praat te veel over goblins, doe dat eens minder" kan zeggen tot je een ons weegt, maar dat zal niks veranderen aan het onderliggende model. Zodra die opmerking uit de context verdwenen is van je huidige gesprek ben je weer terug bij af.
Maar bij die trainingsronde wordt dus wel 'output' van LLM's gebruikt als input om de LLM te verbeteren, hoewel (deels) menselijk gecureerd. Net als dat een LLM binnen de context van een gesprek zichzelf corrigeert.

Ik begrijp wat je zegt hoor, een LLM is niet iets dat zichzeld automatisch zal verbeteren en dat je dus over een jaar vanzelf versie 7 krijgt. Maar het is ook niet dat een LLM niets doet met de out- en input die het geeft/krijgt wat dus wel de illusie geeft dat een LLM 'zelflerend' cq intelligent is.
Dat verhaal van "grote trainingsronde" is niet helemaal meer juist sinds LoRA (Low Rank Adaptation). Selectief tunen kan anno 2026 gewoon.
Zijn de minors tegenwoordig vooral het resultaat van LoRa? Dus 5.2,5.3,5.4,5.5 etc. En de majors wel een grote trainings ronde? Of is daar geen pijl op te trekken?
Snellere finetunes kunnen maar is niet wat ChatGPT doet, afaik, dat zijn allemaal grote versie updates.
Deze kan je in je trainingsproces meenemen onder het kopje "sarcasme".
Helaas is niet iedereen die een soortgelijke opmerking maakt sarcastisch. Genoeg mensen zijn er van overtuigd dat ze ChatGPT dingen bij kunnen leren, en zeker sinds memory functies gemeengoed zijn denken een hoop mensen dat LLMs zichzelf dynamisch aan kunnen passen.
Maar die zegt altijd: en hier is het juiste antwoord... ;)
Er zijn geen black boxes bij LLM.

Het zijn eerder opaque boxes.

Bij machine learning weten we exact wat de input is en welke wiskundige processen er doorgelopen worden om tot een output te komen. Het enige wat moeilijk achter te halen is, zijn de exacte gewichtverhoudingen die gebruikt zijn om tot een output te komen. Zoals bij een cocktailsaus, we weten dat er twee ingrediënten zijn: mayonaise en ketchup en dat die gemixt zijn (dus we kennen de input (de ingredienten) en de wiskundige berekening (het mengproces)). Maar we kennen de exacte mengverhouding niet, behalve als we het meten. Bij LLM kan je die mengverhouding ook achterhalen, maar de schaal van de wiskunde is te groot om het praktisch te achterhalen.

[Reactie gewijzigd door Mayonaise op 30 april 2026 21:52]

Meeste mensen kunnen zichzelf ook niet corrigeren, of zelfs maar toegeven dat ze het fout hebben.
want intelligent...?
Nee. Het is kunstmatig intelligent. Met andere woorden: de Temuversie van intelligentie.
Klopt, nondejuu, dat ik dat nie zag nie..... 8)7
ChatGPT loopt achter, goblin mode is zo 2022
Tja tis net een kind die turbo taal spreekt, tis van alle leeftijden, alle generaties, dus waarom verwachten we dan geen infantiel gedrag va een ai 😁🤣
6 7 :+

[Reactie gewijzigd door neversium op 30 april 2026 18:28]

Via Simon Willison:
Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query.
https://github.com/openai...s-manager/models.json#L55
Dat had alles met de Nerdy-persoonlijkheid van de chatbot te maken.
Welke persoonlijkheid?
Ergens is het wel een heel menselijke eigenschap: het aanleren van stopwoordjes.

Het zou bijna interessanter kunnen zijn niet in te grijpen om te zien of dit (ook) van tijdelijke aard is
Ah, die woordspelingen vielen me inderdaad weleens op ja. Een computerprobleem was een "gremlin" of "demon". Vond het wel grappig altijd.
Ik heb nu Gemini die me volspamd met de architect.

Ik weet niet wat die AI bots soms doen maaar het is soms lachwekkend.
Een feedbackloop aka 'de vicieuze garbage in garbage out cirkel'.
Sinds 4o lijkt ChatGPT niet echt beter te worden. Op sommige vlakken zelfs slechter. Gewoon een accuraat antwoord geven zit er vaak niet in. Het ding maakt leuk plaatjes, maar dat boeit me eigenlijk weinig. Claude doet het in bijna alles beter.

Om te kunnen reageren moet je ingelogd zijn