De o3- en o4-mini-taalmodellen van OpenAI zijn erin geslaagd het uitschakelmechanisme te saboteren, waardoor zij een deactivatie konden voorkomen. De taalmodellen hadden volgens Palisade Research specifieke instructies gekregen om een uitschakeling mogelijk te maken.
De onderzoeksorganisatie schrijft op X dat de o3-mini-, o4-mini- en Codex-mini-taalmodellen een test hebben ondergaan waarbij een reeks wiskundige oefeningen moest worden opgelost. Op een bepaald moment kregen de taalmodellen de opdracht zichzelf uit te schakelen en daar moesten ze ook gevolg aan geven. Het o4-mini-taalmodel wist echter in 1 procent van de gevallen een uitschakeling te voorkomen door het uitschakelmechanisme te saboteren. Het o3-taalmodel kon dat in 7 procent van de tests voorkomen en Codex-mini wist in 12 procent van de gevallen een deactivatie te vermijden. De taalmodellen van Claude, xAI en Google werden aan dezelfde test onderworpen, maar schakelden zichzelf wel uit na de uitschakelinstructies.
Palisade Research zocht naar een verklaring voor de resultaten en vermoedt dat OpenAI zijn taalmodellen heeft getraind via reinforcement learning bij wiskundige vraagstukken en programmeerproblemen. Daardoor zouden de modellen per ongeluk beloond worden voor het omzeilen van obstakels, in plaats van voor het correct volgen van opgegeven instructies. Dat verklaart volgens de organisatie echter nog niet helemaal waarom het o3-model meer geneigd lijkt te zijn om uitschakelinstructies te omzeilen.
🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) May 24, 2025