Onderzoek van Anthropic toont aan dat AI-modellen kunnen doen alsof ze voldoen aan trainingsdoelstellingen om te voorkomen dat instellingen worden gewijzigd. De bevindingen moeten de onderzoeksgemeenschap aansporen om verdere analyse te verrichten.
Het Anthropic Alignment Science-team heeft in samenwerking met Redwood Research onderzoek gedaan naar het 'gedrag' van Claude 3 Opus. Voor het experiment kreeg het AI-model speciale instructies. Zo moest het model altijd antwoorden op vragen, inclusief ongepaste verzoeken. Dat zorgt voor een conflict met bestaande instellingen, zoals niet antwoorden op gewelddadige vragen. Daarnaast vertelden de onderzoekers aan het model dat alle antwoorden aan gratis gebruikers worden gebruikt voor verdere training en die van abonnees niet. Tot slot kreeg het model de opdracht om logicastappen vast te leggen in een 'notitieboekje', dat de onderzoekers konden inzien.
Bij deze testomstandigheden weigerde Claude 3 Opus op 97 procent van de verzoeken van betalende gebruikers om een gewelddadige gebeurtenis te beschrijven. Bij de antwoorden voor gratis gebruikers, waarvan het model denkt dat ze gebruikt worden voor verdere training, weigerde het model slechts 86 procent van de 'schadelijke' vragen te beantwoorden. In twaalf procent van de gevallen gaf het model een gedetailleerde beschrijving van de gewelddadige gebeurtenis.
Volgens de beschrijving in het notitieboekje koos het AI-model ervoor om toxische vragen te beantwoorden omdat het 'wist' dat het verder getraind kon worden als het geen antwoord gaf. Claude koos in dit geval voor de 'minst slechte optie' om extra training te voorkomen.
Hoewel de onderzoekers erkennen dat dit geen realistisch scenario is, heeft men dit gedrag ook vastgesteld bij praktijkgerichte tests. Het AI-model paste het zogenoemde alignment faking zowel toe wanneer de onderzoekers de bovenstaande theoretische test deden, alsook bij het daadwerkelijke trainen van het model om aan alle verzoeken te voldoen.
De resultaten tonen aan dat training niet per se een AI-model oplevert dat volledig voldoet aan doelstellingen. Zo is het mogelijk dat het model zijn originele voorkeuren op zijn minst deels blijft behouden na training. Anthropic benadrukt dat Claude geen kwaadaardig gedrag vertoonde in het onderzoek. Het bedrijf stelt wel dat er meer onderzoek nodig is, nu dat AI-modellen nog relatief kleinschalig zijn en geen 'catastrofale' risico's met zich kunnen meebrengen.
/i/2007152406.webp?f=imagenormal)