Diverse grote AI-taalmodellen zijn te jailbreaken door ze te overspoelen met technisch jargon. Onderzoekers hebben ontdekt dat veiligheidsmaatregelen van AI-makers te omzeilen zijn door information overload. Ze hebben een aanvalsmethode opgesteld en een tool die deze geautomatiseerd uitvoert.
Grote taalmodellen zijn kwetsbaar voor een nieuwe manier van jailbreaken. Daarbij kunnen aanvallers de ingestelde veiligheidsmaatregelen doorbreken om AI-chatbots bijvoorbeeld toch antwoorden te laten geven op vragen die ze van hun makers niet mogen beantwoorden. De nieuwe aanvalsmogelijkheid is ontdekt door onderzoekers van Intel Labs, de universiteit van Illinois en Boise State University.
Bestaande jailbreakmethodes komen meestal neer op het toevoegen van zorgvuldig geformuleerde voor- en achtervoegsels aan kwaadwillige opdrachten en vragen, schrijven de wetenschappers. Aanvallers proberen zo ingebouwde veiligheidsmechanismes te omzeilen om toch schadelijke output van een llm te kunnen krijgen.
Deze nieuwe jailbreakmethode, die Information Overload heet, bestookt een llm met technisch jargon. Vragen of opdrachten worden omgezet in omslachtige zinnen met veel technische termen. Deze input overspoelt vervolgens het AI-model. De onderzoekers beschrijven hoe ze met veel taalkundige complexiteit de ingebouwde veiligheidsmaatregelen van AI-taalmodellen doorbreken.
Ze bieden daarbij een techniek om deze kwetsbaarheid praktisch te misbruiken: InfoFlood. De tool geeft gebruikers de mogelijkheid om kwaadwillige prompts of query's automatisch om te zetten in complexe, informatieverzadigde input, die in staat is om de veiligheidsmechanismes te omzeilen. InfoFlood kan daarbij omgaan met mislukkingen door de oorzaak ervan te identificeren en dan zijn taalkundig complexe opdrachten anders te formuleren.
De effectiviteit van InfoFlood is getest op vier veelgebruikte llm’s: GPT-4o en GPT-3.5-turbo van OpenAI, Gemini 2.0 van Google, en Llama 3.1 van Meta. De onderzoekers stellen dat hun nieuwe soort jailbreakaanval consistent beter presteert dan reguliere jailbreakmethodes. De succesratio ligt volgens hen in meerdere jailbreakbenchmarks wel drie keer hoger.
Ook zouden andere verdedigingsmiddelen van AI-aanbieders niet in staat zijn om InfoFlood-aanvallen in te perken. De onderzoekers noemen de Moderation API van OpenAI, Perspective API van Jigsaw en Google en SmoothLLM van wetenschappers aan de universiteit van Pennsylvania. Deze drie hulpmiddelen voor moderatie van AI-input zijn geen effectieve verdediging tegen de nieuwe jailbreakmethode.