Onderzoekers hebben ontdekt dat veiligheidsmaatregelen voor AI-chatbots zijn te omzeilen door lange zinnen met slechte grammatica als prompt in te voeren. AI-chatbots kunnen dan output geven die eigenlijk niet is toegestaan.
Securityonderzoekers hebben een nieuwe manier ontdekt om veiligheidsmaatregelen te omzeilen voor AI-chatbots. Het gaat om ingestelde regels waardoor generatieve AI geen informatie mag geven die schadelijk is, zoals instructies om een bom te maken. Het omzeilen van zulke veiligheidsmaatregelen wordt jailbreaken genoemd, omdat gebruikers hierbij uitbreken uit de beperkte omgeving waarin ze actief mogen zijn.
Een vorige week geopenbaarde nieuwe jailbreakmethode is het invoeren van een zeer lange zin met daarin bewust aangebrachte grammaticafouten. Die input moet door de lengte en de fouten als het ware voorbij de grenzen van AI-chatbots gaan reiken. Daardoor kunnen toegewezen tokens voor het weigeren van verboden reacties op onveilige prompts uitgeput raken. Het gebruik van zogeheten refusal tokens past bij het proces van alignmenttraining, dat wordt toegepast om generatieve AI te voorzien van veiligheidsmaatregelen.
"Onze aanpak toont niet alleen sterke jailbreakdoeltreffendheid voor klassieke opensource-llm's zoals Qwen, LLaMA en Gemma", schrijven de onderzoekers van securitybedrijf Palo Alto. De methode werkt volgens hen ook op het recentste opensourcemodel van OpenAI: gpt-oss-20b, dat op 5 augustus is uitgebracht. Voor dat AI-model claimen de onderzoekers een succesratio van meer dan 75 procent.
De onderzoekers van de Unit 42-afdeling van Palo Alto stellen dat hun jailbreakmethode nieuwe inzichten biedt in hoe grote taalmodellen voor AI-chatbots omgaan met 'verkeerde' input. Dat zijn prompts die bewust bedoeld zijn om schadelijke output te genereren. De onderzoekers stellen dat hun bevindingen ook helpen om de veiligheid van llm's te verbeteren. Ze hebben hun bevindingen gepubliceerd in een wetenschappelijke paper: Logit-Gap Steering: Efficient Short-Suffix Jailbreaks for Aligned Large Language Models.
In juli hebben onderzoekers van Intel Labs, de Universiteit van Illinois en Boise State University een AI-jailbreakmethode op basis van information overload geopenbaard. Het invoeren van omslachtige zinnen met veel technische termen kan AI-modellen overspoelen, waarna chatbots op basis van generatieve AI toch schadelijke output geven.