Het Britse National Cyber Security Centre denkt dat aanvallen met promptinjection nooit te voorkomen zullen zijn. In het beste geval is de impact te minimaliseren, zo schrijft de directeur in een analyse.
Nu AI in steeds meer software komt te zitten, nemen de risico's van dergelijke aanvallen ook toe, redeneert het NCSC. Promptinjection is een methode waarbij een kwaadwillende gebruiker bewust verkeerde instructies of data invoert in een AI-model om het systeem te manipuleren en de beveiligingsmaatregelen ervan te omzeilen.
Het is lastig dat uit te roeien, omdat grote taalmodellen prompts indelen in opeenvolgende tokens. Een taalmodel kan bij de interpretatie van een prompt geen onderscheid maken tussen wat data is en wat een instructie is voor de verwerking, zodat het lastig is om een aanval helemaal te voorkomen. Wel is het mogelijk de impact te minimaliseren door het model te trainen data en instructies te scheiden, zodat een aanval soms niet lukt. Het is onbekend hoeveel schade er ontstaat door aanvallen met promptinjection en wat daarvan het effect is.