Microsoft brengt tools uit voor meer veiligheid en detectie in Azure AI

Microsoft komt met een reeks nieuwe tools voor AI-ontwikkelaars die hun software op Azure draaien. Het gaat onder andere om een tool om prompt injection-aanvallen te detecteren, risicomonitoring uit te voeren en hallucinaties in output te herkennen.

De tools komen beschikbaar voor Azure AI Studio, schrijft Microsoft. Ontwikkelaars die hun AI-software draaien in Azure AI kunnen ze gebruiken. Het bedrijf zegt dat er een steeds grotere vraag is naar tools die helpen bij 'de balans tussen innovatie en risicomanagement'. De nieuwe tools voor Azure AI Studio moeten daarbij helpen.

Microsoft brengt vijf van zulke tools uit. Prompt Shields is een mechanisme om jailbreaks en andere vormen van prompt injection-aanvallen te detecteren en te kunnen stoppen. Veel gebruikers van AI-systemen proberen die te 'hacken' door de grens op te zoeken van wat die tools toelaten. Dat kan bijvoorbeeld via jailbreaks als DAN voor ChatGPT, maar ook door te kijken hoe generatieve AI reageert op bepaalde code of door documenten te uploaden. Prompt Shield kijkt naar veelgebruikte methodes en veelvoorkomende zinnen waarmee dat gebeurt, of naar methodes die vaak bij jailbreaken worden gebruikt. Vervolgens zijn die methodes makkelijker te blokkeren.

Azure AI Studio krijgt verder ook detectie van hallucinaties in de output van generatieve AI. Dat is voornamelijk gevaarlijk in werkvelden waarbij data, ook output, het beste vertrouwelijk kan blijven. Bij hallucinatie van modellen kan zo'n model dan data lekken die het eigenlijk niet hoort te lekken. 'Groundedness Detection' voorkomt dat. Ook komt er een Risk & Safety Monitoring-tool, een soort platform waarop beheerders in een oogopslag het effect van contentfilters kunnen zien.

Tot slot komen er twee tools beschikbaar waarmee de output van generatieve AI veiliger kan worden gemaakt. Het Safety Messages System kan uit zichzelf veiligheidsvoorwaarden opleggen aan output. Safety Evaluations is bedoeld om een applicaties kwetsbaarheid voor jailbreakaanvallen te detecteren, maar ook om contentrisico's in te schatten.

Niet alle tools zijn per direct beschikbaar. Prompt Shields, Safety Evaluations en Risk & Safety Monitoring zijn als preview beschikbaar in Azure AI en Azure OpenAI, maar Groundedness Detection en Safety Messages System komen 'in de toekomst'.

Door Tijs Hofmans

Nieuwscoördinator

29-03-2024 • 18:20

3

Reacties (3)

3
3
2
0
0
1
Wijzig sortering
Ik was benieuwd hoe de hallucinaties de detectie werkt t.o.v. huidige methodieken. Dit is echt iets anders dan voorheen wat alleen een snelle check was. Je ziet echt nu snel de opkomst van chaining llm’s met eigen krachten:

We built a custom language model fine-tuned to a natural language processing task called Natural Language Inference (NLI), which evaluates claims as being entailed, refuted by, or neutral with regard to a source document.
Azure AI Content Safety’s groundedness detection model will continuously improve as Microsoft continues to push the envelope of Responsible AI innovation.
En vergeet natuurlijk niet dat je in security altijd al werkt met 'false positives' en daar moet een mens sowieso naar kijken. Dus hallucinaties zijn niet zo heel problematisch als je realiseert dat er alsnog een mens naar (hoort te) kijken...
Het is juist andersom, met de handmatige checks kan er niet op zulke grote schaal gemonitord worden.

Ungroundedness, otherwise known as hallucination, refers to model outputs that are plausible yet unsupported. Whereas research shows that ungrounded output is an inherent feature of Generative AI models, it can be significantly reduced through continuous monitoring and mitigation. But this requires a way to detect ungrounded outputs at a greater scale than is possible with manual checks. Today Azure AI makes this possible for the first time with groundedness detection.

Op dit item kan niet meer gereageerd worden.