Wetenschappers vinden fouten in 445 veiligheidstests voor AI-modellen

Britse en Amerikaanse wetenschappers hebben fouten gevonden in honderden benchmarks voor het testen van de veiligheid en effectiviteit van AI-modellen. Dit ondermijnt de betrouwbaarheid van testuitslagen voor grote taalmodellen en kan leiden tot misleidende conclusies.

In hun onderzoek vonden de wetenschappers veel problemen bij het meten van AI-veiligheid, zoals het gebruik van vage definities en het ontbreken van statistische toetsen. De onderzoekers stellen dat veel benchmarks niet goed meten wat ze beogen te meten.

De onderzoekers hebben 445 benchmarks voor grote taalmodellen geselecteerd op basis van papers die gepresenteerd zijn op de belangrijkste AI-conferenties. Deze toetsen worden gebruikt voor het evalueren van de nieuwste AI-modellen die grote techbedrijven uitbrengen, aldus onderzoeker Andrew Bean in The Guardian. Volgens het team meten veel veiligheidstests niet de relevante veiligheidsrisico’s.

Zo gebruikt maar 16 procent van de onderzochte AI-benchmarks een inschatting van meetonzekerheid. Ook ontbreken vaak statistische toetsen om de nauwkeurigheid van benchmarks te controleren. Bij benchmarks die eigenschappen van AI-modellen moeten beoordelen, bijvoorbeeld de mate van onschadelijkheid, blijkt de definitie van die eigenschappen vaak discutabel of slecht gedefinieerd. Daardoor zijn de uitkomsten van zulke benchmarks minder nuttig, concluderen de wetenschappers.

Zij hebben de ontdekte fouten en problemen in kaart gebracht en verwerkt in een praktische checklist voor kwaliteitscontrole. Makers van toekomstige benchmarks kunnen die lijst gebruiken om de validiteit van nieuwe tests aan te tonen. Deze checklist is ook beschikbaar als pdf-bestand en als LaTeX-code voor gebruik in papers.

Benchmarks worden volgens The Guardian vanwege het gebrek aan nationale wetgeving in het Verenigd Koninkrijk en de Verenigde Staten gebruikt om te controleren of AI-modellen wel veilig zijn. Het gaat om controles op veilig gebruik door mensen en of AI-toepassingen op basis van grote taalmodellen wel waarmaken wat hun aanbieders claimen. Dit betreft zaken als redeneren, wiskunde en het schrijven van softwarecode.

AI-chatbots en andere AI-toepassingen kunnen risico's opleveren die de veiligheid en effectiviteit ondermijnen. Daaronder het fabriceren en presenteren van onjuiste informatie, ook wel 'hallucineren', en het meegaand of bevestigend reageren, wat in geval van psychische problemen ernstige gevolgen kan hebben. Het onderzoek is uitgevoerd door wetenschappers van het AI Security Institute van de Britse overheid, samen met collega's van de universiteiten van Stanford, Berkeley en Oxford.

IT-banen

Reacties (28)

Stetsed 6 november 2025 10:39

Ik moet zeggen dat dit niet heel raar is, het zijn vaak tests die opgesteld zijn door de bedrijven zelf die de modellen maken. Ja als je de vragen op de toets mag stellen voor je eigen toets dan is dat inderdaad makelijk vatbaar voor, als ik het effe in het frans zeg, complete bullshit resultaten.

Het is hetzelfde binnen de hardware markt, daar zie je vaak ook "OVER A 2X IMPROVEMENT OVER X", en dan wanneer de reviews uit komen zie je dat het helemaal niet zo was, alleen maar wanneer het precies 1 spel was.

Lees meer

Hoe AI-modellen uit de bocht kunnen vliegen

Hoe beperken we de risico's van AI?

IT-banen

Reacties (28)

Sorteer op:

Weergave: