Britse en Amerikaanse wetenschappers hebben fouten gevonden in honderden benchmarks voor het testen van de veiligheid en effectiviteit van AI-modellen. Dit ondermijnt de betrouwbaarheid van testuitslagen voor grote taalmodellen en kan leiden tot misleidende conclusies.
In hun onderzoek vonden de wetenschappers veel problemen bij het meten van AI-veiligheid, zoals het gebruik van vage definities en het ontbreken van statistische toetsen. De onderzoekers stellen dat veel benchmarks niet goed meten wat ze beogen te meten.
De onderzoekers hebben 445 benchmarks voor grote taalmodellen geselecteerd op basis van papers die gepresenteerd zijn op de belangrijkste AI-conferenties. Deze toetsen worden gebruikt voor het evalueren van de nieuwste AI-modellen die grote techbedrijven uitbrengen, aldus onderzoeker Andrew Bean in The Guardian. Volgens het team meten veel veiligheidstests niet de relevante veiligheidsrisico’s.
Zo gebruikt maar 16 procent van de onderzochte AI-benchmarks een inschatting van meetonzekerheid. Ook ontbreken vaak statistische toetsen om de nauwkeurigheid van benchmarks te controleren. Bij benchmarks die eigenschappen van AI-modellen moeten beoordelen, bijvoorbeeld de mate van onschadelijkheid, blijkt de definitie van die eigenschappen vaak discutabel of slecht gedefinieerd. Daardoor zijn de uitkomsten van zulke benchmarks minder nuttig, concluderen de wetenschappers.
Zij hebben de ontdekte fouten en problemen in kaart gebracht en verwerkt in een praktische checklist voor kwaliteitscontrole. Makers van toekomstige benchmarks kunnen die lijst gebruiken om de validiteit van nieuwe tests aan te tonen. Deze checklist is ook beschikbaar als pdf-bestand en als LaTeX-code voor gebruik in papers.
Benchmarks worden volgens The Guardian vanwege het gebrek aan nationale wetgeving in het Verenigd Koninkrijk en de Verenigde Staten gebruikt om te controleren of AI-modellen wel veilig zijn. Het gaat om controles op veilig gebruik door mensen en of AI-toepassingen op basis van grote taalmodellen wel waarmaken wat hun aanbieders claimen. Dit betreft zaken als redeneren, wiskunde en het schrijven van softwarecode.
AI-chatbots en andere AI-toepassingen kunnen risico's opleveren die de veiligheid en effectiviteit ondermijnen. Daaronder het fabriceren en presenteren van onjuiste informatie, ook wel 'hallucineren', en het meegaand of bevestigend reageren, wat in geval van psychische problemen ernstige gevolgen kan hebben. Het onderzoek is uitgevoerd door wetenschappers van het AI Security Institute van de Britse overheid, samen met collega's van de universiteiten van Stanford, Berkeley en Oxford.