Wetenschappers vinden fouten in 445 veiligheidstests voor AI-modellen

Britse en Amerikaanse wetenschappers hebben fouten gevonden in honderden benchmarks voor het testen van de veiligheid en effectiviteit van AI-modellen. Dit ondermijnt de betrouwbaarheid van testuitslagen voor grote taalmodellen en kan leiden tot misleidende conclusies.

In hun onderzoek vonden de wetenschappers veel problemen bij het meten van AI-veiligheid, zoals het gebruik van vage definities en het ontbreken van statistische toetsen. De onderzoekers stellen dat veel benchmarks niet goed meten wat ze beogen te meten.

De onderzoekers hebben 445 benchmarks voor grote taalmodellen geselecteerd op basis van papers die gepresenteerd zijn op de belangrijkste AI-conferenties. Deze toetsen worden gebruikt voor het evalueren van de nieuwste AI-modellen die grote techbedrijven uitbrengen, aldus onderzoeker Andrew Bean in The Guardian. Volgens het team meten veel veiligheidstests niet de relevante veiligheidsrisico’s.

Zo gebruikt maar 16 procent van de onderzochte AI-benchmarks een inschatting van meetonzekerheid. Ook ontbreken vaak statistische toetsen om de nauwkeurigheid van benchmarks te controleren. Bij benchmarks die eigenschappen van AI-modellen moeten beoordelen, bijvoorbeeld de mate van onschadelijkheid, blijkt de definitie van die eigenschappen vaak discutabel of slecht gedefinieerd. Daardoor zijn de uitkomsten van zulke benchmarks minder nuttig, concluderen de wetenschappers.

Zij hebben de ontdekte fouten en problemen in kaart gebracht en verwerkt in een praktische checklist voor kwaliteitscontrole. Makers van toekomstige benchmarks kunnen die lijst gebruiken om de validiteit van nieuwe tests aan te tonen. Deze checklist is ook beschikbaar als pdf-bestand en als LaTeX-code voor gebruik in papers.

Benchmarks worden volgens The Guardian vanwege het gebrek aan nationale wetgeving in het Verenigd Koninkrijk en de Verenigde Staten gebruikt om te controleren of AI-modellen wel veilig zijn. Het gaat om controles op veilig gebruik door mensen en of AI-toepassingen op basis van grote taalmodellen wel waarmaken wat hun aanbieders claimen. Dit betreft zaken als redeneren, wiskunde en het schrijven van softwarecode.

AI-chatbots en andere AI-toepassingen kunnen risico's opleveren die de veiligheid en effectiviteit ondermijnen. Daaronder het fabriceren en presenteren van onjuiste informatie, ook wel 'hallucineren', en het meegaand of bevestigend reageren, wat in geval van psychische problemen ernstige gevolgen kan hebben. Het onderzoek is uitgevoerd door wetenschappers van het AI Security Institute van de Britse overheid, samen met collega's van de universiteiten van Stanford, Berkeley en Oxford.

Door Jasper Bakker

Nieuwsredacteur

06-11-2025 • 10:35

27

Submitter: aiDisCus

Reacties (27)

Sorteer op:

Weergave:

Ik moet zeggen dat dit niet heel raar is, het zijn vaak tests die opgesteld zijn door de bedrijven zelf die de modellen maken. Ja als je de vragen op de toets mag stellen voor je eigen toets dan is dat inderdaad makelijk vatbaar voor, als ik het effe in het frans zeg, complete bullshit resultaten.

Het is hetzelfde binnen de hardware markt, daar zie je vaak ook "OVER A 2X IMPROVEMENT OVER X", en dan wanneer de reviews uit komen zie je dat het helemaal niet zo was, alleen maar wanneer het precies 1 spel was.
Het is hetzelfde binnen de hardware markt, daar zie je vaak ook "OVER A 2X IMPROVEMENT OVER X", en dan wanneer de reviews uit komen zie je dat het helemaal niet zo was, alleen maar wanneer het precies 1 spel was.
Dat zeggen ze naar mijn idee nooit, ze zeggen naar mijn idee altijd iets van 'tot x keer sneller' of 'functie Y/X is zoveel keer sneller'. En dat is feitelijk correct maar je hebt er niks aan omdat het maar een klein stukje van het geheel is...

[Reactie gewijzigd door watercoolertje op 6 november 2025 10:47]

NVidia had hier wel een handje van tijdens de 50xx presentatie. Gewoon "4x 3090ti performance" bij de 5070ti, geen notes of iets anders. Geen uitleg dat het om MFG ging.

NVidia en Intel doen wel vaker dit soort dingen.
Grappig dat het nu eigenlijk gewoon 'AI-chatbots' wordt genoemd.

De bubbel klapt, de vraag is wanneer. Waarschijnlijk als de money grab klaar is.
Het draait alleen maar om de centrale big data. Wat een LLM ervan maakt is bijzaak. Waarschijnlijk krijgen we nu het dwingende spelletje: alle computer-omgevingen die bruikbaar zijn zonder AI proberen onklaar te maken. Kijk naar de Google zoekresultaten de laatste tijd. Ze zijn dat gewoon om zeep aan het helpen. Ik wacht op AI-only browsers...

[Reactie gewijzigd door blorf op 6 november 2025 10:57]

Dit inderdaad. Kwestie van tijd tot de LLM's niet langer gratis gedownload kunnen worden, want iedereen MOET zich abboneren op een AI-dienst, want geld, heel veel geld. Er worden nu miljarden in gepompt, die willen ze wel terugverdienen. Hoe dan ook.
Deze bubbel:
https://www.rtl.nl/nieuws...-verwachtingen-waar-maken

https://nos.nl/artikel/25...bbel-die-op-knappen-staat

https://xpert.digital/nl/de-grote-ai-bubbel-barst/

Er zit een enorme winstverwachting ingebouwd in de huidige tech koersen. Als die winstverwachting niet op de korte termijn (de komende vijf jaar) ingelost wordt, dan worden de investeerders heel erg zenuwachtig.

Een bedrijf dat er niet in slaagt aan de verwachtingen te voldoen, kan zomaar zonder financiering komen te zitten. En dan krijg je het domino effect, want al die bedrijven investeren behoorlijk in elkaar. Dan moeten ze dik afschrijven op hun investeringen, waarna ook zij niet in staat zijn om de winstverwachtingen waar te maken. Dan klapt de bubbel en zal er behoorlijk afgeschreven moeten worden op de investeringen.

Uiteraard hoeft dit scenario niet uit te komen, als buitenstaanders weten wij niet wat er in het vat zit. Of er de komende jaren een AI met algemene intelligentie uit komt of niet. Maar als die revolutie uit blijft en het bij de huidige LLM's blijft, dan kan de bubbel zomaar klappen.
Sam Altman heeft schijnbaar al gevraagd om overheidssteun zodat OpenAI's continuiteit gegarandeerd blijft ook als investeerders zich terug trekken. En de PR afdeling spin-doctored er op los met uitspraken zoals het feit dat investeerders meer enthusiasme zouden kunnen tonen voor het potentieel dat AI in de toekomst, op de lange baan, voor de mensheid kan gaan betekenen - zelfs als er op de kortere termijn niet direct voordelen uit blijken.

Maw. ze zitten al in de "stop trying to win; start trying to not lose" fase.
Ik denk ook dat het een bubbel is. De verhalen doen mij zoveel denken aan de DotCom verhalen van rond 2000. Over de "nieuwe economie" en dat oude ideeën niet meer golden.

Ik zie niet hoe de huidige generatie LLMs/chatbots echt wezenlijk iets oplossen, behalve als "goedkoop" vermaak. (zo goedkoop is het niet om die datacenters te hebben). Het zijn taalmodellen, geen kennismodellen.

En als we wel echte kennis zouden kunnen vervangen, dan zou dat gigantische economische gevolgen hebben. Wat als je wel ineens hele beroepsgroepen overbodig zou kunnen maken? Dat hebben we niet meer gezien sinds de industriële revolutie. Ik vind het ook eng hoeveel macht je dan bij een paar bedrijven zou leggen.

[Reactie gewijzigd door RogerWilco2 op 6 november 2025 10:56]

Ik denk ook dat het een bubbel is. De verhalen doen mij zoveel denken aan de DotCom verhalen van rond 2000. Over de "nieuwe economie" en dat oude ideeën niet meer golden.
Toch nog best goedgekomen he? We leven nu in de nieuwe economie. Noem me een bubbel die na een paar jaar niet een gigantisch succes is geworden (behalve de tulpjes).
Het probleem alleen is dat als je in de verkeerde bedrijven had geïnvesteerd, het klappen van een bubbel tot enorme verliezen leidt.

Met het klappen van de Internet bubbel zijn er ook echt enorme verliezen geleden. Bedrijven zijn omgevallen, verdwenen in de marge. Andere zijn de winnaars geworden.

Hetzelfde zagen we met de huizenbubbel in de VS in 2008. Toen die klapte zijn er echt mega bedrijven omgevallen. Mensen raakte alles kwijt. Andere bedrijven hebben het overleefd en daar is het alweer vele jaren business as usual.

Op dit moment weten we het niet wie uiteindelijk de winnaars zullen zijn. En dat is behoorlijk riskant voor al die investeerders en institutionele beleggers die er dik in zitten.
De bubbel is dat de investeringen (en beurskoersen) totaal uit te pas lopen met de inkomsten (er is nog steeds geen duidelijk verdien model die al die, inmiddels biljoenen, gaan terug verdienen),
Het zegt niets over of iets al dan niet nuttig is.
Ik denk dat je onderscheid moet zien tussen de ontwikkeling van taalmodellen, en het toepassen van deze taalmodellen. Hoe goed het model ook werkt, als we het alleen in een chatomgeving gebruiken waarbij een mens steeds kleine beetje informatie moet geven, dan is het hooguit een handig hulpje om je dagelijkse werkzaamheden mee te vergemakkelijken/versnellen.

Andersom; komt iemand met een toepassing voor taalmodellen waarbij het (grotendeels) zelfstandig taken uit kan gaan voeren (en waarbij je het misschien enkel moet inwerken zoals bij een menselijke medewerker), waarbij het model alleen in iets vraagt over hoe om te gaan met uitzonderingen ("klant vraagt om korting omdat levering te laat aan kwam, wat wil je hier mee doen?") op een manier die makkelijk te implementeren is (denk aan het installeren van een kleine applicatie op een laptop zoals je die ook voor medewerkers neer zou zetten) dan kan je zo minimaal de helft van de mensen met een kantoorbaan vervangen.

Tot slot, dat "vervangen" kan je zien als 1) deze mensen ontslaan óf 2) deze mensen een "hogere functie" geven en een heel team van AI-modellen aan laten sturen. Bij #2 zou je een bedrijf dus veel effectiever kunnen maken en meer werkzaamheden kunnen oppakken.
Wanneer de chatbot zichzelf hernoemt naar skynet zijn de rapen gaar
ben benieuw wat voor gesprek er komt als je skynet ai-chatbot tegenover legion ai-chatbot laat praten (legion is the bad ai van dark fate) - Het lijkt me sowieso wel grappig als je twee verschillende ai bot ongestoort tegen elkaar laat ouwehoeren - :-)
wat denk je hiervan

https://elevenlabs.io/blog/what-happens-when-two-ai-voice-assistants-have-a-conversation

het kan nog donkerder er zijn gevallen bekend waarin de 2 bots hun eigen taal ontwikkelden

https://www.forbes.com/sites/tonybradley/2017/07/31/facebook-ai-creates-its-own-language-in-creepy-preview-of-our-potential-future/

Hier ook de paper er over, als je je eigen conclusies wilt trekken

https://arxiv.org/pdf/1706.05125

[Reactie gewijzigd door SSSQ op 6 november 2025 13:56]

Gezien er zoveel websites Ai slop hebben worden de nieuwe modellen getraind op oudere Ai slop.
Wellicht heb ik het fout maar daar zie ik niet grote veranderingen meer. VisionLLM heeft nu wel zijn doorbraken.
Van mij mag het het snel weer verdwijnen dat hele AI. Ik vind het maar niks.
AI zelf gaat niet meer weg, de AI hype/bubble waarschijnlijk wel.
Uiteindelijk is het maar een stuk gereedschap, waar het misgaat is dat alles en iedereen denkt dat het een (kant en klare) oplossing is. Dus vind je AI niks, of hoe het gebracht/gebruikt wordt?
Nou ja, dat is niet het enige waarin het misgaat. De energiebehoefte is een niet te onderschatten 'dingetje'. Als AI op dit tempo doorgroeit dan zijn alle pogingen om klimaatverandering tegen te gaan voor niks en wordt het probleem ordes van grootte erger.
Zo werd er ook op Internet gereageerd, en de eerste auto destijds
Tja, vind ik meer een open deur intrappen omdat die benchmarks allemaal nog in de kinderschoenen staan en men gaandereeg leert wat nieuwe 'fouten' zijn waar je op moet letten, blijf dan altijd het voorbeeld geven van SQLInjection, iets waar men in het begin nooit over nadacht totdat er iemand het misbruikte. Sowieso wordt er natuurlijk tegenwoordig wel veel beter over veiligheid nagedacht, maar waar je niet aan denkt kun je ook niets aan doen zeg ik altijd maar.
Wow. Je moet echt wat vaker van je computerzoldertje komen.


Om te kunnen reageren moet je ingelogd zijn