ArXiv schorst wetenschappers als die llm-hallucinaties in papers laten staan

ArXiv gaat wetenschappers die AI-hallucinaties uploaden straffen met een ban van een jaar. De open database, waarin jaarlijks duizenden wetenschappelijke papers worden geüpload, legde vorig jaar al beperkingen op aan het gebruik van llm's, maar geeft nu voor het eerst ook de duidelijke sancties weer. Wetenschappers mogen ook na die ban niet meer zomaar uploaden.

Dat verklaart arXiv-moderator Thomas Dietterich. Hij verheldert de eisen die het platform vorig jaar al opstelde. Toen legde arXiv al beperkingen op voor het gebruik van AI bij het schrijven van papers over computerwetenschap. Papers over dat onderwerp moeten eerst een peer-review hebben doorstaan, ofwel een externe controle door andere wetenschappers.

Nu verklaart arXiv dat het ook andere regels heeft rondom het gebruik van llm's en wat de sancties voor het overtreden daarvan zijn. Specifieker gezegd: als een paper 'onweerlegbaar bewijs' bevat dat het eindresultaat niet is gecontroleerd door de schrijvers, dan betekent dat volgens arXiv dat 'niets in dat paper vertrouwd kan worden'.

Bewijs kan bestaan uit teksten die letterlijk uit een llm-respons zijn gekomen, zoals 'hier is een samenvatting, zal ik nog aanpassingen doen?' of bijschriften bij tabellen die aangeven dat data illustratief is.

In zulke gevallen worden wetenschappers een jaar verbannen van het platform, zegt Dietterich. Ook na die ban zijn ze niet meteen welkom terug op het platform. In dat geval moet ieder paper dat ze schrijven hoe dan ook peer-reviewed worden, ongeacht het onderwerp.

ArXiv is een open publicatieplatform voor wetenschappelijke papers. Het platform staat er voornamelijk om bekend dat iedereen er iets kan uploaden, zonder dat dat vooraf getoetst hoeft te zijn of dat het door een redactie wordt gecontroleerd, zoals dat bij publicaties als Nature wel gebeurt. Maar die openheid heeft een keerzijde; het platform zegt dat het de afgelopen jaren overspoeld wordt met papers, omdat het door de opkomst van grote taalmodellen eenvoudiger wordt die te schrijven.

ArXiv Tweakers

Door Tijs Hofmans

Nieuwscoördinator

15-05-2026 • 14:05

18

Submitter: FragFrog

Reacties (18)

Sorteer op:

Weergave:

Zoals ook al opgemerkt in het vorige artikel accepteert Arxiv gewoon nog niet-gereviewde preprints van informatica-artikelen, zolang het maar geen surveys zijn (reviews en systematiseringen van ander werk).
‘Gewoon nog’?

Dat is het hele doel van deze site. Snel al pre-prints publiceren terwijl je paper nog de (soms erg trage) peer-review molen door moet. Als ze daarmee stoppen, waarom zou je dan nog ArXiv gebruiken?
Dat is toch prima? Zo maak je wetenschap laagdrempelig. De straf voor het vertrouwen beschamen moet dan zwaar zijn, zoals ik ook zie in het voorbeeld uit dit artikel.
Terecht. AI slop hoort er niet thuis. Kan de website een AI Agent gebruiken om papers met dit soort overduidelijke AI-prompts en -antwoorden te vlaggen?

Als wetenschapper schaadt het ook meteen je reputatie. Zo slordig zijn, daar wil je toch niet om bekend staan?
LLM in een paper gebruiken is gewoon schandalig, de wetenschappelijke gemeenschap zou moeten gaan om meer/betere kennis te vergaren in alle gebieden van wetenschap.

Begrijp me niet verkeerd ik ben niet tegen het gebruik van software tools die een vorm van ai/machine learning gebruiken om het een resultaat te boeken. Maar een LLM kan alleen werken op voorgaande werken etc dus niet echt nieuwe dingen genereren.

Een kennis van mij heeft een dergelijke tool ontwikkeld om vanuit DNA voorspellingen te kunnen doen op afwijkingen/ziektebeeld bij jonge kinderen. om de correlatie te maken vanuit de gigantische DNA datasets om te bepalen welke genen verantwoordelijk kunnen zijn bij een ziektebeeld is niet iets wat je met de hand gaat doen. Dus waar het toepasbaar is moet het ook gewoon gebruikt worden.
Je schrijft je in je bericht dat een LLM geen "echt" nieuwe dingen kan genereren.
Maar in de kolom daar onder geef je aan dat je kennis een "tool" heeft ontwikkeld
Waarin hij bestaande gegevens correleerd om te bepalen welke genen verantwoordlijk zijn.
Dit is dan geen nieuwe informatie ?
nee, alleen een verband dat niet eenduidig uit de data komt. Veel ziektes ontstaan niet door het ontbreken of fouten in b.v. gen D waar A B C D E en F nodig zijn voor het biologisch proces*, maar doordat b.v. gen A, C, D en F allemaal niet helemaal 100% werken. Afzonderlijk die genen bekijken geeft dan geen duidelijk beeld. AI, of beter ML, kan die correlaties wél duiden, iets dat voor de onderzoeker erg lastig kan zijn.

* zgn monogenic diseases zijn voor het grootse deel al wel bekend, maar zelfs daar is het allemaal nog niet zo zwart-wit door 'modifier' genes, waardoor b.v. een gen H de functie van D (gedeeltelijk) kan overnemen en het ziekte beeld b.v. milder wordt of zich pas later manifesteert
Ik denk dat als een mens dat lijstje verbanden opstelt dat dat wel zeker als 'nieuwe informatie' of 'ontdekking' neergezet zou worden.
Een LLM is niet een tool die specifiek getrainde is op DNA data.

Ik ben erg kritisch over/tegenstander van het gebruik van generatieve AI die gebaseerd zijn op enorme algemene databases. Als een AI getrainde is om een specifiek iets te doen is deze daar over het algemeen een stuk beter in.

Vraag een LLM over weersvoorspellingen en die zal niet zelf iets gaan voorspellen, maar tegelijkertijd is het KNMI wel bezig met een AI model voor weersvoorspellingen die puur en alleen op historische gegevens over het weer is getrained. Dit model maakt dus wel een voorspelling die nieuw is.
Maar waarom wil je een LLM gebruiken om nieuwe dingen te genereren? Ik gebruik het best veel, juist omdat het goed is in standaard zaken (spelling, grammatica, consistente schrijfstijl, etc., zaken waar je absoluut niet wilt dat de llm dingen verzint). Het scheelt mij werken met een editor en maakt alles veel sneller.
Je benoemt 1 use case (geen nieuwe dingen genereren) om LLM-gebruik binnen papers af te keuren, terwijl er zoveel meer mee te doen is.

Overigens slaat je vergelijking tussen LLM’s in papers en AI-gebruik binnen de medische (aanname) wereld ook nergens op. Twee compleet andere innovaties.
Ik ben wetenschapper (asc. prof bij een Nederlandse universiteit). Editors van wetenschappelijke journals verwachten tegenwoordig dat wij onze papers eerst even door Chat/Claude/whatever halen. Enerzijds om de tekst en structuur te verbeteren, maar ook in de inhoud. LLM's als sparringpartner, voor de literatuur. En ja, dan is een zinnetje als "do you want me..." makkelijk over het hoofd gezien.

Dus LLM's hebben zeker een plek in de wetenschappelijke literatuur.
Je hebt het over twee compleet verschillende zaken? Kennis vergaren en vervolgens die kennis delen.

In mijn ogen is een wetenschapper/onderzoeker niet per definitie ook een goede schrijver, misschien zelfs wel juist niet? Dat je voor het schrijven een tool als een LLM gebruikt is daar an sich helemaal niets mis mee, zolang je ervoor zorgt dat je controleert dat de data correct is en jij degene bent die er de conclusies uit trekt.
Waarom zou je AI gebruiken wat met een simpele regex ook te doen is?
Helemaal terecht. Ik ben een groot fan van de website, heb er zelf ook werk gepublished, maar dit is toch een groot nadeel.

Goed dat ze hier wat proberen tegen te doen, vooral die Chinesen zijn hier vol opgesprongen. Maar het zal steeds moeilijker worden om te detecteren en dit zal de waarde van hun website uit eindelijk toch om laag halen, ten opzichte van peer reviewed journal bijv.
Nou dat lijkt mij duidelijk uit het screenshot. Dus mocht je ooit bij Eva Jinek zitten @TijsZonderH , de "lower third" overlay op het beeld kan alvast gemaakt worden. Tijs Hofmans Paradigmatisch voorbeeld van maatschappelijke meerwaarde.
AuteurTijsZonderH Nieuwscoördinator @Zwaai Haai15 mei 2026 14:47
Ik ben ooit op tv geweest met het onderschrift 'Feestdagenexpert', twijfel nog of ik deze beter vind. Voor m'n visitekaartje denk ik wel een goeie!
Ik mag Tijs. Echt, die maakt m'n vrijdag echt goed.
En dat gebeurd vaker in de afgelopen maanden

Om te kunnen reageren moet je ingelogd zijn