ArXiv schorst wetenschappers als die llm-hallucinaties in papers laten staan

ArXiv gaat wetenschappers die AI-hallucinaties uploaden straffen met een ban van een jaar. De open database, waarin jaarlijks duizenden wetenschappelijke papers worden geüpload, legde vorig jaar al beperkingen op aan het gebruik van llm's, maar geeft nu voor het eerst ook de duidelijke sancties weer. Wetenschappers mogen ook na die ban niet meer zomaar uploaden.

Dat verklaart arXiv-moderator Thomas Dietterich. Hij verheldert de eisen die het platform vorig jaar al opstelde. Toen voerde arXiv al extra eisen in voor position papers en survey articles over computerwetenschap door het overmatige gebruik van AI. Papers over computerwetenschap moeten eerst een peer-review hebben doorstaan, ofwel een externe controle door andere wetenschappers.

Nu verklaart arXiv dat het ook andere regels heeft rondom het gebruik van llm's en wat de sancties voor het overtreden daarvan zijn. Specifieker gezegd: als een paper 'onweerlegbaar bewijs' bevat dat het eindresultaat niet is gecontroleerd door de schrijvers, dan betekent dat volgens arXiv dat 'niets in dat paper vertrouwd kan worden'.

Bewijs kan bestaan uit teksten die letterlijk uit een llm-respons zijn gekomen, zoals 'hier is een samenvatting, zal ik nog aanpassingen doen?' of bijschriften bij tabellen die aangeven dat data illustratief is.

In zulke gevallen worden wetenschappers een jaar verbannen van het platform, zegt Dietterich. Ook na die ban zijn ze niet meteen welkom terug op het platform. In dat geval moet ieder paper dat ze schrijven hoe dan ook peer-reviewed worden, ongeacht het onderwerp.

ArXiv is een open publicatieplatform voor wetenschappelijke papers. Het platform staat er voornamelijk om bekend dat iedereen er iets kan uploaden, zonder dat dat vooraf getoetst hoeft te zijn of dat het door een redactie wordt gecontroleerd, zoals dat bij publicaties als Nature wel gebeurt. Maar die openheid heeft een keerzijde; het platform zegt dat het de afgelopen jaren overspoeld wordt met papers, omdat het door de opkomst van grote taalmodellen eenvoudiger wordt die te schrijven.

Update, 22.10 uur – Verduidelijkt dat de maatregelen van vorig jaar niet alle papers troffen, maar alleen position papers en survey articles.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Tijs Hofmans

Nieuwscoördinator

Feedback • 15-05-2026 14:05
40 • submitter: FragFrog

15-05-2026 • 14:05

Submitter: FragFrog

Lees meer

Wetenschapsplatform ArXiv eist peerreview ict-papers na 'overspoeling' door AI Nieuws van 4 november 2025

Wetenschap

IT-banen

Meer vacatures

Reacties (40)

-Moderatie-faq

Wijzig sortering

theguyofdoom 15 mei 2026 14:24

Zoals ook al opgemerkt in het vorige artikel accepteert Arxiv gewoon nog niet-gereviewde preprints van informatica-artikelen, zolang het maar geen surveys zijn (reviews en systematiseringen van ander werk).

EDIT: Het artikel is bewerkt. Er stond eerst dat ze geen preprints meer accepteerden.

[Reactie gewijzigd door theguyofdoom op 16 mei 2026 08:29]

tweakuwe @theguyofdoom • 15 mei 2026 15:10

‘Gewoon nog’?

Dat is het hele doel van deze site. Snel al pre-prints publiceren terwijl je paper nog de (soms erg trage) peer-review molen door moet. Als ze daarmee stoppen, waarom zou je dan nog ArXiv gebruiken?

theguyofdoom @tweakuwe • 16 mei 2026 08:29

Het artikel is bewerkt. Er stond eerst dat ze geen preprints meer accepteerden.

ro4sho @theguyofdoom • 15 mei 2026 18:20

Dat is toch prima? Zo maak je wetenschap laagdrempelig. De straf voor het vertrouwen beschamen moet dan zwaar zijn, zoals ik ook zie in het voorbeeld uit dit artikel.

theguyofdoom @ro4sho • 16 mei 2026 08:30

Het artikel is bewerkt. Er stond eerst dat ze geen preprints meer accepteerden.

MaartenS11 @theguyofdoom • 15 mei 2026 19:58

Niet helemaal 'gewoon nog', tegenwoordig moet je eerst een endorsement krijgen van een zogenaamde 'endorser' op het platform. Een 'endorser' is een persoon die recentelijk 3 artikels op arxiv geplaatst heeft. Op deze manier proberen ze te voorkomen dat eender wie een paper op arxiv kan plaatsen.

theguyofdoom @MaartenS11 • 16 mei 2026 08:29

Die endorsements zijn al jaren zo. Het artikel is bewerkt. Er stond eerst dat ze geen preprints meer accepteerden.

[Reactie gewijzigd door theguyofdoom op 16 mei 2026 08:29]

MaartenS11 @theguyofdoom • 16 mei 2026 09:23

De endorsement policy was vroeger veel eenvoudiger. Ze hebben deze dit jaar strenger gemaakt: https://blog.arxiv.org/2026/01/21/attention-authors-updated-endorsement-policy/

Dekar 15 mei 2026 14:13

Terecht. AI slop hoort er niet thuis. Kan de website een AI Agent gebruiken om papers met dit soort overduidelijke AI-prompts en -antwoorden te vlaggen?

Als wetenschapper schaadt het ook meteen je reputatie. Zo slordig zijn, daar wil je toch niet om bekend staan?

bergsegek @Dekar • 15 mei 2026 14:20

LLM in een paper gebruiken is gewoon schandalig, de wetenschappelijke gemeenschap zou moeten gaan om meer/betere kennis te vergaren in alle gebieden van wetenschap.

Begrijp me niet verkeerd ik ben niet tegen het gebruik van software tools die een vorm van ai/machine learning gebruiken om het een resultaat te boeken. Maar een LLM kan alleen werken op voorgaande werken etc dus niet echt nieuwe dingen genereren.

Een kennis van mij heeft een dergelijke tool ontwikkeld om vanuit DNA voorspellingen te kunnen doen op afwijkingen/ziektebeeld bij jonge kinderen. om de correlatie te maken vanuit de gigantische DNA datasets om te bepalen welke genen verantwoordelijk kunnen zijn bij een ziektebeeld is niet iets wat je met de hand gaat doen. Dus waar het toepasbaar is moet het ook gewoon gebruikt worden.

Firestormer @bergsegek • 15 mei 2026 15:02

Je schrijft je in je bericht dat een LLM geen "echt" nieuwe dingen kan genereren.
Maar in de kolom daar onder geef je aan dat je kennis een "tool" heeft ontwikkeld
Waarin hij bestaande gegevens correleerd om te bepalen welke genen verantwoordlijk zijn.
Dit is dan geen nieuwe informatie ?

divvid @Firestormer • 15 mei 2026 15:20

nee, alleen een verband dat niet eenduidig uit de data komt. Veel ziektes ontstaan niet door het ontbreken of fouten in b.v. gen D waar A B C D E en F nodig zijn voor het biologisch proces*, maar doordat b.v. gen A, C, D en F allemaal niet helemaal 100% werken. Afzonderlijk die genen bekijken geeft dan geen duidelijk beeld. AI, of beter ML, kan die correlaties wél duiden, iets dat voor de onderzoeker erg lastig kan zijn.

* zgn monogenic diseases zijn voor het grootse deel al wel bekend, maar zelfs daar is het allemaal nog niet zo zwart-wit door 'modifier' genes, waardoor b.v. een gen H de functie van D (gedeeltelijk) kan overnemen en het ziekte beeld b.v. milder wordt of zich pas later manifesteert

YGDRASSIL

@divvid • 15 mei 2026 16:22

Ik denk dat als een mens dat lijstje verbanden opstelt dat dat wel zeker als 'nieuwe informatie' of 'ontdekking' neergezet zou worden.

divvid @YGDRASSIL • 16 mei 2026 14:22

dat ligt er een beetje aan. Als je 'met de hand' een verband legt dan is dat net zo nieuw als dat je er een AI tool voor gebruikt. Ik had het ge-interpreteerd als dat de tool waar @bergsegek het over heeft nieuw info toevoegt. Dat doet het niet (kan ook niet), maar het genereert slechts een nieuw inzicht waar de wetenschapper iets uit kan concluderen.

Overigens is er ook nog wel wat te zeggen over

LLM in een paper gebruiken is gewoon schandalig, de wetenschappelijke gemeenschap zou moeten gaan om meer/betere kennis te vergaren in alle gebieden van wetenschap.

Iedereen die de afgelopen 50 jaar een wetenschappelijk paper heeft geschreven worstelt me dezelfde vraag: hoe leg ik het probleem uit zonder de zinnen van anderen te kopiëren, zeker in een inleiding, heeft niets met LMMs of AI te maken, maar je kunt soms bepaalde dingen maar op één manier zeggen.

Persoonlijk zal het mijn een worst wezen als iemand een LMM gebruikt voor een inleiding, materiaal en methoden en discussie, als dat het onderliggende onderzoek helderder maakt. De valkuil is natuurlijk als conclusies getrokken worden die niet uit de data te herleiden zijn. Dat laatste is waar ArXiv en ook BioArXiv en de rest van de gemeenschap kampt.

Firestormer @divvid • 15 mei 2026 20:15

De nieuwheid van informatie hang niet af van hoe dat verband geproduceerd is maar of die correlatie al eerder gelegd is..

Ook een verband dat wel eenduidig uit de data komt kan nog steeds nieuwe informatie zijn.

CoMaestro @divvid • 18 mei 2026 10:59

Maar AI/ML kan dan natuurlijk niet een wetenschappelijk onderbouwd argument geven of dit daadwerkelijk een logische correlatie heeft. Daarvoor ga je zowel andere data nodig hebben als een inhoudelijk argument maken over het functioneren van je variabelen (in jouw geval dus wat de gebrekkige genen voor invloed zouden hebben).

Want alleen een verband brengen kan problemen geven, zoals een van mijn favoriete websites goed aantoont: Spurious Correlations

divvid @CoMaestro • 18 mei 2026 15:07

precies, daarom ben ik ook niet zo bang voor AGI. Soms is het ook allemaal niet zo zwart/wit en laten dat nu net de lastige situaties zijn. (maar vaak wel biologisch relevant)

Leuke site trouwens

StefanJanssen @Firestormer • 15 mei 2026 18:06

Een LLM is niet een tool die specifiek getrainde is op DNA data.

Ik ben erg kritisch over/tegenstander van het gebruik van generatieve AI die gebaseerd zijn op enorme algemene databases. Als een AI getrainde is om een specifiek iets te doen is deze daar over het algemeen een stuk beter in.

Vraag een LLM over weersvoorspellingen en die zal niet zelf iets gaan voorspellen, maar tegelijkertijd is het KNMI wel bezig met een AI model voor weersvoorspellingen die puur en alleen op historische gegevens over het weer is getrained. Dit model maakt dus wel een voorspelling die nieuw is.

Firestormer @StefanJanssen • 15 mei 2026 19:51

Een llm is weegmodel welke specifiek getraind is op data. welke data dan ook.
Als ik een llm vraag om het weer te voorspellen dan zal hij dat gewoon doen.

In welke mate deze voorspelling klopt is dan weer een ander verhaal.
Maar dat zelfde vraagteken kun je ook zetten bij de modellen van het KNMI.

Beide modellen produceren correlaties die wij als informatie zien.
Beide kunnen nieuwe informatie produceren.

bergsegek @Firestormer • 18 mei 2026 12:48

Je verwart een LLM met machine learning wat mijn kennis heeft toegepast.

Een LLM traint zichzelf op een bestaande set data en probeert een juiste voorspelling te doen op wat een normaal lijkende zin is. en is alleen op taal gefocust.

Machine learning kun je wel gebruiken om nieuwe informatie te onttrekken uit in dit geval DNA data sets.en door middel van algoritmes etc (ik ben geen programmeur) heeft hij de relatie kunnen leggen tussen bepaalde sets genen en de ziekte die in het onderzoek naar onderzocht werd.

Door dit kunstje nu 1x te doen kan dit ook op andere ziektebeelden worden toegepast.

Dus in het kort, ja er wordt met machine learning zoals hij het heeft toegepast nieuwe informatie gegenereerd.

[Reactie gewijzigd door bergsegek op 18 mei 2026 12:49]

wardr @bergsegek • 15 mei 2026 15:50

Ik ben wetenschapper (asc. prof bij een Nederlandse universiteit). Editors van wetenschappelijke journals verwachten tegenwoordig dat wij onze papers eerst even door Chat/Claude/whatever halen. Enerzijds om de tekst en structuur te verbeteren, maar ook in de inhoud. LLM's als sparringpartner, voor de literatuur. En ja, dan is een zinnetje als "do you want me..." makkelijk over het hoofd gezien.

Dus LLM's hebben zeker een plek in de wetenschappelijke literatuur.

VOODOO_WILLIE @wardr • 15 mei 2026 21:24

Editors van wetenschappelijke journals verwachten tegenwoordig dat wij onze papers eerst even door Chat/Claude/whatever halen.

Misschien tijd om die hersenloze editors dan de laan uit te schoppen voordat het helemaal uit de hand loopt.

Enerzijds om de tekst en structuur te verbeteren, maar ook in de inhoud. En ja, dan is een zinnetje als "do you want me..." makkelijk over het hoofd gezien.

En dan daarna wieberen met de "wetenschappers" die zo lui, dom en onzorgvuldig zijn om op LLM's te vertrouwen en dat soort zinnetjes er ook nog eens in te laten staan.

Als je bij ons op de middelbare school een opstel/werkstuk inleverde met overduidelijk "copy/paste"-werk of duidelijke signalen dat je het niet zelf had geschreven (met het ouderwetse pennetje overigens nog) dan kreeg je gewoon een 1 of op z'n minst een vette onvoldoende.

Van een serieuze wetenschapper, de zogenaamde "expert" waar de maatschappij dan op zou moeten kunnen vertrouwen en die met z'n bevindingen zelfs beleid stuurt, mag je toch nog wel wat meer verwachten dan slechts middelbareschoolstandaarden.

Indien je als wetenschapper niet in staat bent om structuur aan te brengen en om de inhoud van je eigen bevindingen netjes op te schrijven dan snap je er blijkbaar geen zak van en ben je ook niet serieus te nemen. Het getuigt er nogal van dat je het hele principe van "wetenschap", om te beginnen al, niet begrijpt.

Ik snap overigens best wel dat wetenschappers niet kant en klaar uit blik komen, altijd moeten en blijven leren en verbeteren, en gereedschappen gebruiken maar dat soort lakse pipo's mag van mij echt genadeloos opdonderen.

dvdgrs @VOODOO_WILLIE • 16 mei 2026 09:30

Jeetje, wat een sterke mening en onnodig krachtige woorden, maar ik denk dat je LLMs toch echt iets tekort doet als je denkt dat wetenschappers "lui, dom en onzorgvuldig" zijn als ze er gebruik van maken, of het equivalent stelt aan "middelbareschoolstandaarden", gelijk aan copy/paste, of dat je door gebruik te maken van LLMs niet in staat bent structuur aan te brengen of inhoud netjes op te schrijven.

Zoals @wardr ook noemt, zijn we in de wetenschap al iets verder met acceptatie van LLMs als legitiem onderdeel van het onderzoeksproces, en begrip dat ze gebruikt zullen worden. Zo vragen journals/proceedings nu om vooral transparant te zijn over het gebruik.

Het is ook een equalizer in een veld waar de voertaal nog altijd Engels is, maar de innovaties en het experimentele werk veelal taal-agnostisch is. En LLMs zijn vooral nuttig zolang je zelf expert bent op de inhoud. Je kunt er echt veel meer mee dan simpelweg tekst voor je genereren.

Verantwoord/bewust gebruik en transparantie is nu het uitgangspunt, dat spijt me voor alle haters ;-).

(was getekend, een tevreden LLM-gebruikende AI wetenschapper 🙋🏻‍♂️)

VOODOO_WILLIE @dvdgrs • 18 mei 2026 10:47

Jeetje, wat een sterke mening en onnodig krachtige woorden,

Er is een chronisch tekort aan "sterke meningen en krachtige woorden", als je het mij vraagt.

Het is een hele discussie op zich. Dat we niet wijzer worden van ordinaire ongegronde scheldpartijen lijkt me duidelijk maar we zijn inmiddels, in het algemeen, flink in de buurt van het andere (extreme) uiterste beland. Iets met "kloof" waar men tegenwoordig zo verbaasd over lijkt te zijn.

maar ik denk dat je LLMs toch echt iets tekort doet als je denkt dat wetenschappers "lui, dom en onzorgvuldig" zijn als ze er gebruik van maken, of het equivalent stelt aan "middelbareschoolstandaarden", gelijk aan copy/paste, of dat je door gebruik te maken van LLMs niet in staat bent structuur aan te brengen of inhoud netjes op te schrijven.

Ik kan je niet dwingen om te lezen wat ik -exact- schrijf. De context doet er nogal toe. Je draait wat ik schrijf gewoon vrijwel letterlijk 180° om.

En niet om onvriendelijk of lullig te doen: dit soort misverstanden krijg je dus in belangrijke (en toenemende) mate omdat lees- en schrijfvaardigheid al generaties lang in toenemende mate uit handen wordt gegeven aan (digitale) hulpmiddelen. En door de toenemende (vrijwel obsessieve) "tolerantie" op dat soort vlakken.

Het is niet leuk om te horen (en ook zeker niet om te constateren) maar hier wordt door heel veel mensen (en niet in de laatste plaats leerkrachten en wetenschappers) al heel lang voor gewaarschuwd. Maarja, dan komen we o.a. terug bij dat vicieuze (dit keer -intolerante-) cirkeltje omtrend "krachtige woorden" waar we in beland zijn.

keroner @VOODOO_WILLIE • 16 mei 2026 09:01

Doet mij een beetje denken aan het dokters handschrift. Die moesten op de basisschool toch ook gewoon een voldoende halen voor hun ABCtjes en nu zijn ze te lui om een fatsoenlijk leesbare zin op te schrijven 🤣

VOODOO_WILLIE @keroner • 18 mei 2026 01:34

Ik heb dat onleesbare gekrabbel sowieso nooit begrepen. Je zou bijna het idee krijgen dat het opzettelijk aangeleerd wordt als mysterieuze geheimtaal om iets te vehullen ofzo ... Ik zou namelijk niet weten waarom je anders zo'n enorm risico op communicatiefouten zou willen nemen.

Znorkus @wardr • 15 mei 2026 19:31

Als je dat al over het hoofd ziet, maak ik me ernstig zorgen om wat er op het gebied van methodologische strengheid en validiteit allemaal niet over het hoofd gezien wordt. Je papers bevatten de sublimatie van maanden zo niet jarenlang vorsen, een uitkristallisering van hard werken. "wil je ook dat ik..?" over het hoofd zien vind ik een blamage voor het vak.

divvid @Znorkus • 16 mei 2026 14:27

vandaag nog in een Nature paper een dubbele zin zien staan. Zo makkelijk lees jij, de editor, de proofreader en dan nog een keer jezelf er overheen. Als je een vrijwel identieke tekst 50x bekijkt, gebeurt dat vanzelf.

Enigmus @wardr • 15 mei 2026 23:26

Ik begrijp de (betaalde) meerwaarde van gemini, chat en claude. Voor mijn werk maak ik er ook gebruik van om o.a syntaxis te verbeteren. Echter betrap ik de AI modellen op foutieve aannames ondanks de verbeterde redeneerstappen (chain of thought).

Zoals Marshall McLuhan ooit zei "All invention is but an extension of the body of man. Our tools are just an upgrade of our own (physical) capabilities." Het blijft zaak om AI's capaciteit om kritisch te denken te blijven toetsen, vooral wanneer het gaat om context.

bergsegek @wardr • 18 mei 2026 12:54

Die snap ik helemaal om de taal technische fouten eruit te halen, een LLM is hier beter in dan de spell checker op welke tekst verwerker dan ook. Maar dit was ook niet mijn punt natuurlijk.

Als een tool de output kan verbeteren prima maar de inhoud moet niet zo veranderen dat het niet meer klopt met de bevindingen etc.

Orangelights23 @bergsegek • 15 mei 2026 15:26

Je benoemt 1 use case (geen nieuwe dingen genereren) om LLM-gebruik binnen papers af te keuren, terwijl er zoveel meer mee te doen is.

Overigens slaat je vergelijking tussen LLM’s in papers en AI-gebruik binnen de medische (aanname) wereld ook nergens op. Twee compleet andere innovaties.

tweakuwe @bergsegek • 15 mei 2026 15:08

Maar waarom wil je een LLM gebruiken om nieuwe dingen te genereren? Ik gebruik het best veel, juist omdat het goed is in standaard zaken (spelling, grammatica, consistente schrijfstijl, etc., zaken waar je absoluut niet wilt dat de llm dingen verzint). Het scheelt mij werken met een editor en maakt alles veel sneller.

Alxndr @bergsegek • 15 mei 2026 16:57

Je hebt het over twee compleet verschillende zaken? Kennis vergaren en vervolgens die kennis delen.

In mijn ogen is een wetenschapper/onderzoeker niet per definitie ook een goede schrijver, misschien zelfs wel juist niet? Dat je voor het schrijven een tool als een LLM gebruikt is daar an sich helemaal niets mis mee, zolang je ervoor zorgt dat je controleert dat de data correct is en jij degene bent die er de conclusies uit trekt.

elmuerte @Dekar • 15 mei 2026 14:16

Waarom zou je AI gebruiken wat met een simpele regex ook te doen is?

Mathijs Kok @Dekar • 15 mei 2026 20:44

https://www.theverge.com/ai-artificial-intelligence/930522/ai-research-papers-slop-peer-review-problem

geoffreyvd 15 mei 2026 14:19

Helemaal terecht. Ik ben een groot fan van de website, heb er zelf ook werk gepublished, maar dit is toch een groot nadeel.

Goed dat ze hier wat proberen tegen te doen, vooral die Chinesen zijn hier vol opgesprongen. Maar het zal steeds moeilijker worden om te detecteren en dit zal de waarde van hun website uit eindelijk toch om laag halen, ten opzichte van peer reviewed journal bijv.

Zwaai Haai 15 mei 2026 14:46

Nou dat lijkt mij duidelijk uit het screenshot. Dus mocht je ooit bij Eva Jinek zitten @TijsZonderH , de "lower third" overlay op het beeld kan alvast gemaakt worden. Tijs Hofmans Paradigmatisch voorbeeld van maatschappelijke meerwaarde.

Auteur

TijsZonderH Nieuwscoördinator @Zwaai Haai • 15 mei 2026 14:47

Ik ben ooit op tv geweest met het onderschrift 'Feestdagenexpert', twijfel nog of ik deze beter vind. Voor m'n visitekaartje denk ik wel een goeie!

rickdtop 15 mei 2026 15:17

Ik mag Tijs. Echt, die maakt m'n vrijdag echt goed.
En dat gebeurd vaker in de afgelopen maanden

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (40)

Sorteer op:

Weergave: