TNO traint Nederlands GPT-NL met nieuwsartikelen van De Telegraaf en NU.nl

TNO gaat het Nederlandse AI-model GPT-NL trainen op nieuwsartikelen van NDP Nieuwsmedia. De organisaties sluiten een samenwerking waarbij NDP een deel van zijn archief beschikbaar stelt aan het Nederlandse onderzoeksinstituut. Ook persbureau ANP sluit zich aan bij het collectief.

In een persbericht schrijft TNO dat NDP Nieuwsmedia een 'omvangrijk deel' van zijn archief van meer dan dertig landelijke en regionale nieuwstitels beschikbaar stelt om het model te trainen. In totaal gaat het om 20 miljard tokens. Daardoor verdubbelt de hoeveelheid hoogwaardige Nederlandse data waarop het model wordt getraind, verwacht TNO. Onder meer De Telegraaf, NRC Handelsblad, het Algemeen Dagblad, Het Parool, Trouw, de Volkskrant, NU.nl, RTL Nieuws en De Groene Amsterdammer zijn lid van de brancheorganisatie.

TNO claimt dat het de eerste keer is dat nieuwsuitgevers op deze manier samenwerken met een organisatie om een AI-model te ontwikkelen. De onderzoeksorganisatie belooft dat gebruikers artikelen niet zomaar 'via een technische weg' uit het model kunnen halen. Zodra het model op de markt komt, ontvangen de uitgevers 'een passende vergoeding'. Hoeveel dat precies is, is niet bekend.

GPT-NL is een initiatief van de non-profitorganisaties TNO, het Nederlands Forensisch Instituut en SURF. De organisaties ontwikkelen het model met subsidie van de Nederlandse overheid en zijn in juni begonnen met de training van GPT-NL met de Nederlandse supercomputer Snellius. Het taalmodel wordt specifiek ontwikkeld om teksten te kunnen samenvatten, versimpelen en er informatie uit te halen.

Door Imre Himmelbauer

Redacteur

17-07-2025 • 13:58

104

Reacties (104)

Sorteer op:

Weergave:

Ik ben benieuwd wélke artikelen dit allemaal zijn. Eerder heb ik dit de organisatie eens gevraagd op LinkedIn, omdat de premisse is dat dit allemaal materiaal is waarvoor toestemming is, en waar voor betaald wordt. Maar: in het geval van wederverkoop via Blendle waren veel (freelance) auteurs ook niet zo happig op een model waarbij de uitgever de artikelen ergens anders aanbood zonder hun toestemming en zonder dat zij daar extra geld voor kregen. Het risico bestaat dat dit zich hier ook weer voordoet.
TijsZonderH Nieuwscoördinator @ThE_ED18 juli 2025 09:35
Dat vraag ik me ook af. Maar, als freelancer voor de meeste van die titels geef je doorgaans ook je auteursrecht af toch? Niet dat dat overigens goed is hoor maar ik weet niet hoe dat juridisch zit.
Ligt een beetje aan welke afspraken er gelden. (En ik ken de afspraken van de laatste jaren niet zo goed.) Maar in het algemeen was mijn 'bezwaar' hier: er wordt nu gedaan alsof dit een manier is waar de auteurs ook achter kunnen staan, waarbij zij ook compensatie krijgen, maar dat is niet per se zo.

Allicht formeel wel, maar je zult dus diezelfde onvrede kunnen zien, uiteindelijk.
Beetje misleidende titel dan, bij 'De Telegraaf' gingen mijn nekharen al overeind staan, maar het blijkt iets genuanceerder te liggen met wel 9 bronnen.
34 bronnen zelfs om exact te zijn, al zijn een hoop van de zelfde uitgevers maar alsnog.
Daar boven op ook nog eens het ANP.
De leden van NDP Nieuwsmedia stellen een omvangrijk deel van het archief van nieuwsartikelen van meer dan 30 landelijke en regionale nieuwstitels beschikbaar om het taalmodel verder te trainen.
Titel had in dat opzich wel minder specifiek mogen zijn..
Iets van: "TNO traint GPT-NL met nieuwsartikelen van Nederlandse nieuwsbedrijven" zou duidelijker zijn

[Reactie gewijzigd door Christoxz op 17 juli 2025 14:29]

Wat je ook van kranten als de Telegraaf kunt vinden, het Nederlands is veelal kwalitatief goed en op hoog niveau. Ook heeft het een grote woordenschat. En dáár wordt dit model op getraind: op het gebruik van de Nederlandse taal. En niet op de inhoud van de artikelen.
Er wordt, impliciet, wel degelijk op inhoud getraind.
De kans dat woorden in een zin in een rechtse krant veel vaker dezelfde volgorde hebben, en dus een hogere score in A.I. is best wel wat groter dan een zin over hetzelfde onderwerp in een linkse krant.
Dus als een rechtse, dan wel een linkse nieuwsbron onevenredig vaal tekst aan levert, dan zal ook de A.I. een rechtse, dan wel een linkse mening verkondigen.
En met de genoemde bronnen heb je dus een doorsnede van nieuwsbronnen die alles omvat van links tot rechts en van (semi)intelectueel tot volks.
De onderliggende vraag is: wil je dat wel in een computermodel? Een persoon kan nog morele beslissingen maken, maar een model heeft alleen data.

Het doet me denken aan een grap over centristen. Links zegt "genocide is verkeerd!", rechts zegt "genocide moet om onze kinderen te beschermen!", centristen zeggen "nouja, beide kanten hebben wel een punt, misschien een beetje genocide als compromis?" Dwz, als je beide "kanten" van een debat over bijvoorbeeld mensenrechten als evenredig beschouwd, krijg je een tussenliggend standpunt dat nog steeds mensenrechten schendt.
Zolang geen van beide kanten op alle punten de absolute waarheid hebben zal je toch een mengeling van bronnen moeten gebruiken om een AI op te trainen. Je geeft wel aan waarom het geen goed idee is om het dan ook maar meteen beslissingen te laten nemen (en waarom je dus zelf dieper de materie in moet gaan wanneer je zelf een beslissing moet nemen).

Jouw voorbeeld klopt niet helemaal. Rechts zal niet zeggen dat genocide moet. Ze zullen zeggen dat genocide fout is, maar... Waarbij op de puntjes een uitzondering komt waarin een bepaalde noodzakelijk geachte handelswijze als neveneffect genocide zou kunnen hebben. (Waarmee uiteraard wel bedoeld wordt dat genocide geen probleem is wanneer daarmee uitschot uitgeroeid wordt.)
Het tussenliggende standpunt blijft dan nog steeds dat genocide fout is, maar dat sommige gevallen wat genuanceerder liggen dan een zwart/ wit standpunt.
(Ik weet trouwens niet of je er wat mee op schiet.)
Natuurlijk wordt er op inhoudt getraind. Een LLM legt verbanden tussen woorden. Met columns van figuren als Weird Duk wordt het woord “Timmermans” of “ Baudet” totaal anders geassocieerd met andere woorden dan wanneer je columns uit RTL of Volkskrant pakt.
Het is misschien wel correct. Maar de Tone of Voice bij De Telegraaf is echt wel heel anders dan die bij bijvoorbeeld De Volkskrant. En dat is nu juist wel belangrijk als je een LLM traint…

Maar gelukkig wordt er dus wel degelijk op een brede selectie van nieuwsmedia getraind. Misleidende kop wel. Ik zou er van maken “…met artikelen van o.a. De Telegraaf en NRC” of zoiets. Dus “o.a.” toevoegen én twee voorbeelden kiezen die verder van elkaar liggen op het politieke spectrum.
Ik had precies datzelfde gevoel met "Nu.nl".
Ik heb niet met alles van de De Telegraaf iets, maar ik denk dat het weleens een tijd wordt voor andere geluiden. En ik denk dat veel mensen ook bij sommige onderwerpen, echt een andere mening hebben (asielbeleid, oorlogen, criminaliteit, etc.).
We hebben eens mediatraining gehad van een journalist en hoofdredacteur van o.a. de Volkskrant. Die vertelde dat de artikelen van de Telegraaf inhoudelijk vaak van hoog niveau waren. Maar goed, ze hebben hun naam tegen. En, al heel lang lees ik geen kranten meer.
Van Nu.nl wordt ik wel eens moe van hun linkse moderatie en selectiviteit. Je moet tegenwoordig verschillende bronnen combineren om een volledig beeld te krijgen, een dat is jammer.
Hoe bedoel je? De "andere geluiden" zijn er gewoon, kun je o.a. in de krant lezen die dankzij artikel 1 niet verboden zijn. Net als de "niet-andere geluiden", welke je maar bedoelt.

Mensen hebben ook bij "sommige onderwerpen" "echt" een andere mening, ik begrijp niet helemaal waarom je dat hypothetisch stelt. Zoals iemand anders al aangeeft, de Telegraaf is de grootste krant van nederland, dus Telegraaf-lezers kunnen echt niet een Calimero slachtofferrol claimen.
Er is veel sensatie bij de Telegraaf, denk ook dat hun eigen lezers dat niet perse ontkent. Valentijn Driessen zit er bijvoorbeeld ook bij.

Desondanks is het wel een ander geluid, zeker als je het vergelijkt met BNR/NOS/DPG/.. ze hebben niet altijd gelijk of hebben het ook mis, maar dat hebben de andere ook.
andere geluiden
Dat impliceert dat de Telegraaf een 'ander geluid' is, maar het is gewoon de grootste krant van Nederland dus if anything zijn alle andere kranten het 'andere geluid'.
Beetje? Ze noemen er 2, terwijl er veel meer zijn.
Dat mag inderdaad wel even worden aangepast, @Imre Himmelbauer, want nu is het een clickbaittitel. Dat is natuurlijk wel-of-niet de bedoeling, maar 'artikelen van Nederlandse kranten en nieuwssites' doet meer recht aan de inhoud van het artikel.

Admin-edit:Bedankt voor je feedback. Commentaar voor de redactie hoort echter thuis in Geachte Redactie. Hier staat het de inhoudelijke discussie niet in de weg en kan de redactie het eenvoudig terugvinden.

[Reactie gewijzigd door Bor op 17 juli 2025 15:51]

Dat had ik bij "NU" :9~
Het verbaast me dat GPT blijkbaar geen handelsmerk is van OpenAI. En zoniet dat de anderen (buiten TNO) die term niet gebruiken.

[Reactie gewijzigd door Llopigat op 17 juli 2025 15:56]

Dat heeft OpenAI wel geprobeerd. De U.S. Patent and Trademark Office (USPTO) heeft de aanvraag afgewezen, omdat "het enkel een beschrijving is van de goederen en diensten die OpenAI aanbiedt, zoals AI-modellen en softwarediensten."
En dpg doet niet mee?

Is daar een reden voor bekend?
En dpg doet niet mee?
Jawel, zie het artikel:
Onder meer De Telegraaf, NRC Handelsblad, het Algemeen Dagblad, Het Parool, Trouw, de Volkskrant, NU.nl, RTL Nieuws en De Groene Amsterdamme zijn lid van de brancheorganisatie.
Die doen dus mee. AD, Trouw, Het Parool, en de Volkkrant zijn allemaal onderdeel van DPG Media, RTL Nieuws binnenkort ook als de overname doorgaat (zie DPG mag RTL overnemen, online nieuws moet wel gratis blijven - IT Pro - Nieuws - Tweakers)
Die overname wist ik dan wel, de rest zat ik ff te slapen :)
1 eigenaar is 1 mening, is wel zo prettig op deze manier.
nrc en De Telegraaf zijn niet van dpg maar van een andere belg, de groene Amsterdammer ook niet maar van een stichting.

[Reactie gewijzigd door moimeme op 17 juli 2025 18:51]

“Algemeen Dagblad, Het Parool”
Interessant dat dit nu echt van de grond komt, maar ik vraag me af of de kwaliteit echt zo goed gaat worden. Nieuwsartikelen zijn vaak feitelijk en netjes geschreven, maar ze dekken maar een beperkt deel van het taalgebruik in Nederland. Je mist daarmee juist de diversiteit aan toon, stijl en alledaagse taal. Als GPT-NL alleen getraind wordt op dat soort bronnen, vraag ik me af hoe bruikbaar het model wordt in bredere context. Het klinkt mooi, maar of het in de praktijk echt goed presteert, moet nog maar blijken.
Je mist daarmee juist de diversiteit aan toon, stijl en alledaagse taal
Misschien kunnen ze NUjij als bron toevoegen?
Ik vinnd het egt een supper goeideé, omdaat het myn inziens gewooon hartstikkke logies is: als we nou eens met z’n alle gaan samewerken dan word alles veel makkelikker en plezanter, tog? Dus laat ons asjeblieft niemeer twyfelen en gewooneweg doppen, want dit plan is zoo goet dat het bijna zond is om het niét direckt uit te voeren!
En de comments!
Zolang hij maar geen conclusies gaat trekken uit de comments die daar geplaatst worden. Want het niveau is daar echt erbarmelijk.
Als ik een vraag aan AI stel dan is het antwoord, volgens mij, per definitie gebasseerd op de gebruikte data. Als je nujij toevoegt aan de data, dan lijkt het me lastig te voorkomen dat GTP-NL ook braaksel gaat produceren.
Bij NUJij worden genoeg reacties verwijderd, ook al geen die niet tegen de regels in. Dat mensen het niet leuk vinden om te lezen of niet hun mening is, wilt nog niet zeggen dat het niet valid of dan maar onzin is.
Vaak genoeg gehad dat ik medisch juiste informatie gaf over bijv. vaccineren oid wat werd verwijderd. Ik denk gemeld door een antivaxer of dat de moderator zelf een antivaxer was. Ze verwijderen heel willekeurig berichten, zeker als het niet de populaire en vooral ook linkse mening betreft.
Zou wel een interessant experiment zijn; nieuwsberichten en andere "formele" teksten worden nu gebruikt voor trainingssets, maar dat vertegenwoordigt geen "echte" mensen. Ik vraag me af wat de impact zou zijn van ongefilterde comments of 1 op 1 chatberichten zouden zijn. Dat laatste zou best nog mogelijk zijn, ik geloof nooit namelijk dat bijv. whatsapp echt e2e encryptie heeft, maar dat is eerder een samenzweringstheorie dan iets feitelijks.

Dat gezegd hebbende, volgens mij gebruiken diensten als chatgpt ook bijv. Reddit comments, maar over het algemeen zijn die wel netjes geschreven.
Volgens mij wordt nog steeds heel veel engels gebruikt voor het 'wereldbeeld'
Dan ben ik nu vooral benieuwd hoe het model straks omgaat met vertalingen van Nederlands naar Engels. We gebruiken in het Nederlands zóveel uitdrukkingen en gezegdes die niet letterlijk te vertalen zijn. Dat gaat nu al vaak mis bij automatische vertalingen, dus ik vraag me af of GPT-NL daar beter mee weet om te gaan of dat het juist in het begin helemaal verkeerd zal gaan.
Juist LLMs zijn hier goed in. Voorbeeld in GPT 4.1
het regent pijpenstelen in het engels is?

ChatGPT said:

"Het regent pijpenstelen" vertaal je in het Engels als:

"It's raining cats and dogs."

Dit is de meest gebruikte Engelse uitdrukking met dezelfde betekenis als het Nederlandse "het regent pijpenstelen". Letterlijk vertaald zou het iets zijn als "It's raining pipe stems", maar dat zou in het Engels niet begrepen worden.

Andere varianten in het Engels zijn:

"It's pouring (with rain)."

"It's bucketing down."

"It's coming down in sheets."

Maar de meest bekende is: "It's raining cats and dogs."
Ik vraag me wel af waar ze die informatie weghalen; d'r zullen vast websites of boeken zijn die dit soort uitdrukkingen uitleggen.

Maar er zal ook lokalere uitdrukkingen of "slang" zijn die ze niet begrijpen, simpelweg omdat ze ongedocumenteerd zijn; ik gebruikte laatst het woord "heukelen" (mank lopen), maar Google of Google's AI samenvatting kon er niks mee.
Kan me voorstellen dat bepaalde lokale termen niet vaak genoeg voorkomen in online-texten. Als tweakers als basis wordt gebruikt kan de volgende generate AI wel heukelen herkennen, dankzij jouw uitleg!
Ik zie het:
ChatGPT zei:

De uitdrukking "nu komt de aap uit de mouw" kun je in het Engels vertalen als:

"now the truth comes out"
of
"now the cat is out of the bag" (meer idiomatisch, maar niet letterlijk).

Als je een iets formelere of neutralere vertaling wilt:
"now the real story is revealed" of "now everything becomes clear."

Laat me weten in welke context je het wilt gebruiken, dan kan ik helpen met de beste vertaling.
offtopic:
Toen ik deze tekst selecteerde, verscheen er een pop-up met de vraag ChatGPT. Daarmee kun je vervolgens iets quoten
De ene partij is beter dan de ander wanneer het gaat om taalgebruik, correcte orthografie etc.

Voor bijvoorbeeld de Volkskrant is het echt iets waar ze mee bezig zijn. Daarentegen heeft NU.nl in het verleden regelmatig artikelen van buitenlandse media door een vertaalmachine heen gehaald en met serieuze grammaticale fouten gepubliceerd.

TNO zal wel enigszins een selectie moeten maken.
Het zal bias zijn want de volkskrant is de enige krant die ik lees. Maar daarin staan echt taalkundig heel bijzondere dingen. Misschien is het in het AD nog slechter, al kan ik het niet voorstellen. Soms denk ik dat ze de digitale volkskrant eerst uitbrengen zodat zeikerds als ik er de fouten uit halen en dat dan de gedrukte versie wel deugt. Maar goeie grutten, echt niet best daar. Ze hebben het nu in de digitale versie aangepast, ik ben heel benieuwd naar de papieren versie. Digitaal stond er in eerste instantie "Bij die genocide, tussen april en juli 1994, kun je jezelf met enige hypocrisie wijsmaken dat die zich grotendeels in ons zicht voltrok, en al was gestopt voordat de VN voldoende moraliteit bij elkaar had geschraapt om in actie te komen.". Ze hebben het nu aangepast. Zou dit een fout zijn die AI ook zou maken?
Krijgen we wel een AGI die netjes is opgevoed en met twee woorden praat om mee te delen dat het beter voor de planeet is als de mensheid uitsterft ;-)
Er staat meer in een krant dan enkel nieuws.

Zo zijn er ook opinie-artikelen. Wanneer die goed geschreven zijn geeft het niet enkel de opinie van de schrijver als feit, maar wordt de opinie onderbouwd, waarbij aangegeven wordt wat feiten en wat gevolgtrekkingen/ speculaties zijn. Dat verruimt het taalgebruik al een stuk. En je hebt de columns, die meestal in alledaagse taal geschreven worden. En dan heb je nog alle rubrieken in de zaterdagedities waarvan veel in een meer alledaagse stijl geschreven worden.

De range in stijl en taalgebruik is echt enorm groot in kraanten en internetmedia. De uitdaging is juist om de AI de juiste toon te laten zetten in de juiste situatie.
Weet niet of dit nu wel zo geweldig is, gekleurde bronnen gebruiken als input. Dat hele AI is leuk, maar ik vrees dat het jaar na jaar slechter gaat worden. Er wordt al van allerlei meuk gegenereerd met AI gebaseerd op niet altijd even correcte bronnen. Dat wordt weer gebruikt als input door de volgende enz. Kan er naar mijn idee niet beter op worden zo.
Weet niet of dit nu wel zo geweldig is, gekleurde bronnen gebruiken als input
Uiteindelijk is elke bron gekleurd: de keuze om een artikel te schrijven is in zichzelf al een redactioneel statement. Je kunt dus niet voorkomen gekleurde bronnen te gebruiken; je kunt wel proberen de bronnen te balanceren.
Je hebt gekleurde bronnen en 'foute' bronnen (die bewust of onbewust onzin verkondigen)....en daarna heb je de output van AI gebruiken voor de training van een andere AI....
Het geeft in ieder geval incrementeel slechtere resultaten denk ik....
Je krijgt juist een completer beeld als je beide gekleurde bronnen in je model verwerkt. De waarheid ligt vaak in het midden.
Bij nieuwsberichten met meerdere bronnen vaak wel, maar het is hierbij belangrijk om onderscheid te maken tussen nieuws, feiten, meningen, en morele beslissingen. Ligt de waarheid in het midden bij een vraag als "is genocide goed of slecht"? Nee, dit is meer een morele of misschien zelfs filosofische kwestie.
Zelfs de feiten zijn gekleurd. Als je bijvoorbeeld enkel de slachtoffers van één kant in een conflict meldt krijg je een vertekend beeld. Daarom is het belangrijk beide kleuren te raadplegen.

Allsides.com doet dat heel aardig. Pierce Morgan doet dat wat spectaculairder door gasten uit twee kampen te laten bekvechten. Je hoort argumenten van twee kanten die je mist als je alleen linkse of rechtse media leest.
En welke bron zou niet gekleurd zijn, in jouw opinie?
Alhoewel je met bekende taalmodellen al redelijk tot zeer goed met Nederlandse teksten kunt werken, zou het wel heel mooi zijn als GPT-NL net nóg even iets beter wordt maar dan met een model dat (verwacht ik) minder parameters heeft en ook makkelijker op (consumenten)hardware kan draaien.

Aan de andere kant; als de helft van de gebruikte tokens straks uit krantenartikelen komen is het taal"begrip" misschien wel heel goed, maar kan het misschien weer minder goed overweg met instructies van gebruikers, aangezien de structuur van een krantenartikel heel anders is dan dat van een gescrapet 'kopie van het internet' dat (vaak) een soort van vraag-antwoord patroon volgt. Het zal dan ook vast wel goed worden in samenvatten, versimpelen en extraheren van informatie uit tekst, maar misschien minder in logisch redeneren.
Het gaat om de helft van de Nederlandstalige data, we gebruiken ook Engelse en Duitse bronnen. Ook gebruiken wij een uitgebreide dataset met instructies.
Nou moet DPG Media eigenlijk ook wel over de brug komen en hun resources ook beschikbaar stellen. Kan de AI ook de Tweakers nieuwsartikelen bestuderen.

Andere onderdelen van Tweakers mogen natuurlijk niet gebruikt worden voor training zonder toestemming van alle gebruikers. Dat lijkt een deel van het commentaar hier te vergeten. De taal die gebruikers daadwerkelijk in commentaren gebruiken, mag niet zomaar voor training gebruikt worden zonder toestemming van die gebruikers via algemene voorwaarden of explicite goedkeuring van de gebruiker zelf.
Bij DPG media heeft de AI eerst een maandje nodig om overal langs de cookie-meldingen te komen :P
Amerikaanse AI steelt gewoon data en betaald een boete indien nodig. Chinese AI pakt gewoon alles maar heeft licht beperkte hardware tot ze het zelf maken.

De EU kan volgens mij niets inbrengen in deze strijd. Misschien zie ik het te zwart (vanwege te weinig kennis) maar ik geloof er niet in dat we dit netjes volgens de regels voor elkaar kunnen krijgen.
Dit is juist een voorbeeld van hoe het wel netjes volgens de regels kan.
Het is niet alleen een verdubbeling van de totale hoeveelheid data. De archieven van de kranten en andere media geven het model een volledig en accuraat overzicht van de recente Nederlandse geschiedenis. Elk van die titels zal in zijn publicaties andere accenten hebben gelegd en een net even anders invalshoek hebben gekozen. Er is dus niet één enkel dominant perspectief, zoals wel het geval zou kunnen zijn bij samenwerking met één specifieke krant of medium. Dit kan daarom een gamechanger voor GPT-NL zijn.

Op dit item kan niet meer gereageerd worden.