Training Nederlands taalmodel GPT-NL van TNO en SURF gaat van start

De training van Nederlandse AI-taalmodel GPT-NL is begonnen. Tijdens deze maandenlange training leert GPT-NL de structuur van tekst en taal aan de hand van 370 miljard unieke tokens. Het model wordt getraind met de Nederlandse supercomputer Snellius.

Het is niet duidelijk hoe lang de training duurt; SURF en TNO spreken over 'de komende maanden'. Voor het trainen wordt een dataset van 370 miljard unieke tokens gebruikt, die is gebaseerd op een dataverzameling van 880 miljard teksttokens. Het overgrote deel van deze dataverzameling viel af omdat de teksten te oud zijn, waardoor de huidige taal en wereld niet weerspiegeld worden. Overigens wordt er mogelijk nog nieuwe data toegevoegd aan het trainingsmodel.

De organisaties schatten in dat er 285 miljard woorden in de dataset van 370 miljard tokens zitten. Er zitten ook 85 miljard tokens code in de dataset om het redeneervermogen van het model te verbeteren. Het gros van de dataset bestaat uit Engelse tekstdata. De organisaties wilden een gelijke verdeling, maar dit bleek 'al vrij snel' niet haalbaar. Dit komt doordat er voor GPT-NL alleen uit data van rechtmatige bronnen wordt geput, 'waardoor we minder bronnen hebben dan andere ontwikkelaars'. Daarnaast is er in het publieke domein minder Nederlandse dan Engelse tekst aanwezig.

De dataset bevat daarom ook vertalingen uit het Frans en Spaans en teksten uit het Duits en Zweeds. Deze Germaanse talen liggen dicht bij het Nederlands 'en hebben daarom een goede invloed op het taalbegrip van het model'. De dataset zal voor ongeveer 10 procent bestaan uit Nederlandse tekst, voor 73 procent uit Engelse teksten en voor 17 procent uit oorspronkelijk andere talen.

Het grootste deel van de Nederlandse data, ofwel 24 miljard van de 29 miljard teksttokens, bestaat uit private en publieke Nederlandse datasets. Hierbij hebben auteurs de rechten verleend of wordt er data met Creative Commons-licenties gebruikt. De overige 5 miljard teksttokens zijn door de makers van GPT-NL zelf gemaakt om ervoor te zorgen dat er meer Nederlandse tekst in de trainingsdata zit.

De makers zeggen op basis van andere taalmodellen dat 10 procent Nederlandstalige tekst voldoende is om een goed taalbegrip te krijgen. "Het is nog onduidelijk hoe het model zal scoren op Nederlandse kennis." De makers zeggen tussentijdse testen uit te voeren en het model later dit jaar te evalueren.

Het GPT-NL-taalmodel is eind 2023 gestart met subsidie van de Nederlandse overheid en wordt ontwikkeld door onderzoeksinstituut TNO, SURF en het Nederlands Forensisch Instituut. TNO zei eerder dit jaar dat het model niet volledig opensource wordt vanwege die subsidievoorwaarden.

Door Hayte Hugo

Redacteur

26-06-2025 • 14:33

47

Reacties (47)

47
47
30
6
0
14
Wijzig sortering
De supercomputer Snellius, beheerd door SURF, is uitgerust met 88 nodes die elk vier NVIDIA H100 GPU's bevatten, wat resulteert in een totaal van 352 GPU's. Vergeleken met info die je kunt vinden over het trainen van andere modellen op langzamere GPU's gok ik dat dit 4-6 weken 100% load duurt om te realiseren. Gezien het een gedeeld batch-systeem is kan het zijn dat ze er bijvoorbeeld 2 x zo lang voor uit trekken om ruimte te laten aan andere gebruikers en kom je op 'enkele maanden'.

Btw: supertof dit, kan niet wachten tot we het kunnen/mogen gebruiken/testen :7
edit:

deze post schijnt meer licht op de GPU capaciteit van Snellius:
jdh009 in 'Training Nederlands taalmodel GPT-NL van TNO en SURF gaat van start'

[Reactie gewijzigd door NiGeLaToR op 26 juni 2025 14:47]

Wat ik vond op hun website, daaruit blijkt dat Snellius meer GPU-capaciteit heeft dan je noemt. Naast de 88 nodes met H100's (352 GPU’s), zijn er ook nog 72 nodes met A100's (288 GPU’s). De volledige configuratie staat hier:
GPU nodes

Snellius contains multiple racks of GPU nodes, shown here in green. A GPU is a special type of processor, sometimes called an "accelerator", that can be used to massively speed up certain forms of computation. Example applications are machine learning, molecular dynamics and 3D visualization.

The 72 Phase 1 GPU nodes each contain an NVIDIA HGX A100 baseboard with 4 GPUs, for a total of 288 A100 GPUs. Each A100 GPU has 40 GiB of HBM memory.

The 88 Phase 3 GPU nodes each contain 4 NVIDIA H100 GPUs, with 94 GiB of HBM2e memory.

In total, Snellius contains 288 NVIDIA A100 and 352 NVIDIA H100 GPUs.

A single Phase 1 GPU rack in Snellius provides 1.6x times more computational power than the previous Cartesius supercomputer provided in total at 1.843 Pflop/s.
Bron: https://visualization.surf.nl/snellius-virtual-tour

[Reactie gewijzigd door jdh009 op 26 juni 2025 14:47]

A100 is nogal wat trager dan H100 (voor GPT-training tot 4x trager volgens Nvidia marketing, en nog meer voor MoE modellen) en heeft geen FP8 ondersteuning, dus het is niet eenvoudig om de training te versnellen door naast de H100s ook de A100s te gebruiken. Met genoeg investering van development-tijd zou je wel wat extra snelheid eruit kunnen puren, maar het is de vraag of dat de moeite waard is; er zijn ongetwijfeld genoeg andere bekommernissen.
Dit kan niet kloppen, 88 nodes met 4x GPU is veel te klein om een serieuze HPC te zijn.

Edit: Dit staat op de site van SURF:
"The Snellius system is a large high-performance compute system, consisting of more than 1,500 compute nodes, together with a large amount of storage and fast network interconnect for high-speed data exchange between the nodes"
Wellicht dat de LLM een gedeelte van Snellius gebruikt, maar die is in z'n totaliteit wel stukken groter dan 88 nodes.

[Reactie gewijzigd door vlaaing peerd op 26 juni 2025 14:44]

Dan heb je misschien niet veel eigen ervaring met HPC? Op regionaal niveau gaat het vaker om dit soort aantallen, ook in Vlaanderen. Daar heeft de huidige Tier-1 20x 4xA100 80GB en 20x 4xA100 40GB. De volgende Tier-1 die eind van het jaar beschikbaar komt zal 176 H200 hebben (de node config weet ik niet). Dat is uiteraard Tier-1, op Tier-2 zit er ook nog heel wat hardware.

Je kan het niet vergelijken met commerciele clusters. Voor relatief kleine regio's zoals Vlaanderen en Nederland is het niet haalbaar om in competitie te gaan met zulke productieclusers. Dat is meer voor Tier-0, op Europees niveau. Dan moet je kijken naar de AI-factories, of bestaande clusters zoals LUMI-G (bijna 3000 nodes met elk 4x MI250).


In je edit spreek je over een totaal aantal nodes. Wat er voor Snellius beschreven staat gaat dus ook over de CPU-only nodes.

[Reactie gewijzigd door BramVroy op 26 juni 2025 17:05]

Dan heb je misschien niet veel eigen ervaring met HPC?
Dat zal het vast zijn :9

Ik bedoel gewoon te zeggen dat je met 88 nodes met 4x GPU je niet kan spreken van een werkelijk performante HPC, dus ik vind het wat tegenvallen.
Toch klopt het echt, het is geen AI/GPGPU super computer maar een general purpose super computer met een stukje GPGPU erbij.
Wat ik uit de virtuele tour van SURF haal, klopt dat aantal wat je noemt waarschijnlijk wel, maar het betreft alleen de GPU-nodes bij de getallen die ik en NiGeLaToR noemden. Snellius bestaat in totaal uit meer dan 1500 nodes, inclusief CPU-nodes, storage-nodes en andere typen. Voor GPU-training, zoals hier bij GPT-NL, ga ik ervan uit dat specifiek de 88 H100-nodes en 72 A100-nodes worden ingezet, of een subset daarvan, zoals NiGeLaToR aanstipte.
Ter vergelijking: Hortense, de Vlaamse Tier-1 supercomputer, heeft 40 nodes met 4 oudere A100 GPUs.
Dat is dus in verhouding niet meer. (Vlaamse universiteiten hebben wel elk hun eigen Tier-2 supercomputer, en binnenkort wordt nieuw Tier-1 systeem in gebruik genomen.)

De reden voor de lage node-counts is dat datacenter GPUs nu eenmaal enorm duur zijn geworden, vooral Nvidia training-GPUs. Een enkele server met 8 H100s kost ruwweg een kwart miljoen euro.
Jeetje 352 GPU’s, dan zie je pas duidelijk hoe klein we dit eigenlijk aanpakken…Elon Musk zit inmiddels op 150.000 GPU’s, en ook nog eens nieuwere types..
Ik was zelf verantwoordelijk voor het aanleveren van de Creative Commons data. Op giga-schaal werd bestaande webdata automatisch geanalyseerd en gelabeld met verschillende meta-informatie met betrekking tot Creative Commons-licenties die op de pagina's gevonden konden worden. SURF en TNO hebben die data nog verder gefilterd.

Die data is volledig open te vinden net zoals de broncode om de data te reproduceren. Ik voerde het werk uit bij het Instituut voor de Nederlandse Taal, dat samenwerkt met GPT-NL, in onderaanneming voor TNO.
Mischien weet jij dan het antwoord op mijn vraag, als ze 10% nederlandsche input krijgen
en 73% engels, en 17% andere talen, hoe voorkom je dat de de fish and chips met braadwursten
uit nederland komen als je daar naar vraagt?
Is het leren wel nederlands genoeg vraag ik me af als leek zijnde met maar 10% nederlandse imput?
Het is moeilijk. De eerste stap is data van hoge kwaliteit, maar ook de volgorde waarop je erop traint is van belang. Als je maar weinig data hebt kan je upsampelen (bv. de Nederlandse data dupliceren) en/maar je kan daarenboven ook de relatieve hoeveelheid Nederlandse data verhogen maar het einde van het trainen toe. Zo leer je in het begin dus meer multilinguaal en absorbeert je zo veel mogelijke abstracte "kennis" als mogelijk, en naar het einde toe focus je dan op de Nederlandse taal en cultuur zodat die het "eerste in het geheugen" van het model zit. (Het heeft geen geheugen, natuurlijk, maar je kan het je inbeelden alsof het een beter kortetermijngeheugen heeft dan kangetermijngeheugen.)

Het zal pas tijdens het trainen duidelijk worden waar het goed en slecht gaat, en tijdens het trainen kan er dus ook worden bijgestuurd.
Is dit wellicht ook een oplossing? https://sakana.ai/rlt/

Eerst een kleine Nederlandse onderwijzer trainen?

En combineren met https://arxiv.org/abs/2303.15343 en dingen die voor https://ai.google.dev/gemma/docs/gemma-3n zijn gebruikt?

[Reactie gewijzigd door djwice op 27 juni 2025 04:01]

Heb je ook bijvoorbeeld data van rebricksble gehaald, een aantal pdf bouw instructies voor Lego op die site zij ook cc

Typisch gemaakt met https://www.bricklink.com/v3/studio/

Ook https://www.ldraw.org/ valt daar onder.

[Reactie gewijzigd door djwice op 27 juni 2025 01:20]

Als GPT-NL niet afhankelijk wil zijn van ChatGPT, vanwaar de naam GPT in de Nederlandse LLM?
GPT is de naam van het de onderliggende architectuur: Generative Pre-trained Transformer (GPT)
generative pretrained transformer; Zou je dan naar NL vertalen?

Dus Generatieve vooraf getrainde transformator (GVGT of GGT of GVT?)

GPT is gewoon een algemeen geaccepteerde term…

[Reactie gewijzigd door badnews.nl op 26 juni 2025 15:01]

GPT is een afkorting voor Generative Pre-trained Transformer heeft niet zoveel met ChatGPT te maken behalve dat ze ongeveer het zelfde werken.
Als 90% van de brondata komt uit een andere taal en vertaald wordt; dan is het niet zo dat maar 10% Nederlands is. 10% was "oorspronkelijk" nederlands - wat eerlijk geen grijntje zekerheid geeft op correct woordgebruik, vervoegingen of schrijfwijze.
Dat hangt natuurlijk van de vertaling af. Als een echte tolk/ vertaler dat doet is de tekst gewoon Nederlands, inclusief de juiste - en dus niet letterlijke - vertalingen van gezegdes en uitdrukkingen. Als het geautomatiseerd vertaald is wordt het er inderdaad niet beter op (zie sommige geautomatiseerde ondertitelingen bijvoorbeeld).
Ik betwijfel dat ze voor die hoeveelheid data tolken gaan inhuren. Dit gaat tenslotte over 90% van de trainingsdata... Als ze het serieus menen, zou dit gaat over terrabytes aan data.
Dit klopt niet helemaal. Binnen de vertaalwetenschappen is er veel onderzoek naar het concept "translationese" waaruit blijkt dat menselijk vertaling echt wel andere taal is dan monolinguaal geproduceerde taal. Of je het nu wil of niet, ook topvertalers laten zich leiden door de brontekst. Beginnende vertalers vertalen inderdaad letterlijker (waar het dus echt duidelijk is) maar ook goede vertalers kan je spotten.
Goed punt, zie alleen al het typische gebruik van —, overgenomen van het Engels, door onder meer ChatGPT... en bij Gemini valt mij op dat het vaak Nederlandse samenstellingen onterecht splitst of Engelse zinsvolgorde overneemt in bijzinnen. Ik deel je twijfel of een model met grotendeels vertaalde data het Nederlands echt veel beter gaat beheersen.
Oude teksten achterwege laten... wat kan er mis gaan.

Uit de geschiedenis hebben we veel geleerd. Die wijsheden worden op deze manier toch genegeerd? Je kan er niet vanuit gaan dat al die wijsheden verpakt zitten in actuele teksten.
Je vergeet dat het een taalmodel is, waarbij de kennis van de wereld eigenlijk een bijkomstigheid is. Waarschijnlijk is accuraat vragen kunnen beantwoorden ook wel een van de doelen, maar ik zou denken dat de invloed van ouderwets taalgebruik waarschijnlijk niet opweegt tegen de extra wereldkennis die het in het model zou opnemen.

"Een LLM is een micel sprâclîk werctuog, giscapen thera mennisclîke sprache to ferstanne ende forth to bringan, thurh leringa fon miclen houpiden tekstes." heb je niet zo veel aan.
Hebban olla vogala
Correct, wereldkennis breng je het liefste in middels RAG
Toch vind ik dat je er nu te licht over denkt, in de mate waarin de wereldkennis van invloed is. Ja, het is een taalmodel, maar wereldkennis is zeker van invloed. Over het algemeen hebben taalmodellen een werelds denkbeeld. Dit is een bias(!) die overduidelijk zichtbaar is in reacties die het geeft. Daarom denk ik dat de geschiedenis erg belangrijk is om te voorkomen dat die bias teveel verschuift.

Om even een controversieel voorbeeld te schetsen: Hoe staat een taalmodel tegenover abortus? Het werelds progressief denkbeeld zegt dat dat geen probleem is. Uiteraard probeert het een evenwichtig antwoord te geven. Maar hoe meer we onze geschiedenis, onze christelijk conservatieve oorsprong verlaten, en meer cultuur 'verrrijkt' afhankelijke, normen en waarden in een taalmodel stoppen, hoe sneller onze kinderen, die dit op scholen gaan gebruiken, zullen worden beïnvloed waardoor de maatschappij verder in verval raakt.
Hoe staat een taalmodel in het conflict in het midden-oosten? Zonder de geschiedenis echt te kennen zal je je gemakkelijk laten manipuleren.

Misschien zie je het niet en vind je mijn reactie vergezocht, maar kijk eens naar de wereld, het lijkt steeds chaotischer te worden: Oorlogen, geruchten van oorlogen, opstanden, protesten, polaritatie, egoisme, liefdeloosheid.. noem maar op. Een taalmodel dat niet getraind is met historische data zal het verval van de maatschappij alleen maar versnellen en meer polarisatie kweken.
Het verval gaat juist richting conservatieve waarden waarbij mensen rechten worden ontnomen door de macht. Voor mij is dat verval juist totaal de andere richting op aan het gaan. Maar je schets wel een dramatisch beeld van de huidige tijd. Als je de gehele geschiedenis erbij haalt is het bijna nooit zo goed gegaan als nu. Doordat het nieuws alleen zaken brengt die verkeerd gaan krijgen mensen een veel te dramatisch beeld van de werkelijkheid. De kans dat je door geweld om het leven komt is enorm afgenomen, er is veel minder kindersterfte, er is een langere levensverwachting, er zijn meer democratische landen... In de VS gaat dit nu wel de verkeerde kant op, maar dit kan over een paar jaar weer anders zijn.
Maar welke rechten zouden volgens jou worden ontnomen? Conservatieve waarden ≠ recht ontnemen. Wat wel duidelijk is, is dat ik als conservatieveling en jij vermoedelijk meer progressief, beiden verval zien. Maar het uitwissen van geschiedenis en de lessen die wij daaruit geleerd hebben, lijkt me onverstandig. Verder ben ik het niet eens met je uitspraak 'nooit zo goed gegaan als nu'. Wat betekent 'goed'? Dat we in het huidig welvarend Nederland onszelf kunnen verrijken? Dat we 's avonds op de bank ontspannen Netflix kunnen kijken? Als het om welzijn gaat zie je juist verval in de samenleving. Sta eens stil bij de volgende vragen. Een antwoord daarop hoef je niet te geven, want daarin kunnen we van inzicht verschillen.

De kans dat je door geweld om het leven komt, is in welvarende landen misschien afgenomen. Maar hoe zit het in bijvoorbeeld Nigeria?

Minder kindersterfte, maar van hoeveel kinderen wordt het leven al in de baarmoeder beëindigd? 40000 per jaar in Nederland alleen en het worden er steeds meer (=verval)

Wat is democratie als de inwoners van een land via de TV massaal gemanipuleerd worden?

Is Nederland nog wel een democratie? Het lijkt namelijk steeds meer op een technocratie.

Ik weet niet van welk bouwjaar je bent (ik kom uit de seventies), maar de samenleving is echt achteruit gegaan sinds de intrede van de smartphone. Vanuit mijn perspectief beleefde het welzijn van de Nederlandse samenleving in de jaren 90 een hoogtepunt.

En om te schetsen wat mede dankzij de smartphone, ik in toenemende mate in de maatschappij zie, een citaat welke zo'n 2000 jaar geleden is opgeschreven en te vinden in het meestverkochte boek ter wereld:

En weet dit dat in de laatste dagen zware tijden zullen aanbreken. Want de mensen zullen liefhebbers zijn van zichzelf, geldzuchtig, grootsprekers, hoogmoedig, lasteraars, hun ouders ongehoorzaam, ondankbaar, onheilig, zonder natuurlijke liefde, onverzoenlijk, kwaadsprekers, onmatig, wreed, zonder liefde voor het goede, verraders, roekeloos, verwaand,

En ja, het is een profetie dus dit zal alleen maar erger worden. De vraag is alleen in hoeverre je iets als goed ziet en of dat 'goed' daadwerkelijk goed is. Bijvoorbeeld: Goed als in 'vrouw heeft eigen keus in eigen buik', of goed als in 'behoud van het ongeboren leven wat nog geen stem kan laten horen'. ( ik ben van mening dat het op een ander punt al fout ging, maar dat terzijde (ook daarin: wat is 'goed'?))

Geschiedenis is belangrijk. Dat moet ook in taalmodellen zitten als we dat gaan gebruiken als een alwetend orakel en ons daardoor gaan laten leiden manipuleren. Want als je een taalmodel gebruikt binnen een gebied waar je verstand van hebt, dan merk je dat het fouten maakt. Dan kan je het corrigeren waarna het jou gelijk geeft. Maar wat doe je als je een taalmodel gebruikt voor iets waar je geen verstand van hebt? Het overtuigende antwoord van een taalmodel kan incorrect zijn. Dat staat er ook in kleine lettertjes onder, maar wat doe je met die wetenschap?

Een belangrijke diepe vraag om te kunnen bepalen wat goed en fout is: Waar is jouw waarheid op gebaseerd?

[Reactie gewijzigd door Fido op 3 juli 2025 15:48]

Gaaf om te zien dat er getraind word op open data.

Zelf ben ik vooral benieuwd hoe het redeneringsvermogen zal zijn!
wat ik laatst las op tweakers over hallucinerende LLMs is dat een volgend woord in een zin bepaald wordt uit een correlatie met voorgaande woorden. Ik weet niet of dat redeneervermogen is. De taal is overtuigend, de inhoud niet perse. Over het algemeen heeft een LLM geen idee van de waarheid van een statement

[Reactie gewijzigd door tw_gotcha op 26 juni 2025 16:41]

Super goed dat dit soort initiatieven plaatsvinden. Al is het maar dat je niet afhankelijk wilt zijn van de grote tech reuzen die alles wat ze konden pakken in hun modellen hebben gestopt.

Wat me wel opvalt is dat het Nederlands en de kennis van Nederlandse begrippen van de grote modellen wel behoorlijk goed lijkt, ik merk weinig verschil tussen vragen die ik in het Engels stel tegenover het Nederlands. Zijn er specifieke problemen/nadelen die ze hiermee willen aanpakken?
Eindelijk een AI-model van Nederlandse bodem. Goed dat TNO en SURF inzetten op transparantie, publieke data en onze eigen taal en waarden.

Niet perfect (gesloten gewichten, beperkt budget), maar wél een belangrijke stap richting digitale soevereiniteit. Liever dit dan afhankelijk blijven van Big Tech.
Er zijn er al zeker twee: Geitje en Fietje.
Die zijn beiden getraind op copyrighted material
"Hey GPT-NL, vat deze tekst kort samen"


GPT-NL: "Mand!"
Het overgrote deel van deze dataverzameling viel af omdat de teksten te oud zijn
Jammer, ik gebruik wel eens ChatGPT (in het Engels) juist voor onderwerpen uit de geschiedenis. Veel data is wel te vinden, maar lastig te doorzoeken, zoals veel oude gescande boeken. Daarvan heb ik er inmiddels best veel netjes uitgezocht en lokaal opgeslagen, maar m.i. is dit juist waardevol materiaal voor een LLM. Met ChatGPT werkt het overigens best goed, dus denk dat er wel een aanzienlijke hoeveelheid inzin.

Google en andere partijen hebben over de jaren miljoenen oude boeken gescand (met ocr) van over de hele wereld. Is toch juist een mooie kans dit te gebruiken als input voor een LLM om makkelijker met deze enorme hoeveelheid bronnen te kunnen werken? Dat het wat lastiger leest, daar lig ik niet wakker van; dat is logisch als het over dit soort onderwerpen gaat. Als je enkel nieuwere bronnen neemt en de primaire weglaat, dan gaat er echt een laag waardevolle context compleet verloren, om maar niet te spreken over een latere framing die in nieuwere bronnen aanwezig kan zijn.

Nu had ik persoonlijk niet de intentie een Nederlands model te gaan gebruiken, maar stel je bent geïnteresseerd in Nederlandse historie, dan had dit waardevol kunnen zijn. Wat mij betreft een gemiste kans.
Het probleem wat we dus nu hebben(?) is dat verschillende talen andere waarheden kunnen bevatten.
Terwijl onze hersenen anders werken:
"A monkey is a primate" vertalen we eerst naar "Een aap is een primaat". We onthouden neit de letterlijke tekst denk ik. We onthouden het feit en kunnen dat op verschillende manieren formuleren.
En zo kunnen we ook oude kennis gebruiken die heel anders geschreven is of zelfs in een andere taal.


Om te kunnen reageren moet je ingelogd zijn