De training van Nederlandse AI-taalmodel GPT-NL is begonnen. Tijdens deze maandenlange training leert GPT-NL de structuur van tekst en taal aan de hand van 370 miljard unieke tokens. Het model wordt getraind met de Nederlandse supercomputer Snellius.
Het is niet duidelijk hoe lang de training duurt; SURF en TNO spreken over 'de komende maanden'. Voor het trainen wordt een dataset van 370 miljard unieke tokens gebruikt, die is gebaseerd op een dataverzameling van 880 miljard teksttokens. Het overgrote deel van deze dataverzameling viel af omdat de teksten te oud zijn, waardoor de huidige taal en wereld niet weerspiegeld worden. Overigens wordt er mogelijk nog nieuwe data toegevoegd aan het trainingsmodel.
De organisaties schatten in dat er 285 miljard woorden in de dataset van 370 miljard tokens zitten. Er zitten ook 85 miljard tokens code in de dataset om het redeneervermogen van het model te verbeteren. Het gros van de dataset bestaat uit Engelse tekstdata. De organisaties wilden een gelijke verdeling, maar dit bleek 'al vrij snel' niet haalbaar. Dit komt doordat er voor GPT-NL alleen uit data van rechtmatige bronnen wordt geput, 'waardoor we minder bronnen hebben dan andere ontwikkelaars'. Daarnaast is er in het publieke domein minder Nederlandse dan Engelse tekst aanwezig.
De dataset bevat daarom ook vertalingen uit het Frans en Spaans en teksten uit het Duits en Zweeds. Deze Germaanse talen liggen dicht bij het Nederlands 'en hebben daarom een goede invloed op het taalbegrip van het model'. De dataset zal voor ongeveer 10 procent bestaan uit Nederlandse tekst, voor 73 procent uit Engelse teksten en voor 17 procent uit oorspronkelijk andere talen.
Het grootste deel van de Nederlandse data, ofwel 24 miljard van de 29 miljard teksttokens, bestaat uit private en publieke Nederlandse datasets. Hierbij hebben auteurs de rechten verleend of wordt er data met Creative Commons-licenties gebruikt. De overige 5 miljard teksttokens zijn door de makers van GPT-NL zelf gemaakt om ervoor te zorgen dat er meer Nederlandse tekst in de trainingsdata zit.
De makers zeggen op basis van andere taalmodellen dat 10 procent Nederlandstalige tekst voldoende is om een goed taalbegrip te krijgen. "Het is nog onduidelijk hoe het model zal scoren op Nederlandse kennis." De makers zeggen tussentijdse testen uit te voeren en het model later dit jaar te evalueren.
Het GPT-NL-taalmodel is eind 2023 gestart met subsidie van de Nederlandse overheid en wordt ontwikkeld door onderzoeksinstituut TNO, SURF en het Nederlands Forensisch Instituut. TNO zei eerder dit jaar dat het model niet volledig opensource wordt vanwege die subsidievoorwaarden.