Twee jaar geleden trok het ministerie van Economische Zaken en Klimaat 13,5 miljoen euro uit voor de ontwikkeling van een Nederlands AI-taalmodel, en nu is het zover: GPT-NL is klaar voor gebruik. Het llm, dat ontwikkeld is door onderzoeksinstituut TNO in samenwerking met SURF en het Nederlands Forensisch Instituut, moet onder meer universiteiten, onderzoekers en overheden een 'soeverein' alternatief bieden voor bestaande AI-tools.
TNO gaf zichzelf de taak om een AI-bot te maken die niet alleen Nederlands spreekt, maar ook zo privacyvriendelijk mogelijk is. Dat hield bijvoorbeeld in dat het model alleen gebruikmaakt van trainingsdata die verantwoord is verkregen. Dat lijkt te zijn gelukt, want afgelopen maand won GPT-NL een Privacy Award. De Nederlandse organisator van die prijs, Privacy First, omschreef GPT-NL als het 'eerste llm wereldwijd dat aantoonbaar voldoet aan de vereisten van de AVG'.
Tweakers sprak met TNO over hoe GPT-NL tot stand is gekomen en wat ervoor nodig was om het model zo privacyvriendelijk mogelijk te maken.
Behoefte aan soevereiniteit
Hoewel GPT-NL momenteel in de markt wordt gezet als een 'soeverein' alternatief voor taalmodellen van buitenlandse techbedrijven als Google en OpenAI, was dat voor TNO niet de voornaamste drijfveer om in 2023 een subsidieaanvraag te doen voor de ontwikkeling van een Nederlandse llm. Het idee ontstond toen TNO erachter kwam dat de eerste versies van ChatGPT de Nederlandse taal en cultuur nog niet helemaal begrepen. "Als je ChatGPT rond de initiële release vroeg om een aanbevelingsbrief te schrijven, kwamen er dusdanig overdreven jubelende woorden uit dat het klonk als een Amerikaan op speed", geeft Saskia Lensink, projectleider van GPT-NL, als voorbeeld. "En als je hem vroeg om een lekkernij te genereren, kwam de bot met een McDonald's-burger in plaats van een Nederlands raketijsje."
Inmiddels zijn de buitenlandse llm's een stuk beter geworden. Lensink geeft dan ook toe dat de kennis van de Nederlandse taal en cultuur inmiddels ook bij diensten als ChatGPT wel goed zit. Tweakers heeft eerder al in een vergelijkende test aangetoond dat je niet per se een Nederlands taalmodel nodig hebt om te weten welke hapjes er op een kringverjaardag thuishoren.
De afgelopen jaren is de soevereiniteit van digitale diensten steeds belangrijker geworden. Dat is nu ook vooral de aantrekkingskracht van GPT-NL, vindt Lensink. "Die kwestie speelt nu erg. We merken dat de behoefte vanuit organisaties dan ook vooral gericht is op die digitale autonomie en of wij een alternatief kunnen zijn voor andere llm's."
Selectie van trainingsmateriaal
GPT-NL is niet alleen vanaf de grond opgebouwd in Nederland, maar moet zich ook aan de 'normen en waarden' van Nederland houden. Dat houdt volgens TNO in dat het taalmodel binnen de kaders van de wet opereert. Dat uit zich onder meer in de manier waarop het trainingsmateriaal wordt verkregen. De llm is deels getraind op auteursrechtenvrije content, die bijvoorbeeld onder een Creative Commons-licentie beschikbaar is gesteld. Het andere deel bestaat uit auteursrechtelijk beschermde content waarvoor TNO toestemming heeft verkregen.
Het gaat bijvoorbeeld om nieuwsartikelen van brancheorganisatie NDP Nieuwsmedia, waarvan onder meer De Telegraaf, NRC Handelsblad, het AD, NU.nl en RTL Nieuws lid zijn. Ook een deel van de collectie van onder meer de Koninklijke Bibliotheek, wetenschapsinstituut Naturalis en Officiële Bekendmakingen is met toestemming gescrapet. Sommige teksten zijn afkomstig uit Vlaanderen, maar de focus lag volgens TNO op Nederlandse content. "Daar valt nog wel winst te behalen", zegt Lensink. "Hoewel er in schrijftaal minder verschillen zijn dan in spreektaal, zou het goed zijn om in de toekomst meer Vlaamse data toe te voegen."
Het was voor TNO ook belangrijk dat er alleen 'feitelijke bronnen' aan het model werden gevoerd. Dat betekende dat content van roddelbladen werd geweerd. Ook zijn er geen informele teksten aanwezig in de trainingsdata. Dat was een bewuste keuze, zegt Lensink. "Het model is specifiek bedoeld voor zakelijke toepassingen, bijvoorbeeld bij de Rijksoverheid. Het soort taalgebruik dat je in een zakelijke context nodig hebt is specifiek. Informele teksten voegen daar weinig aan toe."
Geautomatiseerde Nederlandse data
Het gros van de Nederlandse data (24 miljard van de 29 miljard teksttokens) is afkomstig van bestaande bronnen, maar TNO heeft een gedeelte ook zelf gemaakt om ervoor te zorgen dat er meer Nederlandse tekst in de trainingsdata zit. Dat gebeurde onder meer door RDF-triples van Wikidata om te zetten in lopende tekst, of door transcripties van YouTube-video's met een CC BY-licentie te vertalen. Dat proces werd geautomatiseerd, al levert dat volgens Lensink niet de meest kwalitatieve data op. "We hebben er dan ook voor gezorgd dat niet het grootste gedeelte van de trainingsdata uit automatisch vertaalde content bestaat", zegt ze. "Ook lieten we vertaalde content minder vaak upsamplen dan handmatig gecreëerde teksten."
Ongeveer tien procent van de volledige dataset bestaat uit Nederlandstalige teksten. Dat klinkt wellicht weinig voor een model dat deels als doel heeft om de Nederlandse taal en cultuur beter te begrijpen. Volgens Frank Brinkkemper, de technische productmanager van GPT-NL, valt dat mee. "Procentueel is het aandeel Nederlands zo'n vijf keer groter in vergelijking met andere modellen", stelt hij. "Ook zijn de Nederlandse teksten vaker geupsampled dan de teksten in andere Germaanse talen."
Naast teksten bestaat de dataset ook voor ongeveer een kwart uit code met zeer vrije opensourcelicenties, zoals MIT en Apache 2.0. "Uit de literatuur blijkt dat dat helpt bij de redenatiekracht van het model", stelt Brinkkemper. "Het is dus niet de bedoeling dat je GPT-NL als codingmodel inzet. Ik zou het al knap vinden als hij een functie van drie regels zou kunnen vibecoden."
Het trainen van GPT-NL gebeurde op de Nederlandse supercomputer Snellius. Specifiek voor dit project is extra gpu-capaciteit toegevoegd voor AI-training, wat een groot deel van het budget voor GPT-NL opslokte. Er zijn 22 nodes toegevoegd met elk vier H100-gpu's van Nvidia. De pretraining nam in totaal negen maanden in beslag. Gedurende die periode mocht TNO exclusief gebruikmaken van die nodes. Nadat deze fase in december werd afgerond, is de finetunefase begonnen. De komende tijd wordt het model getest door tien niet-gespecificeerde organisaties, zowel publieke als private. Op basis van de feedback wordt het model verder gefinetuned.
Het is de bedoeling dat het model in het najaar breder wordt uitgerold. Tegelijkertijd krijgt GPT-NL een andere, nog onbekende naam. TNO had de domeinnaam van de huidige naam niet vóór de aankondiging geregistreerd, waardoor een andere partij die heeft vastgelegd.
GPT-NL wordt deels opensource
TNO is van plan om grote delen van GPT-NL in het najaar openbaar beschikbaar te maken. Zo komt de broncode beschikbaar op GitHub en komen de datasets met publieke content beschikbaar onder een open licentie. Van de auteursrechtelijk beschermde trainingsdata wordt de metadata vrijgegeven. De modelgewichten komen niet openbaar beschikbaar, maar zijn op verzoek beschikbaar via een betaalde licentie of een onderzoekslicentie.
Privacyvriendelijk uitgangspunt
Soevereiniteit is maar één aspect van GPT-NL. Er zijn ook andere Europese llm's die dat als uitgangspunt hebben. Wat volgens TNO wél uniek is aan GPT-NL, is dat dit tot dusver het enige taalmodel is dat aantoonbaar aan de Europese privacywetgeving voldoet. Daar won GPT-NL afgelopen maand ook een Privacy Award voor. De meeste andere llm's, waaronder het Franse Mistral, zijn vaag over de oorsprong van hun trainingsdata.
Het Zwitserse Apertus beweert ook veel aandacht te hebben besteed aan het ethisch vergaren van trainingsdata, maar Brinkkemper stelt dat TNO nog conservatiever is geweest wat copyright betreft. "We hebben zelfs geen content van het internet meegenomen waarvan de licentie onduidelijk was. We hebben alleen content gebruikt waarvoor expliciet toestemming is gegeven via een CC-licentie."
Dit nauwkeurige selectieproces heeft volgens TNO als voordeel dat het vrijwel uitgesloten is dat er geïnfecteerde documenten in de dataset belanden. Dat zijn documenten met verborgen instructies, bedoeld om een AI-model te ontregelen of volledig onbruikbaar te maken. Uit onderzoek van Anthropic blijkt dat er maar zo'n 250 geïnfecteerde documenten nodig zijn om een llm kwetsbaar te maken, ongeacht de omvang van het model.
Ook de privacyfiltering is bij GPT-NL een stuk robuuster, stelt Lensink. "Veel modellen filteren privacygevoelige informatie uit trainingsdata op basis van regex, oftewel vaste patronen. Daarmee kun je vrij eenvoudig e-mailadressen en IBAN-nummers herkennen. Wij zijn veel rigoureuzer te werk gegaan om filters zo op te bouwen dat ook onder meer namen van niet-publieke personen, burgerservicenummers en adressen werden gedetecteerd en weggefilterd."
Drie usecases
Door het relatief krappe budget van 13,5 miljoen euro werd TNO gedwongen om keuzes te maken om de omvang te beperken, waaronder de eerdergenoemde focus op de zakelijke markt. Ook werd daarom besloten om GPT-NL toe te spitsen op drie specifieke usecases: samenvatten, simplificeren en opereren binnen een RAG-context. Dat laatste houdt in dat het taalmodel een interne database kan doorzoeken om vragen te beantwoorden.
Het model is dus niet bedoeld als concurrent voor de algemene taalmodellen van bedrijven als OpenAI en Google. Met 26 miljard parameters is GPT-NL een stuk kleiner dan zulke manusjes-van-alles, die vaak meer dan 100 miljard parameters bevatten. Toch stelt TNO dat GPT-NL met deze drie kernfunctionaliteiten dicht in de buurt komt van de prestaties van GPT‑3.5, en dat voor een fractie van de kosten.
Het model heeft ook buiten Nederland de aandacht getrokken, vertelt Lensink. "We zijn al uitgenodigd in België, Ierland en Denemarken om te vertellen over ons initiatief. We zijn ook aan het kijken of er naast de Nederlandse markt logische vervolgstappen in het buitenland te nemen zijn. Overal waar Nederlands of Engels wordt gesproken, kan deze eerste versie van het model al waarde toevoegen."
TNO heeft daarnaast de ambitie om een opvolger van GPT-NL te ontwikkelen, die voor meer taken gebruikt kan worden, waaronder function calling, en meerdere talen ondersteunt. Daar is ook 'minimaal' tien keer zoveel budget voor nodig. "We zijn naar allerlei soorten financieringsmogelijkheden aan het kijken", zegt de projectleider. "Denk aan geldschieters of aanvullende subsidies. We kijken breed, maar hebben één duidelijke grens: we blijven Europees. Er zal nooit een exit naar een Amerikaan of een Chinees plaatsvinden. Dat is een voorwaarde die hoe dan ook in steen gebeiteld staat."
Redactie: Kevin Krikhaar • Eindredactie: Monique van den Boomen • Headerafbeelding: gegenereerd met Google Gemini Nano Banana Pro
/i/2008032604.png?f=imagenormal)
:strip_exif()/i/2006815790.jpeg?f=imagenormal)