Door Kevin Krikhaar

Redacteur

Nederlandse GPT‑NL is klaar voor gebruik: 'Voldoet als enige taalmodel aan AVG'

26-02-2026 • 06:00

42

GPT-NL

Twee jaar geleden trok het ministerie van Economische Zaken en Klimaat 13,5 miljoen euro uit voor de ontwikkeling van een Nederlands AI-taalmodel, en nu is het zover: GPT-NL is klaar voor gebruik. Het llm, dat ontwikkeld is door onderzoeksinstituut TNO in samenwerking met SURF en het Nederlands Forensisch Instituut, moet onder meer universiteiten, onderzoekers en overheden een 'soeverein' alternatief bieden voor bestaande AI-tools.

TNO gaf zichzelf de taak om een AI-bot te maken die niet alleen Nederlands spreekt, maar ook zo privacyvriendelijk mogelijk is. Dat hield bijvoorbeeld in dat het model alleen gebruikmaakt van trainingsdata die verantwoord is verkregen. Dat lijkt te zijn gelukt, want afgelopen maand won GPT-NL een Privacy Award. De Nederlandse organisator van die prijs, Privacy First, omschreef GPT-NL als het 'eerste llm wereldwijd dat aantoonbaar voldoet aan de vereisten van de AVG'.

Tweakers sprak met TNO over hoe GPT-NL tot stand is gekomen en wat ervoor nodig was om het model zo privacyvriendelijk mogelijk te maken.

Behoefte aan soevereiniteit

Hoewel GPT-NL momenteel in de markt wordt gezet als een 'soeverein' alternatief voor taalmodellen van buitenlandse techbedrijven als Google en OpenAI, was dat voor TNO niet de voornaamste drijfveer om in 2023 een subsidieaanvraag te doen voor de ontwikkeling van een Nederlandse llm. Het idee ontstond toen TNO erachter kwam dat de eerste versies van ChatGPT de Nederlandse taal en cultuur nog niet helemaal begrepen. "Als je ChatGPT rond de initiële release vroeg om een aanbevelingsbrief te schrijven, kwamen er dusdanig overdreven jubelende woorden uit dat het klonk als een Amerikaan op speed", geeft Saskia Lensink, projectleider van GPT-NL, als voorbeeld. "En als je hem vroeg om een lekkernij te genereren, kwam de bot met een McDonald's-burger in plaats van een Nederlands raketijsje."

Inmiddels zijn de buitenlandse llm's een stuk beter geworden. Lensink geeft dan ook toe dat de kennis van de Nederlandse taal en cultuur inmiddels ook bij diensten als ChatGPT wel goed zit. Tweakers heeft eerder al in een vergelijkende test aangetoond dat je niet per se een Nederlands taalmodel nodig hebt om te weten welke hapjes er op een kringverjaardag thuishoren.

De afgelopen jaren is de soevereiniteit van digitale diensten steeds belangrijker geworden. Dat is nu ook vooral de aantrekkingskracht van GPT-NL, vindt Lensink. "Die kwestie speelt nu erg. We merken dat de behoefte vanuit organisaties dan ook vooral gericht is op die digitale autonomie en of wij een alternatief kunnen zijn voor andere llm's."

Gemini kringverjaardag
Een gemiddelde kringverjaardag volgens Google Gemini

Selectie van trainingsmateriaal

GPT-NL is niet alleen vanaf de grond opgebouwd in Nederland, maar moet zich ook aan de 'normen en waarden' van Nederland houden. Dat houdt volgens TNO in dat het taalmodel binnen de kaders van de wet opereert. Dat uit zich onder meer in de manier waarop het trainingsmateriaal wordt verkregen. De llm is deels getraind op auteursrechtenvrije content, die bijvoorbeeld onder een Creative Commons-licentie beschikbaar is gesteld. Het andere deel bestaat uit auteursrechtelijk beschermde content waarvoor TNO toestemming heeft verkregen.

Het gaat bijvoorbeeld om nieuwsartikelen van brancheorganisatie NDP Nieuwsmedia, waarvan onder meer De Telegraaf, NRC Handelsblad, het AD, NU.nl en RTL Nieuws lid zijn. Ook een deel van de collectie van onder meer de Koninklijke Bibliotheek, wetenschapsinstituut Naturalis en Officiële Bekendmakingen is met toestemming gescrapet. Sommige teksten zijn afkomstig uit Vlaanderen, maar de focus lag volgens TNO op Nederlandse content. "Daar valt nog wel winst te behalen", zegt Lensink. "Hoewel er in schrijftaal minder verschillen zijn dan in spreektaal, zou het goed zijn om in de toekomst meer Vlaamse data toe te voegen."

Het was voor TNO ook belangrijk dat er alleen 'feitelijke bronnen' aan het model werden gevoerd. Dat betekende dat content van roddelbladen werd geweerd. Ook zijn er geen informele teksten aanwezig in de trainingsdata. Dat was een bewuste keuze, zegt Lensink. "Het model is specifiek bedoeld voor zakelijke toepassingen, bijvoorbeeld bij de Rijksoverheid. Het soort taalgebruik dat je in een zakelijke context nodig hebt is specifiek. Informele teksten voegen daar weinig aan toe."

Geautomatiseerde Nederlandse data

Het gros van de Nederlandse data (24 miljard van de 29 miljard teksttokens) is afkomstig van bestaande bronnen, maar TNO heeft een gedeelte ook zelf gemaakt om ervoor te zorgen dat er meer Nederlandse tekst in de trainingsdata zit. Dat gebeurde onder meer door RDF-triples van Wikidata om te zetten in lopende tekst, of door transcripties van YouTube-video's met een CC BY-licentie te vertalen. Dat proces werd geautomatiseerd, al levert dat volgens Lensink niet de meest kwalitatieve data op. "We hebben er dan ook voor gezorgd dat niet het grootste gedeelte van de trainingsdata uit automatisch vertaalde content bestaat", zegt ze. "Ook lieten we vertaalde content minder vaak upsamplen dan handmatig gecreëerde teksten."

Ongeveer tien procent van de volledige dataset bestaat uit Nederlandstalige teksten. Dat klinkt wellicht weinig voor een model dat deels als doel heeft om de Nederlandse taal en cultuur beter te begrijpen. Volgens Frank Brinkkemper, de technische productmanager van GPT-NL, valt dat mee. "Procentueel is het aandeel Nederlands zo'n vijf keer groter in vergelijking met andere modellen", stelt hij. "Ook zijn de Nederlandse teksten vaker geupsampled dan de teksten in andere Germaanse talen."

Naast teksten bestaat de dataset ook voor ongeveer een kwart uit code met zeer vrije opensourcelicenties, zoals MIT en Apache 2.0. "Uit de literatuur blijkt dat dat helpt bij de redenatiekracht van het model", stelt Brinkkemper. "Het is dus niet de bedoeling dat je GPT-NL als codingmodel inzet. Ik zou het al knap vinden als hij een functie van drie regels zou kunnen vibecoden."

Het trainen van GPT-NL gebeurde op de Nederlandse supercomputer Snellius. Specifiek voor dit project is extra gpu-capaciteit toegevoegd voor AI-training, wat een groot deel van het budget voor GPT-NL opslokte. Er zijn 22 nodes toegevoegd met elk vier H100-gpu's van Nvidia. De pretraining nam in totaal negen maanden in beslag. Gedurende die periode mocht TNO exclusief gebruikmaken van die nodes. Nadat deze fase in december werd afgerond, is de finetunefase begonnen. De komende tijd wordt het model getest door tien niet-gespecificeerde organisaties, zowel publieke als private. Op basis van de feedback wordt het model verder gefinetuned.

Het is de bedoeling dat het model in het najaar breder wordt uitgerold. Tegelijkertijd krijgt GPT-NL een andere, nog onbekende naam. TNO had de domeinnaam van de huidige naam niet vóór de aankondiging geregistreerd, waardoor een andere partij die heeft vastgelegd.

Snellius
Snellius

GPT-NL wordt deels opensource

TNO is van plan om grote delen van GPT-NL in het najaar openbaar beschikbaar te maken. Zo komt de broncode beschikbaar op GitHub en komen de datasets met publieke content beschikbaar onder een open licentie. Van de auteursrechtelijk beschermde trainingsdata wordt de metadata vrijgegeven. De modelgewichten komen niet openbaar beschikbaar, maar zijn op verzoek beschikbaar via een betaalde licentie of een onderzoekslicentie.

Privacyvriendelijk uitgangspunt

Soevereiniteit is maar één aspect van GPT-NL. Er zijn ook andere Europese llm's die dat als uitgangspunt hebben. Wat volgens TNO wél uniek is aan GPT-NL, is dat dit tot dusver het enige taalmodel is dat aantoonbaar aan de Europese privacywetgeving voldoet. Daar won GPT-NL afgelopen maand ook een Privacy Award voor. De meeste andere llm's, waaronder het Franse Mistral, zijn vaag over de oorsprong van hun trainingsdata.

Het Zwitserse Apertus beweert ook veel aandacht te hebben besteed aan het ethisch vergaren van trainingsdata, maar Brinkkemper stelt dat TNO nog conservatiever is geweest wat copyright betreft. "We hebben zelfs geen content van het internet meegenomen waarvan de licentie onduidelijk was. We hebben alleen content gebruikt waarvoor expliciet toestemming is gegeven via een CC-licentie."

Dit nauwkeurige selectieproces heeft volgens TNO als voordeel dat het vrijwel uitgesloten is dat er geïnfecteerde documenten in de dataset belanden. Dat zijn documenten met verborgen instructies, bedoeld om een AI-model te ontregelen of volledig onbruikbaar te maken. Uit onderzoek van Anthropic blijkt dat er maar zo'n 250 geïnfecteerde documenten nodig zijn om een llm kwetsbaar te maken, ongeacht de omvang van het model.

Ook de privacyfiltering is bij GPT-NL een stuk robuuster, stelt Lensink. "Veel modellen filteren privacygevoelige informatie uit trainingsdata op basis van regex, oftewel vaste patronen. Daarmee kun je vrij eenvoudig e-mailadressen en IBAN-nummers herkennen. Wij zijn veel rigoureuzer te werk gegaan om filters zo op te bouwen dat ook onder meer namen van niet-publieke personen, burgerservicenummers en adressen werden gedetecteerd en weggefilterd."

Anthropic sleeper agent
Een relatief onschuldig voorbeeld van een geïnfecteerd bestand, dat een taalmodel onzintekst laat genereren. Bron: Anthropic

Drie usecases

Door het relatief krappe budget van 13,5 miljoen euro werd TNO gedwongen om keuzes te maken om de omvang te beperken, waaronder de eerdergenoemde focus op de zakelijke markt. Ook werd daarom besloten om GPT-NL toe te spitsen op drie specifieke usecases: samenvatten, simplificeren en opereren binnen een RAG-context. Dat laatste houdt in dat het taalmodel een interne database kan doorzoeken om vragen te beantwoorden.

Het model is dus niet bedoeld als concurrent voor de algemene taalmodellen van bedrijven als OpenAI en Google. Met 26 miljard parameters is GPT-NL een stuk kleiner dan zulke manusjes-van-alles, die vaak meer dan 100 miljard parameters bevatten. Toch stelt TNO dat GPT-NL met deze drie kernfunctionaliteiten dicht in de buurt komt van de prestaties van GPT‑3.5, en dat voor een fractie van de kosten.

Het model heeft ook buiten Nederland de aandacht getrokken, vertelt Lensink. "We zijn al uitgenodigd in België, Ierland en Denemarken om te vertellen over ons initiatief. We zijn ook aan het kijken of er naast de Nederlandse markt logische vervolgstappen in het buitenland te nemen zijn. Overal waar Nederlands of Engels wordt gesproken, kan deze eerste versie van het model al waarde toevoegen."

TNO heeft daarnaast de ambitie om een opvolger van GPT-NL te ontwikkelen, die voor meer taken gebruikt kan worden, waaronder function calling, en meerdere talen ondersteunt. Daar is ook 'minimaal' tien keer zoveel budget voor nodig. "We zijn naar allerlei soorten financieringsmogelijkheden aan het kijken", zegt de projectleider. "Denk aan geldschieters of aanvullende subsidies. We kijken breed, maar hebben één duidelijke grens: we blijven Europees. Er zal nooit een exit naar een Amerikaan of een Chinees plaatsvinden. Dat is een voorwaarde die hoe dan ook in steen gebeiteld staat."

Redactie: Kevin Krikhaar • Eindredactie: Monique van den Boomen • Headerafbeelding: gegenereerd met Google Gemini Nano Banana Pro

Reacties (42)

Sorteer op:

Weergave:

Oke:
Ook werd daarom besloten om GPT-NL toe te spitsen op drie specifieke usecases: samenvatten, simplificeren en opereren binnen een RAG-context. Dat laatste houdt in dat het taalmodel een interne database kan doorzoeken om vragen te beantwoorden.

Het model is dus niet bedoeld als concurrent voor de algemene taalmodellen van bedrijven als OpenAI en Google. Met 26 miljard parameters is GPT-NL een stuk kleiner dan zulke manusjes-van-alles, die vaak meer dan 100 miljard parameters bevatten. Toch stelt TNO dat GPT-NL met deze drie kernfunctionaliteiten dicht in de buurt komt van de prestaties van GPT‑3.5, en dat voor een fractie van de kosten.
Dit is heel mooi en ook goed om daar wag meer context bij te geven.


RAG is hierin een mooie usecase omdat het voor bedrijven nu dus een manier geeft om zelf een goeie AI neer te zetten voor interne help desk die dus goed omgaat met AVG zaken, maar ook om eventueel naar buiten to een hulp product te leveren wat dus niet is getraind met data waar dat niet op had mogen gebeuren. Dit vangt echt een groot stuk liability af.


Daarnaast is het ook een model wat dus niet heel groot is en lekker specifiek. Ik heb er al wat doeleinden voor die mooi in het straatje passen om eerlijk te zijn.


Ik hoop dan oom dat we dit model snel lokaal kunnen draaien. Eventueel met licentie voor zakelijk gebruik.
Volgens mij is alleen de trainingsdata voor dit model AVG-compliant gemaakt. Bij gebruik van het model moet de gebruiker toch nog steeds erop letten dat er niet in strijd met de AVG wordt gehandeld.
Wow, EINDELIJK. Hoeveel bedrijven er wel niet van uitgaan dat als de SaaS provider compliant is, jij ook compliant bent.
Zeker! Maar dat het model ook niet stiekem gegevens van mensen op kan hoesten omdat het in trainingsdata daar ook mee heeft leren omgaan is een ander verhaal.

Uiteraard zul je je RAG data en systeemprompt wel AVG proof moeten maken. Je context engineering is ook gewoon op basis van wat het bovenliggende systeem mag gebruiken voor die specifieke gebruiker. Anders krijg je dus die oversharing problematiek waar de interne mailwisseling van de CEO ineens ook voor andere medewerkers of zelfs publiek beschikbaar is.
Hoe is dit model zakelijk interessant? Gpt 3.5 is echt hopeloos achterhaald.. coherentie is laag, hallucinatie is een probleem.. Vergelijk dit met Opus 4.6 van dit moment en met minder neem je toch geen genoegen?

Gpt-3.5 was "leuk" maar slecht genoeg om veel mensen nog het gevoel te geven dat ai nog niet echt heel bruikbaar was. Waar ik nu mee werk is een IQ 160+ peer programmer die mensenjobs van 2 dagen werk one-shot in 5 minuten. Wat dat betreft lijkt gpt-3.5 echt het retarded broertje verworden.

Als je die ervaring nog niet hebt dan snap ik best dat je nog optimistisch kan zijn.
Waar ik nu mee werk is een IQ 160+ peer programmer die mensenjobs van 2 dagen werk one-shot in 5 minuten
Ik weet niet wat voor programmeer werk je doet, maar als ik de laatste LLM gebruikt maakt hij nog steeds meer fouten dan het mij zelf kost als ik zonder de LLM programmeer. Voor standard boiler plate is hij inderdaad erg goed, maar zodra ik wat specifieks wilt moet ik het toch echt zelf doen.
Misschien eens een andere workflow proberen. Over het algemeen heb ik het gevoel dat de kwaliteit redelijk goed is als je het juiste erin stopt. Je moet hem wel actief sturen en het eerste antwoord niet perse geloven (inhoudelijke kennis)
Full-stack webdevelopment (react/node etc) + DevOps (ansible, ci/cd scripting, Bash etc).

Tja wat kan ik zeggen.. misschien ligt het aan de manier waarop je prompt? Ik gebruik het voor alles, refactoring, unit testing, query optimalisatie, bug hunting, scaffolding, feature vibe-coding.. etc etc. ik geef dat ding ook gewoon ssh root op de devserver.. "doe maar ff haproxy config opruimen etc"..

Opus 4.6 is echt 🤯.. kost wat.. maar dan heb je ook wat.
Als je gebruik maakt van een llm in je software, dan is het vaak niet nodig om het top model te gebruiken. Alleen al om de kosten. Een goedkoop llm kan best een prima samenvatting maken, of beslissingen nemen over gecomplexe zaken. Het gaat om de grootte van de context.
Alleen al omdat er geen privacy schendende zaken in zitten. Hier is hard op ingezet.

Niet dat het gaat gebeuren, maar mòcht de EU een keer terecht hard ingrijpen op AI waarvan de bronnen niet bekend zijn of zelfs illegaal, dan blijft deze gewoon werken.


Daarnaast kent het de Nederlandse en West-Europese zaken zeer goed. Het is geen manusjevanalles. Dat zorgt voor specifieke usecases waar het juist erg goed in is. Waaronder dus ambtenaren ondersteuning. Volgens mij is deze niet bedoeld voor programmeurs, en dat is prima, daar zijn andere voor.
Mistral is redelijk goed en Europees. Ik zou Europees gaan omdat ik vind dat we met ze alle actief geld moeten investeren in Europese bedrijven. Maar realistisch zie ik zakelijk vooral OpenAI en Claude.
RAG is hierin een mooie usecase omdat het voor bedrijven nu dus een manier geeft om zelf een goeie AI neer te zetten voor interne help desk die dus goed omgaat met AVG zaken, maar ook om eventueel naar buiten to een hulp product te leveren wat dus niet is getraind met data waar dat niet op had mogen gebeuren. Dit vangt echt een groot stuk liability af.
Welke liability? Ga je nu zeggen dat werkelijk iedereen die ChatGPT of Claude gebruikt liabel is? Dat is echt niet zo.

De hele wereld heeft allang besloten dat die modellen zo getraind mogen worden. Wat Nederland zelf ook vind.
Waarom voldoet dit taalmodel als enige aan de AVG? Ik dacht dat Le Chat ook voldeed.
Volgens mij wijkt AVG op een paar puntjes af van de GDPR.
Omdat ze met de "hand" alle data hebben geselecteerd en opgeschoond. Het is dus AVG en flink gecensureerd. Bij automatisch opschonen zoek je naar patronen en vervang je die. Dit vind bijv wel info.test@bla.nl maar niet info . test @ bla.nl


Hun AVG opmerking gaat over de data en niet een eventuele dienst die ze leveren zoals Le Chat dat is.
Als dit het enige model is dat aan de AVG voldoet, waarom zijn andere modellen dan nog actief in de EU?
Ik vind dit wel een goede vraag. Let wel: Ik weet het ook niet, maar wat ik vermoed is "aan de AVG voldoet" voor een LLM eigenlijk niet zo heel boeiend - als het om het gebruik gaat.

Stel jij tankt brandstof bij een tankstation wat zich niet aan de AVG houdt, dan heeft dat niet impact op de brandstof zelf. Ik vermoed dat iets soortgelijks geldt voor een LLM. Ook al train je die op data die verkregen is die niet AVG-compliant zijn, dan is nog maar de vraag of dat echt impact heeft op de resultaten van je LLM. Misschien dat er eens een naam op-popt als de LLM weer eens aan hallucineren is, of een geboorte-datum o.i.d., maar verder?

Dat maakt het natuurlijk niet allemaal goed, maar Pandera's box is allang open. We weten allang dat al die grote LLM's ook trainingsdata gebruikt hebben die ze eigenlijk niet hadden mogen hebben. C'est ca.

Ik ben wel nieuwsgierig naar deze GPT-NL. Niet zozeer om de kwaliteit, ik vermoed dat die echt niet beter is dan modellen waar een veelvoud van data en geld ingepompt is. Maar als het model kleinschalig genoeg is dan kan het verdomd handig zijn om binnen een bedrijf als lokaal-model te draaien!
Dat maakt het natuurlijk niet allemaal goed, maar Pandera's box is allang open. We weten allang dat al die grote LLM's ook trainingsdata gebruikt hebben die ze eigenlijk niet hadden mogen hebben. C'est ca.
De doos van Pandora kan in deze prima gesloten worden. Stel organisaties die een aanwezigheid hebben in de EU aansprakelijk voor gebruikte data in hun modellen. Laat die dit verantwoorden. GPT-NL toont aan dat het kan.
Vraag 1 is dan of dat op deze zaken het een "onschuldig tot het tegendeel bewezen is", of andersom. En ja er bestaan zaken waarbij je moet bewijzen dat je volgens de wet handelt, maar vaak moet natuurlijk de aanklager bewijzen dat de verdachte iets fouts heeft gedaan.

Vraag 2 is wie er verantwoordelijk wil zijn voor een gerede kans dat de EU economische zelfmoord pleegt. Want natuurlijk zijn er de onderzoeken waaruit blijkt dat LLMs zeker geen gegarandeerde productiviteitsverbetering opleveren. Tegelijk is het toch ook wel duidelijk ondertussen dat er best zaken zijn waarbij ze echt zowel consumenten als bedrijven enorm kunnen helpen. Als je dan elk model hier gaat verbieden hier (je behalve dit beperkte model), wat voor een enorme schade veroorzaak je dan aan de Europese economie?
Vraag 1 is dan of dat op deze zaken het een "onschuldig tot het tegendeel bewezen is", of andersom. En ja er bestaan zaken waarbij je moet bewijzen dat je volgens de wet handelt, maar vaak moet natuurlijk de aanklager bewijzen dat de verdachte iets fouts heeft gedaan.
Bedrijven moeten in de context van AVG al zaken doen om hun onschuld te bewijzen. Dit zou een verlengde daarvan zijn.
Vraag 2 is wie er verantwoordelijk wil zijn voor een gerede kans dat de EU economische zelfmoord pleegt. Want natuurlijk zijn er de onderzoeken waaruit blijkt dat LLMs zeker geen gegarandeerde productiviteitsverbetering opleveren. Tegelijk is het toch ook wel duidelijk ondertussen dat er best zaken zijn waarbij ze echt zowel consumenten als bedrijven enorm kunnen helpen. Als je dan elk model hier gaat verbieden hier (je behalve dit beperkte model), wat voor een enorme schade veroorzaak je dan aan de Europese economie?
Dat argument kan voor van alles bedacht worden: milieu en klimaat, mensenrechten, dierenwelzijn, ... Je kan overal de standaarden voor opofferen op het altaar van het neoliberalisme voor de allerheiligste economie.
Dat laatste wordt dan ook gedaan continue natuurlijk. Als je niks wil opofferen voor eg milieu en leefomgeving, dan moet je per direct elke vorm van gemotoriseerd verkeer verbieden. En toch doen we dat niet. Dan kan je wel de standaard dooddoener van AWM erin gooien, "het is de schuld van de neoliberalen!", maar los van de preciese invulling van onze economie (waarbij je echt bij de SP of nog links daarvan moet zijn wil je grootschalig markwerking weghalen), wil iedereen dat gemak. En willen we allemaal een economie. Anders ben je ook heel snel uitgepraat over wie de hogere zorgkosten moet betalen, want dan is er niemand om die hogere zorgkosten te betalen.

Als je kijkt naar de grootste uitgaven van de overheid, dan zijn dat zorg, onderwijs en sociale zekerheid. Dat kost een hoop geld. Als je de economie om zeep helpt is dat geld er niet meer, dus daar zal dan bezuinigd moeten worden. En natuurlijk kan je het hebben over welke impact die economie om alles eromheen mag hebben. Maar het gaat wel altijd impact hebben, anders is er nog een gigantische lijst andere zaken die je kan gaan verbieden voordat je bij de AVG compliance van LLMs uit komt.
Maar data is juist waar de modellen op draaien. Zowel wat de gebruiker als input geeft als hoe het model is getraind. Het is alsof het tankstation uit jou voorbeeld bewust gesanctioneerde brandstof uit Rusland verkoopt, daar dient de overheid ook in te grijpen,
Haha. 90% van de applicaties voldoet niet volledig aan de AVG. Maar laten we soms ook stoppen met die onzin om moeilijk te doen over het ontbreken van diagnostische data bij inzageverzoeken.. Dan kijk ik even met een schuin oog naar Surf-DPIA’s.
Ik snap ook niet wat ze bedoelen. Bedoelen ze dat de traininsdata legitiem verkregen is? En zo ja wat is de relatie daarmee met AVG?

AVG gaat toch over jouw persoonsgegevens ik snap niet wat een model daar mee moet?
Gaaf deze ontwikkeling. Anderzijds bekruipt toch een beetje het gevoel van too little too late. Ben benieuwd naar die tien organisaties. Vermoedelijk overheidsorganen.
Hoezo too little too late? In onze bubbel zijn llm's al gemeengoed maar daarbuiten nog echt niet.
Grappig hoe tno beweert dat ze alleen zakelijke teksten wilde omdat inforle texten niet bij de overheid thuidhoren

En dat alles in het licht van 'klare taal' een project waarin de overheid en de rechtspraak de afgelopen jaren keihard werken aan de verspimpeling van taal in rechtelijke uitspraken of in besluitrn van overheden en zelfs bij het schrijven van wetten (onder andere de algemene wet bestuursrecht) en ook in de aankomende wijzigingen in het wetboek van strafrecht naar ik heb vernomen
Precies dit en dan ook nog eens veel baseren op teksten van nieuws organisaties. Laat nu net een groot deel van de mensen die veel geconfronteerd worden met overheidscommunicatie een hekel hebben aan de manier van schrijven en aan main stream media. :+
Jammer dat de weights niet openbaar zijn. Er is publiek geld in gestoken en de datasets zijn openbaar. Er zal geen bedrijf zijn die die dataset weer gebruikt om een zelfde model te trainen terwijl finetunen aan de hand van de weights kan zorgen voor verdere verbetering.
Leg eens uit waarom een model AN SICH AVG-compliant kan zijn? Als alles wat erin en eruit gaat binnen beheer blijft is het toch goed, of bedoelen ze eigenlijk het model + hosting?
Er zit in inderdaad in Wikidata behoorlijk wat data wat onder de AVG zou kunnen vallen, afhankelijk van hoe het gebruikt wordt. Ben ook benieuwd.
Ze hebben het over de licenties en het copyright van de trainingsdata. Wat dat met de AVG te maken heeft weet ik ook niet.

Ook wel weer erg typisch Nederlands om zo extreem braaf te zijn tov de rest van de wereld weer...
Zou mooi zijn als de nederlandse industrie met kritiek belang dat geld inlegde, zoals banken, asml, etc.

Gpt-nl lanceren zonder eerst de domein naam te registreren is best een misser, hoor!

Even grappig is dat een nederlandse organisatie die blij is met een nederlands taalmodel dat door nederlanders is ontwikkeld, een engelse naam heeft.

Ik hoop dat we de belgen er snel bij aan boord krijgen, wellicht via de benelux of zelfs de taalunie.
Even grappig is dat een nederlandse organisatie die blij is met een nederlands taalmodel dat door nederlanders is ontwikkeld, een engelse naam heeft.

Ik hoop dat we de belgen er snel bij aan boord krijgen, wellicht via de benelux of zelfs de taalunie.
Net zoals de grootste en populairste techsite van Nederland
'Schat' lijkt me wel een mooie naam :)
Dat gebeurde onder meer door RDF-triples van Wikidata om te zetten in lopende tekst
Altijd leuk als je werk hergebruikt wordt.

Om te kunnen reageren moet je ingelogd zijn