Het door TNO ontwikkelde Nederlandse taalmodel GPT-NL wordt niet volledig opensource. Het onderzoeksinstituut legt aan Tweakers uit dat het taalmodel vanwege subsidievoorwaarden niet zomaar volledig geopenbaard mag worden.
GPT-NL is een door de Nederlandse overheid gefinancierd project van 13,5 miljoen euro dat in 2023 werd aangekondigd. TNO ontwikkelt het samen met SURF en het Nederlands Forensisch Instituut als alternatief voor commerciële taalmodellen zoals ChatGPT. Omdat het project met subsidie gefinancierd is, moeten de makers aan bepaalde voorwaarden voldoen die het 'volledig opensource' maken van het gehele taalmodel mogelijk verhinderen.
Een woordvoerder van TNO legt uit: "Alle broncode en alle data die we mogen vrijgeven, zullen openbaar worden gepubliceerd onder een opensourcelicentie." Het is nog niet duidelijk onder welke opensourcelicentie de gegevens gepubliceerd gaan worden, maar het instituut benadrukt dat 'commercieel gebruik, hergebruik en aanpassing' hieronder mogelijk zullen zijn. Het project voor GPT-NL moet daarbij onder de subsidievoorwaarden wel de 'kosten voor de instandhouding en herinvesteringen in het trainen' van het model terugverdienen. Hieronder vallen bijvoorbeeld kosten voor dataleveranciers en de benodigde infrastructuur.
Het onderliggende taalmodel kan daarom 'niet zomaar onder een opensourcelicentie' worden aangeboden, aldus de woordvoerder. In plaats daarvan bieden de makers GPT-NL aan via een licentie voor commercieel gebruik of voor onderzoek. Hiervoor moet TNO weten wie het model gebruikt en daarvoor moet een 'juridische verbintenis' worden afgesloten. Het instituut onderzoekt naar eigen zeggen momenteel in hoeverre de subsidievoorwaarden het toelaten om specifiek de zogenoemde onderzoekslicentie gratis of voor een symbolisch bedrag aan te bieden. Het onderzoeksinstituut stelt dat de licentie hoe dan ook 'praktisch gratis' wordt. Gebruikers die op basis van de onderzoekslicentie toegang tot het model krijgen, zijn verplicht om hun onderzoeksresultaten te delen met de makers.
Het project GPT-NL richt zich specifiek op Nederlandse en Europese waarden, met striktere controle op trainingsdata en aandacht voor duurzaamheid. Het doel van de makers is naar eigen zeggen om 'alle code onder een opensourcelicentie' te publiceren. Dat moet in 2025 gebeuren, zo staat in het voortgangsrapport. Dat geldt dus voor de eerder genoemde broncode en alle data die vrijgegeven mag worden. "Alleen het taalmodel komt enkel onder de eerder genoemde onderzoekslicentie beschikbaar."