TNO: Nederlands GPT-NL-taalmodel wordt niet volledig opensource vanwege subsidie

Het door TNO ontwikkelde Nederlandse taalmodel GPT-NL wordt niet volledig opensource. Het onderzoeksinstituut legt aan Tweakers uit dat het taalmodel vanwege subsidievoorwaarden niet zomaar volledig geopenbaard mag worden.

GPT-NL is een door de Nederlandse overheid gefinancierd project van 13,5 miljoen euro dat in 2023 werd aangekondigd. TNO ontwikkelt het samen met SURF en het Nederlands Forensisch Instituut als alternatief voor commerciële taalmodellen zoals ChatGPT. Omdat het project met subsidie gefinancierd is, moeten de makers aan bepaalde voorwaarden voldoen die het 'volledig opensource' maken van het gehele taalmodel mogelijk verhinderen.

Een woordvoerder van TNO legt uit: "Alle broncode en alle data die we mogen vrijgeven, zullen openbaar worden gepubliceerd onder een opensourcelicentie." Het is nog niet duidelijk onder welke opensourcelicentie de gegevens gepubliceerd gaan worden, maar het instituut benadrukt dat 'commercieel gebruik, hergebruik en aanpassing' hieronder mogelijk zullen zijn. Het project voor GPT-NL moet daarbij onder de subsidievoorwaarden wel de 'kosten voor de instandhouding en herinvesteringen in het trainen' van het model terugverdienen. Hieronder vallen bijvoorbeeld kosten voor dataleveranciers en de benodigde infrastructuur.

Het onderliggende taalmodel kan daarom 'niet zomaar onder een opensourcelicentie' worden aangeboden, aldus de woordvoerder. In plaats daarvan bieden de makers GPT-NL aan via een licentie voor commercieel gebruik of voor onderzoek. Hiervoor moet TNO weten wie het model gebruikt en daarvoor moet een 'juridische verbintenis' worden afgesloten. Het instituut onderzoekt naar eigen zeggen momenteel in hoeverre de subsidievoorwaarden het toelaten om specifiek de zogenoemde onderzoekslicentie gratis of voor een symbolisch bedrag aan te bieden. Het onderzoeksinstituut stelt dat de licentie hoe dan ook 'praktisch gratis' wordt. Gebruikers die op basis van de onderzoekslicentie toegang tot het model krijgen, zijn verplicht om hun onderzoeksresultaten te delen met de makers.

Het project GPT-NL richt zich specifiek op Nederlandse en Europese waarden, met striktere controle op trainingsdata en aandacht voor duurzaamheid. Het doel van de makers is naar eigen zeggen om 'alle code onder een opensourcelicentie' te publiceren. Dat moet in 2025 gebeuren, zo staat in het voortgangsrapport. Dat geldt dus voor de eerder genoemde broncode en alle data die vrijgegeven mag worden. "Alleen het taalmodel komt enkel onder de eerder genoemde onderzoekslicentie beschikbaar."

Door Redactie Tweakers

30-01-2025 • 16:11

138

Reacties (138)

138
137
66
13
0
65
Wijzig sortering
GPT-NL betaalt de data-leveranciers, wat op zich wel een nobel doel is. Maar deze situatie is er wel het gevolg van.

Het grote probleem is natuurlijk om kwalitatieve data te vinden. Er zijn in het Nederlands niet zo veel opties, vooral scraped data of bijv. boeken met alle copyright-problemen van dien. Deze week is een ander Nederlands model ook offline gehaald door Stichting Brein omdat dat getraind werd op auteursrecht-beschermd materiaal. Daardoor zijn er nu eigenlijk nog maar twee Nederlandse modellen met open source-gewichten: Fietje-2b en mijn tweety-7b-dutch. Beide zijn best klein qua aantal parameters, dus een groter volledig open source-model zonder data-issues zou zeker welkom geweest zijn.
Wij mikken op 20B model op basis van 300B tokens
dat is wel een mooi formaat, lekker stevig maar ook nog goed zelf te draaien :)
Mja dat kan je dus vergeten als het niet publiek uitgebracht wordt :'(

Tenzij het gelekt wordt net zoals de eerste llama.
Is het aantal tokens tov het aantal parameters niet aan de lage kant? Volgens de Chinchilla scaling laws is het aantal tokens 20x tov aantal parameters. Als we naar de laatste modellen kijken is deze verhouding een stuk hoger.
De data-kwaliteit is wel stukken hoger dan de meeste corpussen. Heel veel tijd en energie gaat naar data cleaning pipelines, maar GPT-NL heeft dankzij hun data-agreements waarschijnlijk een hele boel mooie teksten zonder scraping articacts.
Echt heel typisch weer. Gooi het gewoon op het web en laat mensen innoveren zonder al dat lint eromheen
Nederland (en breder Europa) laat keer op keer zien dat ze liever regulieren dan innoveren. Wij mogen met jip en janneke taalmodellen aan de bak waar de rest van de wereld door kan innoveren zonder de bureaucratie en belemmeringen "die wij als maatschappij zo waardevol vinden".
Dat kan niet als je ook de makers van de data die noodzakelijk is voor je model een eerlijke prijs geeft.
Wie geeft die subsidie? De overheid.
En wie betaald dat? Wij allemaal.
Daar hebben ze een mooie uitdrukking voor "Public Money, Public Code".
En dat is dus ook de reden dat het voor onderzoeksdoeleinden practisch gratis is. Onze data-leveranciers (wat ook commerciele bedrijven zijn) geven nou eenmaal niet hun data gratis in licentie. Die kosten moeten wij aan iemand of iets doorrekenen. En we hebben er voor gekozen om die rekening bij commerciele exploitatie van ons model te leggen. We hadden het ook helemaal gratis kunnen doen, maar dan hadden we een veelvoud aan budget moeten ontvangen om al die licentiedeals voor de eeuwigheid af te kopen.
Gratis != open. Natuurlijk is het goed dat het gratis of "praktisch gratis" beschikbaar is voor onderzoek. Maar het is wel beperkend dat je daarvoor een "juridische verbintenis" moet aangaan, die je o.a. verplicht je onderzoeksresultaten te delen. Ik kan me voorstellen dat dat een behoorlijke drempel kan zijn. En dan zijn er nog een hele groepen die sowieso uitgesloten worden: hobbyisten, open source projecten en scholen. Die zullen geen budget hebben om een commerciële licentie te nemen, maar hebben ook geen onderzoeksresultaten om te delen.

Ik begrijp de constructie, maar ik vind het geen goede oplossing. In principe moet de overheid in de buidel tasten en het trainen van het model voor de komende 10 jaar (of meer) bekostigen. Met als doel om te zorgen dat Nederland niet achterop raakt en iedereen, zonder verdere voorwaarden, toegang heeft tot een goed, Nederlands taalmodel. Als de overheid dat niet wil, dan zou als alternatief gezocht kunnen worden naar een coalitie van bedrijven die dit belang onderschrijven en daarom hun data voor dit doel gratis beschikbaar stellen. Dat zou bijvoorbeeld kunnen door alleen het getrainde model gratis en open te delen, en niet de input data.
Probleem is dat er een aantal bedrijven zijn met zeer veel data, die er helemaal niet op zitten te wachten dat het model gratis wordt. En dat soort bestanden met data aankopen kost in de orde van 100M€. Dat lijkt mij een nogal grote gok.

En iedereen kan onderzoeksresultaten delen, er staat ook expliciet niet dat het gaat om academisch of wetenschappelijk onderzoek. Jouw ervaringen kunnen ook waardevol zijn.
Nogmaals, ik begrijp de dilemma’s. Het kan best zijn dat dit het hoogst haalbare is op dit moment. Maar het is alsnog onvoldoende!

Als Nederland en Europa moeten we als de wiedeweerga zorgen dat we minder afhankelijk worden van de VS. Winst op korte termijn voor enkele bedrijven zou daar ondergeschikt aan moeten zijn.

Als Nederland zijn we gebaat bij een goed taalmodel dat zo laagdrempelig mogelijk beschikbaar is. Daar zou de overheid meer geld in moeten steken. En als de overheid het niet doet, dan de gezamenlijke bedrijven: zij kunnen er voor kiezen voor dit doel een uitzondering te maken en niet zulke hoge licentiekosten te rekenen.
Is er een lijst van deze data-leveranciers beschikbaar? Zijn er ook bij die teksten wel gratis delen? En is het mogelijk voor private partijen waar jullie nog niet mee spreken, hun eigen data met jullie te delen? Bijvoorbeeld een lokaal weekblad dat het archief van de afgelopen 30 jaar beschikbaar kan stellen?
Die gaan we de komende maanden naar buiten brengen; en het is inderdaad nog mogelijk om in te stappen. Met een archief van 30 jaar, maar ook voor een schrijver met een enkel boek.
Ik heb inderdaad het gevoel dat er iets mist in dit artikel. Waarom is er alleen gebruik mogelijk door commerciele bedrijven omdat er dingen terugverdiend moeten worden? Dan klikt het niet als een subsidie, maar meer als een lening. Ik begrijp de tekst niet.
Er staat dat de kosten voor instandhouding en herinvestering terugverdiend moeten worden. Dus niet die van de initiële investering.

M.a.w.: Subsidie verstrekker zegt: na deze initiële subsidie moeten jullie je eigen boontjes gaan doppen. En daar zijn inkomsten voor nodig.
Het grote voordeel is dat er, na de initiële investering door de overheid, een werkend NL-model beschikbaar komt, en blijft, op basis van data van partijen die er ook nog eens netjes voor gecompenseerd worden, in plaats van het rippen van datasets waarbij geen oog is voor auteursrecht en intellectueel eigendom.

Op deze wijze heb je een verdienmodel dat duurzaam is (d.w.z. commerciële gebruikers financieren het gebruik), aanleverende partijen die netjes gecompenseerd worden voor hun gecreëerde content, en de verplichting voor onderzoeksinstellingen om (voor een praktisch gratis gebruik) hun resultaten weer te delen.

Dit lijkt mij een prima opzet, zeker in vergelijking met veel andere ontwikkelingen van dergelijke LLMs.
Kun je het model wel lokaal draaien?
Cool! Dan zie ik het wel terug komen op ollama.com :-)
Er staat niet dat alleen commerciële bedrijven het mogen gebruiken. Er staat dat commercieel gebruik mag, niet moet.
Zoals ik het lees willen ze voorkomen dat commerciële organisaties het zomaar overnemen en weer geld mee verdienen, zonder dat doe belastingbetaler (waar jij het over hebt) er iets voor terugkrijgt. Dus door er geld voor te krijgen (en zoveel lijkt dat niet te zijn in het artikel), wordt die subsidie terugbetaald aan de overheid. Waardoor jij weer iets minder belasting hoeft te betalen.
Het is juist fijn als er commerciele partijen iets mee gaan doen; want dat is volgens mij het hele idee van dit (open)model: dat er toepassingen komen die waarde hebben voor gebruikers. Het ergste zou zijn als er niemand iets mee doet, want dan is het weggegooid geld geweest. (nouja, subsidie voor TNO medewerkers)

Nederland heeft al een achterstand op de grote engelstalige modellen; het beste wat de overheid kan doen is *juist* alles gratis en open beschikbaar stellen; fantastisch als er bedrijven mee verder gaan en daarmee extra geld (=extra belasting) verdienen.

Dit krampachtige "het moet zichzelf terugverdienen" doen we ook niet met (de meeste) infrastrucuur; dat zorgt er gewoon voor dat wij als land er beter voor komen te staan. Zo zie ik GPT-NL ook: kritische infrastructuur zodat NL mee kan blijven doen met de AI ontwikkelingen, en daar in de verschillende sectoren vruchten van kan plukken.
Op zich heb je helemaal gelijk, wij willen graag dat commerciele partijen er iets mee doen. Net zoals dat wij graag willen dat onderzoekers er mee aan de slag kunnen. Onze subsidie was enkel niet toereikend om alle data die we nodig hebben ook te "kopen". Dat betekent dus dat we de data aanbieders een andere deal moeten bieden, namelijk dat ze meeprofiteren van commerciel gebruik. en daarmee kan het dus niet gratis worden aangeboden.
Maar dat is toch juist het hele idee van subsidies? Economie aanwakkeren, ontwikkeling stimuleren, etcetera.

Er zal vast een juridische grondslag onder liggen. Maar de onderbuik vind 't maar niks, dit soort beperkingen.
De subsidie komt uit een selecte groep, niet het algemene publiek. De economie aanwakkeren is niet gericht op de algemene economie, eerder de economie van de selecte groep. Dus de stelling public money, public code heeft het over twee verschillende groepen. Dan zijn er dus ook grenzen aan het publiek maken te verwachten. Omdat grenzen aan het volledig publiek gebruik in de praktijk niet zomaar te handhaven zijn en de gevolgen onacceptabel om de investering te verantwoorden.

[Reactie gewijzigd door kodak op 30 januari 2025 17:20]

Ik heb geen idee van de al bestaande discussie over "Public money, public code" (en ik ben nu een beetje te lui om de Googelen/het aan welke AI dan ook te vragen ;)), dus sorry als ik hier een beetje naïef klink ofzo haha.
De subsidie komt uit een selecte groep, niet het algemene publiek.
Dit begrijp ik al niet: subsidie = geld van de overheid = geld van ALLE belastingbetalers in NL? Welke selecte groep die deze subsidie zou betalen bedoel jij dan? Of zijn alle NL belastingbetalers een selecte groep tov de rest van de wereld? En dat openbaring van de code in het voordeel is van de hele wereld ipv alleen de NL-belastingbetaler? Want dan bedoelen we inderdaad hetzelfde ;).
Omdat grenzen aan het volledig publiek gebruik in de praktijk niet zomaar te handhaven zijn en de gevolgen onacceptabel om de investering te verantwoorden.
Dit snap ik niet zo goed. Omdat je principieel wél de code openbaar wil hebben, maar je vervolgens niet kan handhaven wie precies met de code aan de haal gaat, moet je die hele subsidie maar niet geven? Dat weet ik niet. Als de belastingbetaler (of meer algemeen de NL bevolking) er gewoon baat bij heeft (of het nou open source wordt en je niet kan handhaven of dat het closed source blijft), dan valt er wel wat voor te zeggen dat we dit alsnog doen. Is open source code (als het van belastinggeld komt) een middel om iets te bereiken, of een doel op zich? Want dan lijkt het het laatste te zijn.
Als gegevens publiek gemaakt worden dan is het in principe beschikbaar voor de hele wereld. En dat is niet zomaar de bedoeling van subsidie.

Als de subsidie vooral als doel heeft de algemene wetenschap in de wereld te bevorderen, of als algemene ontwikkelingshulp, dan zijn er duidelijke doelen om het vooral publiek te maken. Maar deze subsidie gaat kennelijk als eerste om de eigen economie te helpen, waarna het later alsnog publiek gemaakt kan worden.
Wat een lulverhaal. Subsidie komt van onze verkozenen, dus helemaal niet een beperkte groep, maar van ons allemaal.
Alleen bestaat niet de hele wereld uit belastingbetalers aan Nederland. Maar die mensen en bedrijven kunnen wel profiteren van de publieke gegevens, wat in dit geval juist niet de belangrijkste bedoeling is van de subsidie.
Op zich is dat ook gek natuurlijk, bedrijven betalen ook de nodige belastingen. Uiteindelijk worden die ook door klanten betaald maar toch vind ik het gek dat er zo moeilijk wordt gedaan over het profiteren van iets waar we allemaal al lang voor betaald hebben.

De open source modellen uit China en Amerika die niet zo duurzaam en gecontroleerd zijn getrained kunnen ook Nederlands en zijn wel gratis te gebruiken zonder gedoe. Ik vind dat de overheid zich zo alleen maar in de voet schiet, want nadat ze zo hard hun best gedaan hebben om een model volgens redelijke normen te trainen maken ze het aantrekkelijk voor bedrijven om die normen te negeren.
Zoals ik het lees willen ze voorkomen dat commerciële organisaties het zomaar overnemen en weer geld mee verdienen, zonder dat doe belastingbetaler (waar jij het over hebt) er iets voor terugkrijgt.
Hoeveel krijgen belastingbetalers terug van publieke code die in andere landen wordt ontwikkeld met belastinggeld uit die landen?
Dus door er geld voor te krijgen (en zoveel lijkt dat niet te zijn in het artikel), wordt die subsidie terugbetaald aan de overheid. Waardoor jij weer iets minder belasting hoeft te betalen.
Als het niet veel is, dan kan het ook niet veel belasting kosten om het wel opensource te maken.

Eens met @w3news met de bekende uitspraak: Public money, public code.

[Reactie gewijzigd door The Zep Man op 30 januari 2025 16:46]

Linux bijvoorbeeld heeft ook een subsidie gehad van Duitsland. Dus dit gebeurt zeker
Dat snap ik op zich wel, gezien Duitsland denkt van microsoft op de desktop af te komen :)
Dus indirect verdient dat zich terug.
De data (en dus ook het resulterende model) afkopen kost meer dan 100M€
Wie geeft die subsidie? De overheid.
En wie bepaalt dus de voorwaarden waaronder die subsidie gegeven wordt?
Het project voor GPT-NL moet daarbij onder de subsidievoorwaarden wel de 'kosten voor de instandhouding en herinvesteringen in het trainen' van het model terugverdienen. Hieronder vallen bijvoorbeeld kosten voor dataleveranciers en de benodigde infrastructuur.
Gemaakt door publieke gelden, maar wel met doel om daarna zelfstandig doorontwikkeld te kunnen worden. Met een publieke model verdien je geen geld en kun je dus niet aan de voorwaarden voldoen. Dus kun je het model niet (zomaar) publiek maken.
Als het doel van de subsidie is in de economie van Nederland te stimuleren, dan kan dat ook met closed source modellen. Er zijn wel meer uitgiften waarvan jij niet de (directe) voordelen van draagt. Als Nederlanders betaald worden om dit onderzoek / werk te doen, daarna een spin-off en werkgelegenheid creeëren dan is dat toch een win-win voor overheid en alle Nederlanders ?

Dat lees ik tussen de lijnen toch een beetje, als het resultaat (het taalmodel) kan geëxploteerd worden zodat verder onderzoek zichzelf terug betaald, dan heeft de overheid toch een goeie zaak gedaan ?
Als je het open source maakt, hebben veel er wat aan, waardoor anderen niet hetzelfde hoeven te doen, of afhankelijk zijn van het bedrijf dat subsidie gekregen heeft.
Wat ik zelf merk is dat bij de WBSO nu aan diverse bedrijven geld gegeven wordt, terwijl bedrijven hetzelfde wiel uitvinden.
Open source helpt juist de groei, omdat je allemaal een stap verder bent.
Zonder open source was de ontwikkeling van software en stuk langzamer en duurder.
En die opmerking is een altijd houdend feit? Want jij roept hem, maar ik ben hem er al pertinent niet mee eens als altijd geldend

Open source is een soort heilige graal onder de anti-tech Tweakers, maar heeft natuurlijk serieuze nadelen op land niveau. Aan de ene kant verguist op Tweakers iedereen Europa voor het niet zelf dingen doen met tech, aan de andere kant moet alles open source. Ik neem aan dat iedereen, ook zonder one-liners, kan zien dat die twee een directe tegenstelling zijn.

Alles open gooien is in mijn ogen één van de meest naieve dingen die developers bedenken. Open source heeft zijn plek, open source heeft ook een plek om niet toegepast te moeten worden.
Noem je mijn anti-tech tweaker? Juist niet.
Ik zit al lang op Tweakers, met interesse in hardware en software. (Elektronica opleiding gehad, nu al 20 jaar software developer)
Ik zie als developer vooral veel voordelen in open source.

[Reactie gewijzigd door w3news op 31 januari 2025 08:06]

Alles wat met belastinggeld geschreven word zou per definitie open/open-source moeten zijn. Geen uitzonderingen geen geneuzel. Wij betalen er met zijn allen voor en hebben er met zijn alle recht op. Als er problemen zijn met third party licenties dan had dat opgemerkt moeten worden voor het project begon.
Hoe zie je dat wanneer er iets ontwikkeld wordt met Nederlands belastinggeld, dat een land als bv China ermee vandoor gaat? Opensource is openstellen voor de hele wereld, niet alleen voor Nederland.
Dat doen ze toch al.
Ah makkelijk: Ik heb geen kennis dus deze one-liner kan ik gewoon het internet op slingeren.

Alles open source, geen uitzonderingen, zoals @bzuidgeest suggereert is een perfecte manier om Nederland meteen buiten spel te zetten. We hebben geen enkele mogelijkheid tot voorsprong meer, omdat 'de burgers' (lees een handje vol met uitzonderlijk luide developers) eisen dat alle code, hoe gevoelig ook, open source is.
Als je denkt dat de waarde in de code ligt dan ben je behoorlijk misleid. De waarde ligt in de mensen die in staat zijn de code te maken en te onderhouden.

Dan is open-source ook niet hetzelfde als gratis. Voor commercieel gebruik kan je prima licentie geld eisen.
Dat moeten Chinezen ook betalen anders verbied je de import van producten die op die code gebaseerd zijn zonder licentie.
hoe gevoelig ook, open source is.
Ah, jij gelooft nog in security by obscurity, Persoonlijk heb ik liever dan anderen meehelpen fouten te vinden voor ze een probleem zijn. Dat werkt beter met open-source want dan zijn er meer ogen om te zoeken.

edit: we hebben het hier ook specifiek over projecten betaald met belastinggeld. Elk commercieel bedrijf dat geen belastinggeld krijgt mag zijn eigen regels kiezen. Betaald met belastinggeld betekend eigendom van de burger.
De digiD app is ook open source om maar een voorbeeld te noemen.

[Reactie gewijzigd door bzuidgeest op 30 januari 2025 17:09]

Voor commercieel gebruik kan je niet een licentie eisen, althans dat heeft weinig zin. Open source betekent dat commercieel gebruik toegestaan is. Hoogstens kan je voor een zware copyleft licentie + commerciële licentie gaan zonder die eis.
Klopt, wij hebben ook een zware copyleft overwogen, maar in essentie is dat gewoon onduidelijkheid en complexiteit creeeren om het maar "open source" te kunnen noemen. Wij hebben besloten dat we dat niet willen, en liever gewoon duidelijke regels hebben.
Ja, want "gedeeltelijke" open-source maakt het zo veel duidelijker..... dat kan net zo goed betekenen dat je alle oneven regels open hebt gemaakt en de even niet :) :)
Voor commercieel gebruik kan je niet een licentie eisen, althans dat heeft weinig zin.
In je licentie kan je alles eisen. Of het wel of geen zin heeft kan je over discuseieren.
Open source betekent dat commercieel gebruik toegestaan is
Onzin, het betekend dat je de code kan inzien. Niets meer en niets minder. Er zijn geen verdere eisen. Als je denkt dat er verdere eisen zijn dan zit je op het terrein van een specifieke licentie te argumenteren. Maar er zitten grote verschillen tussen bv GPL, BSD en MIT licenties.
Gpl, mit en bsd staan allemaal commercieel gebruik toe.
En je punt daarmee is? Ik geloof niet dat ik dat tegenspreek. Ik zeg alleen dat die licenties allemaal verschillende voorwaarden hebben en dus dat er niet 1 definitie is van wat wel en niet mag met open-source. In basis betekend open source dat de code open is en verder niets.

Maar als je een expliciet voorbeeld zoekt:

Creative Commons Attribution-NonCommercial (CC BY-NC)
https://creativecommons.org/licenses/by-nc/4.0/deed.en
Dit begint een semantische discussie te worden over de definitie van open source, maar daar wordt toch echt doorgaans het volgende mee bedoeld: https://opensource.org/osd (beperking tot niet-commercieel is niet mogelijk)
Open source doesn’t just mean access to the source code. The distribution terms of open source software must comply with the following criteria:

1. Free Redistribution
The license shall not restrict any party from selling or giving away the software as a component of an aggregate software distribution containing programs from several different sources. The license shall not require a royalty or other fee for such sale.

2. Source Code
The program must include source code, and must allow distribution in source code as well as compiled form. Where some form of a product is not distributed with source code, there must be a well-publicized means of obtaining the source code for no more than a reasonable reproduction cost, preferably downloading via the Internet without charge. The source code must be the preferred form in which a programmer would modify the program. Deliberately obfuscated source code is not allowed. Intermediate forms such as the output of a preprocessor or translator are not allowed.

3. Derived Works
The license must allow modifications and derived works, and must allow them to be distributed under the same terms as the license of the original software.

4. Integrity of The Author’s Source Code
The license may restrict source-code from being distributed in modified form only if the license allows the distribution of “patch files” with the source code for the purpose of modifying the program at build time. The license must explicitly permit distribution of software built from modified source code. The license may require derived works to carry a different name or version number from the original software.

5. No Discrimination Against Persons or Groups
The license must not discriminate against any person or group of persons.

6. No Discrimination Against Fields of Endeavor
The license must not restrict anyone from making use of the program in a specific field of endeavor. For example, it may not restrict the program from being used in a business, or from being used for genetic research.

7. Distribution of License
The rights attached to the program must apply to all to whom the program is redistributed without the need for execution of an additional license by those parties.

8. License Must Not Be Specific to a Product
The rights attached to the program must not depend on the program’s being part of a particular software distribution. If the program is extracted from that distribution and used or distributed within the terms of the program’s license, all parties to whom the program is redistributed should have the same rights as those that are granted in conjunction with the original software distribution.

9. License Must Not Restrict Other Software
The license must not place restrictions on other software that is distributed along with the licensed software. For example, the license must not insist that all other programs distributed on the same medium must be open source software.

10. License Must Be Technology-Neutral
No provision of the license may be predicated on any individual technology or style of interface.

[Reactie gewijzigd door Cobiwan op 31 januari 2025 18:32]

Ik ga er maar even van uit dat je naar punt 6 verwijst. Dat zegt dat je een volgens DIE definitie niet mag zeggen dat bedrijf X het niet mag gebruiken. Bijvoorbeeld een wapensleverancier. Echter dat is niet hetzelfde als commercieel gebruik toestaan. De code mag niet zomaar in een proprietary of commerciële applicatie worden opgenomen,

https://www.gnu.org/philosophy/selling-exceptions.en.html

Dit is overigens niet de enige open source definitie en bijvoorbeeld Richard Stahlman heeft wel wat op de OSI definitie aan te merken.
Leuk dat zo een organisatie zich opwerpt als "eigenaar" van de term, maar dat betekend voor mij niet veel.
De creative commons licenties zie ik en veel anderen ook als gewoon open source en die heeft een NC versie

en er is ook nog verschil tussen free en open software waar we over kunnen harrewarren....
Flauw, ze hebben net met deepseek bewezen toch echt zelf ook slimme mensen te hebben. (en dat is maar een van de bewijzen daarvoor). Deepseek is niet gejat, de wiskunde ervan is van hun en gewoon slim. En het is open in tegenstelling tot "open"AI en iedereen kan dat zien.
Flauw, ze hebben net met deepseek bewezen toch echt zelf ook slimme mensen te hebben. (en dat is maar een van de bewijzen daarvoor).
Wie zegt dan dat ze dom zijn?

Ze hebben daar meer slimme mensen dan de EU en VS bij elkaar!

Kopiëren om je achterstand in te halen is gewoon slim. Maar dat betekent niet dat het wenselijk is of we alles maar weg moeten geven omdat ze daar (ook) slim zijn.

Maargoed hoe ze precies tot dit model gekomen zijn en wat ze allemaal gebruikt hebben om het te trainen is duidelijk NIET open source en ook zeer twijfelachtig of hun eigen claims kloppen.
Is dit verhaal van DeepSeek geloofwaardig? Er zijn vraagtekens bij, en waar vraagtekens zijn, zijn speculaties. Een van de theorieën is dat DeepSeek bescheiden doet over het aantal Nvidia-kaarten dat het heeft, omdat anders zou blijken dat het veel meer kaarten heeft dan volgens exportregels is toegestaan. Dat zou verklaren hoe ze zo snel een eigen model hebben kunnen trainen. Vreemd is dat niet: Huawei werkte ook om regels heen om leveringen te krijgen van TSMC.

Een andere theorie is spionage. Er circuleren theorieën online, hoewel de vraag blijft hoe die data uit spionage DeepSeek in staat zou hebben gesteld zo snel na OpenAI concurrerende modellen uit te brengen. Daarbij zou DeepSeek grote hoeveelheden output van OpenAI-modellen hebben verzameld via de api, iets dat OpenAI onderzoekt.
review: Een Chinese AI-dienst, hoe werkt dat? - DeepSeek vs. ChatGPT o1 en Go...

[Reactie gewijzigd door watercoolertje op 30 januari 2025 18:17]

Wie zegt dan dat ze dom zijn?
Het is de houding van een hoop (domme) mensen. Onderschat nooit je "tegenstander" denk ik zelf.

Elk AI bedrijf trained AI op die van andere bedrijven. Copilot raadpleegt ook meerdere LLM's
Het is niet bijzonder en niet iets dat deepseek minder knap maakt of zijn wiskunde slechter.

Het lijkt meer een tactiek van de VS om deepseek in diskrediet te brengen om hun achterstand te verbloemen. Mensen als altman waren eerst positief, maar werden negatief toen het te veel ging kosten.
Laat ze. Wij hebben daar geen last van. Ik vind het niet erg als er een licentie + betaling is voor commercieel gebruik (vanuit elk land). Maar de rest, laat maar kopiëren. Als ze het niet begrijpen kunnen ze er toch niets mee. of niets goeds. Hetzelfde als met ASML machines. Die kan je rustig geven. Ze hebben de kennis niet om ze te repliceren op korte termijn. Als ze die kennis hadden, dan hadden ze geen voorbeeld nodig.

[Reactie gewijzigd door bzuidgeest op 30 januari 2025 16:42]

Ja, ik denk dat die Chinezen heel blij zullen worden van een Nederlands taalmodel :+
Het is misschien een beetje naief, maar waarom moet het nu weer een wedstrijd zijn? Waarom is het zo'n ramp als een ander land er van profiteert?
We moeten dergelijke software bouwen omdat we die zelf nodig hebben. Als wij ons voordeel maar hebben dan is het alleen maar mooi als anderen er ook iets aan hebben.
Omdat ze het 100% tegen je kunnen gebruiken.
En dat is dus ook de reden dat het voor onderzoeksdoeleinden practisch gratis is. Onze data-leveranciers (wat ook commerciele bedrijven zijn) geven nou eenmaal niet hun data gratis in licentie. Die kosten moeten wij aan iemand of iets doorrekenen. En we hebben er voor gekozen om die rekening bij commerciele exploitatie van ons model te leggen. We hadden het ook helemaal gratis kunnen doen, maar dan hadden we een veelvoud aan budget moeten ontvangen om al die licentiedeals voor de eeuwigheid af te kopen.
Ik ben niet tegen commerciële licenties voor gebruik door commerciële partijen. Ik vind dat alles open source moet zijn. Dat is wat anders dan gratis.

Iedere Nederlander moet dat ding zonder door hoepels springen van a-z kunnen inspecteren.

En ja als dat betekend dat er meer geld in moet of dat we ook eigen data sets moeten maken dat hoort dat er ook bij.
Zolang je dat doet in het kader van onderzoek en/of audit van het model is dat ook toegestaan. Overigens zien de meeste mensen "gratis voor elk doel" als een inherent onderdeel van open-source. Dat is de reden waarom wij ook zeggen dat het niet volledig open source is.
Dat is de reden waarom wij ook zeggen dat het niet volledig open source is.
Dat vind ik een wat brakke manier van uitdrukken. Dat veel mensen het verschil tussen gratis en open-source niet weten, word niet opgelost door slecht taalgebruik. Dat word opgelost door correct taalgebruik en duidelijk uitleg. Iets als: "De code is open-source, maar voor commercieel gebruik is een licentie nodig" Dat is hoe heel veel projecten het zeggen en lijkt mij simpel en duidelijk genoeg. Niet het is "half open-source" Dat suggereert bij geïnformeerde mensen namelijk dat jullie stukken code achterhouden.
Het is meer dat "mogen gebruiken voor elk doel" een inherent onderdeel van open source is. Gratis hoeft dat inderdaad niet perse te zijn. Maar je betaalt niet per gebruiksdoel, je betaalt voor de licentieovereenkomst (of niet).

Dus in het geval dat je voor commercieel gebruik wil laten betalen, maar voor onderzoeksgebruik niet, kom je er met open source niet uit. Immers: je (vrijwel) gratis open source licentie staat, per definitie, elke vorm van gebruik toe. Waarom zouden commerciele partijen een aparte betaalde licentieovereenkomst afsluiten, als er een gratis licentie bestaat die commercieel gebruik toestaat?

Dus: je hebt een beperkte (vrijwel) gratis licentie, die geen commercieel gebruik toestaat, en daarmee geen open-source licentie is, en kan daarnaast een andere licentie voor commercieel gebruik aanbieden. In principe zou je die tweede betaalde licentie een volledige open-source licentie kunnen maken, maar wat is het nut daarvan als alle andere gebruiksvormen dan commercieel al onder de eerste licentie toegestaan zijn.

De enige manier om betaald open-source een nuttig licentiemodel te laten zijn, is als het je enige licentiemodel is.

[Reactie gewijzigd door ZinloosGeweldig op 30 januari 2025 17:28]

Da's puur een kwestie van extremisme in de FSF hoek van open source, die ten onrechte Free Software (Free as in freedom, niet Free as in free beer) en Open Source als elkaars synoniemen probeert te framen. En dan heb je in aanvulling daarop nog de ultra-extremen die het dan ook alleen goed vinden als het gratis is.

Dat zijn gewoon drie elkaar grotendeels overlappende delen van het softwarelandschap.

Open Source is breder dan "OSI approved open source licenses"
Immers: je (vrijwel) gratis open source licentie staat, per definitie, elke vorm van gebruik toe.
Dat hangt toch volledig af van welke open-source licentie je mee te maken hebt. Een GPL laat per definitie niet elke vorm van gebruik toe: je zal je code die daarop bouwt ook als GPL moeten uitbrengen. Andere licenties zoals BSD, MIT of Apache zijn dan weer veel vrijer - maar hebben ook minimale vereisten.

En ja, er is ook software die twee licenties heeft. Denk maar aan de Qt library: de gratis open-source licentie vereist dat je applicatie die er gebruik van maakt evenzeer GPL is, terwijl de commerciële (in feite betaalde open-source) licentie dit niet vereist. https://www.qt.io/qt-licensing
Dat is volledig afhankelijk van WELKE licentie je pakt.
De enige manier waarop jou post een +2 verdient is dat veel mensen hier geen enkel besef hebben van hoe veel variaties er zijn.

Open-source betekend dat je de code kan inzien, niets meer en niets minder. De rest van de voorwaarden kan alle kanten op.
Edit: reactie van @ZinloosGeweldig is veel informatiever.

[Reactie gewijzigd door SelmarSmit op 30 januari 2025 17:32]

Het is toch meer dat "bruikbaar voor elk doel" een inherent onderdeel is van open-source? En dat dus, als je een open-source licentie voor weinig of geen geld aanbiedt, die licentie per definitie commercieel gebruik toestaat.

Open-source hoeft niet perse gratis te zijn, maar je kunt tussen gebruiksdoelen geen onderscheid in de voorwaarden maken binnen een open-source licentie, dat is het meer lijkt me.
Eens, maar er zijn er ook die gratis ook als onderdeel er van zien. Mocht je een suggestie hebt voor een betere formulering, dan staan we daar zeker voor open :-)
Het is toch meer dat "bruikbaar voor elk doel" een inherent onderdeel is van open-source? En dat dus, als je een open-source licentie voor weinig of geen geld aanbiedt, die licentie per definitie commercieel gebruik toestaat.
Dat ligt er helaas een beetje aan welke definitie van "Open Source" je gebruikt. Bruikbaar voor elk doel is afkomstig van het Free Sofware principe. Open Source is ooit begonnen als synoniem voor Free Software maar tegenwoordig steeds vaker uitgelegd als niet meer dan "de source is beschikbaar".

Ik zelf gebruik bij voorkeur de termen Free Software of Vrije Software om dat misverstand te voorkomen. Helaas leggen de engelstaligen het woord "free" dan weer uit als gratis en dat mist ook de essentie, dus geef ik de voorkeur aan het Nederladse "Vrije Software" ̇.
Volgens mij missen we hier de meest toepasselijke categorie: "source-available"

Toch de meest gangbare definities die ik ken zijn (kort samengevat):
- Source-available: broncode is in te zien, verder geen poespas
- Open Source: broncode beschikbaar voor non-discriminatoir hergebruik en distributie
- Free Software: non-discriminatoir hergebruik en distributie, waarbij die vrijheden ook doorgegeven moeten worden naar hergebruikers

En hoewel geen daarvan 'Gratis' voorschrijft, is dat natuurlijk met het internet wel een vrijwel automatisch gevolg van een recht op 'onbeperkte distributie'.

[Reactie gewijzigd door Ilmar op 31 januari 2025 00:07]

Leg eens uit hoe open source niet gratis is? Als je al iemand laat betalen voor de code kan die vervolgens de code weer gratis open source publiceren, want dat is immers toegestaan volgens een open source licentie...
Ook defensie-onderzoek? Wordt ook van belastinggeld betaald. Lijkt me sterk dat die algoritmes open source zouden moeten zijn.

Oftewel: Geen uitzonderingen, geen geneuzel is wel heel makkelijk gezegd.
En waarom niet?

De enige reden om het te verbergen is dat het zo gewoontjes is dat een ander het makkelijk kan inzetten en dus ook zelf maken met een beetje inzet.
Als het zo complex is dat niemand anders het had kunnen maken dan kunnen ze er weinig mee.

Dat je iemand de code van een AI geeft, wil niet zeggen dat ze genoeg van AI snappen om er wat mee te doen.

Vooruitgang doe je op kennis en capaciteit, niet op geheimhouden.
Niet helemaal mee eens. Software van het bijvoorbeeld het cms op fregatten wil ik niet open source hebben.
Als ik kijk op livebench.ai is de best presterende Europse AI model Mistral wat ongeveer de helft scoort van de beste Amerikaanse en Chinese modellen. We lopen weer ver achter.
En GPT-NL gaat zeker lager scoren, zeker omdat die benchmarks op Engels gericht zijn, en wij bewust het percentage niet-Nederlandse data beperken.
Dus de burger betaalt mee en dus wordt het NIET open source.

Got it. Logisch.
Zo werkt het vaker bij TNO. Onderzoek en ontwikkeling door TNO, betaald door de samenleving en als het succesvol is dan wordt het (voor een klein symbolisch bedrag) verkocht als een spin-off. Een aantal bedrijven met miljoenen aan waard zijn zo begonnen, zoals Robin Radar.
Wij zijn gebonden aan de regels voor staatssteun en mogen dus niet IP voor een symbolisch bedrag verkopen aan een spin-off. In tegendeel, we krijgen juist vaak de klacht dat we teveel geld vragen voor het IP bij startups en spin-outs.
Bedankt voor je toevoeging. Heb je een overzicht van die regels? Ik ken namelijk meerdere spin-offs die voor een fractie van hun waarde zijn overgenomen. Het argument heb ik jaren geleden ook gehoord toen parkeerplaatsen door gemeenten voor bijna niets aan q-park werden verkocht.
Teleurstellend dat je naar een algemeen overheidspagina linkt over staatsteun, vooral na jouw opmerking dat jullie (TNO) te veel geld vraagt voor het IP. Wat heel weinig zegt omdat TNO (Techtransfer) de bedragen niet openbaar maakt.
Edit: achtergrond artikel over dit onderwerp: https://mtsprout.nl/tech-innovatie/tjark-tjin-a-tsoi-tno

[Reactie gewijzigd door SelmarSmit op 31 januari 2025 12:51]

TNO maakt ze niet openbaar en burgers kunnen het opvragen via Wet Open Overheid. Dat is iets anders dan transparantie. @YannickSpinner @JayStout Een leuke artikel voor Tweakers om te kijken hoeveel TNO heeft ontvangen voor spin-offs?
Ben het daar toch niet helemaal mee eens. TNO incubeert in feite gratis startups met overheidssteun. Wordt het succesvol, okee, dan wordt voor een reëel bedrag gespinout.

Echter het begin is telkens gratis en doordat het belastinggeld is is het ook vrijwel risicovrij voor TNO. Het is niet alsof een spinout te koop staat in de markt. Het is echt aan TNO en haar team members.

Het is mijn mening dat de NL overheid hier toch te makkelijk mee omgaat en bijvoorbeeld zelf een flinke stake in dit soort gesubsidieerde spinouts moet krijgen en dat als voorwaarde moet geven bij subsidies aan organisaties zoals TNO.

Non-profit zegt verder niet zo veel als er toch zeer riante salarissen worden uitgekeerd. Overigens niets slechts over mensen die bij TNO werken, zijn zeer excellente mensen is mijn ervaring. Maar dat doet niet af aan wat ik hierboven zeg.
Dat kan, maar dan doet de overheid een investering en is het geen subsidieverstrekking. Er daar zijn regels aan verbonden, waar de overheid voor kiest niet aan te willen voldoen.
Ik ben wel benieuwd wat het doel van de subsidieverstrekking was in dit geval?
@SelmarSmit zegt dat het wel open source is maar niet altijd gratis. en ze denken dat men dat onderscheid niet snapt dus noemen ze het "niet volledig open source", dat is omdat overheid en zo het altijd zo onduidelijk mogelijk moet maken denk ik. zeggen open-source maar niet altijd gratis in gebruik was denk ik te moeilijk...

[Reactie gewijzigd door bzuidgeest op 30 januari 2025 17:03]

Volgens sommigen is dat dus niet "open source". Trust me, ik heb die discussie het afgelopen jaar veel te vaak gehad.
Dat sommige mensen idioten zijn wil niet zeggen dat je moet aanpassen aan idioten. Anders eindig je in een neerwaartse spiraal waar we alleen nog maar op het niveau van idioten kunnen functioneren...

Ooit de film idiocracy gezien?

Ik voer ook wel discussies over dit soort dingen, maar met toegeven aan dat soort dingen maak je het alleen maar slechter.
Ooit de film idiocracy gezien?
Off-topic, deel twee is uit; spoilers op CNN en overige news sites.
Kan je wat beter uitleggen wat je bedoelt? Is namelijk vrij onduidelijk.
Ik denk dat vdr01 bedoelt dat het taalmodel de door de overheid gewenste narratief laat prevaleren.
In 2023 aangekondigd en slechts €13,9 miljoen?

Is er al een model?

Hoe denken ze een model te maken met slechts €13 miljoen? Ik snap dat die Chinezen nu bewezen hebben dat het in theorie kan maar ben wel benieuwd wat hier precies uit komt rollen.
Wij ook, maar we denken dat het kan
Jij werkt eraan?

Dat is wel gaaf, wordt het een volle LLM of iets gedistilleerd?

En hoe komen jullie aan data als je expliciet geen copyright zooi erin wil?
Nah, ik "werk" er niet echt aan. Hoewel ik zelf van mening ben dat ik nog steeds best redelijk kan programmeren, willen anderen mij niet in de buurt van de code zien :-)

We gebruiken enkel dat onder een CC-0 of CC-BY licentie is gepubliceerd, en we mogen data van data-partijen gebruiken, onder de voorwaarden dat we een deel van de commerciele licentie aan hen uitbetalen (of andere vormen van terugbetaling).
En zijn er nog andere geldstromen? Voor 13 miljoen is het wel een hoog doel
Vooralsnog niet, we moeten eerst maar laten zien wat we kunnen voor deze 13M
Oh ik dacht dat jullie al twee jaar bezig waren.

Veel succes! Gaaf iets om aan te werken in deze tijd.
Nee, we zijn januari 2024 gestart. Technisch is nu alles in orde, maar het gaat nu vooral om het rondmaken van alle afspraken met licentieproviders. Zeker omdat we niet voor elke provider een los contract willen afsluiten (en daar de tijd niet voor hebben, en dat alleen scheve gezichten gaat opleveren), moest er een one-size-fits all komen voor alle data-leveranciers. De komende 3 maanden ga je die zeker nog wel zien langskomen.

En dank!
Zelfde als de Franse ai die na paar dagen helemaal verrot was?
Dus de kans om hem als tweaker lokaal te draaien en Nederlandse taalassistenten te gaan gebruiken met dit model zijn dus 0?
Nee, in tegendeel. Als je hem voor commerciele doelen wilt gebruiken kun je een commerciele licentie nemen, en dan kun je hem lokaal draaien. Als je hem voor audit of onderzoek wilt gebruiken ook.
Ben benieuwd of jullie al weten hoe dat in de praktijk te implementeren. Hoe bepaal je de prijs, als je niet kan controleren hoeveel tokens iemand zal genereren? (Als persoon X 1M wil genereren en persoon Y 100M, dan moet X toch minder betalen?) En hoe wil je handhaven dat een model maar binnen een bepaalde periode of x aantal tokens gebruikt mag worden, en dat gebruikers het nadien moeten verwijderen?
Je betaalt voor gebruik en bent verplicht dat bij te houden en te rapporteren (en wij hebben het recht dat te auditten). Natuurlijk kun je dat omzeilen, maar komt dat uit dan heb je (zeker als bedrijf van enige omvang en verbruik) een probleem.

[Reactie gewijzigd door SelmarSmit op 30 januari 2025 19:45]

Maar als tweaker ben je dat toch geen van beiden?
Het gaat hier om het terugverdienen. De kosten voor het trainen van het model willen ze terugverdienen. Het is dus een lening en geen gift.
Daarmee zit er dus een commerciele gedachte achter waardoor het niet gratis kan. Ook al is het overheids geld. Onderaan de streep wordt ons belastinggeld (waarschijnlijk met een lage rente) terugbetaald.
Het gaat hier om het terugverdienen waarvan? Nou, van "de kosten voor de instandhouding en herinvesteringen". Dus niet het terugverdienen van de initiële investering.
Het is niet een lening. Het is meer een (initiële) investering om iets te starten. De bedoeling is dat het daarna zelf de benodigde kosten verdiend om verder te kunnen blijven bestaan.
Dat gaat lastig als je het model vrijgeeft en er niets aan verdiend. ;)

Misschien kunnen ze een Youtube kanaal beginnen en donaties vragen. :P
Dat is een goed idee, misschien kan ik wel leuke dansjes doen ;-)
I have an LLM and am not afraid to use it
Waarom zelf iets doen? Er zijn genoeg kanalen die content via TTS maken en er een filmpje bij proppen. Er zijn al LLM's die korte filmpjes kunnen maken. Kun je gelijk de mogelijkheden van het model testen. ;)
Ik weet welke data is gebruikt om die modellen te trainen
Dus het Ministerie van Economische Zaken, zorgt er voor, dat het niet geheel opensource kan?
Beetje vreemd als je het mij vraagt.

Op dit item kan niet meer gereageerd worden.