Nederlands kabinet: voorkeur voor opensource bij generatieve AI

Het demissionaire Nederlandse kabinet heeft een voorkeur uitgesproken voor opensourceversies van generatieve AI. Dat zegt staatssecretaris Alexandra van Huffelen in een Kamerbrief. ChatGPT van OpenAI en Google Bard zijn in beginsel voor rijksambtenaren verboden.

Van Huffelen spreekt in een voorlopig standpunt rondom het gebruik van generatieve AI binnen de overheid de voorkeur uit voor opensourceversies vanwege de Wet Open Overheid en het 'stimuleren van transparantie'. De voorkeur voor opensource lijkt ook voort te komen uit het feit dat het daarmee makkelijker is om te voldoen aan de geldende wetgeving rondom het gebruik van software bij de overheid.

Van Huffelen onderscheidt meerdere soorten toepassingen: gecontracteerde en ingekochte zakelijke varianten, en niet-gecontracteerde software als ChatGPT, Bard en Midjourney. "Deze vormen van generatieve AI onderscheid ik van gecontracteerde en ingekochte zakelijke varianten en eventuele door de Rijksoverheid zelf ontwikkelde modellen, waarbij zowel de trainingsdata als het gebruik aan voorwaarden kunnen worden verbonden. In tegenstelling tot niet-gecontracteerde toepassingen, kunnen daarbij wel degelijk wederkerige afspraken worden gemaakt over het gebruik en de ontwikkeling van een toepassing."

Het gaat om een voorlopig standpunt, want Van Huffelen gaat in gesprek met organisaties bij het Rijk om tot een definitief standpunt te komen. De zorg rondom niet-gecontracteerde AI is bijvoorbeeld dat rijksambtenaren staatsgeheimen invoeren en die zo weggeven aan een bedrijf. Ook zijn er zorgen rondom het schenden van auteursrecht met trainingsdata van die toepassingen. Vorige maand kwam al naar buiten dat Van Huffelen rijksambtenaren wilde verbieden om ChatGPT en Midjourney te gebruiken.

Door Arnoud Wokke

Redacteur Tweakers

12-12-2023 • 14:02

36

Submitter: wildhagen

Reacties (36)

Sorteer op:

Weergave:

Ik denk dat je vooral wilt weten waar je data heen gaat en wat er mee gebeurt. Zo maar een hoop data in een AI prompt gooien omdat je dan een antwoord krijgt wat specifiek is betekend natuurlijk ook dat al die data de deur uit gaat naar een extern bedrijf.

Ik vraag mij af in hoeveel bedrijven/overheden dit gebeurt zonder er over na te denken wat de eventuele gevolgen zijn. Word er op gelet of er persoonsgegevens op deze manier naar buiten gaan?

Mij lijkt dat je als overheid inderdaad of gecontracteerde bedrijven onder strenge voorwaarden gebruikt, of het zelf inhouse hebt draaien. En als bedrijf zijnde eigenlijk ook.
betekend [sic] natuurlijk ook dat al die data de deur uit gaat naar een extern bedrijf.
Waar baseer je dat op? Het is prima mogelijk om bijv. ChatGPT binnen de grenzen van je organisatie te gebruiken. Daarmee gaat er niks naar buiten.
Misschien handig om ook even te vermelden wat je precies bedoelt? Hoe doe je dat?
Of valt dat hier onder:
Mij lijkt dat je als overheid inderdaad of gecontracteerde bedrijven onder strenge voorwaarden gebruikt, of het zelf inhouse hebt draaien. En als bedrijf zijnde eigenlijk ook.
Want als ik kijk in de privacy policy van ChatGPT (dus de gratis variant die ik bedoel) staat er dit:
User Content: When you use our Services, we collect Personal Information that is included in the input, file uploads, or feedback that you provide to our Services (“Content”).
Ook staat er dit:
Our Use of Content. We may use Content to provide, maintain, develop, and improve our Services, comply with applicable law, enforce our terms and policies, and keep our Services safe.

Opt Out. If you do not want us to use your Content to train our models, you can opt out by following the instructions in this Help Center article. Please note that in some cases this may limit the ability of our Services to better address your specific use case.
Maar dat betekend nog steeds dat je data naar OpenAI aan het sturen bent, alleen dat ze het niet gebruiken voor trainingsdoeleindes. Ze kunnen het dus ook verder gebruiken voor de genoemde andere doeleindes.
En waar het verder allemaal terecht komt (logs etc.).
Let op dat er dan nog steeds gegevens naar het buitenland kunnen gaan, zelfs al gebruiken ze het niet voor training of delen van gegevens. "Binnen de grenzen van je organisatie" is het bijvoorbeeld niet als je van de GDPR uit gaat. Of je moet ervoor zorgen dat de LLM lokaal in NL of de EU wordt gedraaid.
Dat is het verschil tussen gratis en niet gratis ;)
Het voelt mij alsof @Polydeukes de betaalde variant bedoeld. Daar zit het, in theorie, goed
Oh? Waar kan ik de CD kopen met de GPT-4 modellen zodat ik die in mijn eigen DC kan hosten? Nergens...
Je kan wel een lokale kopie van Chat-GPT draaien, alleen deze verrijk je niet met de input data. Wij gaan er nu mee aan de slag (en ik kijk er naar uit!). Maar het is niet alsof je een CD koopt met een large language model, je maakt nog steeds gebruik van de services van Microsoft.
Hoe maak je precies gebruik van Microsoft of andere grote partijen als je local een versie van Chat-GPT hebt draaien? Ik heb een beetje zitten spelen met Ollama en de daar bij behorende LLM's die je kan downloaden. Het model download je en is van te voren aangeleerd door een derde partij. Maar zodra ik deze host via docker local op mijn macbook "chat" ik met mijn eigen LLM en verlaat niets mijn netwerk en ben ik op dat moment niet meer afhankelijk van andere partijen https://github.com/jmorganca/ollama

Alleen voor het aangeleerde model heb je nog een tijdelijk afhankelijkheid
Ja, dat kan wel. Maar dan heb je niet de enorme hoeveelheid training die op e.g. ChatGPT 4 krijgt. Het zou me verbazen als je het model daarvan zo even kan downloaden.

Ik heb ook even gekeken naar lokaal gedraaide LLM's maar dat komt echt niet in de buurt van wat je met ChatGPT 4 kan. Ollama heb ik nog niet geprobeerd dus die zal ik ook eens bekijken.
Dat klopt inderdaad de vrij downloadbare LLM's zijn wat gelimiteerd in de "kennis" die ze bevatte (gemiddeld is zo'n set 4-5gb) maar het algemene functioneren is zelfs voor deze "domme" modellen soms verbazingwekkend goed. Uiteindelijk hebben ze soort gelijke gewichten aan woorden (tokens) gekoppeld en kan het system het prompt wat je opgeeft goed ontcijferen. De domme modellen hebben aardig wat algemene kennis en het beantwoord ook de vragen waarvan het model weet dat de data ontbreekt (dan wel met een berichtje dat je waarschijnlijk op wikipedia meer informatie vinden kan omdat de set te beperkt is)
Dat zelfinzicht mist nog wel eens een beetje bij ChatGPT. Maar goed, 4 gaat rustig het internet op om lekker de info bij elkaar te schrapen als het nodig is tegenwoordig. Moet ik wel zeggen dat dat erg traag gaat, dus ik denk ook dat ze die functionaliteit wat lager hebben gezet laatst.

Ik heb zelf twee "GPT" gemaakt, een om Stack Exchange berichten te formatteren en eentje om plaatjes naar markdown + mathjax om te zetten. Moet nog zien of andere AI's hier in de buurt van kunnen komen. Ik betwijfel het.
dus je data gaat gewoon naar de USA
Dus dat je de ChatGPT-functionaliteit binnen je eigen DC kan hosten?
Goed punt!

Nee, (zeker) niet zonder nadenken. Ook overheidsorganisaties hebben natuurlijk informatie- en securitybeleid. En ook daar zit natuurlijk gekwalificieerd personeel op om dat te ontwikkelen. Wat dat betreft is daar zeker aandacht voor. Maar overheidsorganisaties bestaan —net als (commerciële) organisaties— natuurlijk niet alleen uit IT-, informatie- en securityspecialisten. Er wordt ook 'gewoon gewerkt' door allerlei vakrotten die hun domein/tak van sport goed beheersen, wat dat ook moge zijn. En ook daar zitten natuurlijk soms enthousiastelingen tussen die bewust of onbewust voor de muziek uit (willen) rennen. En dan is het de truc voor de betreffende organisatie: hoe laat je hen op een veilige manier werken/experimenteren met nieuwe, 'onbewezen' e/o experimentele technologie — zonder daarbij op voorhand hun enthousiasme te killen? Want niet alle nieuwe technologie is natuurlijk per definitie 'gevaarlijk' om te gebruiken. Wanneer je alle ontwikkelingen op voorhand als zodanig bestempelt, dan staat dat de innovatie weer in de weg. En dat is ook weer niet wenselijk.

Kortom: alles tegenhouden, afhechten met waterdichte beleids-epistels en met policies dichtzetten werkt niet. Alles ongebreideld z'n gang laten gaan onder 't mom: "het gaat goed, zo lang het goed gaat" — dat werkt ook niet. Zéker niet als er persoonsgegevens bij betrokken zijn.

Zoeken naar de gulden middenweg, waarbij bewustzijn voor informatieveiligheid centraal staat, en waarbij mensen begeleid nieuwe technologieën mogen en kunnen ontdekken, is (voor ons) een prima aanpak. En soms is het antwoord ook: "Yep, het is geweldig, het is fanastisch, maar nu nog even niet. Het is simpelweg te riskant." — Wanneer ook dat antwoord wordt geaccepteerd door de early adopters, ben je naar mijn idee op de goede weg.
Als ambtenaar vind ik dat de overheid uiterst terughoudend zou moeten zijn met innovatieve technologie. Zeker met zoiets controversieels als AI. De overheid kan het bedrijfsleven stimuleren om innovatief te zijn middels subsidies en informatievoorziening.

De overheid heeft een bijzondere plek in de samenleving en is geen bedrijf. Bovendien werkt de overheid met gigantische hoeveelheden gevoelige data, van burgers en bedrijven. Daar komt nog bovenop dat veel overheidsorganisaties groot en log zijn en dat het heel erg lang kan duren, voordat de dingen gaan zoals ze zouden moeten gaan.

Open source implementaties van neurale netwerken, die lokaal worden getraind en toegepast, zie ik niet direct een risico in. Wat ik ook zie gebeuren is dat er contracten worden gesloten met partijen als OpenAI en Microsoft, die voor schofterig veel geld met Nederlandse data, commerciële AI-modellen gaan trainen.

Verder kun je je afvragen of AI nu werkelijk zoveel toevoegt. In veel gevallen is de mens nog echt efficiënter. Zie ook de reeks artikelen in Trouw over AI
Ik vraag mij af in hoeveel bedrijven/overheden dit gebeurt zonder er over na te denken wat de eventuele gevolgen zijn. Word er op gelet of er persoonsgegevens op deze manier naar buiten gaan?
Dit gebeurt heel weinig. De meeste bedrijven en overheden zijn zich bewust van privacy-risico's, zeker als ze met gevoelige informatie werken. Een enkele wilde ambtenaar daargelaten denk ik niet dat er veel spreadsheets met burger of klantinformatie worden geupload naar ChatGPT om er een mooie analyse van terug te vragen of zoiets dergelijks. Het is iedereen al jaren duidelijk gemaakt dat je niet zomaar gegevens (van personen of gewoon van je organisatie) op het internet kunt delen met allerlei handige tooltjes die je werk makkelijker lijken te maken.
Grotendeels eens, met wat kanttekeningen:

(1) Als overheid wil je niet alleen 'weten waar je data heengaat', maar je bent ook verplicht om je (aantoonbaar !) aan de AVG te houden. D.w.z. er mag aantoonbaar geen enkel ongeauthoriseerd dataverkeer naar buiten mogelijk zijn waar mogelijk persoonsgegevens inzitten (dat transport is immers een verwerking en daar is geen verwerkingsgrondslag voor, laat staan voor alle verwerkingen die de ontvanger ermee gaat doen).

(2) Bovendien moet je als overheid ook altijd voldoen aan de BIO (Baseline Informatiebeveiling Overheid. Zie https://www.bio-overheid.nl/category/producten?product=BIO ), en voor veel overheidsgegevens (als die 'vertrouwelijk' zijn) ook nog eens BBN2. Zo ongeveer alle data die binnen b.v. de systemen van, pak 'm beet, de Belastingdienst rondzwerft valt daaronder. En dat van de meeste ministeries. BBN2 wil zeggen: beschermd tegen doelbewuste inbraakpogingen. En daar past verzending naar een commerciele partij buiten de overheid simpelweg niet in.


(3) Daarnaast wil je als overheid niet aangeklaagd kunnen worden door een stelletje advocaten van b.v. Brein (op grond van copyrightschending). Zoals bekend is chatGPT getraind op grote hoeveelheden auteursrechtelijk beschermd materiaal (d.w.z. boeken, krantanartikelen, tijdschriften) waarvoor nooit betaald is. Bovendien is m.b.v. wat lepe prompts dat materiaal er (in snippets en n-grammen) weer uit te krijgen. Dat toont waterdicht aan dat delen van dat auteursrechtelijk materiaal opgeslagen zijn in het LLM dat je gebruikt, naast het ongeauthoriseerd gebruikt ervan voor training. Dat alles maakt dat je als in het oog lopende (overheids) organisatie die miljoenen malen van chatGPT gebruik maakt verdraaid aantrekkelijk bent voor een copyright claim.

(4) Zolang je als overheid het trainingsmateriaal niet volledig in de hand hebt kan je nooit garanderen dat een LLM niet op een bepaalde prompt met een totaal onacceptabele reactie komt. En dan "heb jij het gedaan" als overheid. Daarom kan je een dergelijke LLM niet hebben in je organisatie. Niet chatGPT maar het LLM zelf is dan het probleem.

Om deze 4 redenen is dat verbod ingesteld. Dat is vervelend, maar het is niet anders. Dat lijkt kinderachtig maar is het niet. De alternatieven zijn te bezwaarlijk, en de overheid moet gewoon even wachten tot deze problemen zijn opgelost.

Zoals de meeste posts al opmerken is ongeauthoriseerde gegevenstransfer te blokkeren door een LLM in-house te draaien. Trainen van het LLM zal je als overheid zelf moeten doen (of laten doen) op materiaal waarvan de copyright issues aantoonbaar geregeld zijn en waar ook anderzins geen gekke dingen in staan.

Daar wordt overigens aan gewerkt (zie ook nieuws: Nederland trekt 13,5 miljoen euro uit voor ontwikkeling van eigen AI-...).
Als ze Open Source eisen, betekent dat ook dat ze volledige openheid eisen over op welke data een LLM is getraind? Daar zit toch wel een van de grootste problemen met de LLMs, als je ze traint op Reddit, 4Chan en fanfiction (zoals ChatGPT en Bard) dan komt er uiteraard de grootst mogelijke rotzooi uit.

Dat maakt misschien niet zoveel uit voor mensen die listicles schrijven voor Buzzfeed maar voor serieuze toepassingen als overheidswerk wil je dat niet hebben.
Dit is precies de reden voor dit 'tijdelijk verbod' vermoed ik. Lijkt me niet dat er binnen een jaar al een oplossing is.
Dit is precies de reden voor dit 'tijdelijk verbod' vermoed ik. Lijkt me niet dat er binnen een jaar al een oplossing is.
Ik dacht dat de reden is dat je verplicht bent om je data te delen met OpenAI 'voor trainingsdoeleinden'. De overheid is bang dat ambtenaren geheime informatie aan GPT geven die dan in handen van buitenlandse mogendheden kan komen. Dat probleem bestaat overigens met zo'n beetje alle online diensten maar met gratis diensten (waarbij de leverancier eenzijdig de regels bepaalt) is het nog groter omdat je geen afspraken kan maken met zo'n bedrijf als je geen klant bent.

Overigens denk ik dat het nogal naief is om te denken dat (buitenlandse) geheime diensten zich iets aantrekken van wat bedrijven beloven. Het is niet voor niets dat we al 25 (!) jaar lang aan het touwtrekken zijn met de VS over dit soort wetgeving (sinds 1998, toen internet nog net nieuw was). Iedere keer weer is de conclusie van de rechter dat eigenlijk niet mogelijk is om betrouwbare afspraken te maken en/of dat de gemaakte afspraken een wassen neus zijn.
Dat lijkt me de enige juiste vorm van open in deze context: open model en open trainingset. En reddit etc. weglaten betekent dat je de LLM vergeet te trainen op het belangrijkste aspect: hoe communiceer je...
Volgens mij gooit van Huffelen alles op een hoop. Achter ChatGPT zit een large language model (GPT 3.5 of GPT4). Deze large language modellen kan je ook gebruiken of vinden in commerciele oplossingen zoals Microsoft's Azure OpenAI. In dat geval van de ChatGPT service van Azure heb je wel zelf controle over de data en hoef je dus geen zorgen te maken dat staatsgeheimen of gevoelige documenten gebruikt zullen worden voor het toekomstig trainen van nieuwe modellen. Uiteraard moet je wel de juiste governance en processen inrichten, maar dat geldt voor ieder model wat je wilt gebruiken.

Bij open source modellen speelt hetzelfde. Ook deze kan je weer terugvinden in commerciele oplossingen. Ook hierbij zal je weer steeds het onderscheid moeten maken tussen 1) verzamelt de leverancier of aanbieder gegevens 2) heb ik zelf controle over het process, dus de bevraging and beantwoording van de modellen.

[Reactie gewijzigd door Erhnam op 22 juli 2024 22:37]

Behalve dat AzureAI van een Amerikaans bedrijf is en je dus op zijn minst valt onder de safe-harbour agreements die keer op keer door de rechter onderuit worden geschoffeld en een Patriot act (of een van zijn opvolgers) die gewoon de data op komen halen hoeveel afspraken jij ook maakt met het bedrijf (en nee: het helpt niet om te hosten in Ierland zoals MS je doet geloven).

Het alloude spreekwoord luid dan ook niet voor niets: "There is no cloud, only somebody elses computer"
De titel lijkt niet helemaal juist. Als je de brief leest gaat het vooral over inzicht krijgen in welke data gebruikt is. Waar je dus met zakelijke diensten afspraken over kan maken.

"Deze vormen van generatieve AI onderscheid
ik van gecontracteerde en ingekochte zakelijke varianten en eventuele door de
Rijksoverheid zelf ontwikkelde modellen, waarbij zowel de trainingsdata als het
gebruik aan voorwaarden kunnen worden verbonden."

Dus het verschil zit vooral in betaalde GPT (zoals Azure OpenAI) vs gratis ChatGPT als ik het zo lees.
Uiteindelijk zullen overheden dus gewoon MS Copilot private afnemen, waarbij je de interne data niet wordt gebruikt om het generieke LLM bij te leren. Want dat sluit goed aan op de toch al MS georiënteerde werkplekken waar zo ongeveer de gehele MS Office suite op staat.
Tuurlijk, als je eenmaal binnen bent als OK-ed leverancier dan kun je meer verkopen. Dat is ook waarom er vooral grote tenten zaken (willen) doen met overheden. Then again, OpenAI is al ongeveer Microsoft, dus zoveel scheelt het niet. Wie hadden er ook alweer destijds miljoenen ingezet op AI? Hebben ze gewonnen?
Ik vind de naam OpenAI hedendaags misleidend; er is vrij weinig open aan.
Van mij mag het woord "open" in context met software wel een soort keurmerklabel krijgen. Netzoals je brood alleen volkoren mag noemen als het ook daadwerkelijk volkoren graan bevat.

Maargoed, het bedrijf heeft zich als naam als zodanig geregistreerd en bestaat nog steeds, ondanks dat ze inderdaad niks meer Open Source hebben aan hun code.
De AI (chatGPT) is openlijk beschikbaar voor iedereen die het wilt gebruiken zowel zakelijk als privé... Het woord 'Open' is niet 1 op 1 gelinkt aan 'Source' dus zie niet waarom daar perse keurmerklabels of zo op moeten.

(dit is eigenlijk antwoord op zowel Sp3c.... en Vlaaing)

[Reactie gewijzigd door ultimasnake op 22 juli 2024 22:37]

Het kabinet houdt van transparantie natuurlijk :)
Andermans transparantie is heel belangrijk ja... eigen transparantie levert vooral transpiratie op.
Het grote probleem van de overheid en 'data verwerking middels AI' moet niet liggen bij closed-source of open-source maar bij de keuze uit 'Black Box' of 'Transparant box'. Welke software erachter hangt lijkt mij een stuk minder belangrijk dan 'Hoe komt AI tot zijn conclusie' wat gewoon met 'Black Box' AI gewoon niet tot amper te herleiden valt..

Als iemand word gemarkeerd als 'potentieel belastingontduiker' zou je exact willen weten hoe de AI tot deze conclusie is gekomen. Want de 'waarom' is vooral het grootste probleem bij de overheid en zijn aanslagen etc.
Laat de Nederlandse overheid zich nu eerst eens bezig gaan houden met de basis principes van cloud en innovatie. Gisteren gebeld met de Belastingdienst en het is werkelijk tenenkrommend hoe outdated dit al is. Eerst 10 x een cijfer moeten indrukken om vervolgens nogsteeds den verkeerde agent aan de lijn te krijgen.
Schandalig dat anno 2023 dit soort lastige menu's nog steeds aanwezig zijn.

Op dit item kan niet meer gereageerd worden.