'Overheid Nederland wil ambtenaren verbieden ChatGPT en Midjourney te gebruiken'

De Nederlandse demissionaire staatssecretaris voor Digitalisering Alexandra van Huffelen werkt aan een voorstel om ambtenaren te verbieden toepassingen voor generatieve AI te gebruiken. Daarbij gaat het onder meer om ChatGPT en Midjourney.

Van Huffelen wil het voorstel binnen afzienbare tijd voorleggen aan de ministerraad, meldt de Volkskrant. Toepassingen voor generatieve AI voldoen vermoedelijk niet aan de privacyregels die gelden voor overheidssoftware. Daarnaast zetten ambtenaren bij het gebruik vermoedelijk vertrouwelijke informatie in de toepassingen, waardoor die bedrijven daar inzage in krijgen.

Bovendien zijn er vragen over of dergelijke AI-toepassingen auteursrechten schenden doordat een model op auteursrechtelijk beschermd materiaal wordt getraind. Een andere reden is nog dat AI-toepassingen mogelijk in gebruik kunnen raken om beslissingen over personen te nemen, iets wat Van Huffelen onwenselijk vindt.

Het verbod gaat niet gelden als de overheid een contract heeft met een bedrijf om de dienst te gebruiken. Voordat zo'n overeenkomst er is, moet de dienst voldoen aan de eisen die de overheid stelt aan haar software. Het verbod zou behalve voor ambtenaren ook moeten gaan gelden voor leveranciers van overheidsdiensten. Het ministerie wil niet reageren op het mogelijk op handen zijnde verbod.

Door Arnoud Wokke

Redacteur Tweakers

16-11-2023 • 10:52

213

Reacties (213)

213
203
94
15
0
85
Wijzig sortering
Als je een Ms e5 licentie hebt, kan je beter copilot enterprise gebruiken (is onderdeel van de licentie) en dan krijg je gewoon chatgpt 4 en Dall-e 3 maar zonder dat ze je data gebruiken of bijhouden.
Maar dat neemt niet alle bezorgdheden weg, zoals bijvoorbeeld de vraag over auteursrecht, want die systemen zijn nog altijd getraind met deels beschermd materuaal. En daarnaast weet je nog altijd niet welke mogelijkse bias er op zo een systeem zit.

Het enige voordeel met een MS licentie is dat jouw input niet gebruikt wordt voor verdere training van het model.
Kan iemand uitleggen waarom het leren uit materiaal met auteursrecht niet zou mogen?

Mensen leren uit boeken. Boeken zijn auteursrechtelijk beschermd. Betekent dan toch niet dat datgene dat ik als mens met mijn kennis doe ook onder dat auteursrecht valt?
Er zit nogal een verschil tussen jou als persoon die de kennis gebruikt en een product dat de inhoud opnieuw publiceert. Jij mag ook niet zomaar de inhoud van die boeken opnieuw publiceren.

[Reactie gewijzigd door Migrator op 22 juli 2024 14:49]

Systemen als ChatGPT publiceren de inhoud van de bronnen ook niet opnieuw, het verschil is lang niet zo groot als je hier doet voorkomen. Je zou het normaal gesproken over 'transformative use' hebben wat vaak onder fair use valt. Het enige verschil nu is dat de transformatie van de informatie nu door een machine uitgevoerd wordt.
Je hebt gelijk, het is een grijs gebied waar nog weinig wetgeving en jurisprudentie over is; maar het is toch duidelijk dat er een groot verschil zit tussen het zelf leren uit een boek of een AI die leert ("leert"?) uit een boek.
Ik zie dat grote verschil niet. Kun je dat toelichten?

In beide gevallen lees je een boek en neemt je de kennis in dat boek tot je. Een mens doet dat in zijn brein (een biologisch neuraal netwerk). Een AI doet dat in zijn digitale neurale netwerk.

Vervolgens gebruik je die kennis weer voor het verrichten van taken waarbij je (een deel van) alle kennis die je hebt opgedaan combineert om tot een uniek antwoord te komen.
Misschien vergelijkbaar met radio luisteren? Er zit een verschil tussen individueel luisteren en het op de werkvloer aanzetten.

Overigens zijn er ook licenties die gratis zijn voor niet-commercieel gebruik, maar betaald voor commercieel gebruik (zoals https://en.wikipedia.org/...ons_NonCommercial_license). ChatGPT is zeer zeker commercieel, dus hoe weten we dat ChatGPT die gerespecteerd heeft?

Meer software specifiek: GPL stelt bepaalde dingen over publiceren van aanpassingen. Dus als ChatGPT heeft getrained op GPL-code, is dan alle output van ChatGPT ook GPL gelicenceerd?

Nou geef ik wel toe dat het inderdaad heel onduidelijk is, maar dat is precies wat moet gebeuren: duidelijkheid scheppen.
Een programmeur die leert van GPL code kan daarna ook niet alleen GPL code maken toch?

Het is niet verboden om te leren van beschermd materiaal en daarna die kennis te gebruiken voor commerciële doeleinde zolang je het maar niet kopieert.

[Reactie gewijzigd door GoodGuy op 22 juli 2024 14:49]

Als je het helemaal reduceert naar het simpelste geval zit er geen verschil in inderdaad. Maar het grootste verschil zit hem nou juist in de schaal waarop het mogelijk is. Er bestaat niemand die eventjes alle boeken op de wereld kan lezen. De machine doet dat in verwaarloosbare tijd. Natuurlijk zit daar een groot verschil in.

Het verschil tussen handmatig een boek overschrijven en de drukpers is toch ook alleen maar dat het nu met een machine gebeurt? Toch werd auteursrecht pas echt een ding nadat heel goedkoop heel veel kopieën maken mogelijk werd.

Maar bij eenzelfde revolutie van op grote schaal data transformeren doen veel mensen alsof er nauwelijks iets is veranderd.

Als samenleving kijken of de wetgeving nog voldoet lijkt me daarbij vanzelfsprekend.
De schaal is inderdaad een verschil. Een AI is in staat veel meer data te processen dan een mens. Maar dat maakt de claim van copyright houders alleen minder sterk toch? De AI heeft veel meer data tot zich genomen, dus de output is een meer verdunde versie van zijn originele werk in vergelijking tot een mens die slechts een veel kleiner deel van de beschikbare informatie tot zich heeft genomen.

Het opnieuw evalueren van wetgeving is trouwens prima. Maar om eerlijk te zijn zie ik het punt van copyright houders niet zo. Het is niet zo dat LLM's teksten van hun aan het reproduceren zijn. Hun teksten zijn een onmeetbaar klein deel van de informatie die die LLM's tot zich hebben genomen. Het is niet zo dat die LLM's het verkopen van hun boeken e.d. onmogelijk maken.

Waar, denk ik, de angst eigenlijk zit is dat LLM's in staat zijn veel sneller / goedkoper / beter nieuwe originele werken te maken en daarom in de toekomst met hun kunnen concurreren.

Maar het copyright is niet bedoelt om toekomstige concurrenten uit te schakelen maar om jou eerder gemaakte werken te beschermen.
Maar dat maakt de claim van copyright houders alleen minder sterk toch
Als we steevast blijven vasthouden aan de huidige ideeën en wetgeving van hoe auteurs en hun werk bestaan misschien. Maar dan nog moet je groter kijken. Hoezo is een klein beetje werk gebruiken van een heleboel auteurs perse beter dan veel van een paar? Zeker wanneer dat de beroepsgroep financieel onder spanning zet/gaat zetten.

Wat doet dat onder de streep met het bestaan van schrijvers? Hoe ziet dat er in de toekomst uit? Waarom worden schrijvers verplicht mee te werken aan het zichzelf werkeloos maken(als je de technologische vooruitgang doortrekt)?
Waar, denk ik, de angst eigenlijk zit is dat LLM's in staat zijn veel sneller / goedkoper / beter nieuwe originele werken te maken en daarom in de toekomst met hun kunnen concurreren.
Daar heb ik het inderdaad over. In hoeverre willen we originele auteurs mee laten profiteren van nieuw gegenereerd werk dat uit modellen komt getraind op hun werk?

De reden dat "inspiratie" geen probleem is op kleine schaal maar misschien wel op grote schaal is precies die verstorende werking die het gaat hebben op de markt. Op precies dezelfde manier dat de drukpers auteursrecht nodig maakte, om auteur een levensvatbaar beroep te houden, zal deze ontwikkeling mijns inziens een aanpassing van dat recht nodig maken. Tenzij we het niet erg vinden dat het beroep sterk krimpt.
Die verstorende werking op de markt kun je ook als vooruitgang zien. Toen de stoomploeg werd uitgevonden vonden vast een hele hoop landarbeiders dat ook een verstorende werking op de markt. Die werden werkloos en gingen in fabrieken werken in de grote steden. Toen kwam er automatisering en was er weer een verstorende werking op de markt en toen gingen ze op kantoor werken met kaartenbakjes e.d. Toen kwam de computer, en toen het internet, etc. etc. Ik ben er blij mee want anders hadden we nu nog met 80% van de bevolking met de hand het land bewerkt.

De auteurswet is er niet voor bedoelt om vooruitgang tegen te gaan, of om mogelijk toekomstige concurrentie van slimme AI's te voorkomen. Het is bedoelt om een al gemaakt creatief werk te beschermen tegen kopiëren. Dus laten we vooral de discussie daartoe beperken (is het een kopie).

Dat sommige auteurs, acteurs, grafisch illustrators, programmeurs, etc. zich bedreigd voelen door AI snap ik heel goed. Ze hebben de keus om het te omarmen of niet, dat is aan hun. Maar dat AI de markt op allerlei plaatsen gaat verstoren is denk ik een vaststaand feit.

En ik denk dat er nog prima banen overblijven voor auteurs net zoals er nu nog steeds boeren het land bewerken. Alleen ze zullen zich moeten aanpassen aan de vooruitgang in hun vakgebied net als alle andere beroepsgroepen dat ook moeten. Niks mis mee denk ik.
Op precies dezelfde manier dat de drukpers auteursrecht nodig maakte, om auteur een levensvatbaar beroep te houden, zal deze ontwikkeling mijns inziens een aanpassing van dat recht nodig maken.
Dat was helemaal niet de originele insteek van het auteursrecht, het was juist omgekeerd. Auteursrecht is oorspronkelijk ingevoerd om de drukkerijen te beschermen zodat tekstschrijvers als er eenmaal een een drukkerij aan het drukken van hun tekst begonnen was, niet zomaar met hun tekst naar een andere drukkerij konden gaan.
https://nl.wikipedia.org/wiki/Boekenwet_1803
Tijdens de Bataafse Republiek kwam de Boekenwet 1803 tot stand. Dit was de eerste nationale regeling in Nederland ter bestrijding van ongeoorloofde nadruk. Dit was echter een recht van de uitgever en niet van de auteur. Iedereen die een oorspronkelijk werk uitgaf waarop hij het "regt van copie" had, verkreeg het uitsluitend recht – het recht om anderen uit te sluiten van bepaalde handelingen – om dat werk uit te geven en om tegen nadruk en verkoop van nadrukken op te komen.
Maar het copyright is niet bedoelt om toekomstige concurrenten uit te schakelen maar om jou eerder gemaakte werken te beschermen.
Precies dit…
Als samenleving kijken of de wetgeving nog voldoet lijkt me daarbij vanzelfsprekend.
De wetgeving op dit gebied loopt vreselijk achter bij de werkelijke situatie. Als je alleen al weet hoe lang ze over de laatste auteurswet gedaan hebben en de werkelijkheid loopt elke keer ver voor op wetgeving. Je leest weleens over de wedloop tussen misdadigers en opsporingsmogelijkheden. Nou, deze wedloop is er één waarbij de één al gefinisht is en de ander zich nog van zijn trainingsbroek moet ontdoen.
Een mens denkt zelf en kan creatief zijn. Een mens kan dus ook voortborduren op wat hij of zij geleerd heeft en de kennis verder uitbreiden zonder dat iemand het voorkauwt. Een llm kan dat niet, die reproduceert gewoon ongeveer zoiets als wat ie veel gezien heeft. Dat is wel een cruciaal verschil imho.
'Een mens kan dus voortborduren op wat hij heeft geleerd', dat is naar mijn mening toch vooral het combineren van zaken die hij al eerder heeft geleerd en/of het oplepelen van zaken die hij ergens anders heeft gehoord in een nieuw jasje. Er zijn maar erg weinig mensen op deze planeet die echt creatief zijn en iets origineels bedenken.

Daarnaast kun je je wel afvragen of een LLM dat niet kan. Jij noemt het reproduceren maar ik noem het combineren van zaken die hij geleerd heeft. Daarnaast kunnen zeker de nieuwere modellen (bv GPT4) toch bijzonder leuke redeneringen maken om tot de juiste antwoorden te komen in complexe vraagstukken. Dat is zeker niet zomaar te verklaren uit het reproduceren van iets dat hij al gezien heeft. Op de een of andere manier is 'het' in staat om logische verbanden te leggen, zich te verplaatsen in andere personen en een soort van wereldbeeld te vormen.

Hoe dit in zijn werk gaat is volgens mij nog vrij onbegrepen maar om het af te schrijven als het reproduceren van iets wat hij veel gezien heeft doet het toch een beetje tekort.

En daarnaast, wie zegt niet dat het menselijk brein niet op een soortgelijke manier werkt. Misschien zijn wij niet veel anders dan een LLM. Van baby af aan horen wij dingen en als we gaan praten gaan we oefenen in het meest waarschijnlijke antwoord te geven op iedere vraag die we horen. Als iemand zegt goedemorgen, zeggen we ook goedemorgen, want dat is het meest waarschijnlijke antwoord. Als iemand vraagt, 'Wat is de hoofdstad van Frankrijk?' hebben we geleerd dat het meest waarschijnlijke antwoord daarop 'Parijs' is. En zo ratelen we met zijn alle maar door en trainen we onze eigen LLM's zonder het te door te hebben.
Dat wereldbeeld vormen is al vaker getoets en gaat goed zolang het eenvoudig is. Als je daar op doorprikt blijkt het toch geen wereld beeld te zijn. Het bekende voorbeeld (ik doe een balletje in een beker en draai de beker 3660 graden, waar is het balletje nu? Antwoord: op de grond, want het balletje is eruit gevallen) gaat goed. Maar varianten daarvan niet, wat aangeeft dat het toch geen wereldbeeld is, maar een woordenvoorspeller. Voor het menselijk brein: ja, we zijn vast deels een LLM. Maar menselijk gedrag zie ik niet als 100% llm omschreven worden.
De verschillen tussen mens en de huidige llm zoals gpt4 zijn veel kleiner dan je denkt en beide baseren ze zich op wat ze kennen en logica.

Een llm kan ook nieuwe informatie maken gebaseerd op bastaande net zoals mensen dat doen.
Een mens denkt zelf en kan creatief zijn.
Een paar jaar geleden zou deze tekst volledig juist zijn, maar AI kan het bovenstaande ook al. AI maakt al AI, waardoor je kunt stellen dat deze creatief is. Creativiteit houdt niet op bij kunstenaars, maar behelst ook het geven van oplossingen. Daarbij is het niet eens belangrijk als die al eerder is toegepast, als het maar op dat moment uniek is.
Je ziet het verschil niet tussen een mens en een niet-mens? Zelfs als die functioneel identiek zijn zou ik het onderscheid altijd willen maken.

Het probleem zit bovendien niet in de kennis die gebruikt wordt, maar in de vorm waarin die oorspronkelijk gepubliceerd was, of het feit dat creatieve werken hergebruikt worden.

[Reactie gewijzigd door Migrator op 22 juli 2024 14:49]

Ik zie het verschil tussen mens en Ai wel. Maar ik zie niet zo'n wezenlijk verschil tussen hoe wij leren en hoe en Ai leert. En hoe wij data opslaan en hoe een Ai data opslaat. Er zijn wel verschillen, maar om nu te zeggen dat een AI auteursrecht schend en een mens niet als een van beide een antwoord formuleert op een vraag vindt ik niet evident.

Welk verschil is er in de vorm waarin de oorspronkelijke informatie gepubliceerd was? Zowel mens als AI leert uit boeken, van web pagina's en eventueel van afbeeldingen e.d. Als je met een peuter een nijntje boekje leest, dan laat je toch een plaatje van een konijn zien en zegt vervolgens dat dit een konijn is. Dat herhaal je vervolgens 15 jaar met steeds complexere plaatjes. Duurt allemaal wat langer als bij een AI en de plaatjes die er daarna uitkomen lijken nergens op maar principe is toch redelijk vergelijkbaar.

Als je het dan over creatieve werken hebt en kunst. Probeer eens een kunstenaar te vinden die niet zelf enorm veel kunstwerken heeft bekeken. Iedere creatieve uiting van de mens is geïnspireerd door eerder creatieve werken.
Als de storage (geheugen etc) van je machine groot genoeg zou zijn en tokenisation niet meer nodig is en je LLM dus letterlijk de hele trainingsset als 'parate kennis' heeft staan, is het dan nog AI of is het gewoon google met een betere query taal erop?
Wat jij beschrijft is in ieder geval geen LLM. Dat is een dataset met query systeem. Het wel of niet tokenizen van de data is niet waar het primair om gaat. Het trainen van het neurale netwerk op basis van de data is waar het om gaat. Zonder getraind neuraal netwerk zal hij hooguit onzin uitspugen.

Met een getraind neuraal netwerk kun je queries formuleren om in een andere (uitgebreidere) data set (bv het internet) te zoeken naar actuele informatie. En eventueel om die informatie weer te interpreteren en daarna een antwoord te formuleren. Dat kan nu al.

Naar mijn idee is een data set iets volledig anders dan een getraind neuraal netwerk. Je hebt een dataset nodig voor het trainen maar je kunt niet het neurale netwerk vervangen door een 'grotere' dataset.
Ik ben geen expert, maar ik zat met dezelfde vraag en mij is het zo uitgelegd:

Een mens denkt over de inhoud, en wat voor "betekenis" deze inhoud heeft, en hoe deze toegepast kan/mag worden. Een mens past - gewild of ongewild omdat deze niet alles exact kan onthouden - transformatie toe aan de informatie in de zin van: de betekenis is (misschien bijna) hetzelfde, maar toch anders is gezegd/toegepast.

Een AI is een hele goede voorspeller van het volgende woord, het vult iets aan. Als je een vraag intikt, dan vult de AI gewoon het volgende woord in door een woord te voorspellen wat erna hoort te komen.
Hierdoor kan het voorkomen dat er auteursrechtelijk beschermd materiaal 1:1 in een antwoord komt. Er komt geen "transformatie" voor, er komt ook geen "nadenken" of "betekenis" voor, het is puur het volgende woord voorspellen.

Ik weet niet in hoeverre dat helemaal waar is, maar ik geloof het op zich wel.

[Reactie gewijzigd door grasmanek94 op 22 juli 2024 14:49]

Dit legt alleen maar uit waarom het niet exact gelijk werkt aan de binnenkant. Als mensen kennis delen onderling is er ook altijd kans dat het 1:1 uit auteursrechtelijke beschermde materialen komt. En die kans groeit elke dag! Nature is amazing.

Hoewel jouw uitleg van LLMs helemaal klopt, gebruik ik ze gewoon als "iets/iemand om mee te sparren". Dus technisch gezien is het niet precies gelijk, maar in de praktijk ligt het ongelooflijk dicht bij een 'gewoon' dialoog, minus de datahonger van je tegenpartij dan. Althans, ik zal eens een AVG verzoekje ronde de familie en vrienden sturen ;)
Een AI leert alleen van het materiaal dat door de bouwers wordt aangedragen, en doet dat ook heel snel. Het enige doel van die AI is deze kennis weer in een of andere vorm the reproduceren.

Een mens leert het meeste uit eigen ervaring, en voegt dus iets toe.
Een mens leert ook heel langzaam.
Daar waar een mens uit 'bronnen' leert is er vaak sprake van kosten en heeft iedereen vooraf, expliciet of impliciet, ingestemd met het feit dat de mens die kennis gaat hergebruiken voor geldelijk gewin.
Met andere woorden, schoolboeken kosten geld, websites verdienen geld met advertenties, enz.

Zomaar een paar verschillen. Hoe significant dat verschil is is het grijze gebied waar de discussie over gaat. Uiteraard verschillen de meningen daarover naargelang de belangen, dus ik denk dat die discussie nog wel even gaat duren.
Dezelfde discussie voeren we tenslotte ook al eeuwen over copyright, patenten en andere vormen van intellectueel eigendom en daar zijn we het ook nog steeds niet over eens. :)
Schoolboeken e.d. mag je ook gewoon kopiëren voor eigen gebruik en de kennis daarna gebruiken voor eigen gewin. Volgens mij geldt dat ook voor websites. Je mag het alleen niet kopiëren voor publicatie, maar dat gebeurt ook niet in een LLM.

je hebt een punt dat een mens ook veel leert uit eigen ervaring. Een mens heeft 5 zintuigen en interacteert met de wereld om zich heen. Dat geeft een mens meer vormen van informatie dan een LLM. je kan bijvoorbeeld voelen dat een kussen zacht is en een stuk ijzer hard.

Het is nog even wachten op AI's met meerdere zintuigen en tot die tijd helpen we ze een beetje met 2D plaatjes en geschreven teksten maar principieel verandert dit (mijns inziens) niks aan het principe van leren. daarnaast leren mensen natuurlijk ook zeer veel op basis van teksten en plaatjes en is veel van de output van mensen ook gebaseerd op die informatie.

De discussies over copyright / patenten e.d. gaan voornamelijk over (verschillende vormen van) kopiëren. Het gaat meestal niet over het leren van kennis of je laten inspireren door.
Voor mij is het grote verschil dat de mens als auteur daadwerkelijk verantwoordelijk wordt gehouden om zijn bronnen te citeren of waar nodig licentierechten te betalen. Bij gebruik van een LLM heb je geen idee meer wat je gebruikt en hoe je het gebruikt en het LLM helpt je er niet bij.
Mensen citeren alleen bronnen als ze letterlijk kopiëren 9en dan nog heel vaak niet). Ik denk bij 99,99xxxx % van alle teksten die door mensen worden geschreven staat geen bronvermelding terwijl hij wel is gebaseerd op kennis die is verkregen uit andere bronnen. Dat is ook helemaal niet nodig alleen in bepaalde toepassingen en bij directe kopieën.

Een LLM kopieert zelden direct tenzij je hem daar opdracht voor geeft en zelfs dan heb je een grote kans dat het mislukt (geen perfecte kopie). In zo'n geval, het moedwillig kopiëren van beschermd materiaal, met behulp van een LLM, en het dan ook nog publiceren met als doel inkomsten te genereren, dan ben je inderdaad als opdrachtgever schuldig aan copyrightschending.

Maar waarom je dan een LLM gebruikt is me niet duidelijk. Lijkt me dan een stuk eenvoudiger om gewoon de tekst direct te kopiëren van het originele werk.
Nee, dat is niet duidelijk. Er wordt wat geroepen en vervolgens wordt gesteld dat het de waarheid is. Maar verder niks dat kan dienen als bewijs
Het enige verschil nu is dat de transformatie van de informatie nu door een machine uitgevoerd wordt
Maar dat is een gigantisch verschil! Vergelijkbaar met het uitvinden van de drukpers. De beginselen van auteursrecht ontstonden pas nadat het op grote schaal werk kopiëren een ding werd.
Het enige verschil tussen handmatig overschrijven en de drukpers is dat het door een machine gedaan wordt
Maar de implicaties zijn gigantisch. Goed kijken of de wetten nog voldoen in deze veranderde wereld lijkt mij gepast.
In principe niet, maar het zou zomaar kunnen dat de output van iets als ChatGPT letterlijk uit 1 van de leerbronnen komt. Als je dat dan (onwetend) publiceert, dan heb je een probleem. Als je weet wat de bronnen waren kan je daarop checken, maar die informatie heb je niet. Net zoals ik ook niet meer weet uit welke natuurkundeboek ik bepaalde dingen heb geleerd die ik nu nog steeds weet en gebruik.
Nee maar hij zou zijn studenten bijvoorbeeld wel les mogen geven met de opgedane kennis. Zo verspreid je ook informatie die origineel beschermd was. Waar trek je de grens?
Onderwijs heeft uitzondering in copyrightwet wanneer het gaat over reproductie/gebruik van werk met auteursrecht. Plaatjes, datasets e.d. mogen altijd gebruikt worden in kleinschalig lesmateriaal voor educatieve doeleinden mits netjes gerefereerd. Echter hele (of deels) boeken als kopie gratis aan studenten geven mag dan weer niet. Ook als je een lesboek publiceert mag je daar dan weer niet zomaar plaatjes van anderen in gebruiken.

Copyright zit niet op informatie/kennis, maar op het gemaakte werk.
Kleine verrijking aan jouw stuk. Geeft de andere lezers hopelijk meer duidelijkheid

Docenten mogen voortaan tot en met 40 pagina’s (in plaats van 50) overnemen uit een publicatie, op voorwaarde dat dit maximaal 20% van dat werk is. De nieuwe regels komen voort uit een wijziging van de Easy Access Regeling (voorheen de ‘readerregeling’) die is overeengekomen tussen Nederlandse universiteiten (UNL) en uitgevers (Stichting UvO).
Dat is inderdaad de discussie momenteel, waar huidige wetgeving (logischerwijs) achterloopt. Nu scheelt het dat de informatie zelf niet beschermd is, maar de manier waarop het gepubliceerd is wel.

Dat zorgt er in elk geval voor dat de grens voor het gebruik door mensen redelijk duidelijk is: de informatie gebruiken en opnieuw verspreiden mag, met de juiste bronvermelding uiteraard. Delen herpubliceren is afhankelijk van de vorm en de mate waarop, grote stukken herpubliceren of herpubliceren met commercieel belang mag meestal niet.

Voor AI is dat voorlopig nog een stuk minder het geval. Ik ga niet doen alsof ik de oplossing heb, maar snap wel dat de overheid hier terughoudend is.
Het veiligst is gewoon de informatie interpreteren en het zelf opnieuw beschrijven met een referentie naar de oorspronkelijke bron. Sowieso beter om teksten aan te passen i.p.v. 1 op 1 te kopieren. Het pas dan beter in de rest van de tekst en context.
Op feiten zit geen auteursrecht.
Maar op een plaatje dat die feiten visualiseert, of op een tekst die de feiten verklaart wel.
Het auteursrecht kent een aantal beperkingen, in Nederland gecodificeerd in art 15 t/m 25a van de auteurswet. Het auteursrecht is dus niet absoluut. Het is nog maar de vraag of het gebruik van auteursrechtelijk beschermde werken voor het trainen van ai wel inbreuk oplevert op het auteursrecht onder deze of toekomstige artikelen.

Zeker internationaal zijn er nogal wat verschillen zijn tussen de verschillende implementaties. Elk land kan beperkingen op het auteursrecht opleggen, waarbij "[h]et aan de wetgeving van de landen van de Unie [is] voorbehouden in bijzondere gevallen het verveelvoudigen van genoemde werken toe te staan, mits die verveelvoudiging geen afbreuk doet aan de normale exploitatie van het werk en de wettige belangen van de auteur niet op ongerechtvaardigde wijze schaadt."

Gezien de belangen en de voorsprong die er met doorontwikkelde modellen te halen zijn, kan het haast niet anders dan dat het gebruik wordt toegestaan. Het alternatief is ongelijk concurreren met landen waar dit wel wordt toegestaan.
In principe wordt de inhoud dan ook niet opnieuw gepubliceerd. De AI leert er alleen van en mixt en matcht weer zijn eigen ding. Het zou zelfs niet één zin moeten herhalen en zelfs niet parafraseren uit een copyrighted werk. Het bouwt enkel zijn eigen zinnen. Het leert enkel zinsbouw, en het leert de objectieve kennis in zo'n zin. Maar pure info/kennis kan je niet copyrighten, anders zou nu niemand je kunnen uitleggen hoe een transistor werkt omdat een of andere grapjas op de werking zelf een copyright zou hebben.

Het probleem is alleen dat dit een principe is. Meestal klopt bovenstaande, maar niet altijd. Er zijn wel gevallen aangetoond waarin de AI toch nog vrolijk iets genereerde dat wel heel veel op iets anders leek. Al heb ik dat vooral gezien met genereren van afbeeldingen, waarbij de AI bijvoorbeeld van een afbeelding een paar dingen in de achtergrond had verwijderd en de tekening rood had gekleurd. Maar dat het vooral bij afbeeldingen en niet zozeer bij tekst wordt gevonden lijkt me een niet zo belangrijk detail.

[Reactie gewijzigd door Amanoo op 22 juli 2024 14:49]

Het is nog niet 100% gezegd wat hier wel en niet mag. Een aantal spelers zoals OpenAI hebben miljarden webpagina's en andere bronnen ingenomen en het is twijfelachtig hoe legaal dit was. Nu is het wachten op juridische besluiten of bestaande wetgeving dat toestaat of niet. Zo niet, dan zouden de huidige AI-producten in theorie verboden kunnen worden omdat ze dan gemaakt zouden zijn op een illegale manier. Maar zover is het nog niet, en misschien komt het niet zover. Misschien zijn anderen meer op de hoogte van hoe de wind waait op dit gebied.

Een persoon die informatie inneemt voor zichzelf is niet helemaal hetzelfde als een mega dataproject dat miljarden stukken content inneemt en vermaakt tot een betaalde, commerciële dienst. Veel publieke informatie is tegelijk auteursrechtelijk beschermd, zoals een artikel op Nu.nl, een informatiepagina op Microsoft.com of een Reddit-bericht. Dat mogen wij vrij lezen, maar niet kopiëren naar onze eigen producten of commerciële uitingen. Zo mag een website niet zomaar tekst overnemen van een andere website. Wat de AI-makers doen is daarom wellicht ook niet in de haak.

En voor bijvoorbeeld een boek horen wij ook te betalen uiteraard, anders is het piraterij. Tenzij het boek oud genoeg is dat deze is vervallen naar de publieke ruimte (auteursrecht verlopen).

Naast auteursrecht kan ook de AVG en de wetgeving op persoonsgegevens van toepassing zijn. Persoonsgegevens mogen alleen worden ingenomen met toestemming, voor een vooraf omschreven doel dat niet behaald kan worden zonder die gegevens. OpenAI heeft waarschijnlijk vele duizenden persoonsnamen, woonplaatsen, leeftijden en andere info overgenomen in hun datasets. Ook hier is het weer afwachten wat de gevolgen worden.

Hoe het juridisch zit weet ik niet, maar voor zover ik weet zijn OpenAI en co nog niet opgedragen om te stoppen met scrapen, de GPT's zijn niet verboden en andere AI-makers zijn waarschijnlijk ook nog druk aan het scrapen zolang de "wilde westen"-fase van AI nog duurt. Ik ben benieuwd hoe dit eindigt.

[Reactie gewijzigd door geert1 op 22 juli 2024 14:49]

Als de informatie publiek staat, dan is een LLM niet anders dan oa Google. Het grootste verschil is dat een LLM niet naar de bron verwijst zoals Google dit doet.

Het is in principe wel mogelijk en LLM kunnen via tags naar de bron van stukken verwijzen.

Het grootste probleem dat mensen hebben met de LLM is dat ze dus geld verliezen aan het hosten van content omdat niemand, behalve de scraper, ze moeten bezoeken.

Ik denk dat we zo naar een meer 90s web gaan waar mensen sites opzetten over dingen die ze leuk vinden en veel minder commerciële meuk die van elkaar kopieert om hits te verkrijgen op hun ads.
Volgens mij zitten zoekmachines de afgelopen decennia ook in een juridisch grijs gebied. Google neemt auteursrechtelijk beschermd werk over en zet er advertenties naast, zelfs al gaat het alleen om titels en enkele regels tekst per bron. Dat is op z'n minst twijfelachtig.

Maar er is veel getolereerd omdat zoekmachines essentieel zijn en omdat ze doorzetten naar de bron, die dan inkomsten kan genereren. Ook houden ze zich aan robots.txt waarmee site-eigenaren indexering kunnen vermijden. Dat is genoeg geweest om andere stakeholders grotendeels koest te houden. De laatste jaren zijn nieuwsmedia wel bezig om een deel van Google's omzet te verkrijgen, wat misschien ook best terecht zou zijn. Alle advertentie-inkomsten uit Google Zoeken kunnen alleen bestaan vanwege al die bronteksten; die omzet is het surplus uit synergie tussen de zoekmachine en de bron.

Hoe meer zoekmachines direct het antwoord op een vraag in beeld zetten, hoe meer ze de inkomsten van de bronwebsites inperken. De balans ligt nu al ver aan de kant van Google met honderden miljarden per jaar, waar uitgevers nu dus meer oog voor krijgen.

Het kan zijn dat zoekmachines meer zullen moeten afstaan aan contentmakers in de EU in de toekomst - Google betaalt al nieuwssites in bepaalde regio's waar dat juridisch al zo ver is. Maar ik denk niet dat crawling / scraping voor hen verboden zal worden. Het internet zou er te onbruikbaar door worden.

[Reactie gewijzigd door geert1 op 22 juli 2024 14:49]

Stel je vraagt de bot om iets creatiefs te maken en dat creatieve is gebasseerd op een auteursrechtelijk beschermd werk, het is er in essentie een afgeleide van. Zonder het te weten schend je dan dat auteursrecht en stel je jezelf open voor een duren rechtzaak.
Dus als ik naar het Van Gogh-museum ga en daarna in mijn eigen atelier exact volgens de stijl van Van Gogh schilderijen ga maken, en daar mijn eigen naam onder zet, schendt ik ook de auteurswet? 8)7
Gegeven het feit dat de arme Vincent reeds in 1890 overleden is rust er geen auteursrecht meer op zijn werken. Maar doe dat met het werk van een moderne kunstenaar, en je hebt ineens wel een probleem. Dat is als gewoon een foto van ergens op het internet nemen denkende dat dat wel in orde is.

En een goed startpunt als je eens een andere kijk wenst te krijgen op copyright is een filmpje van Tom Scott van enkele jaren terug.
Dat hoeft helemaal geen probleem te zijn, zolang je maar geen exacte kopie maakt.
Een stijl, trend of mode is op zichzelf niet auteursrechtelijk beschermd. Men mag dus werk maken in de stijl van een andere kunstenaar of ontwerper, maar men mag niet een specifiek werk namaken.
Ik heb de auteurswet er even op nageslagen. De hoofdregel luidt dat een trend of stijl niet auteursrechtelijk beschermd is. Deze hoofdregel is al meerdere malen door de hoogste rechter (de Hoge Raad) in Nederland bevestigd. Wat @Yaksa zegt klopt dus.

Edit: ik heb dat filmpje niet bekeken (nu even geen tijd om een 42 min lang filmpje te kijken), maar ten eerste gaat dat volgens mij over de Amerikaanse auteurswet, die is niet hetzelfde als de onze, en daarnaast zullen auteurs, artiesten en andere producenten van origineel werk zich altijd bedreigd voelen door anderen (of dat nou mensen of machines zijn) die gelijkende content produceren. Het is daarnaast ook een belangrijk cultureel aspect. In China bijvoorbeeld is het een grandioos compliment als iemand je werk namaakt. Zij snappen de ophef dan ook niet die in het Westen ontstaat als ze weer eens een Westerse auto namaken en er hun eigen logo op plakken.

[Reactie gewijzigd door Polydeukes op 22 juli 2024 14:49]

Dan heb jij blijkbaar geen baan: werkgevers en klanten stellen deze vragen al een eeuwigheid dagelijks aan al hun werknemers en leveranciers. Die gaan vervolgens aan de slag en dat is zelden een probleem met auteursrecht
Er is juridisch nog erg weinig jurisprudentie over de interactie tussen trainingsdata en het auteursrecht.

De meest objectieve benadering is dat de wet alles toestaat wat niet expliciet verboden is, en AI's trainen is simpelweg niet genoemd in het auteursrecht. Volgens die logica is het toegestaan.

Een subjectieve benadering is dat auteursrecht de auteurs "beschermt", en dat AI die bescherming op één of andere manier "aantast". Daarom zou het niet toegestaan moeten zijn. Dat is meer een politieke discussie, wat onder het auteursrecht zou moeten vallen.
...en dat AI die bescherming op één of andere manier "aantast".
En dat is dus (imho) een hellend vlak. Hoe verschilt het "leren" van AI van het leren van een mens? Als ik als mens 1000 boeken lees en ik gebruik die kennis om verbanden te leggen en nieuwe inzichten te verkrijgen en die vervolgens opschrijf, zonder daarbij letterlijk of geparafraseerd ideeën of concepten over te nemen, schendt ik dan de auteurswet? Volgens mij niet.

Het lastige met AI is, dat we vaak niet weten welke bronnen überhaupt gebruikt zijn. Dus de discussie zou veel meer moeten gaan over de betrouwbaarheid van, en bias in de output, dan of het auteursrechten schendt. Zoals ik hierboven ook al schets is meerdere malen door de hoge raad bevestigd dat het volgen van een stijl of trend geen schending van het auteursrecht is.
Dit is een vraag die ik me ook meerdere keren heb gesteld en als ik goed begrijp hoe een model werkt is er geen verschil met het opereren van een menselijk brein. We zijn ook getraind maar dan door het leven, de ervaringen die we opdoen. De sensaties en teleurstellingen die we beleven. Neem ook mee wat je in al die jaren op school leert en ervaart. Al de oude meester bestudeerden de menselijk vorm ook uitvoerig. Kan je dit ook trainen noem, volgens mij wel. Er zal hier ooit een bodemprocedure over moeten volgen en zal de mens moeten bepalen wat wel niet kan. Er zit natuurlijk een transformerend aspect aan volume en hoeveelheid maakt niet uit. Wat ik nu vooral hoor spreken is angst en geld.
Ik denk hier hetzelfde over, want uiteindelijk is dit zo en is puur de schaal anders. Maar hoe het wettelijk zit is volgens mij nogal een discussie momenteel, en hoe mensen daar ethisch tegen aan kijken verschilt ook nogal. Dus ik snap wel dat een overheid daar wat terughoudend in moet zijn.
Om materiaal te gebruiken om machine learning te doen moet je het kopiëren. Ik zie niet hoe dat niet nodig zou zijn. En dat mag niet.
Hoe kun je een algoritme iets leren zonder het op te slaan?
en een MS licentie met de zakelijke versie van copilot geeft dekking tegen auteursrecht claims,

dus dat argument hoef je als bedrijf of overheid ook niet zorgen om te maken gezien je die garantie krijgt van MS.
Maar dat is toch een financiele dekking mocht je claims krijgen? Niet een dekking dat het niet op onethische en mogelijk onrechtmatige data getrained is? Als bedrijf is dat leuk, maar als overheid kun je natuurlijk niet een onethisch en mogelijk wet-brekent product gebruiken en (door het kopen van een licentie) financieel ondersteunen puur omdat financiele consequencties worden gecoverd als het wel (merk- en bewijsbaar) mis gaat. Volgens mij mist er nogsteeds de benodige transpirantie waar er wel op getrained is etc. om het overheid-ok te maken.
probleem is dat er niet echt wet geving is ,

dus je schaad dat ook niet het is grijs gebied, dat heeft arnoud volgens mij ook al een keer aangegeven en dat hij het graag een keer tot een rechtzaak zou zien komen om duidelijk heid te krijgen.

Daarmee zegt MS terwijl we bezig zijn met alle landen om duidelijk heid te krijgen en wetgeving te vormen dekken wij tot die tijd mocht er een issue zijn of komen de copyright claim.

dat is anders dan moetwillens een wet overtreden.
Dat weet ik. Met mogelijk onrechtmatige data kijk ik naar de copyright issues. Hoewel de wet rond AI nog niet bestaat, bestaan wetten rond copyright wel. En nu in het midden van die discussie misbruik maken van de wettelijke onduidelijkheid rond trainingsdata met copyright is niet handig.

Als de overheid nu willens en wetens in een grijs gebied dat ze nog gaan regulieren gaan zitten, dat is toch vragen om problemen later? Als ze dan reguleren terwijl ze het zelf gebruikte want ze hadden zelf "nog geen wet gemaakt", moet je de reacties indenken. Dan kom je als overheid in rare en mogelijke kwalijke situaties. Dat is als overheid vragen om gezeur.

Dat Microsoft dit aanbied is dus leuk voor bedrijven. Dat die di gen blijven doen zolang het niet niet mag is ergens logisch. Maar voor overheden en dergelijke instanties is dit geen doen en vragen om problemen.
Er bestaan inderdaad wetten over copyright, die bepaalde handelingen verbieden (concreet: vemenigvuldigen en openbaar maken). De handerling "AI trainen" is duidelijk geen van beiden.
Klopt. De discussie is echter ook dat sommigen beargumenteren dar de training onder vermenigvuldigen valt en de output onder openbaar maken.

Daarnaast blijft het punt dat er al discussie is over wat weggeving omrent "AI training" moet zijn. Als overheid dan nog even dat grijze gebied gebruiken is wachten op gezeur.

Overigen, ff voor de duidelijkheid, ben ik van mening dat AI niet onder vermeningvuldigen en openbaar maken valt. Ik snap hoe een neuraal netwerk werkt, en zie het meer vergelijkbaar als een mens die leert (in feite, daar is het op gebaseerd). Zei het op grotere schaal kwa hoe snel en hoe veel data. Ik ben ook niet tegen AI, en hoewel ik wel skeptisch ben op sommige dingen zie ik zeker ook mogelijk een toffe toekomst ermee.

Maar feit is dat de discussie speelt. Als overheid dan in dat grijze randje gaan zitten is vragen om gezijk. Als er ook maar iets fout gaat wordt het het volgende schandaal, en had de overheid nooit in die onzekerheid terwijl de discussie speelde X of Y moeten doen. En dat is puur mijn punt nu.

Zolang er zorgen en discussie zijn rondom een techniek, is het beter dat de overheid voorzichtig is en het eerst uitdenkt alvorens gebruik. Ik snap heel goed, en ben blij ook, dat ze het voor nu verbieden. Toestaan kan altijd later alsnog wanneer alles uitgezocht is. Iets terugnemen is lastiger. En een overheid moet wegens hun aard daar zorgvuldiger mee zijn dan een commercieel bedrijf (waar ik overigens ook enige zorgvuldigheid niet misplaatst vind, in hoe verre afhankelijk van het soort bedrijf).

Zolang er geen duidelijkheid transparantie komt op alle vlakken rondom de zorgen, moet je je als overheid hier niet aan willen branden. Dat Microsoft je kosten betaald als het mis gaat, is dan echt geen oplossing (waar dat voor een commercieel bedrijf wel heel interesant kan zijn).

[Reactie gewijzigd door Cambionn op 22 juli 2024 14:49]

Hoe kun je een algoritme iets leren zonder vermilenigvuldiging.

Dus geen muziek, tekst of wat dan ook op welke manier dan ook opslaan.
Simpel: door de data in je computer te houden. Dat is juridisch geen vermenigvuldiging.

Het auteursrecht heeft jarenlange jurisprudentie wat wel en niet telt als vermenigvuldiging, en een "kopie in RAM" telt niet,
Als je een cd kopieeert is dat vermenigvuldiging. En als dat voor analyze is is dat zakelijk, dus zeker verboden. Voor een boek gaat hetzelfde op.
Je kan niet je rechtszaken aan Microsoft overlaten. Als de Nederlandse overheid kan je daar niet achter schuilen. Als overheid wil je de garantie hebben van een OpenAI, van een Microsoft dat er geen enkele data wordt gebruikt met persoonsgegevens of data waar auteursrecht claims op zitten.

[Reactie gewijzigd door Rhinosaur op 22 juli 2024 14:49]

Met alle respect,

Ik begrijp dat je je zorgen maakt, en deze zorgen zijn hardstikke terecht. Maar het is deze mindset die remmend werkt op de vooruitgang. Ik daag je uit om mee te denken, wat is er nodig om als overheidsmedewerkers wel gebruik te kunnen maken van AI?

Ik lees in Nederland alleen maar verbieden, verbieden, verbieden. In Nederland verbeiden we omdat we er geen controle over hebben. We steken onze kop in het zand. Als we maar verbieden kunnen we met het vingertje wijzen, kijk. Ik heb het verboden maar deze persoon wou niet luisteren....

Verandering gaat nou eenmaal gepaard met hobbels, en uiteraard ook terechte kritiek / feedback. Daar moet ook zeker wat mee gedaan worden. Maar enkelverbieden, daarmee limiteren we onszelf.

Hoe zou het nu wel kunnen? Dat hoor ik graag.
MS zal ALLE licentieinbreuken die door copilot veroorzaakt worden op zich nemen, in het geval dat gebeurt (ze verwachten dus duidelijk van niet).
Dat kan simpelweg niet - in het strafrecht bepaalt de rechter wie er aansprakelijk is.

Microsoft kan alleen de schade op zich nemen.
Dat is niet dé intentie. Het gaat voornamelijk om het ingeven van data en dat is niet aan de orde met e5.

Ik zie geen probleem, zolang de overheid zich blijft houden aan de huidige bestaande regels. Ik snap dan ook niet waarom dit een expliciete wet moet zijn.
En daarbovenop staat er volgens mij ind e voorwaarden van CbatGPT dat auteursrecht bij hen ligt als je met die tool dingen ontwikkeld en/of maakt.
Je verwart Copilot met Bing Chat Enterprise. Bing Chat Enterprise is de Chat-GPT tegenhanger (incl. Dall-e) en is onderdeel van M365 E3.
https://learn.microsoft.c...manage#enabled-by-default

Copilot is de AI oplossing om taken te automatiseren in M365 apps / Windows. Dit is een add-on licentie van $ 30,- per maand per gebruiker (op dit moment alleen beschikbaar in het Enterprise segment met een minimale afname van 300 stuks). Copilot is niet inbegrepen in E3 of E5
Spijtig genoeg heeft hij gelijk en loopt jouw kennis enkele weken achter. Nog niet zo lang geleden heeft Microsoft namelijk Bing Chat (Enterprise) een nieuwe naam gegeven: Copilot. Het is een naam die ze ondertussen aan zowat al hun AI implementaties aan het geven zijn Je hebt nu dus Copilot in je Edge browser, je hebt Copilot in je OS, je hebt Copilot in Office, je hebt Copilot op Github, je hebt Sales Copilot. je hebt Copilot voor PowerBI, je hebt ...

alles met "AI" bij MS krijgt dat naampje opgekleefd. En sommige zijn gratis te gebruiken, anderen niet.
Maar blijft het feit dat je voor de Chat funtie in Edge geen dure Copilot lic nodig hebt, Daar is een M365 E3 licentie voldoende voor
Er zitten hier wel wat haken en ogen aan hoor.
Je hebt een E5 licentie nodig om vervolgens Copilot Enterprise te willen gebruiken bij afname van een licentie boven je E5. Het is geen onderdeel van de E5.
Daarnaast moet je een commitment aangaan voor 300 seats (licenties) voor een jaar. Prijs: 108k.
Hier zit nu al best wat drama achter in Amerika omdat kleine bedrijven de functionaliteit graag wilde gebruiken maar niet eens 300 medewerkers hebben.
Dat is copilot for Microsoft apps die ook company data gaat indexeren en gebruiken (binnen je bedrijf)
Ze zeggen cq beloven dat ze jouw data niet gebruiken; maar hoe kan iemand dat ooit controleren?
Waarom zouden ze een pr nachtmerrie en schadeclaims willen riskeren. Het product zou ook gdpr compliant zijn. De dienst is ook niet gratis.
Microsoft heeft meer macht en geld dan individuele lidstaten van de EU. Microsoft zal uiteindelijk echt niet moeten ophoesten bij schadeclaims, dat moeten de overheid en de belastingbetaler doen.
... en ze gebruiken die macht schaamteloos. Daarbij kunnen ze ook gedwongen worden data te overhandigen door, zeg, de VS of China. Ga je dan als bedrijf de data overhandigen of weg uit China of de VS? jajajaja wat denk jij...

Er zijn vast veel advocated die er naar kijken en regels enzo, maar ik snap uberhaupt niet dat we dat als overheid vertrouwen. Data op eigen servers in Nederland zou ik zeggen.
Het is eigenlijk het fundamentele probleem van KI-training: zodra teksten of beelden gebruikt zijn voor training is niet meer te reconstrueren wat er precies is gebruikt.

Daar bovenop komt het fundamentele probleem van gedecentraliseerde dataopslag. Hoe kan een overheid of instelling of wie dan ook controleren waar en welke data opgeslagen wordt?

Hoge officials van Facebook hebben voor senaatscommissies al toegegeven dat ze eigenlijk geen idee of overzicht hebben van de soorten data die opgeslagen en verwerkt worden. Ik vermoed dat de situatie bij Google/Apple/Microsoft niet veel anders zal zijn.
Als je heb daar niet op vertrouwt, dan moet je helemaal geen data opslaan. Geen Exchange Online, geen SharePoint/OneDrive, geen Azure diensten, geen ...
En dat doe ik dan ook niet.

Zakelijk gaat er geen bitje in de externe opslag, ik gebruik niets van MS en ik gebruik zakelijk geen smartphone.

Als ik data verstuur gaat dat persoonlijk met een USB stick met wachtwoord. Met de stick verpakt in een gesealde zak waarvan ik alleen de zakken heb.

Ik vertrouw niemand. En al helemaal geen Amerikanen sinds ze hebben geprobeerd mijn telefoon te klonen bij de douane.
Dat geld ook voor de Nederlandse overheid, Apple, je moeder, je kind en je werkgever.

Wat wil je nou zeggen, dat we allemaal de telefoon weg moeten gooien en aluhoedjes dragen?
Je laatste opmerking is best verstandig.

Ik gebruik mijn telefoon dan ook om te bellen, en zakelijk gaat er niets over internet.
Redelijk simpel, een LLM wordt meer specifiek hoe meer specifiek je vraag gaat. Op een bepaald moment zit je zover in de boom dat je enkel je eigen takken te zien krijgt.

Als je dus iets heel specifiek maakt dat wereldwijd uniek is, zie je je eigen content snel terugkomen omdat de LLM niets anders “weet”.

Er zijn verzen bekend die je kunt gebruiken op oa OpenAI die altijd dezelfde, vreemde antwoorden krijgen.
Welke verzen zijn dat dan? Show me
Ik denk dat ze er ondertussen al grotendeels manueel uitgesloopt zijn maar zoek eens op Google achter SolidGoldMagikarp of Newcome en er zijn nog een paar andere (Nitrome?) om het verhaal te krijgen.

Met een beetje zoeken kun je uitvinden welke tokens een minimaal aantal verbindingen hebben en dan krijg je dus vreemde antwoorden, loops en delen van de tekst waar origineel op getraind werd. Moest je die dingen dus 'voeden' aan een GPT en opzettelijk verbinden om het model te laten verkeerd lopen kun je dus je origineel auteurschap aantonen.

Vooral met code op GitHub CoPilot kun je snel zien dat als je in een bepaalde niche werkt dat je delen van je eigen code terugziet als die publiek staat op GitHub.
Microsoft is beursgenoteerd. Het probleem hier is dat de board verschrikkelijke ruzie krijgt met aandeelhouders als ze die verkeerd informeren. Een GDPR overtreding in Europa heeft materiële invloed op de winst, en volgens de Amerikaanse regels moeten ze aandeelhouders over dergelijke risico's informeren.
Waarschijnlijk verzamelen zo niet je letterlijke queries (al heb ik daar nog wat twijfels over), maar ze verzamelen wel degelijk allerlij abstracties van wat je stuurt, om het model verder te tunen.

Verder is er nog de vraag hoe secure je queries zijn aangezien ze over publiek internet gaan. Zo was er vorig jaar in het nieuws dat de CIA in bulk internetverkeer in america aan het opslaan is (Deep Dive II). Als de Quantumcomputers eenmaal goed draaien is de SSL encryptie daarop ook een eitje.
Waarschijnlijk verzamelen zo niet je letterlijke queries (al heb ik daar nog wat twijfels over), maar ze verzamelen wel degelijk allerlij abstracties van wat je stuurt, om het model verder te tunen.
Ook weer zo een niets zeggende opmerking zonder onderbouwing, maar dan de andere kant op... Over welk product heb je het dan exact? En heb je het dan correct ingesteld? En wat zeggen de gebruikers voorwaarden/contract daar exact over?

Niets is hack-proof en zeker niet CIA-proof, ook niet je offline netwerk. Binnen security is de vraag niet OF je gehackt wordt, maar wanneer. Het punt is het zo moeilijk mogelijk te maken en te kijken wat je vervolgens doet als het zover is.
Als de cia achter je data zit, dan is copilot het minst van je zorgen. ;)
SSL encryptie kraken is sowieso een eitje. Vandaar dat het niet meer gebruikt wordt.
en co-pilot gaat dan ook effe lekker meeluisteren in teams calls en resume maken van deze calls... en dit allemaal met AI en data in cloud.... lekker om dit alles te vertrouwen :)
Als je een Ms e5 licentie hebt, kan je beter copilot enterprise gebruiken (is onderdeel van de licentie)
Volgens mij bestaat er geen "Copilot Enterpise" product. Volgens mij bedoel jij "Bing Chat Enterprise", wat ze pas hebben omgedoopt naar gewoon "Copilot", wat iets anders is dan "Copilot for Microsoft 365" (en een berg andere Copilot producten).

Copilot (het oude "Bing Chat Enterprise") zou 'gratis' zijn voor:
Microsoft 365 E3, E5, Business Standard, Business Premium, and A3 or A5 for faculty licenses.
Echter volgens een foto van een medetweaker (die kennelijk op Egnyte zit) zou de nieuwe Copilot gratis zijn. En ik zou heel, heel zorgvuldig de kleine lettertjes lezen voordat je zoiets zo definitief zegt. Er is een hoop gezegt hierover, maar dat was 'in my recollection' over het Copilot for Microsoft 365... Die naams en product wijzigingen zullen eerst even moeten settelen en dat grondig de voorwaarden/contract doorlezen.

Met ChatGPT kan je ook instellen dat je data niet verzameld kan worden, maar ik dacht dat dit zat in de betaalde versie (weet dat niet meer 100% zeker.

Bron:
https://www.microsoft.com/en-us/bing/chat/enterprise/
Ik heb een E5 licentie maar ik begrijp niet hoe ik dan Dall-e 3 kan gebruiken hiermee, kan je me op we helpen?
Als de toepassingen niet voldoen aan de privacy regels die gelden voor de overheid dan mogen deze toepassingen toch in de basis al niet gebruikt worden door de overheid, daar is dan toch geen apart voorstel voor nodig 8)7
Dit is precies wat ik dacht. Ik werk in de zorg, daar is het idem zo. Patientgegevens gebruik je alleen bij applicaties die voldoen aan alle AVG (o.a. NEN7510 compliant) zijn.

Het lijkt met dat dit bij de overheid niet anders is... Dit moet al jaren gebeuren sinds de invoering van de AVG

Dit is dan eerder een gebrek aan opleiding/informeren van personeel

[Reactie gewijzigd door gybe op 22 juli 2024 14:49]

Gezien de huidige overheidsuitgaven zou ik dit soort technieken omarmen in plaats van verbieden. Heel langzaam begint er een negatieve lading rondom AI te komen. Mede mogelijk gemaakt door wat de boer niet kent, eet die niet. Het is niet alles of niets, je kunt ook banen behouden én AI inzetten, maar nu is het net alsof we bang zijn voor het onbekende, dus laten we maar alles verbieden en er vooral niet over praten of verder onderzoek doen naar alle positieve toepassingen.
Gezien de huidige overheidsuitgaven zou ik dit soort technieken omarmen in plaats van verbieden. Heel langzaam begint er een negatieve lading rondom AI te komen.
Heeft denk ik niet zozeer met negatieve lading te maken, maar meer met onzekerheid en risico wat er met de gegevens gebeurd.

Je moet er niet aan denken dat (bijvoorbeeld) medische of fiscale (belasting) informatie van alle inwoners van Nederland opeens in handen blijken te komen van de bedrijven achter deze AI-engines omdat één ambtenaar deze (al dan niet onbewust) upload, en dat ze die data dan gebruiken om hun modellen te trainen.

Als dat gebeurt heb je een affaire waarbij de toeslagenaffaire nog verbleekt qua omvang...

Vergeet niet dat je, als je dit soort data upload, dit wel naar een doorgaans Amerikaans bedrijf doet, waarvan je dus niet weet wat ze ermee doen. Plus dat er natuurlijk vaak een eis is dat die data in het eigen land, of in de EU-zone, moet blijven.

Ik denk dat het goed is dat de overheid hier héél voorzichtig in is, om schandalen (lees bijvoorbeeld: datalekken) in de toekomst zo veel als mogelijk te voorkomen.

[Reactie gewijzigd door wildhagen op 22 juli 2024 14:49]

Maar is een verbod dat de juiste keuze, of zou dit gewoon goed gereguleerd moeten worden?
Ze zouden ook kunnen denken aan een intermediaire dienst, die zeer nauwkeurig filtert wat wel en niet verwerkt wordt, of een generatiegenoten AI model in eigen beheer.
Oh, vergeet dat laatste. Het blijft natuurlijk de overheid...
Een verbod is reguleren, want om het dan toch te gebruiken moet je toesteming krijgen, waar door je dus een goed onderbouwde reden moet aanleveren
Het is inderdaad "een" vorm van reguleren, maar dan wel bijna de meest extreme.

Stel je voor dat je elke keer als je koffie wil zetten 10 formulieren moet invullen, toestemming moet krijgen van je baas voor de kosten, maanden moet wachten voordat het verwerkt is, etc... "dan maar geen koffie" zou bijna iedereen denken
Nee, je wil koffie gaan gebruiken, 1x 10 formulieren invullen en daarna is het onboarded en kan je koffie gebruiken. Dit is voor koffie al lang, lang geleden gedaan. Maar je neemt nu wel het 'makkelijke' voorbeeld, wat als je cocaine wil gebruiken, 1x 10 formulieren invullen en wachten op besluit. Is dat ondertussen wel gebruiken totdat je wacht op toestemming een goed idee?

Het issue is hier dat wat men is gaan doen is gewoon gaan gebruiken en niet 1x die 10 formulieren invullen. AI speelt al veel langer dan ChatGPT en ChatGPT is over twee weken alweer een jaar oud. Als men gewoon direct was begonnen met een onboarding process voor bv. ChatGPT, dan was er meer duidelijk geweest, maar zo werken bedrijven/overheden kennelijk niet...
Jij beschuldigt mij van het gebruiken van een "makkelijk voorbeeld", en komt dan zelf met net zo'n makkelijk voorbeeld om het tegengestelde te 'bewijzen'.

En je beschuldigt mij (bij een andere reactie) van "nietszeggende" opmerkingen "zonder ononderbouwing". **knip**: excuus verkeerd gelezen.

Wat blijft is dat je nogal agressief en afkeurend het gesprek ingaat. Ik vind het geen prettige vorm van discussiëren

[Reactie gewijzigd door MeMoRy op 22 juli 2024 14:49]

Begrijpend lezen is kennelijk een vak apart... Ik geef een extreem tegenvoorbeeld de andere kant op, niet om wat te 'bewijzen', maar omdat de waarheid ergens in het midden ligt. Iets van, kijk dit extreem onzinnige voorbeeld, tegen mijn extreem onzinnige voorbeeld...

Daarnaast, als je iemand quote, doe dat dan correct, "ChatGPT is over twee weken alweer een jaar oud". Die opmerking is niet 'loos' dat betekend dat men bijna een jaar de tijd heeft gehad om het te onboarden, maar wat ik in andere organisaties zie en hoor/lees van anderen is dat men het liever gebruikt dan dat men een onboarding proces ingaat...

Jij bent bij uitstek het issue waarom men liever een verbod invoert dan iets anders probeert. Niet begrijpend kunnen lezen, alleen in eigen straatje praten en even de zaken negeren (bewust of onbewust) die gaten prikken in het argument...

Het is heel simpel: We gebruiken nu X, Y gebruiken we (nog) niet, totdat dit onboarded is gebruik je geen Y. Dit is absoluut belangrijk bij iets als een overheid en zat andere organisaties. Hier zijn over het algemeen regels voor. Niet elk nieuw product zou een verbod voor hoeven komen, er zijn al immers bestaande regels die de lading dekken. Het is alleen een bepaald type gebruiker dat dit niet door wil of kan hebben...
En je schuift nu alle dat datalek problemen onder onwil.
Ik zou het ook geen probleem vinden als ze alle gegevens met betrekking op jou in chatgpt zetten. Alleen die van mij wel.

Tevens die waarschuwing en navenant verbod op uploaden naar chat gpt kwam binnen mijn werk na 4 weken van release chat gpt. Het is eerder een probleem dat de overheid hier een jaar voor nodig had
Koffie en cocaïne zijn in deze exact gelijk.
Als AI echt belangrijk word zal de overheid het vast omarmen met een eigen implementatie, of iets van een Europees bedrijf. Of gewoon concrete afspraken over privacy zoals wat ze met Microsoft doen. ChatGPT lijkt me niet cruciaal om de werkzaamheden uit te voeren.

[Reactie gewijzigd door Wolfos op 22 juli 2024 14:49]

Tja toch gooi je hier wel veel dingen door elkaar.
  • Een model trainen hoeft (juist) niet te leiden tot een datalek omdat je niet zo maar/zonder meer data uit een AI / neuraal model kan halen.
  • Trainen op basis van een populatie in plaats van een selectie, kan juist bias wegnemen. Bij de toeslagen-affaire was juist een selectie-bias.
  • Enige dataonzekerheid is er altijd. Nu ook al. We blijven bij opslag afhankelijk van derden en vertrouwen en daar zullen ook altijd risico's bij horen.
Ik ben wel heel benieuwd wat voor affaire jij bang voor bent. Wat is het doomscenario volgens jou?
Het gaat niet om banen of overheidsuitgaven o.i.d. het gaat erom dat je overheidsdocumenten aan vreemde instanties buiten Nederland voert, zonder dat je enig idee of controle hebt over wat er mee gebeurt.

Hoe zou jij het vinden als een een vriendelijke ambtenaar een aan jou persoonlijk gericht stuk vol met ambtenarenjargon even door chatgpt haalt om het begrijpelijker te maken?

Uitermate terecht dat de staatssecretaris dit gaat reguleren.
Maar er staat ook dat het geen totaal verbod is, als er een contract is met zo'n bedrijf, en daarin worden bepaalde waarborgen opgenomen, dan mag het wel.
AI is een nuttig hulpmiddel om grote hoeveelheden data door te spitten en daar bijvoorbeeld een goede samenvatting van te maken. Dat zou bij het uitvoeren van veel overheidstaken zeker van pas kunnen komen.

Maar wat je níet wilt is dat die data door externe partijen wordt doorgespit; zoals dus ChatGPT of Midjourney. Een eigen AI-toepassing ontwikkelen zou een oplossing kunnen zijn. Natuurlijk hoef je dan niet per se het wiel opnieuw uit te vinden, ChatGPT of Midjourney als basis gebruiken zou wel kunnen.
Een eigen AI-toepassing ontwikkelen zou een oplossing kunnen zijn.
Zijn we al mee bezig ;)
Het hoeft niet om grote hoeveelheden data te gaan.

Wanneer er bv. op basis van bepaalde door een burger of bedrijf aangeleverde gegevens een besluit gemaakt moet worden, is dat besluit al snel een paar kantjes tekst om duidelijk te maken waarom het wel of niet kan en onder welke voorwaarden en volgens welke wetten en regels. Hoewel het vaak standaardteksten zijn, moeten die wel elke keer op de specifieke situatie worden aangepast en daar gaat veel tijd in zitten.
Een AI kan heel snel een duidelijk en begrijpelijk besluit maken op basis van de relevante gegevens en de beslissing. (Dat beslissen laten we nog even aan de ambtenaar zelf over, al zou de AI op termijn misschien wel een voorstel kunnen doen.)

Je wil niet dat die gegevens (misschien wel strategisch belangrijke bedrijfsgeheimen) bij een extern bedrijf terecht komen die de AI-dienst aanbiedt.

[Reactie gewijzigd door CivLord op 22 juli 2024 14:49]

Ik snap sowieso niet dat mensen dat apparaat klakkeloos van alles voeren, dat je dat op overheidsniveau niet doet lijkt me een vanzelfsprekendheid. Dat je daar nu pas regels voor gaat opstellen lijkt me rijkelijk laat.
Via Microsoft kan je de techniek van OpenAI prima inzetten met behoud van grip over je data zoals ook in Teams, Sharepoint en Exchange Online.

Echter het auteursrechten kwestie blijft overeind. Misschien is de tijd van auteursrechten hiermee voorbij. Dit is met name een risico voor opensource code. De vraag alleen is of er een bewijslast is om de overtreder mee te bestraffen.
Het gaat er niet om dat Microsoft copyright claimed maar de data waarop getraind is, wat mogelijk onder de Opensource licenseagreement valt en daardoor de code die daarop gebaseerd is ook.
MS claimed geen copyright maar geeft aan dat ze elke claim voor je dekken mocht je een claim krijgen
als je de enterprise copilot gebruikt,

Daarmee heb je als bedrijf dus nooit een issue met copyright.
Dat laatste is weer iets te optimistisch. Als jij een product maakt wat gebaseerd is op Copilot, en er blijkt een auteursrechtenclaim te volgen, dan is het denkbaar dat je naast schadeclaims ook het product van de markt moet halen.

De schadeclaim is gedekt, jouw verloren investering niet, en je gemiste inkomsten ook niet.
Maar volgens mij is in die context gebruik van AI al verboden, want vertrouwelijkheid geldt al voor in principe al je werkzaamheden. Je maakt het verbod alleen wat duidelijker.
Verbieden wat al verboden is gaat op die manier eerder om pokitiek dan om de duidelijkheid. Want als men iets wat al verboden is gaat verbieden dan is men eerder onduidelijkheid aan het scheppen alsof er extra verbod nodig is voor het niet gebruikt mag worden. Als men bij een bestaand verbod duidelijkheid wil scheppen dan hoeft men namelijk alleen op de bestaande regels te wijzen en toe te lichten hoe het toepassen van AI daarbij niet past. En zoals ik het nieuws lees lijkt het daar ook om te gaan: de bestaande regels zijn er niet om ze bewust of onbewust maar opportunistisch te negeren.
Als de overheid het niet lukt om bestaande regels toe te passen dan lijkt me dat niet vragen om extra regels die hetzelfde moeten benadrukken, omdat men het probleem daarmee niet aan pakt. Want of men nu bang is dat de overheid iets gaat doen wat al niet de bedoeling is of al doet wat niet de bedoeling is, dat hangt niet zomaar af van het product of dienst. En als dat wel zo is, dan hoort men daar transparant over te zijn, niet transparant proberen te lijken door specifiek populairs iets te verbieden wat al verboden is.

[Reactie gewijzigd door kodak op 22 juli 2024 14:49]

Het voorstel zal niet enkel een verbod op het gebruik van publiek beschikbare AI-diensten zijn.
Het zal meer een raamwerk zijn van wat niet mag en wat binnen bepaalde voorwaarden wel mag.

Het hoeft ook niet meteen een wet te zijn, het kan ook een beleidsbesluit zijn die dat raamwerk binnen de bestaande wet en regelgeving plaatst. Dus regels opstellen van wat volgens de AVG en auteursrecht wel en niet mag. Een ambtenaar kan een specialist zijn op zijn eigen terrein (bouwvergunningen, belastingen, hinderwet) maar dat betekent niet dat hij/ zij ook alle details van de AVG kent.
1 jaar geleden had nog niemand hiervan gehoord, dus zo laat is dat niet. De overheid kan niet gelijk achter elke scheet aan rennen. Sommige procedures hebben tijd nodig.
De overheid heeft als het goed is gewoon een team mensen die de hele dag alleen maar met security bezig zijn die ze daarover informeren.

Je hoeft er echt niet een jaar over te doen om te bedenken dat mensen met wat mindere knowhow gewoon Chat GPT al dan niet geheime documenten gaan voeren om samenvattingen enzo te fabriceren waardoor die data gewoon prompt buiten de deur ligt.

Als je dat als CISO een scheet vind zou ik wat anders gaan doen in ieder geval. :)

[Reactie gewijzigd door Polderviking op 22 juli 2024 14:49]

Daar zijn natuurlijk allang regels voor, alleen wie leest de gebruikersvoorwaarden... En wie heeft daadwerkelijk de security regels waar je je aan moet houden binnen je organisatie gelezen en nog veel belangrijker, begrepen. Wie weet deze nog?

Een hoop van ons zijn al decennia lang ITer, zijn heel vaak met dit soort vraagstukken bezig, regels vanuit je eigen organisatie vs. de product functionaliteit (marketing vs. documentatie vs. werkelijkheid) en de kleine lettertjes die daarbij horen. En voor ons is het vaak ook een doolhof welke heel veel hoofdpijn oplevert en ook niet altijd correct wordt geïnterpreteerd (door IT of legal)... Wat verwacht je precies van de doorsnee politicus of bureaucraat?

ChatGPT zou bruikbaar zijn, mits je het goed instelt en door behoorlijk wat hoepels heen sprong. Dat was aan het begin dat ik er naar keek een user instelling, geen opties om dat centraal in te stellen of te controleren. Dat maakt het een security risk voor je data vanuit een bedrijfsperspectief omdat je er niet vanuit kan gaan dat elke gebruiker dit correct instelt en je geen mogelijkheid heb om dit te controleren. Wellicht kan dit wel in ChatGPT Enterprise (mag ik hopen), maar niet verder naar gekeken.

Effectief is dit een verbod wat zegt, je mag niets gebruiken totdat wij het officieel hebben onboarded. En waarbij ze tijdens het onboarding proces toetsen wat er met de data gebeurt en waar. Daarna dit ook verder afdichten met contractueel papierwerk van de overheid (ipv. de leverancier).

Wat ik frappant vind is dat dit de dag na MS Ignite vol is over MS Copilot in de krant komt...
ChatGPT (en anderen) werd bij m'n vriendin op het werk (Deense overheid) al een maand na (wereldwijde) lancering verboden ofzo. Je kan zo'n model natuurlijk niet gaan voeden met gevoelige informatie, gezien het allemaal bewaard wordt.

Dat dit nog niet zo is in Nederland sta ik echt van te kijken.

[Reactie gewijzigd door RVervuurt op 22 juli 2024 14:49]

Leer mensen dan hoe ze er mee om moeten gaan? Je kunt er toch zeker waardevolle informatie uithalen die geanonimiseerd of geobfusceerd is?

Accepteer als organisatie nou eens dat dit soort zaken (kunnen) gebeuren, en trek je dat dan aan en zorg voor goede opleiding. Want als het op een fatsoenlijke onboarding van productiviteitstools in een organisatie aankomt laten heel veel organisaties steken vallen (want het kost geld, met de nadruk op kost en men ziet niet wat het oplevert).

Hoi hier heb je Teams, hup over de schutting, Hoi hier heb je Bookings, hup over de schutting, iedereen verwacht maar dat men autodidactisch met tools om kan gaan, dat lukt voor sommigen, dat lukt voor de jeugd misschien, dat lukt voor iemand die het interessant vindt en zich er in gaat verdiepen, maar als een tool een tool is voor 'maar gewoon je werk', ben je er als organisatie toch bij gebaat het fatsoenlijk te laten landen.

Omarm het i.p.v. zinloos verbieden!
Accepteer als organisatie nou eens dat dit soort zaken (kunnen) gebeuren,
Dat kan dus niet, want dan hangt je een potentiële megaboete van het AP boven het hoofd (maakt niet uit of ze het wel of niet handhaven, dat risico wil je gewoon niet lopen).
Begrijp ik, je kan ChatGPT verbieden, je kunt het blokkeren, en dan komt de medewerker thuis en dan doet ie willens en wetens zijn werk daar in kloppen, want dat kan nog steeds.

Mijn punt, het is niet te verbieden, medewerkers vinden een weg. Dus beter opgeleid en er verstandig mee omgaan, of idd een platform zoals Bing Chat Enterprise gebruiken, maar het gaat me ook meer om het punt dat organisaties niet goed onboarden op dit vlak.
Ik neem aan dat als je baas expliciet aangeeft dat er voor werk _geen_ ChatGPT gebruikt wordt je die regel niet maar even overtreedt omdat het jou wel goed uitkomt.
Natuurlijk zal dat uitgelegd moeten worden, maar van medewerkers die vertrouwd worden thuis te werken mag je ook wel enig inzicht in dit soort materie verwachten.
en hoe ga je dat controleren? Een ambtenaar die een stuk/code moet schrijven maar geen chatGPT/copilot mag gebruiken en het thuis toch doet en overtikt? Daar kom je niet doorheen met privacy regels en de ambtenaar kan prima beweren dat hij het stukje zelf verzonnen heeft, want briljant o.i.d..
Als werkgever zit je er ook niet op te wachten om te pas en te onpas je werknemers te moeten 'beschuldigen' van AI gebruik. Aan het eind van de maand zijn er dan niet veel werknemers meer over vrees ik of is op z'n minst de werksfeer compleet verpest.
Precies, en het probleem van beleid is. De mensen die het schrijven, die begrijpen het, die onthouden het.
En als je 1 keer per jaar je info sec beleid de revue laat passeren in een organisatie, of mensen bij indiensttreding een NDA onder de neus schuift, ben je misschien wel afgedekt/compliant, maar wie weet dat nog na x aantal jaar.

Dus ook daar, continue mee bezig zijn. Dus @bzzzt je hebt wel gelijk, maar de praktijk is weerbarstiger dan al die organisaties doen voorkomen.
Dat is natuurlijk een goede reden om ChatGPT niet te mogen gebruiken. En gelukkig is die reden er, want om een veel belangrijkere reden zal het niet verboden worden. Die veel belangrijkere reden is de discussie wetenschap/bijbelse waarheid waar ik hier op Tweakers niet mee aan hoef te komen. ChatGPT heeft natuurlijk een wetenschappelijke bias en kent de inhoud van de bijbel slechts als een verhaal. Dat dit vroeg of laat voor enorme problemen gaat zorgen is voor mij een zekerheid.
We hebben in Nederland een scheiding tussen kerk en staat. Dan zijn besluiten op basis van religieuze teksten niet zomaar belangrijker dan andere omstandigheden. Dus tenzij je dat belang kan aantonen is het een te makkelijk stelling.

AI diensten zijn vaak hoe dan ook niet zomaar geschikt bij gebrekkige invoer of voor onomstotelijke uitvoer. Als de invoer al te beperkt (of onduidelijk) is zal dat, ongeacht het onderwerp, dus niet zomaar juist uitkomsten geven. Natuurlijk kun je dat voor kerkelijke interpretaties persoonlijk belangrijker vinden, maar dat maakt het nog niet zomaar specifiek voor een overheid belangrijker vergeleken met alle andere onderwerpen die ook bestaan.
Er werd informeel al aardig wat af geëxperimenteerd met AI binnen de rijksoverheid maar regels ontbraken inderdaad nog.
Zeer terechte punten van Van Huffelen, lijkt me ook weinig weerstand geven.

Op hei sessies werden er al strategieën door Chat GTP gemaakt als ludieke voorbeelden, maar je hebt daarbij altijd input van echte informatie.
Een DG die bloedserieus z'n meerjarenvisie via AI wilde doen om zo het budget voor z'n stategie-afdeling te beperken was er ook al
...maar regels ontbraken inderdaad nog.
Ik mag toch hopen dat er generieke DLP regels binnen de overheid zijn en ook over dataverwerking met wat betreft third parties. Dat er geen specifieke regels zijn voor LLM/AI oplossingen, sure, maar dat maakt dat DLP/dataverwerkingsregels niet spontaan alsof ze niet bestaan.
Een verbod? Dat er eisen aan gesteld worden kan ik alleen maar toejuichen, maar een algeheel verbod? Dat is wel erg drastisch.
Generatieve AI kan een handig hulpmiddel zijn, om dingen net iets anders te formuleren of te brainstormen. Natuurlijk moet er rekening gehouden worden met auteursrecht e.d. En het begint gemerngoed te worden: steeds meer mensen gaan het gebruiken in diverse toepassingen.
Dit nu simpelweg verbieden lijkt mij meer op een soort onwetendheid of naïviteit duiden.
Lees goed wat er in het bericht staat. Het wordt verboden om deze AI-diensten zomaar zonder specifieke overeenkomst en afspraken te gebruiken.

Niets staat de overheden in de weg om een overeenkomst af te sluiten, waarbij afspraken gemaakt worden over hoe de AI-dienstverlener omgaat met door overheid aangeleverde gegevens, ter bescherming van privacy en geheimhouding. En afspraken met de ambtenaren over wat wel en niet mag met de aangeboden dienst.

Deze regelgeving is juist erop gericht dat ambtenaren AI kunnen gebruiken maar wel binnen de juiste kaders. En ja, dat moet je ook wat verbieden om te voorkomen dat men olifantenpaadjes gaat bewandelen.

Je kan hooguit zeggen dat ze er laat bij zijn.
In het voorstel het gaat niet om het verbieden van ChatGPT, maar om AI services of foundational modellen die niet door de overheid gecontrolleerd of beheerd kunnen worden. Het gaat dus om de transparantie of uitlegbaarheid. Dus een eigen ChatGPT service op eigen data, die bijvoorbeeld op Azure OpenAI draait is wel gewoon mogelijk.
In plaats van verbieden is het beter om beleid op te stellen hierover. Ik zou juist ook mensen die werken binnen de overheid kennis willen laten maken met de mogelijkheden die dit biedt, niet alleen naar de onmogelijkheden kijken en gelijk alles verbieden.

Dat het gebruik binnen kaders geplaatst moet worden is ter voorkoming dat data op plaatsen komt waar het niet thuishoort.
Ze stellen juist beleid dat alleen van ai gebruik mag worden gemaakt die aan de privacy regels voldoet.

En dat is maar goed ook want de meeste ai hebben de zelfde privacy beleid als het Darkweb of Facebook.
Ik gebruik ChatGPT amper om teksten te schrijven. Ik gebruik het vooral om mijn eigen teksten te verbeteren, woorden op te zoeken, kleine zinnen te vertalen etc. Natuurlijk kan je het gebruiken om teksten te genereren maar da's echt maar 1 van de toepassingen. Een breed verbod is met een olifanten geweer op een mug schieten. Aan de andere kant zie ik ook niet direct een mogelijkheid om het ene wel toe te staan en het andere niet.
Ik hoop dan wel dat je begrijpt dat je ChatGPT niet in kan zetten om zinnen te vereenvoudigen als:
"Op grond van art. 123 XYZ kan ik helaas niet akkoord gaan met de door u geambieerde gratis vervoersmogelijkheid om uw 90-jarige schoonmoeder (mw. M, Dobbelsteen, geboren 17-11-1933 te Keteldorp) dagelijks van haar woonadres (XYZ) naar de ouderenopvang Avondrood en weer terug te brengen.
Dan heb je een datalek wwarmee je de AVG, je beroepsgeheim en waarschijnlijk nog een rits regels schendt.
Da's natuurlijk zo en ik zou nooit persoonsgegevens gebruiken binnen ChatGPT. Je kan verspreiding wel enigszins tegen kan gaan door ChatGPT Enterprise te gebruiken. In ieder geval wordt je data dan niet verder verspreid dan de servers of gebruikt om de AI te trainen. Volgens OpenAI zelf natuurlijk, geen idee of dat geaudit is of kan worden - zo diep heb ik het simpelweg nog niet bestudeerd.

Op dit item kan niet meer gereageerd worden.