Nederlands taalmodel gaat offline na contact met Stichting Brein

Er is een Nederlands taalmodel gebaseerd op Mistral-7B offline gegaan nadat Stichting Brein contact had opgenomen. Het is onbekend om welk model het precies gaat. Het is het tweede taalmodel in korte tijd dat offline gaat.

De maker had het model getraind op 'miljarden tokens aan Nederlandstalige literatuur, nieuws en studieboeken'. Brein vroeg naar eigen zeggen om welke data dat ging, waarna de maker het model offline haalde. Het is op een Mistral-7B gebaseerd model, maar Brein noemt de naam niet. Vorige week ging GEITje offline na een verzoek van Brein.

Brein wil dat makers van modellen een vergoeding betalen als zij materiaal van auteursrechthebbenden gebruikt hebben voor training. Dat is in de AI-wereld lange tijd niet gebruikelijk geweest: ook grote bedrijven als OpenAI en Anthropic hebben het web gescraped. Onder druk van mogelijke rechtszaken hebben zij wel veelal deals gesloten met grote mediabedrijven.

Door Arnoud Wokke

Redacteur Tweakers

06-02-2025 • 14:13

176

Reacties (176)

Sorteer op:

Weergave:

Mag je eigenlijk je eigen gekochte boeken gebruiken voor trainen van een model?
Een model voor persoonlijk gebriuk vast wel. Zodra je het gaat exploiteren, ben je bezig met een vorm van vermenigvuldiging. Daar ageert Brein nogal tegen.
Maar als je een wiskunde boek leest, mag jij als persoon de kennis ook gebruiken. Niet letterlijk, maar je mag een medestudent ook uitleggen. Is het trainen van een model niet vergelijkbaar ?
Dat is een interessante casus.

Dan zou iemand het aan een rechter moeten voorleggen met dat argument.

Brein stelt (uiteraard) dat het invoeren van teksten in een database "vermenigvuldiging" is. Het maakt ze daarbij niet uit of die database nu online wordt gezet, of aan een algoritme wordt gevoerd.
maar een LLM is geen database...
een LLM is zeker uiteindelijk een database want het baseert zich op de ingevoerde data. Er is nog geen AI die daadwerkelijk cognitief kan denken zoals een mens. Het is allemaal actie = reactie. Vraag = antwoord. Complexere zaken kunnen niet, het is een hele interessante casus bij een rechtszaak, maar je gaat het verliezen gezien je de geschreven teksten uiteindelijk gebruikt om te vermenigvuldigen. Als een mens daadwerkelijk zelf dingen schrijft is dat anders dan een LLM die het halve internet leeg gescraped heeft (de andere helft is niet zo interessant zegmaar :+ )
Kijk naar 9/10 door leerlingen geschreven werkstukken en je zult de helft van Wikipedia, de andere helft van Google (of nu ChatGPT) tegenkomen. Waar dan door de leerling nog wat gratis spelfouten aan toegevoegd zijn.

Of vraag een "designer" om een website of logo te ontwerpen. 99% is copy pasta van stock afbeelldingen en voorbeeldteksten. Of een programmeur om een applicatie te schrijven. Een stukje buissiness logica, standaard kopietje van de ontwikkel omgeving en o ja. Stackoverflow.

En zelfs films en boeken zijn vrijwel allemaal kopieën met enkele aanpassingen v an andere films en boeken of oude verhalen. Zo is Disney groot geworden aan het kopieëren van "public domain" sprookjes, maar wanneer hun 'eigen' spul public domain moet worden doen ze moeilijk.

AI (LLM) doet IMHO hetzelfde, gebruikt input (kennis) om daarmee nieuwe output te genereren aan de hand van een prompt.

[Reactie gewijzigd door ShadLink op 6 februari 2025 16:47]

Als een mens daadwerkelijk zelf dingen schrijft is dat anders dan een LLM die het halve internet leeg gescraped heeft
en toch vraag ik mij dat echt af.

Schrijft een mens daadwerkelijk dingen zelf?

hoe vaak ik wel niet gebruik maak van artikelen en oplossingen van anderen op het internet is niet normaal. Dagelijks meerdere keren. Om echt van alles mee te doen. Dit ook. Ook allemaal gebaseerd op kennis van anderen en spul wat ik eerder gelezen of gezien heb. Een reactie als dit bestaat ook grotendeels uit gedichtenspinsels die voortkomen uit Literatuuronderzoek tijdens afstudeerstage 10 jaar geleden, veel ervaring met AI, \on the Job training van mijzelf en allerlei andere informatie uit opleidingen en trainingen.

Ik doe echt niet heel veel anders dan mijn eigen algoritme trainen met data van het internet en
Het is allemaal actie = reactie. Vraag = antwoord
Ik ben het met je eens en in het verlengde van de redenering is het nu vrijwel onvoorstelbaar dat er een tijd was waarin complexe theorieën werden bedacht door mensen als Newton, Leibnitz, Blaise Pascal, Spinoza en onze Antoon Lorentz (om er maar een paar te noemen) die -i.t.t. de huidige situatie- niet konden putten uit een schier oneindig arsenaal aan publicaties maar puur op en vrijwel op eigen kracht hun steen bijdroegen.
Als je het sec bekijkt is het vooral AI gecontroleerd aan grote bedrijven toekennen. Een klein bedrijf kan het niet betalen, mede door dit soort dingen.

Echter hebben de Sinezen de geest uit de fles gelaten door DeepSeek. Nu kan iedereen ermee aan de slag.
Je verzameld in je leven data en die hergebruik je op verschillende manieren. Door allerlei combinaties creëer je en andere uitkomst. En AI kan nu eenmaal meer verzamelen maar doet feitelijk niet veel anders.
Nouja. Precies dat dus.

Zeker in de “internet-era” waar we nu in zitten waar alles en iedereen dingen van all over the world vandaan kan toveren.

Om echte japanse woodworking te leren hoef ik niet meer naar Japan om onder een Senpai te gaan werken. Kan gewoon via YT en met een beetje mazzel zelfs via Skillshare of andere dedicated leerplatform.
Dat is wat de voorstanders van het hele IP systeem nog niet helemaal goed snappen. Het enige probleem dat we echt hebben is schaarste. We hoeven er echt geen artificieele schaarste bovenop te doen.
Nouja. Opzich ben ik wel voorstander van IP an sich, want anders is er nul incentive meer in de artistieke wereld en kunnen mensen echt niet meer leven van kunst, maar de huidige implementatie is gewoon scheef.

Het trainen van een AI is niet heel veel anders dan het trainen van een mens, alleen dan vele malen sneller, beter en op grotere schaal.

Alles wat wij de dag van vandaag op papier zetten is herkauwen van iets wat al eerder is gedaan. Sterker nog. Als ik daadwerkelijk probeer het wiel opnieuw uit vinden, krab ik me drie keer achter de oren, want er is no way dat ik iets super unieks aan het doen ben. Het is allemaal echt wel al een keer gedaan.
Nouja. Opzich ben ik wel voorstander van IP an sich, want anders is er nul incentive meer in de artistieke wereld en kunnen mensen echt niet meer leven van kunst, maar de huidige implementatie is gewoon scheef.
Ik vrees dat het utilitaristische argument niet echt steek houdt, ik stond er vroeger ook achter maar nu kan ik echt niet meer zien of het een netto voordeel of nadeel is voor de samenleving. De economen weten het ook niet.
employing standard utilitarian measurement techniques, it is not at
all clear that IP laws lead to any change—either an increase or a decrease—in overall wealth.42 It is debatable whether copyrights and patents really are necessary to encourage the production of creative
works and inventions, or that the incremental gains in innovation outweigh the immense costs of an IP system. Econometric studies do not conclusively show net gains in wealth. Perhaps there would even be more innovation if there were no patent laws; maybe more money for research and development (R&D) would be available if it were not being spent on patents and lawsuits. It is possible that companies would have an even greater incentive to innovate if they could not rely on a near twenty-year monopoly.43

43 See Cole, “Patents and Copyrights: Do the Benefits Exceed the Costs?”
for further examples of costs of patent and copyright laws.
Stukje uit "Against Intellectual Property" - geschreven door een patent lawyer en uiteraard gratis op het net te vinden ;)

[Reactie gewijzigd door thibaultvdb op 6 februari 2025 19:15]

Maar ga je je uitvinding delen als deze niet beschermd wordt? Ik denk zoveel mogelijk van niet en dus kunnen andere mensen niet op die ideeën met nieuwe ideeën voortborduren. Dus de technologische ontwikkeling zal naar verwachting langzamer gaan. Nu gaat iemand voor een patent en kan een geïnteresseerde een licentie nemen waardoor de patenthouder en patentafnemer er beide beter van worden.
Mogelijks, maar dat is dus net moeilijk aan te tonen. De onzichtbare effecten moeten we ook in rekening brengen. Anecdotisch ben ik zelf een uitvinding aan het uitwerken, het geld dat je nodig hebt om een patent te nemen is schrikwekkend, enkel weggelegd voor de grote bedrijven die er de tijd en kosten van een advocatenleger tegenaan kunnen gooien.

Ik ga dus vooral gebruik moeten maken van first mover advantage en ga mijn naam en reputatie zo snel mogelijk moeten opbouwen. Maar dat zie ik eigenlijk als standaard practice, ik prik ook zo door de andere bedrijven die enkel kunnen kopieeren en die niet kunnen innoveren.

De Chinezen zullen me kopieeren zoals met andere producten uit de markt waarin ik ga meespelen. Maar nog steeds koopt het gros van de klanten niet de goedkope kopie. Ik lig er niet zo van wakker persoonlijk.

[Reactie gewijzigd door thibaultvdb op 6 februari 2025 23:33]

Je zou een LLM kunnen zien als een vorm van compressie.
ferm slechte dan, want je kan het origineel niet terug halen...
Het is eerder een noise reductie algoritme.
Het is geen plagiaat.

[Reactie gewijzigd door thibaultvdb op 6 februari 2025 19:18]

Een LLM niet, maar je traint een LLM met een dataset.

De wetgever noemt dat een database, want het is een gestructureerde opslag van data.
Of beide mag niet. Ooh daar gaat ons hele onderwijssysteem ;)
Sterker nog, je mag niet alleen die kennis gebruiken, maar je mag tevens commercieel workshops en lessen geven zolang je dat maar in je eigen worden doet.

Zelfs het delen van plaatjes en grafieken is daarbij geoorloofd, zolang de bronvermelding helder en duidelijk is.
Op zich klinkt dit interessant, maar kennis toepassen is wat anders dan content op een andere manier reproduceren.
AI-modellen zijn niet creatief en kunnen alleen na-apen. Daar zijn ze tegenwoordig zo goed in dat we als mensen geneigd zijn om te denken dat de AI echt creatief is.
Echte creativiteit op basis van content is afgeleid werk. Daarnaast is een wiskundeboek erop gericht om kennis over te brengen en toe te passen. Zo'n schrijver zal eerder protest aantekenen als een ander een wiskundeboek schrijft en hele passages met voorbeelden kopieert.
De universele wiskundige kennis die in de boeken beschreven wordt is vrij van copyright. Wellicht dat Plato of Pythagoras een patent hadden kunnen deponeren in deze tijd, maar dat is een andere discussie ;)
Wat is creatief dan in jouw ogen?
Daar zijn ook zoveel definities van. Een gangbare onder cognitieve psychologen is dat creativiteit simpelweg het remixen is van verbindingen tussen onderwerpen en ervaringen uit andere contexten. Is dat heel anders dan wat een llm doet?
Het punt zal eerder zijn dat de definitie van creativiteit in de ogen van een individu totaal niet relevant is. Het is de wettelijke definitie die moet gaan gelden... maar die is er nog niet.

Punt is dat mensen die nu modellen bouwen dat wel doen op basis van wat ze zelf als individu vinden. Ik vind het niet slecht dat er tegengas gegeven wordt, even rustig aan met zijn allen en nadenken voordat we doen.
Af en toe lijkt het alsof ik een discussie van 5 jaar geleden lees. We zijn inmiddels wel een stukje verder, het is niet zo makkelijk om een definitie van creativiteit te geven die menselijke creativiteit onderscheid van AI "creativiteit".
Creativiteit is voor mij iets doen wat niet gangbaar is waarmee je de ontvanger aangenaam verrast (daar zit een soort van subjectief oordeel in). AI modellen zijn op zo ongelofelijk hoeveelheden data getraind dat ze verbanden kunnen leggen die mensen voorheen niet konden zien. Die nieuwe verbanden kun je creatief noemen als ze zich openbaren, net zoals je een mens creatief noemt die zijn kennis uit het ene vakgebied vrij uniek toepast op een heel ander vakgebied.
Die AI modellen doen daarnaast ook hele voorspelbare dingen, maar dat is puur omdat het model zo staat afgesteld. Het pakt vaak het best passende volgende woord, maar je kunt daar prima wat randomness doorheen gooien. Als je het AI model vervolgens laat evalueren of deze random keuze ook tot iets aangenaams heeft geleid komt je al een heel eind.
Als jij het uitlegt aan een ander vertel je het op je eigen manier. Als je het boek exact voorleest leg je niet uit aan die medestudent. Dan had die medestudent het ook zelf kunnen lezen.

En bij dat uitleggen op je eigen manier gebruik je informatie uit het betreffende boek maar ook (veel) kennis die je elder hebt opgedaan.

En een ander, niet onbelangrijk, punt: er is voor dat boek betaald.
Het uitleggen aan één enkele medestudent zal niemand een probleem van maken. Het uitleggen aan (tien)duizenden mensen tegelijkertijd, dag na dag, 24/7) zodat het boek in principe overbodig wordt, is een heel ander verhaal.
Een boek uitlenen aan een vriend gaat brein ook niet over zeuren. Het beschikbaar maken aan de rest van de wereld wel.

Schaal en drempel maken het grote verschil.
Het gaat niet om het gebruik van de kennis, naar om de reproductie van de tekst door het taal model. Daar zit het probleem.
Is het trainen van een model niet vergelijkbaar?
Sterker nog, de werking van een ANN (waar een LLM een type van is) is gebaseerd op hoe ver wij snappen dat onze hersenen dit doen. Het is, voor zover wij het snappen, een namaak hiervan. Grootste verschil is dat een ANN in huidige vorm maar 1 connectie kan uitwerken (zo kan een LLM héél lomp en simplistisch gezegd enkel "zinnen maken zoals wij dat zouden doen", zelfs dat daar vaak kloppende info in zit is een bij-effect), waar wij mensen veel meer van deze dingen kunnen dan naast elkaar, en die dan weer met elkaar combineren. En dat het natuurlijk mens-gemaakt is ipv natuurlijk.

Dat is ook juist wat de vraag zo interessant maakt, en veel complexer dan een normale copyright en zeker niet gewoon een "database met een vorm van compressie".

Overigens kán er wel terug gehaald worden welke keuzes er zijn gemaakt en waarom, want je kan theoretisch kijken wat dat algoritme heeft gedaan. Dat begrijpbaar uitvogelen is echter wel heel lastig, en zo'n beetje z'n eigen veld van expertise. Ik weet dat ze in Japan jaren terug al AI naar mensen hebben laten kijken en dat na hebben laten doen juist om zo objectieve informatie te krijgen over menselijk gedrag, gezien zelf de beste psycholoog een bias heeft. Daar ging het dus juist om het algoritme wat er geschreven werd door de AI, niet zo zeer om het eindresultaat.

[Reactie gewijzigd door Cambionn op 6 februari 2025 15:52]

Mijn gedachte hierbij:

Kennis en feiten werken anders dan fictie en creatieve werken.

Je kunt een artikel lezen over een feit, en daar in je eigen woorden en verhaal van maken. Als je een bron letterlijk overneemt moet je deze expliciet vermelden - iets wat een LLM niet altijd goed kan.
Als je de woorden van Astrid Lindgren gebruikt, om de LLM de wiskunde in Pipi Langkous taal uit te leggen, maak je dus gebruik van haar creatieve werken.
Daar zou je dan geld voor moeten betalen als ontwikkelaar. En ik verwacht dat een rechter daar ook zo naar kijkt.

Neemt niet weg dat mijn Brein een verlengde arm is van hypocriete mensen, die vinden dat ze niet genoeg hebben verdiend met hun matige kunst. Net als dat nederlandse filmmakers vonden dat ze inkomsten misliepen door Torrents. Waarbij ze alleen de technologie in de weg zitten. Maar ik ben geen auteur dus waarschijnlijk ga ik te kort door de bocht.
Als jij in jouw eigen woorden ieder boek aan je chatbot wil voorlezen zal dat best mogen. Maar de tekst kopiëren en plakken mag niet.
Ik moet bekennen dat ik niet veel weet van hoe taalmodellen getraind worden maar ik dacht dat het niet zo was dat het taalmodel die gegevens 1 op 1 overneemt en opslaat. Indien dat klopt waarom zou je dan in juridische zin bezig zijn met vermenigvuldigen als je een taalmodel traint op auteurs beschermde teksten?
Doordat ze wel degelijke hele zinnen reproduceren. Dat de re-produktie gebeurt door kansrekenen ipv strings kopieeren doet daar niets aan af.
Bij het kopen van een boek ben je niet de eigenaar van de auteursrechten. Sterker nog, vaak staat voorin in het boek dat je geen enkel recht hebt om het product/boek te 'vermenigvuldigen, publiceren' etcetra.

Oftewel, nee.
Zo zwart-wit is het niet. Dit is niet vermenigvuldigen noch publiceren. Wat het wel is, daar is nu juist de discussie over, LLM's waren nu eenmaal niet voorzien toen de wetgeving over auteursrecht werd ontworpen.
Zo simpel is het wel. Natuurlijk onzin dat auteursrechten gebruikt mogen worden voor een overduidelijk commercieel doel zonder de eigenaar daarvoor te vergoeden .
Nee dus. Als ik een boek over programmeren of andere IT topics lees is het toch ook de bedoeling dat ik deze kennis dan toepas in mijn werk?
Klopt maar je mag die kennis niet 1 op 1 verder publiceren en claimen dat het van jou komt. Dat je het gebruikt in je werk heeft daar weinig mee te maken.

Dus als er straks een AI model komt die al jouw programmeur werk online zet terwijl jij daar geld mee verdiend en zonder dat je daarvoor toestemming hebt gegeven vind jij ok?
Zo'n AI systeem is er al lang en dat gebruik ik inmiddels ook om te programmeren want dat bespaard tijd. En ik mag ook een nieuw boek schrijven in een andere vorm over programmeren met kennis die ik heb opgedaan in een ander boek. Zolang ik niet letterlijk de tekst ophoest van dat vorige boek.

Het probleem is dat LLM geen weet heeft van copyright schending en dus wel de originele tekst weet te reproduceren als dit in de meest voorkomende vorm geschreven was. Alle boeken passen niet letterlijk in het model, het wordt omgezet naar contexten en begrippen die een relatie hebben met elkaar.

Ik vind het zeker een lastig onderwerp en een auteur kan op deze manier inderdaad inkomsten missen en het onderwerp kan ook nog verbasterd worden met hallucinerende LLM's. Al met al is het nog lang niet duidelijk wat we hier mee aanmoeten als maatschappij.
Maar dat is precies het probleem met LLM's. De uitgever hoeft alleen maar aan te tonen dat met de juiste prompt hele stukken auteursrechtelijk materiaal gereproduceerd worden en de LLM maker gaat nat.
Je mag prima een nieuw boek schrijve. Maar dat mag op geen enkele manier lijken op ander werk, ook niet in andere bewoording. Ai kent alleen maar de woorden die het gevoed wordt en kan zelf niks nieuws bedenken want ai begrijpt niet wat die woorden überhaupt betekenen. Dus het kan niet anders dat er beschermd werk wordt gebruikt om iets creëren. En dat mag dus op geen enkele manier zonder toestemming. Enkel quotes of kleine citaten zijn toegestaan en dan moet er alsnog een bron bij staan.
Dat is niet hoe de huidige AI modellen werken. Woorden, lettergrepen en zinnen worden in tokens omgezet, deze worden gerelateerd in 10 duizenden dimensies, zeg maar eigenschappen. Vervolgens wordt de prompt gevoed en wordt door middel van meerdere itteraties bepaald wat de beste volgorde van tokens het verhaal aanvullen. Hier kunnen wel degelijk originele teksten uit komen en zelfs "gehalicuneerde" antwoorden die redelijk lijken te kloppen omdat de AI juist wel weet wat de woorden betekenen.

Als de AI wel een kopie van het origineel zou hebben dan zou het er ook voor kunnen zorgen dat het niet een reproductie van het origineel kan ophoesten door daar mee te vergelijken. De AI heeft alleen zijn gewichten getraind met het origineel en kan alleen stukken context er van ophoesten in de meest algemene bewoording.
Dus als er straks een AI model komt die al jouw programmeur werk online zet terwijl jij daar geld mee verdiend en zonder dat je daarvoor toestemming hebt gegeven vind jij ok?
Ik zou me gevleid voelen. Heb ik kennelijk toch ergens iets goeds gedaan.

Maar dit is niet wat er gebeurt. Als ik letterlijk het boek Java voor Dummies over zou schrijven en zelf zou publiceren dan zou ik daar terecht voor worden aangeklaagd. Schrijf ik echter het boek Java voor N00bs wat verder inhoudelijk dezelfde dingen behandeld dan is dat helemaal prima.


Dit geldt ook voor AI. het Model leert van de trainingsdata en kan daarmee vervolgens zelf zijn eigen content maken. Brein moet eerst maar eens even gaan kijken hoe een LLM werkt voordat het weer Nederlandse Innovatie de kiem in gaat smoren met dreigingen die nergens op te baseren zijn.
Nee hoor, als de auteur van Java for Dummies kan aantonen dat hele stukken tekst hetzelfde zijn, dan is het gewoon plagiaat, ook al zijn andere stukken anders.
kan aantonen dat hele stukken tekst hetzelfde zijn
En dat zeg ik dus net niet.

Inhoudelijk hetzelfde, tekstueel compleet anders.
Wat een LLM ook heel goed kan dus.
Gaat niet wat een LLM kan, het gaat erom wat een gebruiker met een LLM kan. Als die met de juiste prompting hele stukken tekst kan reproduceren van een boek dan wordt auteursrecht overschreden.
Ja dat is dan een foutje in het trainen/tune van het algoritme. Bij sommige mensen kun je dit overigens ook, maar we gaan mensen met een eidetisch geheugen ook niet aanklagen toch? Vinden we vooral heel knap.

Maar goed. Denk dat het goed is als hier wel eens een keer een zaak over wordt gevoerd. We gaan nu in hypothetische discussies verzeilen over randzaken die oplosbaar zijn terwijl we het moeten hebben over de kern. Wat is een LLM nu precies zonder trainingsdata, en hoe verhoud zich de trainingsdata tot de werkelijke output. oftewel, is er echt sprake van auteursrechten-schending?
Dat is aan de LLM trainers die zonder toestemming data vergaren om hun model te trainen. Als die het niet aandurven om aangeklaagd te worden, dan zullen we wel een tijd moeten wachten.

Mensen die m.b.v. hun eidisch geheugen een boek schrijven wat bijna een een-op-een kopie is van een reeds staand boek en dat dan gaan publiceren, die zullen zeker aangeklaagd worden en hun zaak gewoon verliezen.
dat dan gaan publiceren, die zullen zeker aangeklaagd worden en hun zaak gewoon verliezen
Alleen nu gaan we de boel dus al in de fik zetten en vingerwijzen voordat die publicatie is geweest. Onschuld tot tegendeel is bewezen gaat hier dus niet op.
Jawel hoor, ook hier geldt onschuldig totdat schuld bewezen is. Er wordt geen boete of schadevergoeding gevorderd. Nog voordat het onderzoek afgerond is, heeft de LLM maker besloten zijn LLM uit het publieke domein te halen. Daarmee vervalt de onderzoeksgrond en gebeurt er verder niets.
JOH. Zou ik ook doen als die Tim Kuik voor de deur stond.

Hier even een excerpt van een uitspraak die een mede tweaker eerder al deed:
"Ik ben door auteursrechtenexperts ervan verzekerd dat dit niet zo zwart-wit is als gesteld, maar ze vertellen me ook dat er nog veel juridische vragen in Europa hierover onbeantwoord zijn. Ik kan het me niet veroorloven om een lange en vooral zeer dure rechtszaak te voeren om die vragen wel beantwoord te krijgen. GEITje is immers een niet-commercieel, wetenschappelijk hobbyproject.
Het boeit niet, want het gevingerwijs en de aantijging is al genoeg om het gewoon van de markt te halen ook al hebben ze wel gelijk. Het is het gedoe gewoon niet waard en Brein gaat jouw kosten niet betalen
ehh nee dat mag dus niet. Je mag niet hetzelfde werk maar in andere woorden dupliceren. Je moet er dus een compleet ander werk van maken. Als het inhoudelijk lijkt op het andere boek wordt je net zo goed aangeklaagd.

Daarnaast is het natuurlijk onzin dat jij het ok vind als jij online producten verkoopt en de broncode opeens online wordt gezet in een ai model.

Daarnaast doet ai niks anders dan dezelfde inhoud in andere woorden te plaatsen en dat mag dus niet.
Daarnaast doet ai niks anders dan dezelfde inhoud in andere woorden te plaatsen en dat mag dus niet.
Jawel.

Dat is letterlijk wat jij en ik ook doen. Een AI doet overigens wel degelijk iets anders dan "dezelfde inhoud in andere woorden". Een AI kent namelijk niet per se de notie van informatie. Het heeft een heel andere idee bij welke woorden horen waar, dan wij dat hebben. Zo kent het geen grammatica en spelling, alleen statistische kans dat iets zo klopt.

Als je AI gaat trainen met slang komt er 100% een response uit die ook geschreven is in slang zonder dat het enig idee heeft van de grammaticale regels van die slang (spoiler alert, slang heeft dat soort regels niet)


Dit is gewoon niet hoe AI werkt. Dat was het 10 jaar geleden al niet en nu al helemaal niet meer.


edit:
Dus als er straks een AI model komt die al jouw programmeur werk online zet terwijl jij daar geld mee verdiend
Daarnaast is het natuurlijk onzin dat jij het ok vind als jij online producten verkoopt en de broncode opeens online wordt gezet
Dit zijn overigens echt twee verschillende dingen die je zegt. Ik werk op inhuurbasis als consultant, als mijn werk online wordt gezet dan is dat helemaal dikke prima, want niet mijn product. Ik wordt ingehuurd vanwege kennis over zaken. Ik doe letterlijk wat een LLM doet als mijn werk eigenlijk. verzamelen van informatie (trainen) en daar dan een vraagstuk (prompt) tegenaan gooien om het op te lossen.

[Reactie gewijzigd door supersnathan94 op 6 februari 2025 15:26]

Er zijn 5 soorten plagiaat die het vaakst voorkomen: Bron

Global plagiaat (clone) is een vorm van plagiaat waarbij de gehele tekst wordt overgenomen en wordt ingeleverd onder een andere naam.
Verbatim plagiaat is een vorm waarbij hele delen van één tekst worden gekopieerd en geplakt in een nieuwe tekst.

Parafraseerplagiaat vindt plaats als iemand anders’ ideeën op onjuiste wijze en/of zonder bronvermelding worden geherformuleerd.

Patchwork-plagiaat betekent dat iemand delen van verschillende bronnen kopieert en samenvoegt tot een nieuwe tekst.

Zelfplagiaat houdt in dat je je eigen eerdere werk recyclet.

Dan heb je alles op een rijtje en hoeft niemand meer iedere keer weer andere argumenten te verzinnen.
Vanuit de wet is er geen verschil of ik de tekst overschrijf of dat een elektronisch systeem dat doet.
Er zit alleen in een LLM nergens een kopie van de tekst van het boek, dus van overschrijven is geen sprake.
Als ik even wat informatie over ChatGPT 4 opzoek dan lijkt de consensus dat deze is getrained met 500 GB tot 45 TB aan data, en de uncompressed size ongeveer 6800 GB is (50 GB na compressie).

Comprimeert even goed als tekstbestanden...

_Alle_ Engelse Wikipedia tekst is ongeveer 24 GB (compressed, 5600 GB uncompressed), dus in zo'n model past zelfs letterlijk de hele Wikipedia plus nog een keer.

Dat de data er niet direct in terug te vinden is dat doet er niet toe, dat is voor mij gewoon hetzelfde als encryptie. Ik stuur wiskundeboek.zip met wachtwoord naar een vriend, geef die persoon het wachtwoord, nergens kan iemand een kopie terugvinden van het wiskunde boek (of stukjes ervan) totdat de persoon het wachtwoord invoert. Is gewoon keihard copyrighted materiaal verspreiden.

In dit geval maak ik de vergelijking; de prompt is het wachtwoord, en AI model / data / runtime de "zip + decompressiesoftware".

En ik weet heus wel dat AI modellen trainen zo niet werkt, maar over-trainen kan letterlijk voor 1:1 kopie van training data in het model zorgen (overfitting, zoek maar eens op).

Ik noem hier ook echt helemaal geen nieuwswaardige dingen, allemaal oude en bekende koek.

[Reactie gewijzigd door grasmanek94 op 6 februari 2025 15:11]

En ik weet heus wel dat AI modellen trainen zo niet werkt, maar over-trainen kan letterlijk voor 1:1 kopie van training data in het model zorgen (overfitting, zoek maar eens op).

Ik noem hier ook echt helemaal geen nieuwswaardige dingen, allemaal oude en bekende koek.
Nee dat zeg je goed. Daarom vind ik het zo raar dat Brein hier "mja wij stelde alleen maar vragen" speelt terwijl ze donders goed weten wat ze aan het doen zijn. Die modellen worden nu teruggehaald, aangepast en gewoon alleen voor intern gebruik getest.

Jammer van de innovatie weer.

Maar ja foutje in de training kan hier dus voor zorgen, moet je dus rekening mee houden.
Jawel, in de wegingen zit het boek verstopt. Met de juiste prompts kunnen hele stukken tetuggehaald worden.
Als je een JPEG maakt met een enorm slechte lossy compressie van een bestaand beschermd werk heb je desalniettemin een kopie er van gemaakt. Als je die (of zelfs grote stukken er van) daarna gebruikt voor doeleindes waar je het recht niet op hebt ben je alsnog onrechtmatig bezig.
Een AI model kopieërt niet het boek, het leert er van, creëert een afgeleide, net zoals een mens dat doet.
Het boek zelf is waarschijnlijk ook een afgeleide/samenvatting van ander werk.
In veel gevallen gaat het niet eens om kennis maar om te leren wat taal, muziek, etc is.
Of het dan inbraak is op auteursrecht is niet iedereen het over eens.

[Reactie gewijzigd door Rogers op 6 februari 2025 14:41]

Wel raar dat een LLM dan vaak flinke stukken van de originele data kan ophoesten zonder aan het internet te hangen.

https://ahtiahde.medium.c...ata-argument-e2c7770b7f5b
Nergens in die link staat dat er originele data opgehoest wordt. Een LLM genereerd alleen wel een artikel wat er heel veel op lijkt. In dat artikel wordt dus ook verwezen naar een mp3 die hetzelfde klinkt maar ook niet exact hetzelfde is als de wav. Maar het is wel gecopyright.

Als de New York Times alles vaak op dezelfde manier artikelen schrijft dan wordt de kans groter dat er bijna exacte kopieen uitkomen.

Dit blijft gewoon een lastig onderwerp. Er wordt in weze heel veel kennis gecomprimeerd op een manier die in de buurt komt van het mensenlijk brein. En daarmee krijg je gelijk het argument of een proffesor dan een stuk kennis mag ophoesten in de zelfde vorm als in het boek stond.
Het gaat altijd om de schaal. Als een professor stukken uit een boek online zet, dan is dat iets anders dan een stuk tekst bij een college laten zien.
Het AI model kopieert inderdaad niets, maar het AI-bedrijf erachter doet dat wel.

Zij plaatsen bestaande teksten in een database zodat het algoritme erbij kan.

Vergelijkbaar met een leraar die een kopietje maakt uit een schoolboek en dat uitdeelt aan leerlingen.
het leert er van, creëert een afgeleide, net zoals een mens dat doet
Dit is een misvatting, wishful thinking. Een LLM die wordt opgebouwd door middel van Machine Learning is niet hetzelfde als hoe een mens leert. Machine Learning heeft doorgaans zelfs menselijke interventie nodig om het ergens op te laten lijken.
De vraag is nu of het voeren van teksten aan een algoritme "vermenigvuldiging" is.

Ik denk dat je gelijk hebt, en Brein ook, maar het wordt pas echt interessant als iemand dat argument voorlegt aan een rechter.
Als het algoritme die teksten weer kan uitspuwen door de juiste prompts in te voeren, lijkt me dan wel.
Ik denk dat je geen gelijk hebt.

Het werk wordt gebruikt om een algoritme te trainen, net als dat we boeken en trainingen gebruiken om mensen te trainen.

Het werk zelf wordt niet vermenigvuldigt. Tenzij die persoon een eidetisch geheugen heeft is de letterlijke verwoording van de info ook bijna niet meer terug te halen, misschien 1 of 2 zinnen. Dat is bij een AI vrijwel hetzelfde. daar moet je echt je best doen wil je daar wat trainingsdata uit weten te halen.
Het algoritme vermenigvuldigt niet (behoudens wat @wiseger zegt uiteraard), maar het personeel van de AI-leverancier doet dat wel.

De vermenigvuldiging vindt IMHO plaats op het moment dat digitale teksten in een database worden opgeslagen door het bedrijf, niet tijdens output van de applicatie.

Vergelijk dit met een leraar die kopietjes maakt uit een schoolboek en dat uitdeelt aan leerlingen.
Daar zal het dus echt aan liggen. Als er geen stukken geproduceerde tekst hetzelfde zijn het originele materiaal, dan zal de LLM maker wel zeker zijn van zijn zaak. Komen er wel heel stukken tekst er hetzelfde uit, dan heeft de LLM maker een heel groot probleem.

Dan rest de vraag, wil je als LLM maker dat risico nemen of sluit je liever gewoon overeenkomsten af met de content makers die je als trainingsmateriaal gebruikt hebt.
Ja.

Maar je mag het vervolgens niet openbaar maken/aan het internet knopen/geld voor vragen.
Voor strikt persoonlijk gebruik zonder redistributie? Ja, dan mag dat. Verlaat deze informatie jouw persoon? Dan mag het niet.
Voor strikt persoonlijk gebruik zonder redistributie?
.. van het originele werk.

dat is even belangrijk. De informatie redistribueren mag prima, daar kun je ook helemaal niks tegen doen. De manier waarop het is geschreven wel. En dat is waar auteursrechten over gaan.

Het overbrengen van ideeën kan niet aan banden worden gelegd aangezien je ieder boek wat je ooit hebt gelezen meeneemt in latere beslissingen en momenten in het leven of je het nou wil of niet. Auteursrecht draait dan ook over het medium en de schrijfwijze. Je kunt prima een boek her vertellen in je eigen woorden en daar niet voor aangeklaagd worden. Als je het 1-op-1 doet heb je een probleem doe je het anders dan heb je Star Wars vs Lord of the Rings https://www.reddit.com/r/...ng_lately_about_the_huge/

Zelfde geldt voor Harry Potter. Er zijn gewoon een aantal manieren waarop je een "hero Journey" verhaal kunt maken en de interne werkingen van die soorten verhalen verschillen op details, verder zijn ze grotendeels gewoon gelijk.
Verlaat deze informatie jouw persoon? Dan mag het niet.
Tuurlijk wel? Als ik bovenstaand artikel lees, mag ik toch ook gewoon met anderen discussies voeren over de content daarvan?
Is dat wel jouw boek?
Of heb je een licentie gekocht om dat gedrukte exemplaar van het boek te lezen? Bij het verloren gaan van dat exemplaat, gaat ook je licentie verloren.
Hoe komen de schrijvers van boeken aan hun kennis zonder auteur rechten te schenden?
Toch jammer dat Brein niet een club is die zich constructief inzet om auteursrechtelijk materiaal legaal in te zetten of te ontsluiten. Tot nu toe lees ik alleen maar over negatieve reactionaire acties zoals boetes, sluitingen, dreigingen en rechtzaken.
Als de auteursrechtenhouders niet willen dat hun content te pas en te onpas wordt gebruikt voor wat dan ook, maak dan een platform, organiseer brainstormsessies en weet ik wat.
Het enige waar ze goed in zijn bij Brein is "mag niet!" roepen.
Zouden de auteursrechthebbenden nou echt zo tevreden zijn met dit passief overal achteraan lopende clubje?
In dit nieuws lees ik niet dat actie hebben ondernomen maar alleen maar vroegen 'wat hebben jullie gebruikt?' waarop de maker er de stekker uit trekt.
We weten dan ook niet exact hoe BREIN dit heeft aangepakt.
BREIN heeft de maker van het model aangesproken en gevraagd wat die trainingsdata zijn, waar deze data vandaan komen en of de maker wel een licentie had om de data op die manier te verzamelen en te verwerken. Indien deze rechten zouden ontbreken, dan zou het model uiteraard offline moeten. Het alternatief was een rechtsgang.
Het kan dus zo zijn dat de eventuele gevolgen al benoemd werden, dat is toch wel soort van actie ondernemen, al dan zonder rechtsgang.

BREIN zegt zelf ook:
Het is bekend dat datasets voor het trainen van AI gevuld worden met materialen uit illegale bron.
Ze gaan er dus eigenlijk al per definitie vanuit, dat het uit illegale bron komt.
Het kan dus zo zijn dat de eventuele gevolgen al benoemd werden, dat is toch wel soort van actie ondernemen, al dan zonder rechtsgang.
Dat is zelfs te verwachten, een oud klant van mijn vorige werkgever deed wat met merkrecht in plaats van auteursrecht. Daar werd bij een initiële correspondentie ook gewoon duidelijk aangegeven wat de vervolgstappen zouden zijn als er bijvoorbeeld niet gereageerd zou worden of wanneer de vermeende inbreuk niet gestopt zou worden. Het is dan aan de aangeschreven partij omdat te wegen en hun conclusies te trekken.
Tja, denk dat de maker de bui al zag hangen. Of de stekker eruit trekken, of Brein spant een rechtszaak aan met alle gevolgen van dien. Je kunt er de klok op gelijk zetten dat zo'n beetje alle data (het artikel spreekt over 'miljarden tokens aan Nederlandstalige literatuur, nieuws en studieboeken') zonder toestemming is gebruikt.
Dit dus. De naam van Brein snelt voor haar uit, die zo'n ontwikkelaar van dat taalmodel kiest eieren voor zijn geld.
Jouw constatering sluit de reactie van Arjan niet uit.

We weten allemaal dat Brein behoorlijk actiebereid is en zeer zeker een blik opentrekt als ze van mening zijn dat iets niet door de beugel kan.
In dat opzicht snap ik het dat de maker het model offline trekt en eieren voor geld kiest. Ik zou ook geen zin hebben in een conflict met Brein.
Volgens mij is de oplossing dan makkelijk: vraag de auteursrechteigenaar of ze het goed vinden en ga het niet gebruiken en hopen dat niemand komt klagen. En als de eigenaar het goed vindt zou die Brein kunnen inlichten indien nodig. Of je gebruikt de schriftelijke toestemming als Brein bij je aanklopt. Net zoals met eigenlijk alle andere dingen in de wereld waar je iets van iemand anders gebruikt. In het handschoenenkastje van mijn auto ligt ook een verklaring/machtiging van de leasemaatschappij dat ik hun auto mag gebruiken.
Hoe erg ik ook tegen het verdienmodel van Brein ben, sta ik wel volledig achter dit besluit. Hoe wil je als auteursrechtenhouder voorkomen dat iemand middels AI aan de haal gaat met jouw intellectueel bezit, en hoezo zou dat aan de rechtenhouder verweten moeten worden in plaats van de auteursrechtenschender?
De rechthebbenden hebben Brein zelf opgericht om auteursrechtenschendingen aan te pakken. Brein doet dus precies wat hun taakomschrijving is.
Niet helemaal mee eens. Ik ben ook rechthebbende (ik ben fotograaf). Ik zie maar al te vaak dat mijn werk onrechtmatig wordt gebruikt. Ik moet daartegen optreden als rechthebbende, want anders schep ik een precedent. Brein gaat echt niet iets met mijn claims doen, ook al ben ik lid van de NVJ.
Brein volgt de grote jongens (filmstudio's, platenlabels etc) en plukt alleen laaghangend fruit met een grote bek.
Ik voel mij totaal niet vertegenwoordigd door Brein en wat mij betreft hoeven de schenders van mijn auteursrechten ook niet op die manier aangepakt te worden.
Je kunt het er niet mee eens zijn maar dan zou ik even lezen hoe Brein precies opereert. Het is logisch dat Brein niets voor jou doet. Brein werkt alleen namens de stakeholders in de stichting. NVJ is geen stakeholder in Brein.
Brein is de inner van boetes. Er zijn weer andere partijen die over het legaal gebruik gaan (en die huren Brein weer in om de illegale markt te stoppen/geld te innen)
Brein int geen boetes! Brein is een commerciële club die de belangen zegt te behartigen van auteurrechthouders. Brein moet een rechtzaak aanspannen om schade te verhalen.
https://stichtingbrein.nl/faq/
Wat gebeurt er met het geld uit boetes en schikkingen die BREIN int?
Als BREIN inbreukmakers aanspreekt, worden er afspraken gemaakt, anders stapt BREIN naar de rechter. Een afspraak heeft vaak een boetebeding voor het geval de tegenpartij zich er niet aan houdt.
BREIN vertegenwoordigt en wordt betaald door de rechthebbenden. Die hebben afgesproken dat als BREIN geld int uit boetes, dwangsommen, schikkingen of schadevergoedingen, dit afgetrokken wordt van de bijdragen die de rechthebbenden betalen.
Het hele idee van auteursrecht is dat je het niet mag gebruiken tenzij je toestemming hebt. En vanuit die basis mag je helemaal niks gebruiken voor welk doel dan ook tenzij prive. Zo moeilijk is het toch niet?
Zo moeilijk is het toch niet?
Jouw mening hier, is inderdaad niet zo moeilijk. De werkelijkheid qua wetten wel.
vanuit die basis mag je helemaal niks gebruiken voor welk doel dan ook tenzij prive
Dat is dus wettelijk niet waar.

Je mag korte stukken citeren, ook commercieel, je mag werken gebruiken voor parodieën, ook commercieel. In het onderwijs is er ook weer meer toegestaan, etc.
https://www.auteursrecht.nl/auteursrecht/Uitzonderingen

Als de wetten echt zo simpel waren als je hier stelt, hadden we geen advocaten meer nodig
Kleine stukjes citeren met bronverwijzing. Maar niet complete werken zoals hier het geval is. En meer dan dat mag ook niet. Zoveel uitzonderingen zijn er helemaal niet. Ook citaten mag je heel kleinschalig doen en ook niet in andere woorden iets beschrijven. Auteursrecht is vrij duidelijk hierin.
U betaald nog steeds geld aan brein als u een telefoon of geheugenkaart koopt, terwijl ik al jaren niets meer heb gekocht om thuiskopieen van te maken. Brein is er alleen maar om zoveel mogelijk geld uit de zakken te trekken van mensen die geen kant op kunnen. Die gaan echt niet constructief zitten wezen.
Tja en hoe reageren de AI modellen makers als hun model gebruikt wordt om andere modellen te trainen :)
Toch jammer dat Brein niet een club is die zich constructief inzet om auteursrechtelijk materiaal legaal in te zetten of te ontsluiten.
Brein is een commerciele knokploeg, het is geen idealistische organisatie.
Zouden de auteursrechthebbenden nou echt zo tevreden zijn met dit passief overal achteraan lopende clubje?
De aandeelhouders van auteursrechthebbenden zijn heel tevreden.
Heeft Brein al contact gehad met OpenAI en Meta? Vrij zeker dat in die LLMs ook gewoon alle Nederlandse boeken zitten die ze hebben kunnen vinden online.
Dit soort reacties komen vaker, maar zolang de juridische entiteiten die voor die partijen het daadwerkelijke trainen doen niet in Nederland gevestigd zijn kan Brein daar vermoedelijk niets mee, wel hebben de dezelfde bedrijven die hier in Nederland Brein hebben opgetuigd om hun rechten te beschermen https://stichtingbrein.nl/aangeslotenen/ bijvoorbeeld in de US wel zaken lopen tegen deze partijen vanwege vermeend auteursrechtinbreuk.
Nee joh die partijen hebben geld en kunnen zich verweren. Dan moet brein nog echt aan de slag gaan ook.
Inderdaad, Brein gaat liever achter kleine, bij voorkeur lokale, partijen aan ipv de grote vissen op gelijke manier te behandelen. Kleintjes gooien de handdoek maar in de ring omdat ze niet tegen de juridische dreiging van Brein kunnen opboksen. Dit in tegenstelling tot de grote vissen die ongetwijfeld eerst volop zullen procederen voordat er eventueel een regeling getroffen wordt.

Als we het zo bekijken zijn Europese clubs als Brein dus verantwoordelijk dat AI ontwikkelingen in Europa tot een stilstand komen. En dan straks de politiek zich weer afvragen waar dat aan ligt...
Precies en dat vervolgens enorm veel van ons belastinggeld stoppen in een of ander subsidiepotje dat vaag iets beloofd te gaan doen op een verantwoorde manier met AI wat vervolgens op niks uitloopt.
Precies, daar durven ze het niet tegenop te nemen.
Zo is het een clubje die monopolie van de big tech beschermt.
Het is goed dat we er in Nederland zo bovenop zitten. Wat een opluchting dat we hier helemaal geen vooruitgang willen zien in AI—dat kunnen we immers beter aan andere landen overlaten. Zo kan Stichting Brein ervoor zorgen dat we keurig binnen de lijntjes blijven kleuren in plaats van nuttige modellen voor de Nederlandse taal te ontwikkelen. Het idee dat Nederland vooruitstrevend zou moeten zijn op technologisch gebied is natuurlijk zwaar overrated: laten we vooral in de comfortabele achterhoede blijven, want stel je voor dat we iets echt innovatiefs voortbrengen.
Dat wilde ik net aangeven. We reguleren onszelf de irrelevantie in. Je mag verkeerd getrainde modellen wel gebruiken, als ze maar niet hier vandaan komen. De uitkomst laat zich raden.
Ik gruwel om Brein te verdedigen. Maar in dit geval is het toch nodig.
Als je boos wilt zijn, wees dan boos op de maker van het model die het schijnbaar nodig vond om content te misbruiken voor commerciële doeleinden.

Je gebruikt nu een 'het doel heiligt de middelen'-argument. Dat geeft m.i. geen pas.
Ik vind AI heerlijk om te gebruiken, maar het nadeel is wel dat heel veel data illegaal gebruikt is. (gelukkig dat er steeds vaker WEL netjes betaald wordt en/of deals gesloten worden)

De wet overtreden en contentmakers geen eerlijke vergoeding geven voor hun werk onder het mom van vooruitgang vind ik nogal wat ...

Voorhoede lopen prima. Maar laten we het wel volgens de regels doen??
Wanneer mogelijk moeten we zeker kijken of bepaalde regels anders kunnen. Maar zonder toestemming gebruik maken van andermans data is crimineel gedrag.
Als de maker van dit model geen vergoeding wenst te geven aan de contentmakers of ander soortige deals wil sluiten ..... dan ja. Verstandige keuze van de maker om het model offline te halen.
Een AI systeem leidt altijd iets af. Het is dus niet herleidbaar naar de oorspronkelijke bron waarop getraind wordt. Zodra je een referentie als AI systeem zou aandragen dan wordt het anders. Wellicht. En dat is dan ook nog maar als er nog een copy right op de oorspronkelijke bron geldig is.
Brein is wellicht iets aan het doen waar waarschijnlijk helemaal geen juridisch basis voor is.
Dit zou hetzelfde zijn als je iemand die naar school is gegaan een rekening sturen voor het feit dat alles wij hij/zij zegt afgeleid moet zijn van wat er op school is geleerd uit de boeken. En op de boeken is natuurlijk auteursrecht etc. Ik denk dat je de waanzin van dit argument wel kunt volgen...
Dat er afgeleid wordt is nu juist één van de problemen. Je voorkomt hiermee dat mensen naar de originele pagina toegaan.

Je voorbeeld van het naar school gaan is een mooie vergelijking.
Tijdens onze opleiding zijn wij getraind met externe data (de boeken). Wij hebben gewoon netjes betaald voor de boeken (de trainingsdata).
Als wij netjes betalen voor onze boeken, waarom is het dan zo vreemd dat wanneer je een AI / LLM traint hier ook voor moet betalen?
Dus hoezo is dat dan een probleem. De bron is niet herleidbaar.
En hoezo moet je altijd voor boeken betalen? Er is zoiets als een bibliotheek, open source boeken, veel scholen stellen aan hun leerlingen boeken gewoon beschikbaar. Dus met andere woorden. Geld is niet altijd god...
Ik weet niet wat voor opleidingen je allemaal kunt doen zonder daadwerkelijk nieuwe, dan wel tweedehands boeken te kopen.
Maar zelf al zou je alles via de bibliotheek kunnen doen. De boeken die in de bibliotheek liggen zijn ook gewoon legaal gekochte boeken. Waarvoor de auteur gecompenseerd is. Daarnaast zijn bibliotheken volgens mij niet rendabel zonder flinke subsidie vanuit de overheid. Wat jou en mij dus belastinggeld kost.

Hetzelfde verhaal met scholen die de boeken gratis uitlenen aan leerlingen. Die boeken zijn niet uit de goedheid van het hart geschonken aan de school. De rechthebbenden hebben een vergoeding ontvangen van de school.

Er zijn maar weinig gevallen waarbij boeken gratis weggegeven worden. In mijn kennissenkring heeft iemand een kinderbijbel vertaald naar een lokale Afrikaanse taal. Deze kinderbijbel hebben ze gratis / nagenoeg gratis weggegeven. Ze kregen hiervoor flink op hun donder van de rechthebbenden, maar omdat het een kleine, eenmalige, oplage was zijn ze er zonder kleerscheuren eruit gekomen.
Ik geef u geen ongelijk. Het houdt steek dat de copyrighthouders vergoed worden.

Maar:
Wie bepaalt er hoe veel die bijdrage bedraagt?
Hoe gaan we dat berekenen?
Hoe gaan we ervoor zorgen dat elke auteurs een eerlijk deel krijgen?

Hoe zorgen we ervoor dat het getrainde model nog betaalbaar blijft voor een eindgebruiker?
Welke bedrijven gaan er een (laat ons eerlijk zijn) gigantisch bedrag op tafel kunnen leggen?
Zonder zeker te zijn van return?
Kleinere bedrijven gaan zowiezo uit de boot vallen. Net zoals hogescholen/universiteiten.

En hoe gaan die bedrijven dan concurreren met "open source" modellen uit landen die onze copyright wetgeving niet volgen?
Wie bepaalt er hoe veel die bijdrage bedraagt?
Hoe gaan we dat berekenen?
Hoe gaan we ervoor zorgen dat elke auteurs een eerlijk deel krijgen?
* Stichting BREIN steekt hun hand op

Die zijn dus op zoek naar LLM modellen die Nederlandse content gebruiken. Daarvan willen ze vaststellen of en welke copyright materieel gebruikt is. En zodra dat het geval is, willen ze daarvoor een vergoeding zien. Wat en hoe hoog die vergoeding zou moeten zijn, is allemaal nog speculatief.
Nu vertegenwoordigen ze voornamelijk de entertainment industrie (film, muziek, boeken). Dus die content moet je niet meenemen als je geen problemen wilt (tenzij het auteursrecht is verlopen). Dus gebruik dan enkel publieke data, zoals van Wikipedia of de overheid.
Dus gebruik dan enkel publieke data, zoals van Wikipedia of de overheid.
Met alle respect, maar ik denk dat u serieus onderschat hoeveel data nodig is om een llm te trainen.

Ik denk trouwens dat niet alle content van de overheid zomaar mag overgenomen worden. Hier liggen ook copyrights op.
Wie bepaalt er hoe veel die bijdrage bedraagt?
Beide partijen samen
Hoe gaan we dat berekenen?
'We' niet. Dat mogen de beide partijen samen uitmaken
Hoe gaan we ervoor zorgen dat elke auteurs een eerlijk deel krijgen?
Zelfde antwoord. Dat is aan beide partijen.

DPG kan bijvoorbeeld een deal sluiten voor al hun eigen content. Die keuze is aan DPG. Ze kunnen zelfs besluiten om het gratis toe te staan. (ga ik vanuit).
Hoe zorgen we ervoor dat het getrainde model nog betaalbaar blijft voor een eindgebruiker?
Als je AI/LLM alleen betaalbaar kunt krijgen door illegale praktijken erop na te houden dan is er iets anders mis. Wellicht zou je kunnen denken aan het verlenen van overheidssubsidies.
Er zijn wel meer heel nuttige zaken die alleen kostendekkend zijn met subsidies.
Welke bedrijven gaan er een (laat ons eerlijk zijn) gigantisch bedrag op tafel kunnen leggen?
Zonder zeker te zijn van return?
Snap ik heel goed. Dit vraagt om een goede berekening van je businesscase. Als de bedragen / het risico te hoog is, dan zal er idd bijgesprongen moeten worden.

Ik vergelijk het maar even met een zangkoor. Het is behoorlijk duur om bladmuziek te kopen. Je kunt de kosten drukken door 1 partituur te kopen en deze vervolgens 50x te kopiëren. Als je ethisch wilt handelen, dan moet je wellicht je contributie verhogen als je niet genoeg inkomsten hebt. Of meer acties gaan doen. Optioneel kun je ook het aantal nieuwe liederen terugschroeven en meer uit de oude doos trekken.
En hoe gaan die bedrijven dan concurreren met "open source" modellen uit landen die onze copyright wetgeving niet volgen?
Dat is lastig idd. Maar is hetzelfde argument met veel andere producten. 'Hoe concurreer je met namaak uit China?'
Deze laatste opmerking bedoel ik totaal niet betuttelend, dus vergeef me als het zo overkomt. Maar mijn ouders hebben me altijd meegegeven dat je alleen de juiste keuze voor jezelf kunt maken. Als een ander zich niet aan de regels houdt, dan geeft dat jou niet het recht om ook de regels te overtreden.

[Reactie gewijzigd door fire-breath op 6 februari 2025 18:08]

Mooie reactie.
Welke bedrijven gaan er een (laat ons eerlijk zijn) gigantisch bedrag op tafel kunnen leggen?
Zonder zeker te zijn van return?

Snap ik heel goed. Dit vraagt om een goede berekening van je businesscase. Als de bedragen / het risico te hoog is, dan zal er idd bijgesprongen moeten worden.
Zelfs met bijspringen zal het onmogelijk worden. Kijk naar de prijs van de hardware. Kijk naar de prijs van de energie.
En daar komt dan nog een veelvoud aan rechten bij.
Geen enkele (Europese) firma zal die kosten kunnen dragen. Zelfs niet met subsidies.

Om uw vergelijking van het zangkoor door te trekken: wat als het zangkoor nog geen enkele partituur heeft?
Er is gewoon geen enkel koor dat voldoende geld kan inzamelen voor een set partituren.
Misschien genoeg voor 1 kleine deel van een partituur / jaar, maar dat is dan niet genoeg om mee te beginnen.
(Er van uit gaande dat de partituren van 100 jaar geleden niet interessant zijn voor het publiek. We trainen llm's ook niet op teksten uit de 19de eeuw. Er zijn dus geen copyrights-vrije partituren.)
Offtopic: Ik vind het persoonlijk wel straf dat je moet betalen voor bladmuziek van bvb Mozart/Beethoven. Beide zijn al lang publiek domein.
Hoe concurreer je met namaak uit China?
Niet. Je kan niet winnen tegen zo'n concurrent. Tenzij de overheid ingrijpt.
De Chinese overheid zorgt voor gigantische subsidies. Iets wat Belgie/Nederland/EU gewoon niet kunnen.

Je komt trouwens helemaal niet betuttelend over.
Als een ander zich niet aan de regels houdt, dan geeft dat jou niet het recht om ook de regels te overtreden.
Ik zou het niet beter kunnen zeggen.

Gewoon ter info. Ik gebruik zelf geen llm's. Ik weet ook niet zeker of llm's wel bestaansrecht hebben.
Ik denk gewoon dat het niet mogelijk is om een llm legaal te trainen. (Met enkel legale bronnen)
Beetje advocaat van de duivel.
Tja, het gedrag wat ontstaat: de monopolist met veel geld kan een ai model maken, de rest niet. Van de zotte natuurlijk. Maar dat is het big tech feodalisme van tegenwoordig.
Ik gruwel om Brein te verdedigen. Maar in dit geval is het toch nodig.
Als je boos wilt zijn, wees dan boos op de maker van het model die het schijnbaar nodig vond om content te misbruiken voor commerciële doeleinden.

Je gebruikt nu een 'het doel heiligt de middelen'-argument.
Het voelt niet goed dat ze wetenschappers en hobbyisten aanvallen terwijl grote bedrijven als Google en OpenAI met rust worden gelaten. Ik ben het met je eens dat die modellen fout zijn maar denk ook dat Brein vooral op zoek is naar makkelijke doelwitten om onderuit te schoppen om er zelf beter van te worden.
De wet overtreden en contentmakers geen eerlijke vergoeding geven voor hun werk onder het mom van vooruitgang vind ik nogal wat ...
Dat ben ik wederom principieel met je eens maar ben van mening dat dit niet gaat om de contentmakers maar om industrie er om heen. De contentmakers krijgen maar een fractie van de inkomsten en zitten vaak vast aan wurgcontracten van grote bedrijven die de touwtjes in handen hebben en de meeste winst incasseren.
Regeltjes en betutteling. We worden er steeds beter in.
Niet vaak dat ik kan zeggen dat ik het met Stichting Brein eens ben. Het is in mijn ogen hetzelfde als gebruik maken van de openbare ruimte voor winstdoel zonder daaraan terug te leveren (zie deel* dingen die niet betalen voor de openbare ruimte aangezien ze vaak niet in de gemeente belasting betalen waar ze wel gebruik van maken).
Ik ben het er wel mee eens, maar we moeten wel goed nadenken over de gevolgen. En ook bv het niet aanklagen van MS of ChatGPT die mogelijk(waarschijnlijk) ook deze info hebben.
Stichting Brein maakt meer digitale hersencellen kapot dan je lief is.

Wat altijd belangrijk is om te weten is dat Stichting Brein een prive-instantie is van de bedrijven die content verspreiden en bijvoorbeeld geen strafrechtelijke opsporingsbevoegdheden heeft.

Ze gebruiken alleen de auteurswet en (mis?)gebruiken de rechtsstaat door er met geld uit de industrie achter te gaan zitten, waardoor het resultaat niet erg evenwichtig is (want club van bedrijven tegen individuen).

In principe zou je er een "content-nyob" voor kunnen oprichten om ze op dezelfde manier tegen te houden.

[Reactie gewijzigd door Stukfruit op 6 februari 2025 14:36]

gaan we dit spelletje weer doen ? we weten allemaal wat er uit komt. vertraging
Als we ons niet wat flexibeler op gaan stellen in deze zaken worden we straks als Europa echt helemaal weg geconcureerd door de V.S en China op AI gebied (gebeurt eigenlijk nu al).

Goed om je vast te houden aan principiële standpunten. Maar ook goed om ons te realiseren dat dit niet gratis is.
Jammer weer. Het hele auteursrecht is echt absurd. Levenslang en tot 70 jaar na overlijden. Ik snap best dat er een redelijk termijn voor staat, zeg 25 jaar. Stel ik ben 20 jaar oud en ik schrijf een boek. Als ik dan op mijn 100e overlijd, dan kan er voor 150 jaar niets met dat boek gedaan worden. Dat slaat echt nergens op. Daarnaast mag je het auteursrecht nog verkopen ook.
Ironisch genoeg zorgt Stichting Brein er nu voor dat AI-modellen steeds minder 'brein' overhouden.
Daar zit zeker wat in, maar dat mag natuurlijk geen reden zijn voor makers / trainers van zulke modellen om potentieel inbreuk te plegen. En ook niet voor houders van die rechten om te onderzoeken of er inderdaad inbreuk gemaakt wordt.
Of zou het maken van dit soort modellen commercieel niet uitkunnen wanneer je simpelweg de juiste licenties zou afnemen voor het materiaal dat je wil gebruiken voor de training.
De uitdaging is dat de rest van de wereld dan doorgaat terwijl Nederland achterblijft. Zeker met de werkwijze van de VS nu. En China. En Rusland.

Dus je kan Amerikaanse bedrijven toelaten om via dit soort stichtingen het individu aan te pakken, maar de crux zit 'm in waar die bedrijven vandaan komen.

Het is enorm hypocriet om aan de ene kant zakken te vullen en aan de andere kant niet-commerciële gebruikers te pakken zodat deze alsnog van de Amerikaanse partijen gebruik moeten maken die... je raadt het al: veel verder over de schreef gaan ;)

[Reactie gewijzigd door Stukfruit op 6 februari 2025 15:50]

Die AI modellen kunnen nog steeds net zo veel brein hebben.
Alleen de woekerwinsten die de bedrijven er mee verdienen worden dan lager of de modellen worden duurder voor gebruik. De ontwikkelaars kunnen immers gewoon betalen voor de rechten en het gebruik.

Op dit item kan niet meer gereageerd worden.