Amerikaanse rechter oordeelt dat trainen van AI-modellen op boeken is toegestaan

Het trainen van AI-modellen op auteursrechtelijk beschermde, legaal verkregen boeken valt in de VS onder 'fair use' en is dus toegestaan. Dat oordeelt een federale rechter in een rechtszaak die auteurs hebben aangespannen tegen Anthropic.

Een federale rechter van de Amerikaanse staat Californië stelt dat Anthropic in zijn recht stond om zijn AI-model Claude te trainen met auteursrechtelijk beschermde boeken. Dat valt volgens de rechter onder de fairuseregels, die stellen dat auteursrechtelijk beschermde werken in sommige gevallen zonder toestemming van de eigenaar hergebruikt mogen worden.

Volgens Anthropic maken zijn AI-modellen nieuwe, creatieve content op basis van het trainingsmateriaal. De rechter gaat daarin mee. "Net als iedere aspirant-schrijver worden de llm's van Anthropic niet op bestaande werken getraind met als doel deze te repliceren of te vervangen, maar als voorzetje om iets nieuws te creëren." De uitspraak kan belangrijke gevolgen hebben voor andere bedrijven die auteursrechtelijk beschermd materiaal gebruiken om AI-modellen te trainen. Tegen bedrijven als OpenAI en Meta lopen soortgelijke rechtszaken.

De rechter stelt Anthropic echter niet volledig in het gelijk. Het AI-bedrijf zou de meeste boeken namelijk illegaal hebben verkregen, waarmee het bedrijf alsnog het auteursrecht van de auteurs heeft geschonden. Er volgt nog een aparte rechtszaak over de hoogte van de schadevergoeding die Anthropic moet betalen voor het illegaal downloaden van 'miljoenen' boeken.

Door Kevin Krikhaar

Redacteur

24-06-2025 • 18:15

98

Reacties (98)

98
98
44
6
0
48
Wijzig sortering
Goed om op te merken dat deze rechtszaak vooral lijkt te zijn gegaan over het verzamelen van input voor het trainen van AI-modellen, niet over de mogelijke auteursrechtenschendingen die bij de output van deze modellen kunnen komen kijken.

Recent onderzoek laat zien dat Meta's AI-model (Llama) sommige populaire boeken - waaronder boeken die nog auteursrechtelijk beschermd zijn, zoals Harry Potter - grotendeels woordelijk kunnen reproduceren. Dat werpt weer een nieuw licht op het auteursrechtvraagstuk omtrent LLM's.
Ja, maar alleen omdat de aanklager in de rechtzaak al aanneemt dat de uitvoer van een LLM geen copyrightschending kan zijn. In wezen geven deze auteurs zich dus gewonnen als het op de uitvoer van het LLM aankomt.

Het vormt geen jurisprudentie, maar als men wel gepoogd had om de uitvoer van het LLM als copyrightinbreuk aan te merken, had deze rechter de claim waarschijnlijk afgewezen, als ik het vonnis zo lees.

Hrt gebruik van legaal verkregen materiaal, zonder expliciete toestemming nodig te hebben voor het trainen van een model, lijkt nu volledig gerechtvaardigd te zijn. Dit impliceert dus ook dat de internetscrapers en partijen als Shutterstock/Adobe/Google Books/YouTube/Github/Netflix de gecopyrighte werken in hun legale bezit mogen gebruiken voor het trainen van een model.

Dit is maar de helft van de sleutel om AI-generators vrij te stellen van de copyrightwet, maar het is niet niks. De andere helft is of een gegenereerd werk wel of niet een afgeleid werk is. Ik denk dat het heel lastig gaat worden voor een schrijver of kunstenaar om aan te tonen dat er een substantieel gedeelte van hun werk in de gegenereerde uitvoer te vinden is. Met een trainingsset vol fanart wordt het al snel lastiger om aan te geven dat jouw specifieke afbeelding, en niet de duizenden werken van anderen die erop lijken, tot de inbreuk hebben geleid.

Het kan nog alle kanten opgaan, maar ik denk dat het nog even zal duren voordat hier rechtspraak over komt. De kans is groot dat partijen zullen schikken om geen jurisprudentie te scheppen, en Disney is nou niet een bedrijf gebaseerd op principes.
Ook de output zou moeten mogen. Het is wat je vervolgens met die output doet. Ik kan ook hele verhalen schrijven en tekeningen maken, zonder gebruik te maken van AI, welke onder copyrightschending zouden vallen.

Iedereen is geïnspireerd door anderen en baseert zijn/haar werk op inspanningen van een ander. Dat is wat de mensheid vooruit helpt.
Helemaal mee eens. Als je zou vinden dat de output van AI onder de auteursrechten van de input zou moeten vallen, dan zou je ook kunnen betogen dat de output van iemand die heeft gestudeerd aan de universiteit en vervolgens gaat werken ook onder de auteursrechten van de boeken die hij heeft gebruikt tijdens de studie zouden vallen. Dat is toch heel krom?
Auteursrecht is het recht van een auteur zich te beschermen tegen directe kopieën van zijn/haar werk onder een andere naam. De inhoud van het werk is uiteraard NIET beschermd.
Die vlieger gaat alleen op als computers mensen zijn. Ik zit niet te wachten op een wereld waar ik mijn PC minimumloon moet betalen, eerlijk gezegd.

Auteursrecht is ook het recht om verspreiding van het werk van een auteur zonder toestemming tegen te gaan. Als je heel Lord of the Rings uit een model krijgt, is dat verspreiding natuurlijk. Dat geldt ook voor wanneer je Lord of the Rings uit je hoofd leert, opschrijft, en gaat uitdelen. Leuke party trick, maar geen verdienmodel.

Ook is die "inspiratie" maar beperkt geldig. De grens tussen plagiaat en precies onthouden wat je geleerd is, is nogal dun en vaag. Ook vereist "geïnspireerd" werk bij mensen nog enige creativiteit, ik kan geen boek schrijven over Dodo die samen met Pam een magische ketting in de Kwaadberg moet gooien (tenzij het parodie is, dan, maar daar zitten dan ook weer regels aan vast).

Je kunt de vraag stellen of menselijke creativiteit deterministisch is en altijd voortvloeit uit andermans werk (wat eigenlijk de vraag "bestaat vrije wil" beantwoordt), maar tot dusver in de meeste gevallen worden mensen niet als machines behandeld door het gerecht, maar machines wel.
Dat geldt ook voor wanneer je Lord of the Rings uit je hoofd leert, opschrijft, en gaat uitdelen.
Zeker, maar dan is wat jij opschrijft een schending, niet jouw hersenen. Dat computers steeds meer als mensen gaan denken lijkt onvermijdelijk, dus de vraag of een computer de auteur van iets is zal steeds relevanter worden. Dat betekent niet dat we computers ook rechten moeten gaan verleden, dat is zo'n beetje het moment dat computers de wereld kunnen gaan overnemen. Je PC minimumloon betalen mag dus nooit gaan gebeuren. Hij heeft het geschreven, maar ondanks zijn goede werk, heeft hij recht op niets. Het is een slaaf.
Mijn punt is niet dat computers mensenrechten moeten krijgen, maar dat ze geen mensen zijn en daarom argumenten die over mensen gaan (inspiratie opdoen uit andermans werken, opleiding, etc.) niet opgaan voor computers.

Computers denken momenteel totaal niet zoals mensen en dat zal nog wel even zo blijven. Zelfs de meest geavanceerde LLM's zijn gebaseerd op een matige verbastering van het biologische brein omdat een volledig brein nabouwen niet computationeel uitkan (en de moeite niet waard is).

Wat wel is gebleken is dat de menselijke neiging tot het antropomorfiseren van alles dat een beetje lijkt op menselijk gedrag nogal voor verwarring zorgt. Een LLM denkt niet, maar de uitvoer van een LLM kan wel beweren dat een LLM gedacht heeft, en voor veel mensen lijkt het lastig te begrijpen dat die twee dingen niet hetzelfde zijn. De manier waarop we autocomplete tot bijna nuttig werk hebben kunnen ombouwen is indrukwekkend, maar het is geen Skynet en zeker geen auteur.
"Computers denken momenteel totaal niet zoals mensen en dat zal nog wel even zo blijven." Lijkt me totaal irrelevant. Waarom is dit implementatiedetail belangrijk?

We gebruiken routinematig uitdrukkingen zoals "de computer berekent" en "de computer zoekt". Ik ben vroeger wel mensen tegengekomen die hier tegen vochten, maar de alternatieven zijn krom en de menselijke communicatie is flexibel genoeg om deze uitdrukkingen toe te staan zonder dat wij vergeten dat computers heel anders rekenen en zoeken. Je gaat het ook niet winnen tegen "de computer denkt", en dat is net zo min een probleem als in die andere gevallen.

De essentie is het niveau van denken van LLMs/computers. Dat is ondanks de soms indrukwekkende output ver onder het menselijk niveau, maar ook daar kan het menselijk brein mee omgaan, zie onze omgang met (huis)dieren. Dat denkniveau is meteen ook de lat in juridische zaken: bij huisdieren zijn hun baasjes verantwoordelijk, en er is zoiets als niets toerekeningsvatbaar voor sommige mensen.

Kortom, als jouw LLM of jouw kat een compleet Harry Potterboek weet te reproduceren ben jij verantwoordelijk als je dat publiceert, niet jouw LLM of jouw kat.
Kortom, als jouw LLM of jouw kat een compleet Harry Potterboek weet te reproduceren ben jij verantwoordelijk als je dat publiceert, niet jouw LLM of jouw kat.
Als de LLM op jouw PC draait: ja. Maar Claude draait niet op jouw PC, maar op die van Claude, en dat is waar het bij AI vooral om gaat. Weinig mensen hebben de hardware om meer dan 200 miljard parameters te draaien.

[Reactie gewijzigd door GertMenkel op 25 juni 2025 12:36]

De ontwikkelingen gaan snel. Ja, een LLM denkt niet als een mens, maar als ik zie hoe hard het gaat, denk ik dat het minder dan 10 jaar zal duren voordat computers ons aftroeven. Ook dan zullen er nog steeds mensen zijn die beweren dat computers niet kunnen denken, en ze zullen ook op een andere manier denken dan wij doen. Het maakt evenwel niet veel meer uit, het gaat om het resultaat.

Ik denk verder dat onze menselijke intelligentie in grote mate gebaseerd is op taal: Wij mensen werden in onze evolutie precies op het moment intelligent toen we taal leerden begrijpen. Taal gebruiken we dan ook niet alleen om te communiceren, ook om te denken. Ik doe de vaststelling dat computers opeens heel veel intelligenter werden op het moment dat ze taal konden begrijpen.
De output van het "model" Lord.of.the.Rings.x264.SuperCompress.rar en "AI-programma" WinRAR is niet legaal, of je het nu persoonlijk gebruikt of online op internet gooit. Ik zou niet direct aannemen dat de output van een model zomaar legaal is. :+

Daarnaast gaat het natuurlijk om de vraag of OpenAI/Anthropic/Microsoft/Google de output uit het model aan jou mag overhandigen. Wat ze er intern mee doen zal wellicht mogen, maar zodra ze het aan jou verspreiden, gaat de copyrightwetgeving in. Jij bent vervolgens ook aan copyrightwetgeving onderhevig, maar het probleempunt zit hem vooral in de stap voordat jij het spul begint te verspreiden.
Iedereen is geïnspireerd door anderen en baseert zijn/haar werk op inspanningen van een ander. Dat is wat de mensheid vooruit helpt.
Misschien, maar Google gaat de mensheid niet vooruit helpen en AI is geen mens, dus dat soort argumenten vind ik altijd maar een beetje zwak. Een mens die iets naschildert is heel wat anders dan een AI die iets nagenereert.
Inderdaad wordt het interessant om te zien wat er gebeurt in rechtszaken die wel de nadruk leggen op de output van AI-modellen, zoals Disney/Universal tegen Midjourney.

Je hebt denk ik zeker gelijk dat het nog jaren zal duren voor hier duidelijkheid over is. Wellicht komt er ook nieuwe wetgeving en het is ook niet gezegd dat de uitkomst in verschillende delen van de wereld hetzelfde zal zijn. Dat hangt voor nieuwe wetgeving natuurlijk ook af van de kracht van de lobby van mediabedrijven/uitgeverijen aan de ene kant en AI-bedrijven aan de andere kant.
Wat hier ook heel interessant gaat worden denk ik is hoe Europa en landen als India en China, met hun eigen onafhankelijke entertainmentindustrie, hiermee om gaan. Als men straks vrij spel heeft in de VS zou dat niet direct betekenen dat die inhoud in Europa bruikbaar is.

Je zou het omgekeerde krijgen van softwarepatenten: je kunt de wet van een ander land negeren, maar dan moet je wel zorgen dat je niet van plan bent aan de andere kant van de wereld handel te drijven. Alleen nu zouden Europa/China/India de markt zijn waar Amerikaanse middelen "AI-vrij" zouden moeten zijn.

[Reactie gewijzigd door GertMenkel op 24 juni 2025 19:03]

Dat is heel simpel. China heeft hier complete lak aan.

Zij zien kopieëren van materiaal/stelen van IP als rechtmaitg. Ze gebruiken daar allerlei excuses voor (bv. als compensatie voor de kolonisering eind 19e eeuw), maar feit is dat ze op grote schaal IP stelen. En dit niet eens heel subtiel doen. Huawei is groot geworden door IP en kennis die de Chinese overheid stal van Nortel (dat vervolgens failliet ging omdat Huawei de aanbestedingen zwaar low-ballde). En zo zijn er tig voorbeelden van bedrijven die failliet zijn gegaan door Chinese IP Theft. De meest recente grootschalige markt die kapot is gemaakt door de Chinezen is die van zonnepanelen. De automarkt is nu volop bezig om afgebroken te worden. De hack bij Volkswagen is maar het puntje van de ijsberg. En bovenaan aan het wensenlijstje staat waarschijnlijk ASML.

Kortom, China gaat hier gewoon keihard mee door, ongeacht wat internationaal recht is. En als andere partijen bij willen blijven, dan is helaas de enige serieuze optie om je tot dat niveau te verlagen. Of om alle Chinese tools/applicaties/etc. te verbieden. Maar dat gaat ook gevolgen hebben.

Niet leuk om te horen, wel de waarheid.

[Reactie gewijzigd door RobbieB op 24 juni 2025 20:53]

Dan gaan hier die LLM's verboden worden omdat ze copyright schenden. Het probleem alleen is dat de EU daar een jaar of 5 tot 10 voor nodig heeft
Het grootste probleem is dat de EU dan economisch niet meer mee doet. Andere landen kunnen dan door het gebruik van LLM's immers veel meer output per werknemer leveren.
Nu zijn boeken en films nu ook weer niet zo'n enorm aandeel in de economie natuurlijk.
En de niet LLM-gegenereerde content is ook veel authentieker, daar is ook een markt voor. Net zoals Heineken bier vs lokale(re) craft biertjes.
LLM's en andere AI gaan in heel veel beroepen een grote rol spelen en de output van veel werknemers vergroten. Als de EU het gebruik ervan zou verbieden kunnen wij dus niet meer concurreren met landen waarin AI wel mag worden gebruikt.

Er zal op veel gebieden wel een markt blijven bestaan voor AI-loos werk, maar daar ga je geen competitief continent mee runnen.
Dit artikel gaat specifiek op het gebruik van boeken cq creatief materiaal.

Het zegt niks over andere sectoren.

Ik denk dat het wel mee valt. Je voelt nog steeds aan dat iets niet helemaal lekker loopt en bij nazoeken ook dat veel domweg niet klopt. Plus dat het potentieel nog veel gevaarlijker is dan het anarchistische internet. Daar gaan we ook achter komen de komende jaren, dat tot op zekere hoogte de potentiele toename in economische output serieuze bedreigingen gaat vormen voor democratie (fake news, manipulaties) en personen (geestelijke gezondheid).

Vergis je niet, dit is niet de eerste AI hype de afgelopen 50 jaar, eerdere soortgelijke hypes waren in de jaren '70, '80, '00 (big data) en nu.
Wikipedia: History of artificial intelligence
Dit impliceert dus ook dat de internetscrapers en partijen als ...
Dat is nog maar de vraag.
Een boek moet gekocht worden, en daarmee is de auteur naar 'vraagprijs' gecompenseerd voor zijn werk.
Een scraper verbruikt bandbreedte en data wat de aanbieder ervan geld kost. Zonder hiervoor een 'geaccepteerde' tegenprestatie te leveren die op enige wijze een in geld uit te drukken waarde vertegenwoordigd.
Ik kan me daarom voorstellen dat er voor 'scrapen' nog wel eens een andere uitkomst zou kunnen gelden.

[Reactie gewijzigd door Zynth op 25 juni 2025 10:24]

Scrapen is, onder Amerikaans recht, legaal. Sterker nog, het is in sommige gevallen een recht.

Wil je tegenprestaties, dan zul je in de VS een betaalmuur op moeten zetten. Een accountmuur, waarmee je de andere partij kan dwingen tot het akkoord gaan met een overeenkomst en de nodige rate limits kan toepassen, zou ook mogelijk moeten zijn.
Scrapen mag dan legaal zijn.
Maar ongetwijfeld is het doel waarvoor gescraped wordt, relevant.
Het kan alsnog onrechtmatig worden verklaard in bepaalde gevallen.
Maar daar kan de bestaande wetgeving toch prima mee omgaan? Een kopieermachine kan ook een perfecte kopie van Harry Potter maken.
Maar daar kan de bestaande wetgeving toch prima mee omgaan? Een kopieermachine kan ook een perfecte kopie van Harry Potter maken.
Als die kopieermachine verkocht zou worden met een knop om een kopie van Harry Potter af te drukken zonder dat je zelf een exemplaar van Harry Potter op de kopieermachine hoeft te leggen, neem ik aan dat de advocaten van J.K. Rowling snel op de stoep zouden staan. Ook als de fabrikant van die kopieermachine zegt dat het de verantwoordelijkheid van de gebruikers is om dan maar niet op die knop te drukken.
Als die machine alleen een paar selecte strofes volledig kan herhalen en het grootste gedeelde alleen in globale lijnen beschrijft, denk ik niet dat Joanne en haar advocaten een poot hebben om op te staan. Google heeft ook een cache vol quotes en stukjes tekst, bijvoorbeeld.

De AI-test met de HP-boeken die een tijdje terug gedaan is voerde het LLM ook een stuk Harry Potter voordat de uitvoer werd getest. Het model begon niet spontaan over heksen te schrijven. De gebruiker legde dus een halve pagina op het kopieerapparaat, en het verhaal dat daaruit volgde is zo voorspelbaar gegeven de algehele menselijke literatuur dat de rest er vanzelf uit kwam rollen.

Zo zwart-wit is het AI-copyrightprobleem helaas niet. LLM's lijken, wat mij betreft, een lossy opslag voor tekst te zijn. Ze bevatten geen perfecte kopie van de trainingsdata en zelfs de makers kunnen je vaak niet direct vertellen welk gedeelte van het model nu "lord of the rings" doet.
Misschien gaat het niet om de uitvoer van het model, maar is de kern dat het model - met inhoud en al - gekopieerd wordt om het te gebruiken.
Dan heb je blijkbaar (kan hangt van je leeftijd af) de jarenlange rechtszaken van auteursrechtorganisaties tegen universiteiten die massaal gekopieerde artikelen in readers stopten. Daar is nu (daarom) een regeling voor, maar simpelweg de redenering dat daar een specifieke knop op moet zitten telt niet.

https://www.onderwijsenauteursrecht.nl/onderwijsregelingen/hoger-onderwijs/regelingen/

Waar het om draait is of je die kopieën opnieuw 'publiceert'.
En daarom moest je jarenlang voor repo rechten betalen als je bedrijf in het bezit van een kopieer apparaat.

Kreeg vroeger nog een brief van een organisatie dat ze de combinatie scanner en printer ook als een kopieer organisatie zagen en af je even wilde aftikken tenzij je echt geen kopieerapparaat of zo'n handige 3-in-1 machine in je bedrijf had staan.
Een kopieer machine bevat niet een gecomprimeerde versie (lossy dmv neural weights) van die boeken waarmee die, zonder te spieken, al die teksten kan herproduceren.
Dat werpt weer een nieuw licht op het auteursrechtvraagstuk omtrent LLM's.
Ligt eraan of je een LLM beoordeelt als een rechtspersoon.
Vooralsnog is het een stuk gereedschap wat eigendom is van iemand en geeft een antwoord op een vraag.

Als iemand een vraagt stelt over wat het weer is morgen, zal het echt niet een Harry Potter boek oplezen.
Het gaat dus om restricties in bouwen dus je zal eerst een AI moeten aanleren wat wel of niet onder copyright valt. Om dat te doen zal een AI eerst volledig toegang moeten krijgen tot alles.
Het is een kip-ei verhaal waarvan we allemaal weten dat de ei eerst kwam maar willen onszelf voor de gek houden met de kip.
Als Meta netjes een (digitale) kopie van een boek heeft gekocht, mag men dat door AI laten lezen. Dat die AI het boek dan kan reproduceren is geen doel, maar een bijzaak. Een boek op die manier reproduceren zal niet gebeuren. Er zijn gemakkelijkere manieren om een boek (bovendien foutloos) te reproduceren.
Als de rechter oordeelt dat een llm die een boek letterlijk uitspuugt niet valt onder copyright en een kopieermachine wel dan zijn er vast nog interessante business modellen denkbaar die hier gebruik van maken.
De rechter heeft gekeken naar het doel van het gebruik van een boek. Dat is training van een llm. Samengevat stelt de rechter het llm eigenlijk gelijk aan een gewone lezer. Gek genoeg zijn er ook gewone lezers die een boek na het lezen letterlijk kunnen dupliceren, maar in beide gevallen is dat niet het doel.

Als het heel gemakkelijk is om een llm een compleet boek (of een significant deel daarvan) te laten dupliceren, dan is er een punt om alsnog een overtreding van het copyright te melden. De maker van een llm zal dus eigenlijk moeten voorkomen dat teksten waarop copyright rust letterlijk worden uitgespuwd en de uitvoer beperkt blijft tot citaten. Wordt die beperking niet toegepast, dan zal men een regeling met de auteur moeten treffen zodat die zijn wettelijk vastgestelde vergoeding krijgt. Het bedrijf van de llm wordt dan dus gewoon de verkoper van het boek.
Uit het abstract:
With our specific experiments, we find that the largest LLMs don’t memorize most books—either in whole or in part. However, we also find that LLAMA 3.1 70B memorizes some books, like Harry Potter and 1984, almost entirely. We discuss why our results have significant implications for copyright cases, though not ones that unambiguously favor either side
De situatie is dus weer wat grijzer dan hoe jouw comment impliceert.
Als dit stand houdt in een hoger beroep, wat er volgens mij wel aan zit te komen, is het hek van de dam. Niemand die zijn model wil trainen gaat dan nog terughoudend zijn. Ook films en muziek kan dan worden "verwerkt", want de gerechtelijke uitspraak zal ook wel die kant op valken... we zullen het zien
Zolang het legaal verkregen is dan kan het inderdaad. Dat betekent dus dat de prijzen enorm moeten stijgen willen je bedrijven afschrikken en nog wat verdienen.

[Reactie gewijzigd door adje123 op 24 juni 2025 18:22]

Wie gaat die content consumeren als ze de prijzen enorm gaan verhogen?
Zat mensen.
Sinds afgelopen weekend geloof ik alles.
Afgelopen weekend zag ik de Belenciaga Gaffer Bangle, en toen zag ik de prijs en toen zag ik mensen ermee rondlopen op feestjes......, niks verbaasd mij nog.
Maar even opgezocht wat het was.. wtf, ongelooflijk..
Tja ach, wanneer fomo je hele leven dicteert, moet je wel met alle nattescheethypes meedoen. Hilarisch dat een modehuis het presteert om een rol tape als accessoire te hypen 🤣

Natuurlijk is het met originele content zoals @ErikT738 en @adje123 bedoelen anders. Wanneer een AI-bedrijf een boek legaal wil scrapen, kan een uitgever daar best akkoord mee gaan, maar daarvoor wel de hoofdprijs eisen. En die is dan natuurlijk wel lager dan de boete die een rechter op zou leggen voor het illegaal scrapen van content.
Maar het punt van deze uitspraak is dat er dus geen aparte licentie voor training nodig is. Zolang ze het boek legitiem hebben bemachtigd (i.e. voor dezelfde prijs als een consument) mogen ze er gewoon op trainen.
In de laatste alinea:
(...) De rechter stelt Anthropic echter niet volledig in het gelijk. Het AI-bedrijf zou de meeste boeken namelijk illegaal hebben verkregen, waarmee het bedrijf alsnog het auteursrecht van de auteurs heeft geschonden. Er volgt nog een aparte rechtszaak over de hoogte van de schadevergoeding die Anthropic moet betalen voor het illegaal downloaden van 'miljoenen' boeken.
Feit is dat AI-bedrijven massaal illegaal auteursrechtelijk beschermd materiaal hebben gedownload om hun LLM's te vullen. Daar doet de legitieme aanschaf van een klein aantal boeken natuurlijk niets aan af, ook al valt dat volgens de (Amerikaanse!) rechter onder 'fair use'.
Ik begrijp je punt niet. Ze krijgen (terecht) op hun flikker dat ze de boeken illegaal hebben gedownload, maar krijgen ook de zegen om gewoon door te trainen als ze de boeken kopen. Die aanschafprijs is echt verwaarloosbaar voor Tech giganten.
Hadden ze niet gewoon een echte rol tape om? Stuk goedkoper 8)7
:o
Wat voor feetjes zijn dat? |:(
En het is nog van die waardeloze breek-tape ook! ;)

Daar heeft de echte "gaffer" niks aan hoor.
Ik liep al in de jaren negentig heel hip met zo'n rol zwarte tape om mijn pols, al werkende...
Prijzen die hoog genoeg zijn dat ze miljardenbedrijven als Meta, Apple, Google en Microsoft afschrikken, maar laag genoeg dat ze geen drempel vormen voor de gewone consument. Dat lijkt me een onoplosbaar vraagstuk. :P
Je moet onderscheid maken in het gebruik voor training en de output van een AI model. De rechtszaak ging over de training. De rechter heeft alleen gekeken of het gebruik voor training rechtmatig was, rekening houdend met het doel van een AI model.
Zodra een AI model materiaal waarop copyright rust gaat dupliceren gaan de wetten voor copyrightschending wel gelden. Het dupliceren (met uitzondering van citaten of fragmenten) is gewoon niet toegestaan. Voor boeken, films en muziek bestaan gewoon regels wat is toegestaan en wat niet. Ook AI zal zich daaraan moeten houden. De bedrijven achter de AI modellen zullen dus regels in moeten bouwen dat materiaal waarop copyright
rust niet letterlijk in een output terecht komt.

Of een hoger beroep zinvol is betwijfel ik. De rechter heeft de AI training gelijkgesteld aan een normale gebruiker. Elke lezer, kijker of luisteraar onthoud (bewust of onbewust) wel iets en gebruikt dat (opnieuw bewust of onbewust) later in zijn leven.
De kanttekening die de rechter wel maakt is dat alle gebruikte materialen wel netjes het copyright moet zijn betaald. Er moet dus minimaal een (digitaal) exemplaar zijn aangeschaft.

Heel in het kort heeft de rechter AI dus gelijkgesteld aan een mens, met bijbehorende rechten en plichten. Dat is eigenlijk het belangrijkste van deze uitspraak.
heeft de rechter dat gedaan, of is de wettekst van de fair-use policy zodanig dat er geen optie is om de AI anders te behandelen dan een mens.

Het belangrijkste van deze uitspraak kan ook zijn dat de fairuse wettekst verouderd is.
Leren uit een boek is normaal, dus waarom zou AI dat niet mogen. Die redenering is volledig voor rekening van de rechter.

Ik weet niet of er überhaupt een fair-use policy op schrift staat, of dat de rechter gekeken heeft hoe een boek normaal gebruikt wordt. Als er al een fair-use policy op schrift staat, dan is die niet wettelijk, tenzij men deze voor aanschaf in kan zien en akkoord moet geven. Dat daar iets over AI instaat lijkt mij stug. Wel staat er in elk boek "niets uit deze uitgave mag vermenigvuldigd worden door middel van fotokopie, film of elektronisch". Gebruiken om te leren is dus niet uitgesloten. Grote stukken dupliceren mag duidelijk niet. Wil een auteur of uitgever niet dat een boek voor AI training wordt gebruikt, dan had dat in die tekst moeten staan. Als de tekst verouderd is, dan is dat het probleem van de auteur en uitgever. De gebruiker heeft alleen te maken met de tekst zoals die op moment van aanschaf is.
Uiteraard staat er een fair-use policy op schrift. 2 seconden zoeken:
https://www.copyright.gov/help/faq/faq-fairuse.html

Wat vreemd is aan de uitspraak van de rechter is dat hij het blijkbaar toegestaan vind dat een volledig boek word gebruikt onder fair-use. Terwijl je normaal gesproken alleen delen mag gebruiken.

Waar jij het over hebt wat in een boek staat is copyright. Dat is wat anders dan fair-use.
Waar je naar linkt is een Q&A, met delen "fair use", maar de meeste vragen gaan over copyright. "fair use" wordt eigenlijk zelden helemaal op schrift gezet.

Als jij een boek koopt mag je dat natuurlijk helemaal gebruiken. Je mag het echter niet zonder toestemming van de auteur (of een uitgever die namens hem/haar optreed) dupliceren. Je mag wel (kleine) delen citeren. Wat mag en niet mag is in de Copyright wet vastgelegd. Of de gebruiker nu een mens of AI is maakt voor de rechter, gezien zijn uitspraak, niet uit.

Wat ik schreef is inderdaad een verwijzing naar de copyright. De auteur is (in Nederland) echter wel verplicht om de technieken te noemen. Amerika leeft nog meer naar de letter van de wet en daar zal het vermoedelijk niet anders zijn.
Gaat de muziekindustrie ook niet blij mee zijn, want dit is zo breed gedefinieerd dat sampling er waarschijnlijk ook onder valt.
Je ziet nu al dat live performance beter gewaardeerd wordt dan een hit notering. Echte artiesten beleven nlk plezier aan optreden. Eendagsvlieg laten het er al gauw bij zitten

Kippevel bij een live performance is nou eenmaal meer waard dan het zoveelste AI muzakje

[Reactie gewijzigd door fenrirs op 24 juni 2025 18:58]

Als men de boeken wel zelf aanschaft en dan door een LLM laat lezen, de LLM kan hierdoor kennis opdoen over bestaande boeken en daar mee nieuwe boeken produceren.

Wijkt dit erg af van een model waarbij een kunstenaar naar een kunst academie gaat, boeken moet bestuderen en nadien zelf kunst gaat produceren?

Ik deel deze stelling niet perse als meening maar om te toetsen hoe anderen dit zien.

Even los van commercie of de specifieke partijen die dit nu reeds doen.

Op zich, auto didacten daargelaten, doen wel allemaal kennis op van anderen en borduren we daarop verder in het leven. Wie is er niet groot geworden met XYZ voor dummies :-D
Dat denk ik wel.

Ten eerste is een LLM niet echt creatief. Het is altijd een “lijken op”. En ten tweede gaat het ook om de massa. Een LLM spuugt in notime “nieuw” werk uit, waar een mens (veel) tijd nodig heeft voor nieuw werk. Behalve Bob Ross dan ;)

Ik weet niet in hoeverre dat geldige argumenten zijn voor een rechter.
De vraag is of het geldige argumenten zijn in de wetteksten.

In principe moet een rechter gewoon de letter van de wet volgen en niet zelf dingen verzinnen. De wetten zijn gemaakt voordat men ooit van een LLM had gehoord. En zeker bij een fair use wet verbaast het me dan niks dat je ongewenste effecten krijgt.

Denk ook aan thuiscopy wetten. Die werden gemaakt in de tijd dat een kopieer apparaat zeer kostbaar was en niemand een boek geheel ging kopieren. Dat was duurder en van slechtere kwaliteit dan het boek kopen. Dus iemand toestaan wat kopietjes van een aantal bladzijden te maken was geen probleem. En bij muziek had je het over een slechte kopie op een casettebandje.

Toen je voor een prikkie een 1 op 1 kopie met dezelfde kwaliteit kon krijgen was de wet compleet achterhaald. Maar zolang die niet vervangen is door een nieuwe wet, moet de rechter wel werken met die verouderde wet.
De mens doet exact hetzelfde, pas wanneer je iets 1 op 1 na gaat maken kun je gezeur krijgen met copyright.

Maar als mens leren van bestaande werken staat vrij, zolang je dit werk niet gestolen hebt (equivalent is dus source kopen voor LLM's).
Nee hoor, ook afgeleide werken vallen onder het originele auteursrecht. Als ik morgen een eigen vertaling van de Harry Potter boeken ga schrijven, of ik laat iemand anders op enkele bladzijden het verhaal samenvatten waarna ik het verhaal zelf opnieuw invul, dan blijft dat gewoon auteursrechtenschending.
of ik laat iemand anders op enkele bladzijden het verhaal samenvatten waarna ik het verhaal zelf opnieuw invul, dan blijft dat gewoon auteursrechtenschending.
Volgens mij klopt dat niet helemaal. Je gaat wellicht de fout in wanneer je alle namen en dergelijke hergebruikt, maar dat is eerder trademark dan copyright. Je kan prima Star Wars opnieuw maken zolang je de namen aanpast en de ruimteschepen vervangt door draken (i.e. Eragon).
Dat zal dan door de rechter beoordeeld worden zodra Disney je aanklaagt. Als die erin meegaat, dan kan je heel hard nat gaan.
Een mens leest in zijn leven een paar (relatief weinig) boeken en vermengt dat in zijn hoofd met de berg aan eigen ervaringen en eigen interacties met andere mensen. Als deze mens een boek schrijft is dat boek daardoor slechts voor een klein deel van die gelezen boeken afgeleid. Dat noemen we inspiratie.

Een AI wordt in korte tijd op miljoenen boeken getraind, en op weinig anders.
Als deze AI een boek schrijft is dat boek dus 100% gebaseerd op de 'gelezen' boeken, een algoritme en een random seed. Laat de AI nog een boek schrijven met precies dezelfde seed, krijg je precies hetzelfde boek.

Ik zou dat niet hetzelfde willen noemen.Ik vind het zelfs een essentieel verschil.
Het ene voegt iets toe. Het andere scenario gebruikt alleen maar.
Dat is maar een kwestie van interpretatie. Wat je weet komt in ieder geval voor een aanzienlijk deel van geschreven of andere media. Bij AI ook. Ik vraag me af of er echt een essentieel verschil is.
Maar zou dit betekenen dat als je als auteur het alleen met de licentie "geen ai training" verkoopt, dat zelfs een boek wat in de winkel gekocht is dan voor de AI boeren illigaal is?
Lijkt me dat dit als een discriminerende licentie beschouwt zal worden. Dat gaat niet lukken.
Nee hoor. Je kunt prima een voorwaarde opnemen dat jouw werk niet gebruikt mag worden voor het trainen van AI. Dat betekent niet dat jouw boek niet verkocht mag worden aan iemand die voor z'n werk AI's traint. Die persoon kan een boek, schilderij of muziekalbum immers prima voor privégebruik kopen en er qua AI helemaal niets mee doen.

Aan de andere kant kun je ook een voorwaarde opnemen dat jouw werk wel gebruikt mag worden voor het trainen van AI, maar voor een billijke vergoeding. Het AI-bedrijf koopt dan een licentie en kan het dan legaal gebruiken. Die licentie zou goedkoper moeten zijn dan de boete voor illegaal gebruik, maar niet zó goedkoop dat jij er niets aan hebt.
Waarom zou je dat overigens willen? Betekent dat datgene wat in je boek staat, binnen de kortste keren verdwijnt uit de algehele kennis. Want niemand die over 10 jaar nog jouw boek weet te vinden als AI er niet van af weet :*)
Je kan het in de licentie zetten maar die clausule is dan gewoon ongeldig. Dat is letterlijk wat Fair Use betekent.
Ik ga mee in deze redenatie. De ai emuleert een mens en is daarmee dus net als een mens getraind op bestaande werken van de voorgangers.

De ai is natuurlijk in staat om dit op enorme schaal te doen en heel snel. Maar de copyright wet van de vs zoals hij nu is en ik denk in variaties in andere landen, heeft verwerkingssnelheid niet als argument in de redenatie. Of iets transformatief is, is vaak veel belangrijker, ofwel voeg je wat toe aan het bestaande.
En de ai voegt zeker wat toe, kwalitatief of niet.

Ja er zijn voorbeelden van 1op1 gekopieerde teksten, maar dat kan opgelost worden met een concept van plagiaat in de ai te bouwen. En soms komen dingen makkelijk overeen omdat het orgineel all niet erg onderscheidend was.

Twee opties, we accepteren dit als de nieuwe waarheid, of er nemen dit als het zoveelste voorbeeld dat de copyright wetgeving niet op de moderne tijd is gemaakt.
Derde optie dat men in actie komt zodra de gepubliceerde output van AI wel degelijk een inbreuk maakt op auteursrecht.

Denk dat het die kant op zal gaan. Dus een achtste Harry Potter boek gemaakt door AI zal er niet inzitten.
Dat is zeker een optie, maar dat zal een uitputtende strijd tegen de machine worden dan.
Ik weet niet helemaal hoe deze rechtszaak in mekaar zit, maar wat bedoelen ze met legaal verkregen.

Ik kan me niet inbeelden dat ze betaald hebben voor ieder boek of werk. Hoe betaal je bv legaal voor een kunstwerk van “banksy” of “ Jean-Michel Basquiat”.

Hoe voorkomen ze dan , dat hun engines geen plagiaat “maken” en wie is er dan verantwoordelijk voor dit plagiaat ?? Zoveel vragen :?

[Reactie gewijzigd door klakkie.57th op 24 juni 2025 18:52]

Volgens mij hadden ze een site gevonden waar stapels boeken illegaal te lezen waren. Die is men gaan gebruiken om de AI te trainen.

Gevonden: https://www.transparencyc...les-heres-what-you-can-do

[Reactie gewijzigd door Milmoor op 24 juni 2025 19:25]

Ik weet niet helemaal hoe deze rechtszaak in mekaar zit, maar wat bedoelen ze met legaal verkregen.
Gekocht. Aangeschaft.
Ik kan me niet inbeelden dat ze betaald hebben voor ieder boek of werk.
Omdat ze niet voor ieder boek betaald hebben wordt er ook juist onderscheid gemaakt tussen wel en de niet legaal verkregen boeken. Dat onderscheid is vrij nutteloos als elk van de boeken die ze gebruikt hebben in dezelfde categorie valt.
Hoe voorkomen ze dan , dat hun engines geen plagiaat “maken” en wie is er dan verantwoordelijk voor dit plagiaat ?? Zoveel vragen :?
Maakt toch eigenlijk niet uit. Als een LLM plagiaat pleegt, dan zal de leverancier van het LLM waarschijnlijk wel verantwoordelijk gehouden kunnen worden.

In die zin kan ik me ook vinden in het niet verbieden van trainen op copyrighted materiaal, zolang het werk rechtmatig verkregen is.

Immers kan ik zelf, met mijn handjes, ook veel van de copyrighted werken die ik legitiem bezit kopieëren. Maar het feit dat ik dit, door de werken te bezitten, in theorie kan, maakt mijn bezit van die werken toch niet illegaal?

Het gaat er toch om of ik het doe? Als ik het doe kan ik er verantwoordelijk voor gehouden worden. Maar het feit dat ik de mogelijkheid bezit om deze illegitieme daad te plegen, is geen inbreuk.

Het is in deze aan Anthropic om te zorgen dat hun software de theoretische mogelijkheid om plagiaat te plegen, niet benut. Als ze daar in slagen, helemaal mooi. Zo niet? DMCA.

[Reactie gewijzigd door ZinloosGeweldig op 24 juni 2025 19:48]

Als auteur vind ik dit een kwalijke zaak; een boek is een uniek werk. "Creatieve content" misschien, maar als we het hebben over technische werken is het een ander verhaal. Benieuwd wat de uitgevers gaan doen; ik voorzie dat er in ieder geval in de colofon wat bepalingen over gebruik worden toegevoegd.

[Reactie gewijzigd door michelr op 24 juni 2025 18:27]

"Legaal verkregen". Geen een AI model is getraind op legaal verkregen materiaal, geen enkel.
Vermoedelijk is elk AI model getraind op legaal verkregen materiaal.

Of ze niet ook getraind zijn op illegaal verkregen materiaal is een ander verhaal.

Ik denk niet dat elk model getraind is op illegaal verkregen materiaal. Waarschijnlijk de meeste "chatbots" en publiek aangeboden general use modellen wel.

Maar als we naar specifieker getrainde narrow AI modellen kijken (bijv. modellen die CT en/of MRI scans analyseren en kanker en andere problemen herkennen), daar zijn de datasets veel meer gecureerd.
Het probleem is dat 'AI' een parapluterm is. De toepassingen die jij in jouw laatste alinea noemt, zijn geen modellen die publiekelijk beschikbaar zijn. Dan is de discussie over datawinning (en -uitwisseling tussen ziekenhuizen) ook heel anders.
Jammer dat de rechter niet lijkt te begrijpen dat een LLM niet een mens is en ook niet de menselijke geest simuleert.

Er is een fundamenteel verschil tussen hoe een mens informatie tot zich neemt en een LLM. Een mens heeft context voor de nieuwe informatie en kan aan die informatie twijfelen. Een mens kan er vragen over stellen, over de bron van informatie en mogelijke vooroordelen of misinformatie.

Een LLM kent het verschil tussen waarheid en leugen niet. Het heeft geen creativiteit.
Misschien moeten de wetten veranderd worden, in ieder geval voor AI. (Ik zou die wetten voor AI en mensen graag gelijk hebben, maar dat lukt misschien niet.)

Neem een journalist bijvoorbeeld. Die doet interviews en onderzoek, maar alleen het artikel zelf is beschermd. De feitelijke informatie, waar het bij een krant in feite om draait, is onbeschermd als ik het goed begrijp.

Een AI mag/kan dus een artikel in eigen woorden overschrijven en verkopen voor een paar cent. Dat terwijl het artikel in kwestie ten minste duizenden euros aan arbeid kostte. Het AI artikel kostte paar cent aan stroom.

Tuurlijk zou een mens dat ook kunnen. Een artikel herschrijven als goedkoop alternatief. Maar een mens zou daar waarschijnlijk zijn geld niet mee verdienen. AI doet dat al, van wat ik hoor.

Het uiteindelijke doel van auteursrecht is het stimuleren van auteurschap. Auteurs krijgen een tijdelijk alleenrecht op hun werk zodat ze inkomen hebben. Als menselijke auteurs, helemaal journalisten, worden weggeconcurreerd door computers blijft er weinig professioneel nieuw materiaal over. Zonder nieuw materiaal is AI ook slachtoffer, want dan komt er geen nieuwe broninformatie binnen.

En ik snap de vergelijking met andere nieuwe technologie. Industriele revolutie verdrong de traditionele nijverheid, Computers kosten hoofdrekenaars hun baan. Het verschil is echter dat AI gebruik maakt van het werk van de concurrenten om ze te verslaan. (Computerontwikkeling ook, maar daar werd men wel direct voor ingehuurd ipv werk tegen hun zin in afgepakt. Ook de snelheid is anders.)

En ik geef toe, ik voel mee met auteurs die hierdoor hun werk verliezen. Ik heb ook moeite met het maken van meer superrijke grote bedrijven ten kostte van duizenden middenklasse auteurs. Sommigen denken al aan universele basisinkomens om het verlies van arbeidsplaatsen tegen te gaan. Ook ben ik wantrouwig tegenover AI zonder bronvermelding. Ik ben bevooroordeeld dus.

Ik hoop dat men een manier kan bedenken om auteursrecht aan te passen zodat er voor menselijke auteurs ruimte blijft. Ik zie voordelen van AI in ondersteunende rollen, zoals upscaling, vertaling, assisteren van mensen met een beperking en foutcontrole van echte auteurs. Mogelijkheden zijn strengere regels voor het kopieren van specifieke informatie, een tijdsregel voor kopieren van AI zonder toestemming (alleen materiaal van 5 jaar of ouder) of een verplichte bronvermelding.

Op dit item kan niet meer gereageerd worden.