Persbureau Reuters wint rechtszaak tegen AI-bedrijf om auteursrechtschendingen

Persbureau Reuters heeft een rechtszaak gewonnen tegen Ross Intelligence om auteursrechtschendingen. Het AI-bedrijf gebruikte zonder toestemming inhoud van Westlaw, de juridische onderzoeksdatabase van Reuters, ten gunste van zijn eigen juridische zoekmachine.

De Amerikaanse rechter oordeelt dat Ross Intelligence zich schuldig heeft gemaakt aan auteursrechtinbreuk door zonder toestemming de inhoud van Westlaw te gebruiken. Het AI-bedrijf had volgens de rechter het beoogde doel om te concurreren met Westlaw door een soortgelijke dienst te ontwikkelen.

Reuters zegt in een reactie aan The Verge dat het tevreden is over het oordeel van de rechter dat de redactionele inhoud van Westlaw niet zonder toestemming mag worden gebruikt en dat het kopiëren van de inhoud niet onder fair use valt. De uitspraak kan belangrijke gevolgen hebben voor andere bedrijven die auteursrechtelijk beschermd materiaal gebruiken om AI-modellen te trainen.

De Westlaw-database bevat inhoud van diverse juridische bronnen, waaronder wetten, rechterlijke uitspraken, juridische artikelen en jurisprudentie. Er zijn ook door redacteurs geschreven samenvattingen aanwezig. Westlaw vereist een betaald abonnement van honderden dollars per maand en wordt voornamelijk gebruikt door advocatenkantoren en juridische instellingen.

Door Sabine Schults

Redacteur

12-02-2025 • 10:05

76

Submitter: Jerie

Reacties (76)

Sorteer op:

Weergave:

Tja, ik weet niet of we hier nu blij mee moeten zijn. Dit zet de deur open om alle AI training te verbieden in landen die iets om copyright geven, wat als gevolg gaat hebben dat landen als Rusland en China AI gaan hebben en wij niet. Als AI de beloftes ook maar enigszins waar maakt (en ik verwacht van wel) dan houdt dit in dat we over een aantal jaar met geen mogelijkheid meer met deze landen kunnen concurreren.
Je bewering is eigenlijk vergelijkbaar met patent recht. China en Rusland houden zich vaak niet aan patentrecht dus moeten wij dat maar afschaffen. Anders kunnen we niet met ze concurreren.
Blijkt niet zo te zijn. We beschermen onze markten tegen namaak producten.

Met AI is het niet anders. Modellen getraind op gestolen data worden verboden. Hun afgeleidde producten ook.
De vraag is of patenten, octrooien en heel langdurend copyright bescherming de innovatie nog wel helpen zoals ooit beweert werd. Daar is online genoeg discussie over te vinden. En niet alleen door hobby bob tweakers.
Ik pleit zelf niet voor totaal afschaffen, maar ik pleit wel voor een drastische reductie in termijn van al die dingen om te zorgen dat hun levensduur in overeenstemming komt met de levensduur in de markt van de producten die er op gebaseerd zijn.

Ik geloof dan ook dat deze dingen waarde krijgen alleen als er producten van gemaakt worden of kunnen worden. Er is nu daarnaast een hele waarde gemaakt in het voeren van rechtszaken en geldtrekken voor patenten die verder niet gebruikt worden door de eigenaar. Dat is leuk voor de advocaten industrie, maar niet voor de innovatie en ontwikkeling en heeft wat mij betreft dus geen waarde voor de maatschappij
We beschermen onze markten tegen namaak producten.
Lijkt vaak meer op beschermen ulta-rijken zodat ze hoge prijzen kunnen vragen voor dingen die veel minder kunnen kosten voor dezelfde kwaliteit.

Een AI doet een mens na, een mens kan onthouden, als een AI een boek leest is dat weinig anders dan een mens die een boek leest en het geleerde in een baan gebruikt.
Dan zijn wetten ook nog eens openbaar.

[Reactie gewijzigd door bzuidgeest op 12 februari 2025 12:38]

Ach, copyright wet is toch onzin. Walt is al 2 keer terug geweest en zijn muisje is nu pas in het vrije gebied.
En patenten wordt misbruik van gemaakt, of dit alweer vergeten
https://eenvandaag.avrotr...iekte-wordt-niet-vergoed/
de prijs die Vertex vraagt, aanvankelijk nog zo’n 170.000 euro per patiënt per jaar,
Waar een apotheker zei voor 10 cent het jaar voorraad voor alle NL patienten te kunnen maken.....

Hier kan je het niet mee eens zijn, tenzij je mensen alleen als ruwe grondstof ziet.
Hier kan je het niet mee eens zijn, tenzij je mensen alleen als ruwe grondstof ziet.
De definitie van de VS. Mensen als grondstof.
Onzin. Dat er excessen te vinden zijn betekent nog niet dat het helemaal "onzin" is. Voor 95% van de tijd werkt de wetgeving prima, en netto is het beter dat we het wel hebben dan niet.
Dat het soms wel werkt zoals bedoeld is zeker waar, maar die 95% is echt moeilijk te geloven. Is daar onderzoek naar gedaan?

Voor wat betreft copyright, in Amerika geldt tot zeventig jaar na de dood van de auteur. Daar heb je geen onderzoek voor nodig om te bedenken dat dat idioot is. Welk ander werk geeft je recht op inkomen na je dood? Praktisch gezien zelfs tot na de dood van je kinderen?
Het hele copyright gebeuren is een exces.
Maar wel mooi dat je het niet in leven willen houden van mensen een exces noemt die we maar moeten negeren.
Kijken hoe jij zou reageren als jij zo wordt weggezet.
Je bewering is eigenlijk vergelijkbaar met patent recht. [...]
Blijkt niet zo te zijn. We beschermen onze markten tegen namaak producten.
Namaak-producten schenden het merkenrecht, niet patentrecht.

Met patenten hebben namaak-producten echt helemaal niets te maken.
Het concurreren met China gaat ons anders niet echt fantastisch af.
Met AI is het niet anders. Modellen getraind op gestolen data worden verboden. Hun afgeleide producten ook.
Momenteel zijn de afgeleide producten nog als zodanig te herkennen, maar hoe lang gaat dat nog duren? Geheel stoppen met het importeren van Chinese goederen is ook geen optie, omdat we vrijwel alle productie die kant op hebben verplaatst.

Daarnaast is het de vraag in hoeverre het aan de bevolking te verkopen is dat de goedkopere Chinese producten van gelijke of betere kwaliteit (nogmaals, er van uit gaande dat de belofte van AI wordt waargemaakt) hier niet te krijgen zijn omdat we het intellectueel eigendom van een select groepje mensen willen beschermen.
Dus als morgen een foto van jou en je familie groots op ale bilboards staat omdat iemand die foto gevonden heeft op een website ergens, dan zeg je, dat recht heb je?
Want dat is feitelijk wat hier gebeurt, iemand heeft iets op internet geplaatst, en iemand anders gebruikt het voor iets anders dan waar het voor bedoeld is zonder toestemming (en zonder vergoeding).

Hoewel wet en regelgeving best irritant kan zijn en soms hopeloos verouderd is, is het wel hoe wij als maatschappij leven. En troost je, bedrijfsspionage bestaat ook, dus als een ander land ineens sprongen maakt in hun techniek volgt dat elders vanzelf.

En betreffende uitleggen waarom iets hier niet te krijgen is. We verbieden ook speelgoed met giftige stoffen, of apparatuur die elektrisch geen keurmerk heeft. Mensen die dat willen omzeilen doen dat toch en eindigen soms met brand in hun huis of hun kind ziek met kanker, en soms ook niet. Die zeggen als het mis gaat, ja ik was dom geweest, ik wist het niet. Maar in mijn hebberigheid heb ik het toch gedaan en toen wat Euro's bespaard.
Het gaat in deze niet om recht, maar om belangen. Ik beargumenteer niet dat het auteursrecht hier niet wordt geschonden, maar dat we deze "zonde" wel moeten begaan om belangrijkere dingen, zoals Europa's internationale concurrentiepositie, te beschermen. En ja, dat geldt ook voor enig auteursrecht wat ik zelf zou bezitten.
En betreffende uitleggen waarom iets hier niet te krijgen is. We verbieden ook speelgoed met giftige stoffen, of apparatuur die elektrisch geen keurmerk heeft. Mensen die dat willen omzeilen doen dat toch en eindigen soms met brand in hun huis of hun kind ziek met kanker, en soms ook niet. Die zeggen als het mis gaat, ja ik was dom geweest, ik wist het niet. Maar in mijn hebberigheid heb ik het toch gedaan en toen wat Euro's bespaard.
Er zit een gigantisch verschil in iets verbieden voor de veiligheid en iets verbieden omdat een bedrijf of persoon nog decennia het alleenrecht heeft om een bepaalde tekst of foto te gebruiken. Ik zou een stuk minder negatief zijn tegenover het auteursrecht als er enigszins redelijke termijnen voor stonden.
Je uitspraak echter was, we laten de wet los en alles mag om maar de concurrentie aan te gaan. Nu komt er echter nuance.
Wat is een redelijke termijn? De getroffen website in dit geval publiceert recente informatie rondom uitspraken in rechtszaken en jurisprudentie, en heeft geschiedenis, daar zitten mensen achter die dat als baan hebben, servers die de content serveren, en dat moet terugverdient worden.
Dan zou je uitdrukking toch moeten zijn dat je in dit geval het terecht vindt, maar als het gaat om data ouder dan X tijd niet, en dan aangeven wanneer die X volgens jou reëel is? En geld dat voor alle intellectueel eigendom, of is X anders per categorie? Je hebt immers cultuur (boeken, muziek, schilderijen, etc.) uitvindingen (CD. DVD, Accutechniek, etc.), onderzoek (medicijnen, universiteiten, etc.) publicaties (websites, tijdschriften, kranten, etc.) en mogelijk nog wel meer categorieën.

Mijn persoonlijke mening zou het enkele jaren moeten zijn en/of na overlijden. Een schrijver mag van mij verdienen tot zijn dood. Echter daarna houd het wat mij betreft op, en nabestaanden zouden dan geen rechten meer hebben op inkomsten uit intellectueel eigendom. Voor een krant of tijdschrift echter is een veel kortere termijn in mijn ogen redelijk. Dat er een nieuwe bakkerij zit in het dorp is immers geen nieuws meer nadat iedereen het weet. Echter een stuk achtergrondjournalistiek heeft een langere tijd waarde en moet ook terugverdient kunnen worden dat het niet verdwijnt uit de samenleving, maar is dat dan in enkele jaren om te tellen, of decennia?
Mijn problemen met de termijnen die we hanteren voor het auteursrecht staan los van mijn mening over het trainen van AI. Ik ben van mening dat het niet hebben van (goede) AI een existentiële dreiging is voor de EU, zeker op het moment dat de VS ons duidelijk heeft gemaakt dat ze liever ons grondgebied afpakken dan vrienden met ons blijven. In dat licht is het auteursrecht wat mij betreft gewoon ondergeschikt, en wil ik niet dat deze uitspraak onze vooruitgang gaat belemmeren.

Daarbij wil ik wel toevoegen dat het doel van het bedrijf uit het artikel, het direct beconcurreren van de bron van de trainingsdata, vrij schofterig is en dat ik hier niet direct een oplossing op weet.
Dat valt allemaal wel mee. We kunnen niet concurreren op spotgoedkope productie maar de problemen daar zitten met name in de hoge kosten van milieu vervuiling die we hier wel doorberekenen en in China doen ze dat niet.

Spotgoedkope Chinese producten kunnen hier overigens alleen geleverd worden omdat China volgens de VN een ontwikkelingsland is en dat ze daarom het recht hebben praktisch gratis producten naar ons te versturen die PostNL vervolgens bijna gratis moet bezorgen.

De VS stopt daar nu al mee, die zijn klaar met die onzin. Ik verwacht dat Europa spoedig volgt.

De bevolking is het gewoon eens met de overheid en met de EC. Dikke invoer heffingen op spotgoedkope auto's, zonnepanelen et cetera om onze eigen industrie te beschermen. mensen willen toch echt graag hun baan houden.
Volgens mij is een groot deel van je post achterhaald of klopt het gewoon niet. Zo vervuilen bedrijven hier ook vanalles zonder er voor te betalen, en is de goedkope verzending uit China voor zover ik weet jaren geleden al gestopt en hebben de grote verkopers zoals AliExpress nu gewoon Europese warenhuizen. Het enige probleem wat de bevolking met Chinese producten lijkt te hebben is de gebrekkige kwaliteit, die gewoon kan worden verbeterd.
Nee hoor, mijn post klopt prima. China doet zeer weinig tegen milieu vervuiling terwijl in Europa de regels zeer streng zijn.

Pakketjes gaan nog altijd in enorme aantallen via Chinese Post onze kant op. Op kosten van PostNL.

Zie het AD onlangs nog: 1,4 miljard pakketjes van buitenlandse webshops naar Nederland: ‘Onhoudbaar’
De regels zijn hier ook gewoon laks. Met de juiste vergunning (die je zonder al te veel moeite kan krijgen) kan je zooi gewoon in de natuur dumpen. Waar denk je dat alle PFAS in ons water vandaan komt? Dat we meer regels hebben dan in China betekent nog niet dat wij het goed doen of zeer streng zijn.

Ook je verhaal over de status van China als ontwikkelingsland waardoor het goedkoop kan versturen klopt sinds 2021 niet meer. Dat het volume aan internationale pakketjes een probleem is staat daar los van.
Ook je verhaal over de status van China als ontwikkelingsland waardoor het goedkoop kan versturen klopt sinds 2021 niet meer.
Dat is nog altijd zo. Daarom kan je spotgoedkoop uit China bestellen. Leukste grap is als je het product terug wil sturen omdat het niet voldoet, dan kan je ineens meer dan 50 euro verzendkosten betalen.

Juist het spotgoedkope verzenden zorgt voor die tsunami aan dropshippers met spotgoedkope Chinese producten.

Kijk gewoon eens bij de uitstoot lijstjes en zie wat China per jaar uitstoot. Het is het meest vervuilende land ter wereld. En dat allemaal om spotgoedkoop te kunnen produceren.
Alles is relatief. Per capita stoot de US 3x zoveel CO2 uit als China, en China is het land wat het meest investeert in hernieuwbare energie ter wereld. Het is ook het land met het grootste percentage hernieuwbare electriciteit.
En waar china van plan is investeringen in fossiele brandstof te verlagen, wil de US juist verhogen. "Drill baby Drill"
Feit is dat China meer uitstoot dan #2 & #3 "uitstoters" (en wellicht ook #4??) samen. Dan kan de VS per capita meer uitstoten aan het einde van de streep stoot China veel meer uit.

En al gebruiken ze daar geen kolen en gas meer. Wanneer zij dan alsnog meer uitstoten dan de rest hoe relevant is dat dan?
Het wordt pas relevant wanneer zij niet meer zo waanzinnig veel uitstoten.

[Reactie gewijzigd door Mit-46 op 12 februari 2025 16:31]

De metrics totaal, én per capita zijn allebei belangrijk. Het is belangrijk om te zien dat de gemiddelde Amerikaan 3x zo milieubelastend is als de gemiddelde chinees. En het is zeker belangrijk om te realiseren dat China een enorm grote uitstoot in totaal heeft. Beide metrics geven aan dat er veel potentieel is.

Wat me irriteert is dat de VS zich vaak verschuilt achter China. De pot verwijt de ketel.
Nou, China is veruit de grootste producent en consument van wind turbines en zonne-panelen, maar toevallig ook de grootste CO2 producent (allebei wwel logisch met zo'n bevolking en economisch niveau), met hele rare regels wat betreft kolen: https://www.theguardian.c...-energy-production-quotas
Een groot deel van de Chinese uitstoot bestaat enkel omdat we al onze productie daarheen hebben verplaatst.
Dat is nog altijd zo. Daarom kan je spotgoedkoop uit China bestellen.
De Universal Posting Union heeft toch echt in 2021 regels aangenomen waardoor we niet meer verplicht zijn om post uit een "ontwikkelingsland" gesubsidieerd te bezorgen. Het feit dat de kosten nog steeds laag zijn heeft, als ik dit artikel mag geloven, te maken met onderhandeling tussen PostNL en de grote Chinese webshops zelf.
Dat we overal PFAS vinden, is omdat het al decennia lang in automotoren wordt gebruikt om de wrijving te verlagen en zo slijtage te verminderen en brandstof te besparen.
Elk voordeel heeft zijn nadeel.
En naast regels tegen vervuiling gelden hier nog wel meer regels denk ik. Zodra je ergens minder regels hebt en derhalve kosten kunt besparen is de concurrentie minder eerlijk (dus dat kan overal zijn - maar er zijn nu eenmaal landen waar dat eerder het geval is).

En dan bedoel ik regels voor veiligheid van de medewerkers of hoeveel pauzes ze mogen hebben, hoe lang ze aan stuk mogen werken enz.

En dan de verschillen in loonkosten....
"warenhuis" is niet gelijk aan "magazijn"

warehouse = magazijn
warenhuis = department store

[Reactie gewijzigd door Marcel Br op 17 februari 2025 12:20]

Je hebt helemaal gelijk, het feit dat een NL taalmodel meteen de nek omgedraaid wordt en die zelfde data waarschijnlijk gewoon in elk Amerikaans model zit. Is weer een mooi voorbeeld hoe je als land rechts en links ingehaald wordt.

Het is enorm complex hoe het internet ons verbind en een concurrentie mogelijk maakt waar al deze wetten nooit echt op bedacht zijn. Waarom je een lidar camera uit China koopt voor 70$ en een lidar camera uit Duitsland koopt voor 7,000$.

Het probleem zit ook veel dieper, zo passen we onze wetten niet aan. Een mooi voorbeeld daarvan is bijtelling. Waar we mensen stimuleren om goedkope auto’s te rijden, waardoor we onze eigen auto branche helemaal de nek omdraaien.
Welke aanpassing lijkt je dan nodig? Want het feit dat anderen massaal bij gegevens kunnen waar copyright op zit is meestal te danken aan onzorgvuldig de gegevens beschikbaar stellen. De wet stelt niet voor niets ook eigen verantwoordelijkheid als belangrijk. Niet om de criminele te beschermen, maar juist om problemen te voorkomen die juridisch niet aan te pakken zijn in bijvoorbeeld andere landen.
Ik denk dat het vooral een aanpassing is aan hoe mensen denken. Het probleem bij AI en auteur rechts ligt nu meer bij hoe wij in Europa dat wel proberen te respecteren en in andere landen daar op een meer “het is publiek dus boeie” mentaliteit naar gekeken wordt.

Toen het eerste AI model van OpenAI in de maak was, was er geen enkele discussie in Europa over. Nu hebben ze de meeste data al vergaard en nu gaan we de discussie wel voeren zodra het over modellen gaat die door ons ontwikkeld worden.

Je beloont nu dus de persoon die het snelst de wetten overtreed. Iets dat totaal niet nieuw is in de tech wereld, zo had je dit met Uber en ook met AirBnB.

Als je auteursrecht zo hard wil beschermen en Europe op de kaart wil houden, dan moet je bedrijven als OpenAI onmogelijk maken in Europe. Nu schaad je enkel je eigen techniek, net als toen we Tesla’s aan het stimuleren waren.
Er is altijd al discussie geweest over de grens om je eigen en andermans gegevens te beschermen. Juist omdat veel verwerkers nogal oppertunistisch met andermans gegevens om gingen om zichzelf te verrijken en geen verantwoordelijkheid te nemen. Ai is daarin een van de vele middelen en doelen die men hoger stelt dan de wet.

De wetgeving geeft alle redenen om te voorkomen dat opportunisten zich illegaal kunnen verreiken en anderen met problemen op te zadelen die met behoorlijk toepassen van de wetgeving voorkomen hadden horen te worden. Behoorlijk is vaak niet op papier iets regelen en dan in de praktijk er zelf niet vanaf het begin naar handelen dat anderen dat papier kunnen negeren en dan onwettige problemen ontstaan die niet meer terug te draaien zijn.
Sowiezo is bijtelling nogal oneerlijk omdat er ten onrechte uitgegaan wordt van de nieuw waarde. Dagwaarde zou eerlijker zijn en lease tarieven naar beneden brengen. Dit stimuleert her- of langer gebruik van leasewagens niet. (oh wacht .... iets met belastinginkomsten en overheid, nee, dan wordt het ineens heeeeeel lastig om juiste beslissingen te maken)
Mmmm dat is niet helemaal waar. Het concept van bijtelling is juist, begrijp me niet verkeerd.

Je betaald even door de balk genomen 300k bruto om een auto te kopen van 150k netto. Een privé auto.

Je betaald anders 120k bruto om een auto te kopen van 150k bruto. Dat gat moet iemand compenseren, dat doen we met bijtelling. Het gaat naar die 300k die je anders zou betalen.

Echter, omdat deze bijtelling zo enorm drukt op de directe keuze omdat de meeste mensen het niet zo kunnen zien. Want, zo voelt het immers niet als je elke maand betaald.

Uiteindelijk is het direct verschil in prijs tussen dergelijke auto’s het echte probleem. Maar bijtelling had daar een instrument kunnen zijn om eigen markt te stimuleren.

Zoals we dat jaren lang gedaan hebben met Tesla’s, om dat geld vervolgens over de zee te sturen.
Je kunt de dienstverlening van bewezen criminele buitenlandse bedrijven in je interne markt prima verbieden?

En/of anders kun je lokale bedrijven aansprakelijk stellen voor het gebruik er van.

Je kunt als Chinees bedrijf ook niet zomaar een concurrent van Netflix oprichten met gepirate films, en vervolgens verwachten dat je dat in de VS (lang) kunt aanbieden.
Dan nemen die AI bedrijven toch gewoon een licentie op de data die ze willen gebruiken? Het gedrag van gewoon pakken en achteraf sorry zeggen mag wel eens afgelopen zijn.
Waar het uiteindelijk om gaat is dat wij in Europa betrouwbare AI gaan krijgen. Dat kost geld om auteursrechten te betalen, maar nodig. Hierdoor wordt de kwaliteit beter. En ja, er zit een kostenplaatje tegenover. Belangrijk is dan om die AI. Iets aan allen te geven. Betalen met een controle. Want anders word je alsnog leeggezogen.
Er zijn voldoende risico's rond AI die ik Europa graag af zie dekken (social scoring en biometrische identificatie bijvoorbeeld), maar het respecteren van, en het betalen voor het auteursrecht is daar niet één van. Als we hier te ver in doorschieten missen gewoon de boot, en doen we niet meer mee.
Rusland en China?

Het is de VS waar auteursrecht flagrant geschonden wordt: recent nog werd openbaar sta Facebook zes miljoen boeken pirateerde om hun model te trainen. Ze waren zelfs de gierig om gewoon de epubs te kopen (ook dan mag je mi niet zomaar modellen trainen op dat materiaal, maar dan hadden ze tenminste nog IETS betaald aan de auteurs), en torrenten gewoon de hele rits.

En komt daar iets van? Nope, helemaal niets.

Het is gewoonweg debiel om te pretenderen dat het 'andere landen' die met AI auteursrecht gaan schenden: in de oligarchie die de VS is geworden gebeurt het gewoon op enorme schaal door de techreuzen.
Ik ben van mening dat wij ons aan de regels moeten houden ongeacht waar het over gaat. Als de regels niet voldoen kunnen de regels worden gewijzigd, maar regels wijzigen omdat deze niet bevallen is wat mij betreft geen valide reden. Niet voldoen, prima, maar niet bevallen is dikke pech. Regels zijn regels.

Mooi voor China, Rusland, Amerika en weet ik wat. Woon je liever daar of liever hier bij ons? Hier waar regels ervoor zorgen dat dingen in ieder geval enigszins overzichtelijk blijven voor iedereen en je niet afhankelijk bent van hoe de president vandaag uit zijn bed is gestapt. Daar waar regels mbt AI niet gelden daar gelden nog meer regels niet.

Daarnaast denk ik dat AI helemaal niet zo nuttig is als men wilt doen geloven. Je krijgt antwoorden, maar niet per definitie correcte antwoorden. Waar het goed in kan zijn is repeterend/"lopende band werk" wegnemen en een wat mij betreft slechte veredelde zoekmachine zijn.

Voordat AI is zoals de hype wilt doen geloven leven onze achter achter achter kleinkinderen inmiddels.
Mij zou het niets verbazen als binnen vijf of tien jaar een groot deel van het "white collar work" door AI kan worden gedaan, en dat het meer repetitieve "blue collar work" ook kan worden overgenomen zodra hier goedkope robots voor kunnen worden gemaakt. Als de EU dan als enige mensen moet betalen voor dit soort taken dan kunnen we op internationaal niveau gewoon niet meer concurreren.

Uiteraard woon ik zelf liever in de EU waar ik bescherming geniet die je elders in de wereld niet hebt, maar je moet je wel realiseren dat die bescherming voort komt uit de economische positie van de EU. Zonder economische voorspoed hebben we op het internationale toneel weinig te vertellen.
Regels zijn regels
Regels zijn onderhevig aan interpretatie, vooral wanneer er iets nieuws wordt bedacht waarin de regels niet direct voorzien. Zelf had ik graag gezien dat het trainen van AI niet als schending werd bestempeld.
Dus we moeten het maar toestaan dat onze rechten ontnomen worden door AI-ontwikkelaars, omdat het in andere landen ook gebeurt? Geeft auteurs nog maar even een trap na zeg...
Ik vraag me af hoe het werkt als een AI bedrijf (zoals chatGPT) een rechtszaak verliest en de data moet verwijderen, moeten ze dan het hele model opnieuw trainen? Mogen ze de modellen waar in de data staat gelijk niet meer aanbieden?

In de kwestie van BREIN werd het model enkel offline gehaald: nieuws: Ontwikkelaar haalt taalmodel GEITje offline na verzoek Stichting Brei...

[Reactie gewijzigd door marcovit op 12 februari 2025 10:08]

Het lijkt mij dat ze die data niet meer mogen gebruiken dan (als ze geen overeenkomst ervoor kunnen sluiten) en ze dus inderdaad het model opnieuw moeten trainen zonder die data en het oude model niet meer mogen aanbieden.
Is dat wel zo? Stel je bent fotograaf en werkt met een illegale kopie van een fotobewerkingsprogramma zonder geldige licentie. Mag je, als je daarop wordt betrapt, dan naast een eventuele boete, ook niet meer de bewerkte fotos gebruiken?
Dat is niet hetzelfde......

Het AI bedrijf heeft niet het model getraind met behulp van illegale software maar met behulp van illegale data.

Dat is hetzelfde als een foto bewerken die je eigenlijk niet mag hebben. De resulterende bewerkte foto zul je dan ook weg moeten doen.
Dat ligt er maar net aan of het product als tool/kennis wordt gebruikt of letterlijk terug komt in het eindproduct.

Als ik een programmeerboek download zonder licentie ben ik in overtreding van Copyright. Gebruik ik de kennis om een software product te schrijven, moet dat product toch niet offline?

De vraag is dus vooral, bevat het model een kopie van de inhoud van het product. Of is het gebruik als hulpmiddel om het model te maken?

Ik denk dat het dus vooral gaat om hoe letterlijk de modellen de inhoud kunnen produceren. In dat geval zal dit dan copyright schending zijn.
Het kritieke breekpunt is dat "kennis gebruiken" voor de wet een menselijke handeling is. Een automatisch systeem als een model kan dat per definitie niet (opnieuw, volgens de wet, filosofisch kun je erover bakkeleien) en is dus altijd niets meer dan een transformatie van bestaande data waar geen creativiteit aan te pas komt. Dan zit je al snel verkeerd qua copyright.

Het hoeft niet eens zo te zijn dat het model de inhoud letterlijk kan ophoesten, dan is het alleen maar overduidelijk copyrightschending. Maar ook zonder dat ben je al in overtreding als je meer doet met de brondata dan hele triviale dingen (tellen hoe vaak de letter "e" voorkomt en daar een staatje van maken, of zo). Een model trainen gaat duidelijk te ver; ongeacht of het letterlijk reproductie is gebruikt het in ieder geval veel meer van de bron dan redelijk is. Het hele doel van het ding is immers om die data in een of andere vorm weer op te kunnen rakelen.
Ik snap wat je zegt maar dat haal ik niet perse uit het artikel. Er staat alleen dat er copyright schending heeft plaatsgevonden tijdens het trainen van het model. Maar dat stel ik ook niet ter discussie. Je moet namelijk om het model te trainen de data kopiëren, ik haal er niet uit dat het eindproduct daarmee een probleem is.

Dat is toch ook de hele discussie die er bijvoorbeeld bestaat over zoekmachines en nieuwsartikelen. Het maakt enorm uit hoeveel van de inhoud er wordt gepubliceerd.
Het probleem is dat er bij een model geen sprake is van publicatie of simpele reproductie. Bij dat laatste kun je namelijk inderdaad vaststellen of het eindresultaat het copyright schendt of niet. Als er maar een klein stukje gereproduceerd wordt is het mogelijk in orde.

Maar een model wordt getraind met 100% integrale data en daarna gebruikt om die data 100% te kunnen gebruiken voor het eindresultaat -- in de praktijk haalt het die 100% natuurlijk niet door de aard van het beestje, maar dat is wel wat de maker ervan beoogd, anders is het model niet nuttig. Dat het model daarbij de boel anders kan verwoorden telt niet mee omdat dat proces niet als creatief gezien wordt. Er is immers nergens een mens aan te pas gekomen die zich over het bronmateriaal gebogen heeft.

In zekere zin staat men juist een stuk zwakker omdat niet aangetoond kan worden dat het eindproduct zich niet 100% richt op dingen reproduceren die door copyright beschermd worden. Wanneer ik een website bezoek bijvoorbeeld worden er ontegenzeggenlijk talloze tijdelijke, digitale kopieën van de data gemaakt, maar dat is nou eenmaal een technische noodzaak voor de werking van het Internet -- niemand "leest" die kopieën zonder het bronmateriaal, en dat snapt de rechtelijke macht ook wel. Knappe jongen (of beter, knap leger advocaten) die zoiets hard kan maken voor een doorsnee model.

Feitelijk hebben AI-bakkers onder de wet zoals die nu is maar twee redelijke verdedigingen:
1. Op de brondata rustte geen copyright en/of de licentie stond toe om de data voor willekeurige doelen te gebruiken.
2. Je weet niet welke brondata we gebruikt hebben, dus je kunt niet aantonen dat we jouw data gekopieerd hebben.

En 2 werkt alleen maar zolang je je proces geheim kunt houden, wat in de praktijk neerkomt op "tot het de rechthebbende opvalt dat jouw model hun data kan reproduceren en ze je aanklagen", want dan moet je met de billen bloot.

[Reactie gewijzigd door MneoreJ op 12 februari 2025 11:34]

Ja en dus zeg je nu toch zelf dat het dan als tool wordt gebruikt om het eindproduct te maken.

En daarop was het de oorspronkelijke vraagstelling ook berust. Mag je een product dat gemaakt is met een tool zonder licentie, niet meer verspreidden? Ik dacht altijd dat auteursrechten alleen draaide om de verspreiding van het auteursrechtelijk materiaal. Niet eventuele producten die je er mee maakt.

Ik mag geen illegale brushes op mijn computer hebben staan in mijn tekenprogramma. Ik heb tenslotte geen licentie voor die kopie. Maar is het verspreiden van mijn tekening die ik met die brush maak dan ook illegaal? Zelfs als je de brush niet letterlijk meer kan herkennen in de tekening.

Ik denk dus dat het hier juist wel gaat om in hoeverre het model de inhoud van deze bronnen produceert. Als ik hem de inhoud van een artikel vraag die in de bron stond en het komt er bijna letterlijk uit rollen, dan snap ik de schending. En misschien is dat is deze rechtzaak aangetoond, maar het staat niet in dit artikel op Tweakers vermeld.
En daarop was het de oorspronkelijke vraagstelling ook berust. Mag je een product dat gemaakt is met een tool zonder licentie, niet meer verspreidden? Ik dacht altijd dat auteursrechten alleen draaide om de verspreiding van het auteursrechtelijk materiaal. Niet eventuele producten die je er mee maakt.
Auteursrechten omhelzen ook het maken van afgeleide werken, niet producten. Een afgeleid werk maken mag niet zonder toestemming.

De vraag is dus inderdaad: is een model een afgeleid werk? Of is het een "product" waarbij de brondata "alleen maar" een hulpmiddel was?

Mijn argument is dat je uit de aard van het proces hard kunt maken dat het bij een getraind AI-model altijd om een afgeleid werk gaat. Er komt geen creativiteit aan te pas zoals in jouw voorbeeld van de tekening (want computer), het kan niet bestempeld worden als "fair use" (want we gebruiken alles, en bieden het bovendien commercieel aan) en de output is per definitie volledig gedefinieerd door die data, of het nu letterlijk de boel reproduceert of niet (want zo werkt het trainen van een model nu eenmaal). Alleen als het proces overduidelijk triviaal is en op geen enkele manier de belangen van de copyrighthouder zou kunnen schenden (zoals een histogrammetje van de woordfrequentie publiceren) kom je daarmee weg.

Met andere woorden, het grote struikelblok is niet of het ding copyright kan schenden als je het vraag X stelt (dat is ook relevant, maar voornamelijk nuttig om te kunnen bewijzen dat jouw brondata gebruikt is), maar of het redelijkerwijs bestempeld kan worden als afgeleid werk dat zonder toestemming gemaakt is.

De gebruikelijke disclaimer dat ik noch jurist, noch rechter ben en rechtspraak geen volledig deterministische zaak is.

[Reactie gewijzigd door MneoreJ op 12 februari 2025 11:53]

Daar kunnen we elkaar wel in vinden. Dat is ook de grote vraag. Is het een afgeleide van de bron of is het een uniek op zich zelf staand product.

En daarom hamerde ik ook zo op het kunnen reproduceren van input (dat hoeft niet 100 procent te zijn, 70 procent kan al genoeg zijn om aan te duiden dat het niet uniek genoeg is.)

Je kan geen alleen recht hebben op kennis. Maar wel op unieke producten. De AI bedrijven zullen zich willen beroepen op dat het slechts om kennis gaat, terwijl de rechthebbende zich zullen beroepen op hun unieke producten.

Ik denk dat we hier gewoon tegen de limieten van de auteursrechten zitten.

Overigens. Ik probeerde deze discussie vooral objectief te benaderen en het ging mij vooral om de vraag of het model hierbij dus als uniek product werd gezien of een afgeleide.

Zelf ben ik van mening dat de grote bedrijven moreel fout zitten door deze data zonder toestemming te gebruiken om een commercieel product te maken dat uiteindelijk de banen van de auteurs op het spel zetten. Met andere woorden, neem licenties af, of gebruik bronnen die publiek domein zijn.
Je kan geen alleen recht hebben op kennis. Maar wel op unieke producten. De AI bedrijven zullen zich willen beroepen op dat het slechts om kennis gaat, terwijl de rechthebbende zich zullen beroepen op hun unieke producten.
De "databank" verdediging is ook niet goed te doen; daarvoor moet je namelijk kunnen aantonen dat er op de brondata al geen auteursrecht kon berusten omdat het slechts om feiten ging. En de lat ligt behoorlijk laag voor iets al een creatief werk genoemd kan worden; een juridische database waarbij de auteurs koppelingen toegevoegd hebben tussen zaken of ze zelfs maar creatief georganiseerd hebben gaat al te ver.

In theorie kun je het model dan wel proberen te trainen op "alleen" de openbare wetteksten, maar dan moet je zelf behoorlijk wat moeite doen om die bij elkaar te schrapen en te zorgen dat er geen "bijvangst" is. Er is natuurlijk een reden dat zulke juridische databases bestaan en er grif geld voor gevraagd wordt. :P
Overigens. Ik probeerde deze discussie vooral objectief te benaderen en het ging mij vooral om de vraag of het model hierbij dus als uniek product werd gezien of een afgeleide.
Ik ook, de morele dimensie is weer een hele andere. Ik gebruik zelf bijvoorbeeld gewoon ook AI-modellen om dingen mee te doen, en het gros daarvan is echt niet alleen getrained op public domain data... Hardstikke fout natuurlijk want ik faciliteer slash beloon copyrightschending! Alleen, ik kan me daar op persoonlijk niveau niet zo gek druk over maken, sorry wereld.
Ok, maar dan even door redeneren: Iemand gebruikt een illegale versie van Word. Moeten dan alle documenten gemaakt met die computer of Word instantie verwijderd worden?

Even het principe, de belangen en bedragen zijn in het AI stuk ietsje anders dan 1 Word licentie.
Nee, again, het gaat er om dat als de INPUT illegaal is, de OUTPUT dat ook is. De tool waar het mee gemaakt wordt staat daar buiten.

Als iemand zijn eigen gedachten (legaal dus) gebruikt om met een illegale electronische tool een product te maken dan is dat product niet illegaal. Zeker als het om Word gaat. Een andere tool had namelijk tot hetzelfde resultaat geleid. Bij illegale INPUT zou het legaal maken daarvan tot andere output leiden en dus is de output illegaal.
Waarom? Kun je dat staven?

Wat is input? Als Word bijv. een taalcorrectie heeft gedaan, dan heeft Word ook input geleverd, maar ook standaard templates e.d.. Ik zie het verschil niet zo. Wat jij input noemt en wat jij tool noemt, vormen SAMEN het eindproduct. Anders is het einde zoek...

Dus om terug te komen op mijn originele vraag, ook bij gebruik van illegale software moet je de eindproducten verwijderen. Of alsnog voor betalen... Dat naast een boete want die gaat over de overtreding (de straf), niet over afkopen van je licentie.
Het grote verschil is of deze input creatief van aard is, zoals door de mens geschreven artikelen, of eerder technisch, zoals de spellingscorrectie.
Het probleem is natuurlijk dat ook dat niet precies hetzelfde is. Jouw analogie is weliswaar beter, maar niet perfect. De wetgeving is niet goed voorbereid op AI en er zullen dan ook nog vele rechtszaken volgen, vermoedelijk met wisselende uitkomsten, voordat er consensus bereikt wordt over wat wel en niet mag. Daarnaast zullen er ook nieuwe wetten komen, met als doel meer duidelijkheid te geven.
Dat is niet vergelijkbaar.

Stel nu dat een fotograaf een op illegale wijze verkregen foto van een wolkenlucht gebruikt als achtergrond in zijn eigen foto's, dan ja: dan mag hij foto's met die achtergrond niet opnieuw publiceren als hij geen overeenkomst met de rechthebbende van die wolkenfoto kan sluiten. Het staat hem wel vrij om de foto's aan te passen en de wolkenlucht te vervangen - dan mag hij ze wel opnieuw publiceren.
Dat is zeker niet zo. Er is fair use. Als het eindproduct genoeg afwijkt van de origineel dan mag dit gewoon. Kijk maar naar hoe er in de muziekwereld samples worden gebruikt.
Vaak zijn er afspraken over gemaakt tussen artiesten. Er zijn genoeg rechtszaken geweest waarin een artiest beweerde dat een ander hier onterecht, zonder afspraken, gebruik van heeft gemaakt.
Er zijn ook voorbeelden waarbij de aanklager heeft verloren. Zo kan je bijvoorbeeld niet mensen aanklagen omdat ze dezelfde akkoorden gebruiken. Het is geprobeerd maar het wordt niet in de rechtbank geaccepteerd als uniek genoeg. Je kan tenslotte ook niet een patroon van 3 noten als uniek genoeg zien.

De inhoud moet uniek zijn. Dit is in dit geval natuurlijk wel logisch gezien er flinke lappen unieke tekst zijn. Maar de inhoud moet ook nog genoeg herkenbaar terug komen om dit als schending te zien. Daarom stelde ik ook dat het er waarschijnlijk vooral om draait hoeveel van de inhoud wordt gereproduceerd.

Nu denk ik dat dit waarschijnlijk wel dermate veel is dat ze dus hun inhoud hebben herkend in de antwoorden van het model. Maar dit lees ik niet in het artikel terug. En dus is het geen vanzelfsprekendheid dat de deze uitspraak zou moeten leiden tot een verbod op het model. Ook kan er nog altijd een deal worden gemaakt met de licentie houder als het wel een probleem zou zijn.
Dat valt vies tegen, vooral in Nederland.
Dat is wat anders. Door het gebruik van die tools gaat niet ineens het copyright van je foto's over op de maker. En je verspreid de tool ook niet (of gedeeltes ervan).

Ik zou het vergelijken met een muziekant die een sample uit een ander liedje in zijn liedje verwerkt zonder licentie. Het is welliswaar een nieuw liedje, maar die sample moet hij voor betalen. En als hij dat niet doet, dan zou een rechter kunnen forceren dat een gedeelte van de inkomsten naar de maker van de sample gaat of hoge schadevergoedingen opleggen.
Samples gebruiken is nu juist een fair use voorbeeld. Waarbij het zeker niet per definitie altijd fout is.
Dat ligt maar net aan de rechterlijke uitspraak dan. Het kan inderdaad zijn dat alle producten die met behulp van die zonder geldige licentie gemaakt zijn vernietigd moeten worden. Afijn, dat is allemaal civielrecht, dus kan alle kanten op.

[Reactie gewijzigd door JoeB2C op 12 februari 2025 11:20]

De uitspraak gaat om afwezigheid van eerlijk gebruik. Je kan niet een oneerlijk gebruik van gegevens hebben en dan het gebruik van diezelfde gegevens 'witwassen' omdat je ze gebruikt hebt. De gegevens hadden onder de omstandigheden al niet gebruikt horen te worden. En als je dan niets geregeld hebt om zonder die gegevens je resultaten nog te kunnen laten bestaan is de enige rechtmatige oplossing dat de resultaten niet gebruikt mogen worden tot je een overeenkomst hebt met de rechthebbende van de gebruikte gegevens. Het risico van onrechtmatig verwerken is voor de criminele gebruiker, niet andersom.

Ik zie bij veel van dit soort gebruikers van andermans werk nauwelijks tot geen voorkomen van dit probleem. Eerder dat men zich er op richt om dit soort risico niet te willen erkennen en gevolgen voor zichzelf en anderen niet met een inhoudelijk alternatief voorkomt als de risicos toch uitkomen. Dus dat er geen alternatief product is dat wel voldoet. Geen mogelijkheid om verwerking terug te draaien. Geen plan om te zorgen dat illegale resultaten zich verder verspreiden als het al verstrekt is.
Dat is een heel ander scenario. Dat bewerkingsprogramma is niet afhankelijk van hetgeen je ermee bewerkt. De AI-modellen zijn wel afhankelijk van materiaal waarop inbreuk gemaakt is.
Ik zou als ik OpenAI was eerder proberen een overeenkomst sluiten met rechthebbenden zodat ik hun data mag gebruiken tegen een vergoeding.
De vraag is hoe je het vergoed en of dat haalbaar is. Je hebt namelijk een enorm grote hoeveelheid materiaal met auteursrecht, en honderden miljoenen gebruikers aan wie je met behulp van auterusrechtelijk materiaal je dienst (commercieel) aanbiedt. Dat zou best behoorlijk in de kosten kunnen lopen.
Als er al honderden dollars per maand betaald moeten worden voor individuele abonnees op de brondata dan denk ik niet dat ze er een redelijke vergoeding uit kunnen slepen waarbij iedere jandoedel de data kan raadplegen, weliswaar in afgeslankte/verbasterde vorm zodat je voor betrouwbare bronvermeldingen nog steeds naar het origineel moet. Dat kost OpenAI te veel en levert niks op.

Ik denk dat er eerder iets komt als een specialistisch model waar bestaande Westlaw-abonnees gebruik van kunnen maken (tegen een meerprijs, uiteraard) waarvoor men dan een AI-bedrijf in de arm neemt, eventueel als "addon"/vinkje op de bestaande dienst zodat je nog steeds wel een one-stop-shop hebt.

Edit: oorspronkelijke artikel gaat niet over OpenAI natuurlijk, en de reactie gaat juist weer niet over de Westlaw-data. Mijn originele punt staat voor specialistische kennis, voor algemene kennis is het een andere zaak. Het is daar "onmogelijk" om met elke individuele rechthebber in zee te gaan, dus hier moet iets anders voor bedacht worden.

[Reactie gewijzigd door MneoreJ op 12 februari 2025 11:00]

Dat heeft Ross Intelligence geprobeerd maar Reuters wilde ze niet als klant omdat Reuters z'n eigen AI aan het ontwikkelen is. Vervolgens heeft Ross Intelligence toegang gekocht via een tussenpartij. Technisch gezien was er dus wel een overeenkomst. Ik denk dat ze bij het afsluiten van die licentie niet duidelijk zijn geweest over hun doel.
Ik vraag me af hoe het werkt als een AI bedrijf (zoals chatGPT) een rechtszaak verliest en de data moet verwijderen, moeten ze dan het hele model opnieuw trainen? Mogen ze de modellen waar in de data staat gelijk niet meer aanbieden?
Daar is geen regel voor in de wet. Het ligt er aan wat de klager vraagt aan de rechter. In het algemeen zal Ross Intelligence moeten stoppen met die data te gebruiken, hoe ze dat doen is aan hun. Ik denk dat ze het model inderdaad helemaal opnieuw zullen moeten trainen.
Overigens is dit slechts een voorlopige uitspraak van de rechter om verdere schade te voorkomen, het volledige oordeel volgt later.
Een maand betalen per unieke gebruiker die een vraag stelt in dat segment?
Dat lijkt mij een vrij onredelijke vergoeding. Het creëren van (goede) content heeft ook tijd en geld gekost. Wanneer een AI-bedrijf dit als goed genoeg beschouwt om te gebruiken, dienen ze naar mijn idee ook een vergoeding te betalen die voldoet aan de eisen van de rechthebbende.

Voor de aanwezigheid van mijn materiaal in de training van AI zal ik nooit akkoord gaan met een vergoeding per vraag per unieke gebruiker in dat segment. Het materiaal hebben ze immers gebruikt voor de training en blijft er altijd inzitten. Dan kunnen we best spreken over een vaste maandelijkse vergoeding of eenmalig om het materiaal.
Waarom maar een maand en per unieke gebruiker? De data blijft voor eeuwig bij het bedrijf.

Op dit item kan niet meer gereageerd worden.