NOS: AI-modellen zijn mogelijk getraind op werk van Nederlandse makers

De NOS vermoedt dat OpenAI en Midjourney beelden van Nederlandse makers hebben gebruikt om AI-modellen te trainen. De publieke omroep komt tot die conclusie na eigen onderzoek. Volgens de NOS hebben de techbedrijven mogelijk inbreuk gepleegd op het auteursrecht.

De redactie van de NOS heeft aan de beeldgeneratoren van de bovenvermelde techbedrijven gevraagd om plaatjes te genereren in de stijl van enkele bekende Nederlandse beeldenmakers zoals Erwin Olaf, Eddy van Wessel en Dick Bruna. Het is niet duidelijk welke prompts de redactie heeft gebruikt. Uit de verslaggeving blijkt dat er enkel is gevraagd om de stijl van deze makers na te bootsen, zonder specifieke verdere aanwijzingen.

De beeldgeneratoren zouden vervolgens beelden hebben voortgebracht met daarin ‘telkens karakteristieke eigenschappen’ van de bekende werken van de makers. In het geval van Erwin Olaf werden er bijvoorbeeld plaatjes gegenereerd met vrouwen in een gele jurk. Dat was een van de stijlkenmerken van de Nederlandse fotograaf. Bij Eddy van Wessel werden er zwart-witafbeeldingen gemaakt in een oorlogsgebied. Dat is opnieuw typerend voor de maker.

De redactie van de NOS ging met zijn bevindingen te rade bij vier AI-experts. Deze experts konden niet met 100 procent zekerheid zeggen dat de AI-modellen zijn getraind op de werken van de Nederlandse makers, maar stelden volgens de NOS wel dat het er ‘zeer sterk’ op lijkt.

De NOS klopte daarna aan bij een advocaat intellectueel eigendomsrecht. Die stelde dat als werken beschermd zijn, en iemand ermee aan de haal gaat, een schending van het auteursrecht vrij snel wordt aangenomen. Er zou wel een uitzondering bestaan voor het verzamelen van openbare gegevens uit wetenschappelijke instellingen. Commerciële partijen zouden hier ook gebruik van kunnen maken, zolang de rechthebbenden geen expliciet bezwaar hebben gemaakt tegen deze praktijk. Dat is volgens de NOS de opt-outclausule. Bij de werken van Dick Bruna en Eddy van Wessel is er gebruikgemaakt van zo’n opt-out. Bij de werken van Erwin Olaf is dat niet het geval.

Vergelijking beeld Erwin Olaf en beeld gegenereerd door Dall-E 3
Vergelijking beeld Erwin Olaf en beeld gegenereerd door Dall-E 3 - Bron: NOS

Door Jay Stout

Redacteur

03-08-2024 • 12:31

240

Submitter: Fiber

Lees meer

Reacties (240)

240
235
112
8
0
88

Sorteer op:

Weergave:

Dit gaat geen hout slaan.

Het AI systeem leert namelijk hoe iets werkt en (na)gemaakt kan worden . Vergelijkbaar met hoe mensen dat doen.

Dus als je het openbaar op het internet zet dan kan het gewoon gebruikt worden. Hadden ze maar een pay-wall moeten gebruiken.

Ik denk dat veel rechtuitspraken deze visie gaan volgen, want AI is namelijk al veel te groot en belangrijk geworden.
Dus als je het openbaar op het internet zet dan kan het gewoon gebruikt worden. Hadden ze maar een pay-wall moeten gebruiken.
Zo werkt het natuurlijk niet. Dat iets publiek op Internet staat maakt dat het gelezen mag (en kan) worden, maar het wordt niet opeens het eigendom van de lezer (hier het AI-model) ofzo, waar hij vervolgens mee mag doen en laten wat ze willen. Bijvoorbeeld om er winst mee te maken.

Dat staat ook nota bene letterlijk in het artikel:
Die stelde dat als werken beschermd zijn, en iemand ermee aan de haal gaat, een schending van het auteursrecht vrij snel wordt aangenomen. Er zou wel een uitzondering bestaan voor het verzamelen van openbare gegevens uit wetenschappelijke instellingen. Commerciële partijen zouden hier ook gebruik van kunnen maken, zolang de rechthebbenden geen expliciet bezwaar hebben gemaakt tegen deze praktijk.
Gelukkig ook maar dat het niet werkt zoals jij beschrijft. Dat zou een puinhoop worden, waarbij niemand meer eigenaar van zijn werk zou blijven.

[Reactie gewijzigd door wildhagen op 3 augustus 2024 12:39]

Maar de AI maakt iets in de "stijl van". Net zoals vele anderen kunstenaars dat doen. Zij hebben ook goed gekeken naar een Rembrand of anderen. Alle kunstenaars hebben geleerd van andere kunstenaars. Die hebben toch ook niet betaald?
En de output van de AI is niet gelijk aan de werken van deze kunstenaars, dus lijkt mij dat er geen auteursrecht is geschonden.
Maar de AI maakt iets in de "stijl van". Net zoals vele anderen kunstenaars dat doen. Zij hebben ook goed gekeken naar een Rembrand of anderen. Alle kunstenaars hebben geleerd van andere kunstenaars. Die hebben toch ook niet betaald?
Bij afgeleide werken (dit is de formele juridische term) is dat wel degelijk een ding, kijk maar eens naar fanfiction van boeken. Bij fotografie speelt dit net zo. Iemands beeld "kopieren" of heel erg sterk gelijkend namaken kan je echt in de problemen brengen. Als je deze spoedcursus auteursrecht even doorleest, dan zul je zien dat er erg veel nadruk is of iemand onafhankelijk van de andere auteur op hetzelfde idee is gekomen. Van een AI is dat duidelijk: die is niet onafhankelijk op dat idee gekomen, en er is dan snel geen sprake van een onafhankelijk werk, en dus heb je met de wensen/eisen van de originele auteur te maken.
Van een AI is dat duidelijk: die is niet onafhankelijk op dat idee gekomen, en er is dan snel geen sprake van een onafhankelijk werk (...)
Wat we AI noemen is geen daadwerkelijke intelligentie, maar een combinatie van algoritmen en modellen. Vanwege de computerkracht die heden ten dage ter beschikking is werken dergelijke algoritmen en modellen dermate snel dat het lijkt alsof er daadwerkelijk intelligentie achter zit.

Hedendaagse AI heeft vanuit zichzelf dus geen doelen/ambities, en ontplooit uit zichzelf dus geen enkel initiatief (zelfs niet om iets te leren). AI doet dus inderdaad nooit iets onafhankelijk, laat staan dat het zelfstandig op een idee komt. AI gaat pas iets doen als er een prompt opgegeven word. Bijvoorbeeld: 'leer de kunststijlen uit deze beeld-databank'. De opgedane kennis word dan opgeslagen in het model.

Wanneer iemand de prompt 'Genereer een afbeelding in de stijl van <vul naam rechthebbende in>' opgeeft, waar word dan het auteursrecht geschonden? Bij diegene die kennis over de kunststijl in een AI-model getraind heeft (zonder daadwerkelijk auteursrechtelijk beschermt materiaal op te slaan)? Bij de eigenaar van het AI-model dat de kennis heeft van kunststijlen? Of bij de gebruiker, in dit geval de NOS, die de prompt opgeeft om een afbeelding te genereren die qua stijl niet te onderscheiden is van het werk van de oorspronkelijke kunstenaar?

[Reactie gewijzigd door 2TheMaks op 3 augustus 2024 23:07]

Een fundamenteel probleem met de auteursrechtschending bij de gebruiker (NOS) te leggen is dat bij gebruik van een AI-tool die gebruiker de oorspronkelijke bronnen zelf niet kent en dus niet kan beoordelen of de uitkomst te veel lijkt op het origineel (en dus een afgeleid werk is), of wel een oorspronkelijke creatie is. Derhalve zou ik het logischer vinden om de makers van de AI verantwoordelijk te houden voor mogelijke auteursrechtschendingen.
... dat bij gebruik van een AI-tool die gebruiker de oorspronkelijke bronnen zelf niet kent en dus niet kan beoordelen of de uitkomst te veel lijkt op het origineel (en dus een afgeleid werk is), of wel een oorspronkelijke creatie is.
In dit geval had de gebruiker de intentie om de AI een afbeelding te laten genereren in een stijl die afgeleid is van de stijl van een bestaande kunstenaar.

De huidige generatie AI is en blijft een domme tool die slechts uitvoert wat er door de gebruiker gevraagd word. Verantwoordelijkheid/aansprakelijkheid/schuld ligt daarom bij de gebruiker, en niet bij de tool of de fabrikant/eigenaar van de tool.
Op zich kan ik hier in meegaan. Maar dan blijf ik me afvragen:
-Ik kijk naar Bob Ross
-Ik maak een werk in de stijl van Bob Ross

Dan heb ik in eerste instantie ook weinig onafhankelijke inbreng. Bob Ross zegt letterlijk voor wat ik moet doen. Is het resultaat dan nu mijn werk of dat van Bob Ross?
Jij bent een mens en een ML model is dat niet. Die heeft alleen een besef van pixels, en zal bij het herproduceren van hetzelfde werk vrijwel exact hetzelfde zijn. Als je de prompt wat aanpast komt er iets anders uit, maar met exact dezefde prompt als het originele werk zul je een vrijwel exacte kopie krijgen -- dit is een bekend probleem waar diffusion models mee zitten.

Daarnaast zijn de werken van Ross gemaakt met de intentie om over te worden genomen, en hebben derhalve geen beperkende licentie.
Van een AI is dat duidelijk: die is niet onafhankelijk op dat idee gekomen, en er is dan snel geen sprake van een onafhankelijk werk
Maar ís dat zo duidelijk? Ik denk dat uiteindelijk een gerechtelijke uitspraak nodig is hierover. Een artiest kan iets maken geïnspireerd op werk van andere artiesten. Als dat te veel lijkt op het origineel, dan is het plagiaat. Ik vind dat hetzelfde zou moeten gelden voor werk gegenereerd door AI. En daar komt bij, dat degene die publiceert, de verantwoordelijkheid daarvoor neemt. Het trainen met openlijk toegankelijke bronnen moet naar mijn mening vrij kunnen (inspiratie opdoen) . Het draait om het publiceren van al dan niet iets wat door een rechter aangemerkt zal worden als plagiaat, op dezelfde manier als dat voor nieu AI werken geldt.
En wat nou als een artiest(A) iets maakt wat veel lijkt op het orgineel en artiest( B ) iets maakt geïnspireerd was door artiest(A) en niets afwist van het orgineel. Wanneer is het verwatert genoeg om het geen plagiaat meer te noemen of de eerste artiest zich niet meer op auteursrecht kan beroepen?

Ik gebruik hier woorden opgebouwd uit letters, die in elk boek staan waar auteursrechten aan verbonden zitten, maakt nog niet dat ik nu met dit schrijven plagiaat pleeg.

Hoe wil je achteraf bepalen, laat staan bewijzen, dat een AI is getrained met een orgineel of van een artiest(A) van een artiest( B )? Het is echter allemaal 'gecopieerd' door mensne die zijn geïnspireerd.

Het duveltje is uit het doosje, de tandpasta is uit de tube en je krijgt het er niet meer in.
Schrijvers van comedy's of andere tv zooi gaan staken omdat AI hun taken (en daarmee hun brood) overneemt.
Aldi gaat een AI stem gebruiken voor hun reclames.
Animatie/tekenfilm-insprekers gaan staken omdat AI ... zie schrijvers.

Je kan wetten verzinnen wat je wilt, maar die gaan deze ontwikkeling niet meer tegenhouden. Als IK een zaag heb gezien, kan ik die natekeken en dat kan je bij mij niet meer laten on-zien.
Als een AI is getrained met een copy van een copy van een orgineel, waarbij het achteraf niet meer te bepalen/bewijzen is wie van de drie, dan kan deze AI dat perfect(-er dan ik de zaag) nabootsen.

Wij mensen 'apen elkaar allemaal na', nu hebben we de perfecte na-aper ontwikkeld : ) !

edit: tsss (B) ( B ) wordt vertaald naar een emijocon, da's irritant!!!
en ook het analoge lachebekje : ) (als aan elkaar)... doe dat is niet , onwenselijke 'verbetering'!

[Reactie gewijzigd door tweakert4plus op 4 augustus 2024 09:27]

En wat nou als een artiest(A) iets maakt wat veel lijkt op het orgineel en artiest( B ) iets maakt geïnspireerd was door artiest(A) en niets afwist van het orgineel. Wanneer is het verwatert genoeg om het geen plagiaat meer te noemen of de eerste artiest zich niet meer op auteursrecht kan beroepen?
Hier zijn in het verleden rechtszaken over geweest. De rechter gaat dan vaststellen of er inderdaad sprake is van een gelijkend afgeleid werk, en gaat onderzoeken of de artiesten bij stom toeval sterk gelijkende beelden hebben gemaakt (bij fotografie speelt dit soms, omdat fotografen soms stom toevallig met dezelfde equipment naast elkaar staan) of dat men bewust was van elkaars werk.

[Reactie gewijzigd door J_van_Ekris op 4 augustus 2024 09:31]

Dan is de vraav eerder anders in mijn optiek. Als je een kunstenaar vraagt een schilderij te maken, in de stijl van van gogh. Zijn zowel de kunstenaar als de opdrachtgever medeplichtig aan auteursrechten schending. Immers, de schending had niet plaats gevonden als de opdracht niet was verstrekt en aangenomen. In dit geval zou ik zeggen dat je een balletje op kunt gooien over of een AI model antwoord mag geven op een dergelijke opdracht, maar het afgeleide product bestond niet totdat de NOS erom gevraagd heeft. Dus de NOS, als opdrachtgever, heeft hier(wederom in mijn optiek) de auteurs rechten geschonden in een poging de makers te betichten van oneigenlijk gebruik.
Mij lijkt dat er ook een verschil is tussen als mensen kijken en onthouden (toegestaan) of een kopie maken voor je (werk)archief (niet toegestaan).
Precies dit dus. De ontwikkelaars hebben een tool bedacht die naar plaatjes kan kijken, volledig legaal. En vervolgens gebruiken ze de tool om variaties te maken vergelijkbaar hoe een mens dat doet na het zien van een plaatje.
Je moet het zien als een tool, je kan ook een liniaal gebruiken om de lengte van de objecten op te meten in het origineel en die maten in een notitieblokje opscrhijven en aan de hand van die maten maak jij variaties van het origineel.
In dit geval is het geen liniaal maar een "slimme" liniaal in de vorm van een computer programma.
Precies dit dus. De ontwikkelaars hebben een tool bedacht die naar plaatjes kan kijken, volledig legaal. En vervolgens gebruiken ze de tool om variaties te maken vergelijkbaar hoe een mens dat doet na het zien van een plaatje.
En ook de mens heeft een auteursrechtelijk serieus probleem als een dergelijk afgeleid werk teveel lijkt op het origineel.
Die logica gaat mank: Als ik een boek koop over elektronica en met die opgedane kennis een apparaat ontwerp dat de hele wereld verovert, dan heeft de auteur toch echt nergens recht op.

Het woord "eigenaar" heeft bij auteursrecht geen betekenis, nergens in de auteurswet wordt autersrecht aan eigendom gekoppeld en ik denk ook dat spreken over het eigendom van een werk beter vermeden kan worden, het leidt alleen maar tot valse vergelijkingen.
Ik denk niet dat je een carrière als jurist moet nastreven. Elk recht, auteursrecht inbegrepen, heeft een eigenaar.

Nergens in het auteurswet wordt een auteursrecht aan eigendom gekoppeld omdat recht en eigendom dusdanig basale begrippen zijn dat ze niet overal uitgelegd hoeven te worden.
De Nederlandse Auteurswet kiest ervoor om de term "eigenaar" te vermijden om verwarring te voorkomen met het eigendomsrecht van fysieke goederen. De termen "auteur" en "rechthebbende" maken duidelijk dat het om specifieke rechten gaat die betrekking hebben op intellectueel eigendom, niet op fysiek eigendom.

Dit is denk ik ook één van de redenen dat het schenden van het auteursrecht geen diefstal is (art 310 WvSr). Het gaat hierbij om het maken een kopie van een werk waarop auteursrecht zit. Dat is iets anders dan het (gedeeltelijk) wegnemen van een fysiek goed dat een eigenaar heeft.

[Reactie gewijzigd door nullbyte op 3 augustus 2024 19:30]

Onjuist. Eigendom is een concept dat formeel in de wet gedefinieerd is (in het Burgerlijk Wetboek) als het "meest verstrekkend recht" op iets. En ja een auteusrecht is een vermogensrecht en daarop kan eigendom rusten (dus niet op ieder recht). Je kunt dus spreken over de eigenaar van het auteursrecht op een plaatje (makkelijker is auteursrechthebbende), maar de eigenaar van een plaatje is toch echt een concept dat de wet niet kent.

En ja dit onderscheid is zeker relevant betreffende dit onderwerp: Eigenaar zijn van een plaatje zou betekenen dat je alles wat met dat plaatje gebeurt zou mogen bepalen, terwijl in werkelijkheid je alleen verveelvoudiging en openbaarmaking van het plaatje mag controleren.
Tijdens mijn studie moest ik behoorlijk wat geld betalen voor mijn studieboeken. Net zoals al mijn medestudenten allemaal dezelfde dure boeken moesten kopen. Om de kennis op te doen, wordt tijdens een studie behoorlijk wat betaald. De auteur van een studieboek verdiend aardig wat met zijn boek.

Bij het trainen van AI modellen werd tot voor kort niets betaald. Het model werd getraind op bij elkaar verzameld materiaal zonder enige schadeloosstelling voor de oorspronkelijke auteurs. Daarna wordt het model aan het grote publiek, al dan niet tegen betaling, beschikbaar gesteld waarbij er wederom geen cent naar de makers van het verzameld training materiaal gaat.
Als je je boek gratis op internet publiceert voor iedereen om te lezen, kan ook een KI het gaan lezen. Vind ik niet zo raar.
Deze houding zie ik vaker en het is zo vreemd. Waarom vraag je letterlijk van mensen dat ze helderziend moeten zijn?

Niemand zag de explosie van generatieve AI op deze manier aankomen. Het was een enorme technologische doorbraak. Tot voor kort was iets als dat je op het internet zette alleen maar bruikbaar voor mensen, en met die gedachte zijn al deze dingen ook gepost, door mensen voor mensen. Het idee dat een niet technisch iemand dan maar rekening had moeten houden met een uitzonderlijke toekomstige technologische ontwikkeling en ze dus prima akkoord gegaan zijn met het opgaan van al hun werk in AI-trainingsets is bizar.

[Reactie gewijzigd door jaxxil op 3 augustus 2024 15:12]

Dan maak ik de cirkel rond: Als ik een enorm succesvol apparaat maak op basis van een elektricaboek, dan kon de auteurs dat ook niet voorzien. Dit is een controledrift die het auteursrecht simpelweg niet biedt: Je kunt bepalen wie je werk mag kopiëren, niet wat met mensen met de kennis erin doen. Of dat nu een apparaat maken is of een nieuwe foto maken... is mijn inziens eenzelfde situatie.

Ook overigens: Het is een aanname hier dat er niet voor de foto betaald is, voor hetzelfde geld is 'ie op een CD met foto's verkocht en is er gewoon voor betaald.

Wat als we er anders naar kijken: Wat maakt het uit? Want als de KI niet deze foto gehad had? Gaat dat de opmars van KI-afbeeldingen tegen houden?
Dan maak ik de cirkel rond: Als ik een enorm succesvol apparaat maak op basis van een elektricaboek, dan kon de auteurs dat ook niet voorzien. Dit is een controledrift die het auteursrecht simpelweg niet biedt: Je kunt bepalen wie je werk mag kopiëren, niet wat met mensen met de kennis erin doen.
Je vergeet dat de auteurs van dat electronicaboek het geschreven hebben met het doel mensen iets te leren, en ze daar via de aanschaf ook voor gecompenseerd worden. Het boek wordt dus gepubliceerd met de expliciete intentie mensen op te leiden.

Nu ben je fotograaf met een hele kenmerkende specifieke stijl (zoals Erwin Olaf en Anton Corbijn), die na jaren experimenteren ontstaan is. En je presenteert werk op je website omdat je portfolio inzicht geeft wat een toekomstige opdrachtgever kan verwachten. En je publiceert voorbeeldfoto's van een boek, zodat kopers van dat boek het interessant gaan vinden. Dit is dus zeker niet gepubliceerd om maar te kopieren door een mens of computer. En dan gaat een AI dit goed imiteren, en stoot je mensen als Anton Corbijn het brood uit de mond.

En dan kunnen er beelden gemaakt worden die erg op jouw kenmerkende stijl lijken, maar waar je op geen enkele manier mee geassocieerd wil worden. Het auteursrecht spreekt vaak over de integriteit van een werk: als jij een afgeleid beeld maakt waar de originele auteur niet achter staat, dan heb je een enorm probleem als bewerker. En die interpretatie kan hier wel eens opgaan.

[Reactie gewijzigd door J_van_Ekris op 3 augustus 2024 16:04]

En dan gaat een AI dit goed imiteren ...
Zoals ik in een eerdere post reeds aangaf: Een AI is geen daadwerkelijke intelligentie, heeft dus vanuit zichzelf geen enkel doel/ambitie, en ontplooit uit zichzelf daarom geen enkel initiatief. Een AI is slechts een knipperende cursor op een scherm die pas wat gaat doen wanneer een gebruiker bij die knipperende cursor een prompt invoert.

De AI gaat uit zichzelf dus helemaal niks doen, laat staan de stijl van een kunstenaar imiteren. De AI doet slechts wat er door een gebruiker geprompt word. Bijvoorbeeld antwoord geven op de prompt "welke kunstenaar gebruikt vaak gele jurken in zijn werk?".
En dan kunnen er beelden gemaakt worden die erg op jouw kenmerkende stijl lijken ...
Het kernwoord hier is KUNNEN. Het model bevat immers slechts kennis, en geen (kopie van de) brondata. Met die kennis kan de vraag "welke kunstenaar gebruikt vaak gele jurken in zijn werk?" beantwoord worden door de AI.

De AI gaat pas een afbeelding genereren in een kenmerkende stijl wanneer een gebruiker dit in een prompt opgeeft. De kennis over die kenmerkende stijl is immers aanwezig in het model. De gebruiker die een de prompt opgeeft om een afbeelding te genereren in een kenmerkende stijl is daarom m.i. degene die het auteursrecht schendt, en niet de entiteit die slechts kennis heeft over die kenmerkende stijl.

AI is nu eenmaal nog niet zover dat het morele/ethische/filosofische overwegingen kan maken voordat een prompt uitgevoerd word.

[Reactie gewijzigd door 2TheMaks op 3 augustus 2024 23:40]

Ik denk dat je laatste punt heel interessant is. Dat kan een AI momenteel inderdaad nog niet, maar de makers laten het wel toe (terwijl dit voorkomen kan worden, zie bijv chatgpt die dingen wel is afgeleerd). Dus ik denk dat de makers ook mogelijk een probleem hebben want ze hebben auteursrechtelijk materiaal gebruikt om commercieel geld mee te verdienen, volledig bewust of half onbewust maakt mogelijk niet uit want men wist dat het een reele optie was (die ze ook konden voorkomen, en waarbij bij 2 van de 3 partijen ook duidelijk aangegeven was dat het niet toegestaan was hun beelden voor dergelijke te gebruiken). Een (raad van state/EU) uitspraak zal hier in de toekomst inderdaad duidelijkheid in moeten geven, maar ik geef het een reele kans dat de auteur wint met hoe het nu werkt/wat je nu aan het programma kan vragen (gebaseerd op eerdere uitspraken rond bijzondere auteursrechtsschendingen).
Ik verwacht dat dit type AI gaat veranderen en bepaalde dingen niet meer toelaat (dus geen maak in stijl xx, maar meer combineer stijlen x, y, z. En in nog verdere toekomst voor de grote bedrijven misschien ook nog geforceerd wordt om de uitkomst te vergelijken met bekende werken.
Het model bevat immers slechts kennis, en geen (kopie van de) brondata.
Ik denk dat je jezelf hier tegenspreekt, en mogelijk een misvatting omtrent ML models voorlegd. En ML model bevat daadwerkelijk kennis, en in het geval van LLMs/Diffusion models kun je zeker stellen dat het originele materiaal aanwezig is. Elders stelde iemand anders het al zo: bij een JPEG gaat de exacte originele data ook verloren, maar kun je ook prima zien dat het om dezelfde afbeelding gaat. ML models hebben eigenlijk gewoon hele goeie lossy compressie.

Sowieso kun je de werken die in Diffusion models zit opnieuw genereren, mits je de originele data set (en de tags) kent. Van LLMs is ook al bekend dat je ze hele artikelen kunt laten herproduceren.
De gele jurk van Erwin Olaf is niet een stijl. Het is echter wel een van de bekendere foto’s. Als er een stijl was, was die wel in meer foto series teruggekomen.
Als we over de stijl van Erwin Olafs foto’s praten, dan kom je op wat anders uit dan gele jurken.
Dat heb ik ook niet gezegd. Erger nog, ik heb in andere posts het tegenovergestelde beweerd...
Dan maak ik de cirkel rond: Als ik een enorm succesvol apparaat maak op basis van een elektricaboek, dan kon de auteurs dat ook niet voorzien.
Natuurlijk wel, sterker nog, dat iemand dat mogelijk kan kan de primaire reden zijn waarom je je boek publiceert.
Ook overigens: Het is een aanname hier dat er niet voor de foto betaald is, voor hetzelfde geld is 'ie op een CD met foto's verkocht en is er gewoon voor betaald.
Dat is helemaal geen aanname, want een aankoop van een boek, foto, geeft je niet alle rechten om te doen met die gegevens wat je wilt. Je lijkt er rare ideeën van het auteursrecht op na te houden. Je krijgt niet inherent extra rechten als je voor iets betaald hebt ofzo. Buiten dat, de auteur heeft weer nooit bedoeld om in een AI trainingset terecht te komen met de verkoop van een CD, want die technologie bestond gewoon nog niet.
Wat maakt het uit? Want als de KI niet deze foto gehad had? Gaat dat de opmars van KI-afbeeldingen tegen houden?
Ja, als AI bedrijven geen afbeeldingen hadden gebruikt waarvan de auteurs geen toestemming hadden gegeven om ze in een trainingset op te nemen, dan had dat zeker de ontwikkeling van AI afbeeldingen ontzettend geremd.

[Reactie gewijzigd door jaxxil op 3 augustus 2024 16:18]

Dat is helemaal geen aanname, want een aankoop van een boek, foto, geeft je niet alle rechten om te doen met die gegevens wat je wilt. Je lijkt er rare ideeën van het auteursrecht op na te houden. Je krijgt niet inherent extra rechten als je voor iets betaald hebt ofzo.
Dat zeg ik, het maakt niet uit of iets gratis aangeboden is op internet of gekocht op een CD. Het argument werd gemaakt dat in het geval van het boek de auteurs betaald had gekregen voor zijn boek. Dat zou hier ook zo maar het geval kunnen zijn.

Auteursrecht is het exclusief recht op verveelvoudigen en openbaar maken. Al het andere mag je dus wel gewoon doen. In een trainingsset opnemen dus ook.
Auteursrecht is het exclusief recht op verveelvoudigen en openbaar maken. Al het andere mag je dus wel gewoon doen. In een trainingsset opnemen dus ook.
En dat is mijn punt. Jij zegt omdat het niet expliciet verboden is dat je dan maar alles mag opnemen in een trainingset. Ik zeg, je verwacht letterlijk helderziendheid, want niemand wist dat dat überhaupt mogelijk was dus konden hebben ze nooit de kans gehad om te zeggen dat ze het niet wilden. Dat was niet te voorzien voor ze, maar jij verwacht wel dat ze dat op de 1 of andere manier gedaan hadden.

Dat iets wat niet te voorzien was niet expliciet van te voren verboden was is geen toestemming. Misschien kom je er net mee weg wat betreft de wet, maar ga niet doen alsof de auteurs hun zaakjes beter hadden moeten regelen ofzo, want dat kon in dit geval gewoon niet.
En dat is mijn punt. Jij zegt omdat het niet expliciet verboden is dat je dan maar alles mag opnemen in een trainingset. Ik zeg, je verwacht letterlijk helderziendheid, want niemand wist dat dat überhaupt mogelijk was dus konden hebben ze nooit de kans gehad om te zeggen dat ze het niet wilden. Dat was niet te voorzien voor ze, maar jij verwacht wel dat ze dat op de 1 of andere manier gedaan hadden.
Nee, al waren ze helderziend, het auteursrecht bood en biedt geen middelen, dus ze hadden ook als ze de toekomst konden zien geen andere beslissing kunnen nemen, anders dan de foto helemaal niet maken. Zodra ze iemand anders een exemplaar van de foto verstrekt hebben, had die persoon het recht om die voor trainingsdoeleinden te gebruiken (KI of anders).
Het auteursrecht biedt zeker wel wat handvatten, maar is inderdaad niet direct gemaakt om AI trainingsetten te regelen... Omdat niemand wist dat ze dat moesten regelen! Is jouw voorstel dat als auteurs dit niet hadden gewild ze dan maar in 2010 de overheid moesten lobby'en om de wet aan te passen in voorbereiding op de komst van ChatGPT? Weer, het gebrek aan een verbod voor iets wat onvoorzienbaar was is geen toestemming.

Ik weet niet wat je niet snapt aan dat concept, maar ik denk dat we alles hier inmiddels wel over gezegd hebben, dus ik laat het hier maar even bij.
Laat ik het zo zeggen: Als we het wenselijk vinden dat auteurs moeten kunnen bepalen of hun werk gebruikt mag worden om te trainen, dan moet de auteurswet aangepast worden en moet dat recht expliciet aan auteurs toegekend worden.

Als we het recht gaan toekennen omdat auteurs vinden dat ze het morele recht erop hebben, dan wordt het politieke proces waarin alle voors en tegens van alle belanghebbenden worden gewogen overgeslagen, het wordt dan een soort "recht van de sterkste" van wie de beste advocaten heeft. Ik verwacht dat de rechtspraak dit ook in zal zien en korte metten zal maken met auteursrechtelijke claims op KI-gegenereerd werk. Hetwelk tot nog toe ook lijkt te gebeuren.
Het punt is alleen niet dat de AI het 'leest' maar dat het delen van de inhoud kopieert in eigen (commerciele) publicaties.

Als een mens werken publiceert die erg lijken op bestaande werken dan is het een probleem ((gewonnen) rechtzaken genoeg).

Dus logischerwijs is het ook een probleem als een AI het doet.
Ik denk dat dat een omstreden stelling is: Nergens in de KI is de originele informatie aanwezig. Op zich verhindert dat nog niet dat er kopieën gemaakt worden, zelfs als ik een tekst uit mijn hoofd leer, zelfs als ik niet alle woorden exact weet, kan ik nog steeds iets produceren dat voldoende op het origineel lijkt dat er auteursrechtenproblemen ontstaan.

Maar of daar hier sprake van is... ik vind de gegenereerde afbeelding teveel afwijken in de gemaakte creatieve keuzes om te kunnen spreken van het kopiëren van delen van de inhoud.
Als de KI het leest en alleen de notitie maakt: "Stijl van Erwin Olaf was gele jurk" dan lijkt me dat er weinig aan de hand is.
Maar als er zoveel notities zijn dat het werk wordt nagebootst door de KI heeft die intern een kopie gemaakt.
Het lastige van dit soort casussen is waar je juridisch de streep kan trekken bij 'eigendom'. Als een model de foto opent, analyseert en daarvan het model leert maar er verder niks mee doet. Dan zou je kunnen stellen dat het niet heel anders dan dat een mens de foto bekijkt en herinnert. Dat vind ik een hele andere situatie dan wat sommige modellen doen, namelijk de beelden kopiëren naar de eigen servers en hier dan continue op blijven trainen. Die 2e smaak is wat mij betreft overduidelijk copyright schending tenzij goedkeuring.

Ik vind de constatering van de NOS wel een hoog clickbait gehalte hebben overigens. De voorbeelden die ze tonen zijn echt veel te generiek om vast te stellen dat het model op die specifieke foto's is getraind. Of ze hebben veel meer bewijs dan ze nu tonen. Ik heb zelf met Stable Diffusion voor puur privé gebruik een aantal modellen gemaakt met foto's die ik zelf heb ingevoerd om het model op te trainen. Daarbij heb ik een heel klein percentage gezien die met zekerheid te herleiden zijn. Uiteraard sterk afhankelijk van je prompt en aantal foto's waarmee je model is opgevoerd.

Het blijft een lastig onderwerp zeker gezien de techniek erg vooruit loopt op de wetgeving. Ik vind het een erg leuke hobby maar ik begrijp ook dat de auteurs (bron beeld/muziek) hier niet blij mee zijn.
Het lastige van dit soort casussen is waar je juridisch de streep kan trekken bij 'eigendom'. Als een model de foto opent, analyseert en daarvan het model leert maar er verder niks mee doet. Dan zou je kunnen stellen dat het niet heel anders dan dat een mens de foto bekijkt en herinnert.
Dit is een antropomorfisme, zodra een foto in de dataset zit wordt deze gebruikt als trainingsdata. Een foto openen, analyseren en er niks mee doen, dat gebeurt niet.
Het hele concept van moderne AI en accelerated learning is een antropomorfisme, AI gebruikt neurale netwerken; gebaseerd op de werking van de hersenen.

Dat we dus overkoepelende eigenschappen herkennen en er naar redeneren is niet meer dan logisch.
Een LLM is een algoritme er wordt niet gedacht. De werking van een LLM komt nauwelijks in de buurt van de werking van de hersenen.

Een LLM is gebaseerd op statistische modellen en machine learning-algoritmen. Het leert patronen en relaties in tekst door middel van het trainen op grote datasets. Het gebruikt neurale netwerken, voornamelijk transformer-architecturen om tekst te genereren en te begrijpen. De menselijke hersenen werken via biologische neuronen die communiceren door middel van chemische en elektrische signalen. De hersenen maken gebruik van complexe processen zoals synaptische plasticiteit, waardoor ze kunnen leren en zich kunnen aanpassen op manieren die momenteel nog niet volledig worden begrepen.

Je kan antropomorfiseren wat je wil, en ik ga met je mee dat het begrijpelijk is dat dit gedaan wordt. Uiteindelijk is het appels en peren vergelijken.

[Reactie gewijzigd door nullbyte op 4 augustus 2024 09:41]

De hersenen maken gebruik van complexe processen zoals synaptische plasticiteit, waardoor ze kunnen leren en zich kunnen aanpassen op manieren die momenteel nog niet volledig worden begrepen.
Dus we begrijpen nog niet hoe hersenen precies werken, maar je kunt al wel concluderen dat computers niet denken en wij wel? En dat er een fundamenteel onderscheid zou bestaan omdat computers bijvoorbeeld niet biologisch zijn (en/of andere argumentatie die geldt).

Ik begrijp je redenatie, maar de vraag voor mij is; zijn de 'voorstanders' aan het antropomorfiseren of hebben de 'tegenstanders' last van een godcomplex door zich intrinsiek boven de computers te verheven als het gaat om het 'denken'?

Op deze manier redeneren zonder fundamentele argumentatie en enkel naar de verschillen komen we nergens. Dat is maatschappelijk gezien hetzelfde als discrimineren tussen verschillende groepen mensen; we onderscheiden op basis van (oppervlakkige) verschillen in eigenschappen en verbinden daar conclusies aan die een subset van de entiteiten benadeelt/kan benadelen.

Nu wil ik niet postuleren dat computers dezelfde rechten moeten krijgen als mensen; het gaat me enkel om het gedachtenproces.

Ik zie namelijk heel vaak argumenten die uit proberen te leggen dat er fundamentele en intrinsieke verschillen zijn tussen denken en computerrekenen, maar als puntje bij paaltje komt is er geen fundamentele argumentatie voor dat onderscheid, enkel onderscheid tussen implementatie (biologisch vs zuiver elektrisch) of wordt het zelfs wollig (de hersenen maken gebruik van complexe processen... dit suggereert dat computers geen complexe processen hebben om te leren), zijn er veel termen nodig die niet altijd gekwalificeerd worden, en komen we uiteindelijk nergens in de discussie.

Context, ik ben een filosofisch aangelegd engineer.

[Reactie gewijzigd door A Lurker op 4 augustus 2024 10:13]

Dus we begrijpen nog niet hoe hersenen precies werken, maar je kunt al wel concluderen dat computers niet denken en wij wel? En dat er een fundamenteel onderscheid zou bestaan omdat computers bijvoorbeeld niet biologisch zijn (en/of andere argumentatie die geldt).
Momenteel denk ik van wel. Het beste wat we hebben zijn LLM. Een LLM is een zogeheten narrow AI het is een algoritme dat voortkomt uit het bestuderen van datasets. Het kan nooit iets compleets nieuws maken, alles is gebaseerd op de bestudeerde datasets. Wellicht wordt dit anders met General AI, echter ik heb begrepen dat general AI geen logische voortvloeing is uit LLM. Vergelijkbaar met smartphones, de onderdelen, het scherm, de snelheid, de camera's etc zijn enorm verbeterd. Echter, het is nog steeds het zelfde zwarte blokje dat Steve Jobs on begin 2007 toonde.
Nu wil ik niet postuleren dat computers dezelfde rechten moeten krijgen als mensen; het gaat me enkel om het gedachtenproces.
Ik snap je argumentatie, die ligt in mijn beleving met het zelfbewust worden van AI. Volgens mij zijn er weinig computer scientists die claimen dat een LLM zelfbewust is. Voor inspiratie kunnen we vast naar sci-fi kijken. West World, iRobot en commander Data van Star Trek schieten me zo even te binnen.

Voor de duidelijkheid, ik ben zeker geen expert op dit gebied. Mijn mening is gevormd op informatie van sites als Computerphile van de universiteit van Nottingham. Voor de grap heb ik Chat GPT zelf even geraadpleegd. Die geeft aan dat het ontbreken van een staat van bewustzijn het grootste verschil is met het menselijk denken.
Context, ik ben een filosofisch aangelegd engineer.
Daar kan ik me in vinden. Aan de andere kant, ik geef aan dat een LLM een algoritme is. Wellicht is deze hele realiteit 1 groot algoritme en dus te beschrijven door wiskundige principes.
Filosofische onderwerpen die vragen oproepen over de fundamentele aard van de werkelijkheid zoals de simulatie hypothese, a brain in a jar, Holographic principle, de grot van plato, het droomargument en de demon van Descartes etc hebben mijn met name mijn interesse.

[Reactie gewijzigd door nullbyte op 4 augustus 2024 10:42]

Filosofische onderwerpen die vragen oproepen over de fundamentele aard van de werkelijkheid zoals de simulatie hypothese, a brain in a jar, Holographic principle, de grot van plato, het droomargument en de demon van Descartes etc hebben mijn met name mijn interesse.
Deze ga ik zeker eens bekijken, sommige zijn onbekend voor me.

Zijdelings schiet me dit te binnen om een meer fundamenteel perspectief te kunnen krijgen op de denkprocess en vrije wil van de mens, waar ik het grotendeels wel mee eens ben:
https://www.youtube.com/watch?v=TI5FMj5D9zU
Het probleem is dus dat de foto niet in een dataset blijft zitten. Er wordt een verkleinde afbeelding gemaakt van de oorspronkelijke foto, en na de training wordt die in principe weggegooid. Het model "weet" daarna globaal hoe de oorspronkelijke foto er uit zag maar kan deze niet reproduceren (maar het kan dus wel een vrouw in een gele jurk die tegen een muur leunt genereren).
Het probleem is dus dat de foto niet in een dataset blijft zitten.
Het probleem is dus dat de foto wel in de dataset blijft zitten. Hoe kan het model anders een zinnig resultaat geven bij de vraag "maak een afbeelding in de stijl van X" als de essentiële kenmerken van X er niet gewoon nog in zitten?

Je hebt gelijk dat niet de exacte pixels van het origineel zijn opgeslagen in het model, maar dat is geen maatstaf. Het is niet alsof je opeens het auteursrecht kunt omzeilen door alleen maar lossy JPEG's te gebruiken in plaats van het haarscherpe origineel.
Ik kan je grofweg vertellen hoe een Pikachu er uit ziet en iets tekenen wat er in de verte op lijkt. Houdt dat in dat ik een kopie van een Pikachu in mijn hoofd heb zitten? Als het inderdaad om lossy compression zou gaan dan zou een model wat getraind is op 2 miljoen afbeeldingen groter moeten zijn dan een model wat getraind is op 1 miljoen afbeeldingen, en dat is niet het geval.
Zet die tekening maar eens online te koop met de titel: Dit is een Pikachu. Dan kun je wel wat email van auteursrechtenadvocaten verwachten, denk ik.

Wat ik met die lossy compressie probeerde aan te geven is dat je je niet blind moet staren op pixels. Er zijn vele manieren om een afbeelding op te slaan of samen te vatten. Waar de grens ligt met auteursrecht of de vraag 'Is dit nog dezelfde afbeelding als het origineel?' is heel zo eenvoudig niet te beantwoorden.

Overigens is het helemaal niet zo'n gek idee om LLM's te beschouwen als een vorm van data compressie. Zie bijvoorbeeld LLMzip
Dus het probleem is niet dat @ErikT738, Pikachu op TV heeft gezien, en heeft onthouden?

Het probleem is er pas waneer hij deze kennis gebruikt en publiceert op een manier die niet onder fair-use valt.

Zijn herinneringen aan Pikachu kan je net zo goed zien als een lossy compressie.

- Ik kan mijn herinneringen gebruiken om auteursrecht te schenden.
- ik kan wikipedia gebruiken om auteursrechten te schenden. (bijv. ik lees de samenvatting van een film, en maak deze zo exact mogelijk na)
- Ik kan hier ook openAI voor gebruiken.

In deze gevallen ligt de schuld wat mij betreft bij de gebruiker, niet bij de 'tool'. Hoe dit in de praktijk zal uitpakken moeten we nog even afwachten tot de rechtszaken geweest zijn. :)
Als het inderdaad om lossy compression zou gaan dan zou een model wat getraind is op 2 miljoen afbeeldingen groter moeten zijn dan een model wat getraind is op 1 miljoen afbeeldingen
Vanuit een technisch perspectief klopt dit niet. Basale DEFLATE compressie kan herhalende tokens terugbrengen; Als je daarmee 1000 afbeeldingen zou hebben, en 900 zouden identiek zijn, zou je 101 unieke afbeeldingen over houden -- minder dan er in zaten. Combineer dat met lossy encoding ("zijn deze afbeeldingen bijna hetzelfde? Delen ze gelijke eigenschappen?") dan is het niet alleen mogelijk, maar zelfs plausibel dat je model een stuk kleiner zal zijn.
Een simpele zoekopdracht op de naam van de fotograaf en je ziet dezelfde foto’s.dus als je specifiek vraagt om een foto te maken in styl van X, kan net zo goed door de ai heel snel de zoekopdracht worden geanalyseerd en daarop iets worden gegenereerd.

De foto die nu is gegenereerd kan net zo goed uit een eerbetoon aan collectie komen.

Enfin als je de AI vraagt iets te genereren in de styl van X, moet je niet raar staan te kijken als er iets uit komt wat lijk op X. Als je mij vraagt een foto te maken in de stijl van Erwin Olaf, zoek ik ook eerst een voorbeeld en kan daarna ook iets maken in die stijl. Schend ik daarbij copyright? Nee, niet perse.
Zo simpel is het dus juist niet. Zoals @ErikT738 aangeeft wordt er niks qua beeld opgeslagen in het model. Ik leg het meestal uit aan de hand van een voorbeeld. Je kan het vergelijken met als kind naar een plaatjes boek kijken. Op het plaatje zie je een zaag staan. Met daaronder de text 'dit is een zaag', na het lezen zet je het boek terug. Je onthoud hoe een zaag eruit kan zien maar je hebt niet daadwerkelijk de foto uit het boek meegenomen. Deze herinnering kan je gebruiken om zelf weer een tekening te maken van een zaag (prompt). Hoe meer beelden met uitleg je leest hoe beter en complexer je tekeningen kunnen worden.

En ja er zijn ook technieken om modellen op dezelfde foto's te laten oefenen maar dat heeft te maken hoe je en model opbouwt. Het is echter geen database met fotomateriaal, dit is een veelvoorkomende denkfout als het gaat om de huidige AI modellen.
De Amerikanen zullen de knoop door moeten hakken, totdat het Amerikaans hoofdgerechtshof beslist gaat het gewoon zo door. De EU gaat niks doen behalve wanneer Meta/X het op hun eigen sites doen, de scrapers krijgen voorlopig vrij spel.

[Reactie gewijzigd door Pinkys Brain op 3 augustus 2024 16:15]

Ik vraag mij af hoe we dit moeten gaan zien. Ook mensen leren door naar het werk van hun voorgangers te kijken. Het wordt toch pas een probleem als ik mijn eigen werk ga verkopen als ware het gemaakt door die artiest.
Het wordt allemaal overgewaardeerd om er nog een beetje geld uit te halen.
Het nadoen van een artiest is financieel helemaal niet interessant behalve voor de artiest zelf want die kan er in het openbaar een punt van maken en media-aandacht naar zich toe trekken.
Dit voorbeeld ook. Beide afbeeldingen, ongeacht de producent, brengen amper ergens iets op. Het is geschiedenis geworden. AI die artistiek werk nabootst is gewoon laaghangend fruit voor de rechthebbende.
Ik zou niet zeggen dat het tweede geval een duidelijke copyright schending is.

Ik zou het vergelijken met een persoon die bijvoorbeeld een kleurplaat van Nijntje download en op z’n computer bewaard om later te printen of bekijken. De officiële Dick Bruna Nijntje site biedt die kleurplaten gewoon aan. Dan is het gewoon letterlijk de bedoeling dat je die afdrukt en bewaard zolang je wilt.

Ook is het volgens mij geen copyright schending als ik de gehele Dick Bruna Nijntje site opsla op mijn computer om later nog eens offline te bekijken. Ik denk dat het pas een probleem wordt als ik de site opnieuw ergens zou publiceren zoals de Wayback Machine dat doet. Die daar overigens tot nu toe ook redelijk mee weg lijkt te komen.

Maar dat letterlijk herpubliceren doet AI niet. Wat het maakt is een generieke algemene combinatie. Alsof je als student aan de kunstacademie foto’s hebt gemaakt in het museum van elke Van Gogh, die foto’s maanden lang in alle kamers van je huis hebt opgehangen om je hersenen te trainen op de stijl, en dan een nieuwe variant van de zonnebloemen maakt als iemand het vraagt, in de stijl van Van Gogh. Is die persoon dan strafbaar omdat die de geprinte fotos van de echte Van Gogh werken in zijn eigen woonkamer heeft hangen? Ik denk het niet. In feite is de opslag bij de trainingsdata van de AI niet anders.

Het copyright gaat volgens mij alleen om de auteurswet, die zegt dat je iets niet zomaar mag verveelvoudigen en openbaar maken. Maar voor jezelf bewaren is geen schending van die wet.

[Reactie gewijzigd door Sannr2 op 5 augustus 2024 08:40]

Het blijft een lastige. Maar ik snap dutchruler's punt wel.
Staat de auteurs recht op de afbeelding of op de stijl waarin het gemaakt is?
Als een AI delen van een kustwerk, boek, of wat dan ook knipt en plakt om iets nieuws te maken is het duidelijk een schending. Dit is in het verleden ook zeker gebeurt.
Maar als een AI model geleert word (uit publiek werk) hoe de techniek/stijl na te bootsen in een verder uniek stuk is dat niet perse anders dan wanneer ik oefen om de stijl van een schilder of schrijver na te bootsen.
Als ik een schilderij in de stijl van Mondriaan maak dan mag dat gewoon lijkt me. Je mag het originele werk niet klakkeloos kopiëren maar een stijl is volgens mij niet te patenteren of copyrighten.
Zo werk het dus wel.
Jouw hele school opleiding is hier op gebaseerd, jaren lang leren uit de boeken en kennis vab andere, waarna je na je afstuderen met deze geleerde kennis van andere geld gaat verdien.

Deze opgebouwde kennis mag tijdens het geld verdienen niet letterlijk kopiëren maar wel beperkt citeren. En volledige in eigen woorden over/herschrijven en als jou eigen bestempelen. En dat is precies wat AI doet
Er word niets gestolen. Dat is het enige wat belangrijk is. Erwin Olaf verliest geen geld met zijn schilderijtje van een houten hal, niemand die een foto van een houten hal genereert dacht van "Mooi mee weggekomen, Erwin Olaf krijgt geen cent van me". Ik denk dat Erwin onterecht geld verdient ook al betaal je hem 1 cent per keer dat zijn foto's als inspiratie gebruikt worden. Anders mag het van Gogh museum ook geld vragen als ik een zonnebloem schilder die aardappelen opeet..
De juridische vraag wordt een lastige als de werken openbaar beschikbaar zijn/waren.

Is er verschil tussen
- een AI die getraind wordt op beelden
- een kunst academie student die getraind wordt op beelden

-een AI die een beeld genereert op basis van een getraind model
- een kunstacademie student die een werk maakt geïnspireerd op de beelden uit zijn training

De makers van NOS materiaal zijn zelf ook getraind op voorgaand materiaal. Etcetc

Enige verschil tussen Een kunstacademie student en een AI is dat je niet weet welke neurale netwerken aan zijn gemaakt in het brein van de student

Het is uiteraard wel wat complexer dan dat, maar in essentie komt het er op neer dat NOS niet wil dat een computer naar haar beelden kijkt, maar mensen juist wel.

[Reactie gewijzigd door fenrirs op 4 augustus 2024 09:29]

Tijd dat mensen leren om robots.txt te gaan gebruiken.

In de situatie waar de crawler het negeert en je komt erachter dat je werk is gebruikt, dan heb je in ieder geval (m.i.) extra juridisch bewijs dat je je content beschermd hebt en expliciet hebt aangegeven dat het niet gebruikt mag worden.

Je kan eventueel ook proxy/firewall rules aanmaken voor de user agent.
En als dat geen optie is dan kun je zelfs eventueel een whitelist voor user agents aanmaken op je web server. (Ik weet niet of dat bij allemaal zo is, maar bij NGINX kan dat iig).
Dat is natuurlijk een spelletje whackamole want zodra de user agent string verandert werkt je regel niet meer, maar toch sta je m.i. juridisch sterker als je kan aantonen dat je actief maatregelen hebt genomen om misbruik tegen te gaan.
Tijd dat mensen leren om robots.txt te gaan gebruiken.

In de situatie waar de crawler het negeert en je komt erachter dat je werk is gebruikt, dan heb je in ieder geval (m.i.) extra juridisch bewijs dat je je content beschermd hebt en expliciet hebt aangegeven dat het niet gebruikt mag worden.
robots.txt is slechts een vriendelijk verzoek.

Ik zie genoeg crawlers langs komen die zich niet identificeren als een crawler, en ook genoeg crawlers die robots.txt negeren.

Vaak is het niet eens te achterhalen wie achter de anonieme crawlers zitten.

Verder kan je geen robots.txt opzetten die search engines wel toestaat, maar andere soort crawlers niet. De TOS van een website begrijpen crawlers niet.

Ik wel dan mijn website, en de informatie daarvan, vindbaar is in search engines. Ik wil niet dat de informatie op mijn website gebruikt wordt voor: PII harvesting, data harvesting voor model training, etc. Dat kan je niet aangeven op een technische of juridische manier.
In robots.txt kan je letterlijk de user agent string instellen, dus je kan wel degelijk per specifieke user agent instellen of die al dan niet je site mag doorzoeken.

AI crawlers hebben een specifieke eigen user agent string die anders is dan de user agent string van de bekende search engines, dus het is heel goed mogelijk om dat onderscheid te maken.

Ik snap dat robots.txt een vriendelijke suggestie is en dat niet iedereen zich er aan houdt, daarom geef ik ook alternatieven aan hoe je kunt garanderen dat bepaalde user agents de site helemaal niet kunnen benaderen.
In robots.txt kan je letterlijk de user agent string instellen
Absoluut niet. Je geeft alleen een instructie met een naampje naar een crawler mogelijk naar kijkt. Het is altijd heen specifiek.

Ik kan niet zeggen "Meta*", nee, ik moet elke specifieke crawler van Meta een instructie geven. Maar dan is het meteen weer alles of niets. Ik kan niet
De groep van bekend agents is al groot, en groeit nog steeds Darkvisitors heeft een redelijk overzicht: https://darkvisitors.com/agents

Maar die is niet compleet, en loopt steeds achter de feiten aan. Verder zijn veel crawlers heel lui in de robots.txt te checken. "Vriendelijke" crawlers doen dan na 24 uur.

Ik heb meer dan genoeg tijd gestoken in gedrag analyze van de verschillende identificeerbare crawlers. Genoeg om een set an fail2ban rules, robots.txt directives, en honypot links op te zetten om het een beetje tegen te werken. Maar het is echt dweilen met de kraan open. Want zo komt er CCBot2 en CCBot3 en als die zouden kijken naar m'n robots.txt zouden ze de honeypot links vermeiden, maar nog steeds wil ik die bots niet om mijn site. Ik zou alleen niet weten welke identifier ze gebruiken, want dat is niet altijd af te leiden uit de useragent.
Zowel robots.txt als Nginx blockers helpen niet tegen bijvoorbeeld tegen scrapers van Anthropic die robots.txt negeren en constant van IP veranderen.

Als je ziet dat mensen als Aaron Swartz tegen 50 jaar cel aankeken lijkt de beste manier hiertegen om de raad van bestuur van Anthropic per direct in voorarrest te nemen gedurende het onderzoek.
Anthropic omschrijft op hun website hoe je robots.txt moet configureren om hun crawler tegen te houden.

NGINX regels om verkeer te blokkeren zijn onafhankelijk.
Je kan er als "Anthropic" niet voor kiezen om dat al dan niet te negeren zoals dat met robots.txt wel kan.
Het werkt zoals regels op een firewall of proxy.

Jij als site maker die het ergens niet mee eens is, en een rechtszaak tegen een bedrijf or persoon begint kan niet afdwingen dat iemand al dan niet in voorarrest wordt genomen, een rechter beslist dat.

Bij witte boordencriminaliteit, waar dit onder valt, is de kans dat iemand in voorarrest wordt genomen voor zover ik kan vinden nihil tot niet bestaand.

De strafmaat voor een misdrijf staat in een wet verankert.
Bij auteurswetten voor zover ik zo snel kan zien kan je op z'n hoogst een betaling afgedwongen krijgen.

In Nederland bestaat er weliswaar een levenslange gevangenis straf die ook letterlijk dat is, is er geen losse strafmaat van 50 jaar voor zover ik kan vinden.

Ik ben geen rechter of jurist dus ik weet niet of datgene wat ik online vind correct is of niet.
Maar, gezien de relatieve zeldzaamheid waarmee levenslang wordt opgelegd, en het soort misdaad dat daar aan ten grondslag ligt, is een gevangenis straf van 50 jaar voor witte boordencriminaliteit onrealistisch te noemen.
Tijd dat mensen leren om robots.txt te gaan gebruiken.

In de situatie waar de crawler het negeert en je komt erachter dat je werk is gebruikt, dan heb je in ieder geval (m.i.) extra juridisch bewijs dat je je content beschermd hebt en expliciet hebt aangegeven dat het niet gebruikt mag worden.
Robots.txt is een 'gentlemans agreement', het is niet verplicht om die te respecteren. Als een bedrijf zegt "wij trekken ons daar niets van aan" kunnen ze die robots.txt gewoon negeren.

En OpenAI negeert die hele robots.txt dus gwoon, zie bijvoorbeeld nieuws: 'Ook OpenAI en Anthropic negeren robots.txt-verzoeken om sites niet t...
OpenAI en Anthropic negeren verzoeken van websites in robots.txt-bestanden om niet gescrapet te worden. Dat beweert Business Insider. Eerder schreef Wired al dat het bedrijf achter de AI-zoekmachine Perplexity dergelijke niet-scrapenverzoeken ook negeert.

[...]

Sinds vorig jaar kunnen websites aangeven dat ze niet willen dat hun websites zomaar worden gescrapet. Dat kan door tekst toe te voegen aan robots.txt, het tekstbestand dat onderdeel is van webstandaarden en instructies geeft aan niet-menselijke bezoekers. Onder meer Tweakers-uitgever DPG Media verbiedt het gebruik van webcrawlers in zijn robots.txt-bestand. Het opvolgen van deze instructies is echter niet verplicht.
Ik vraag me dus af of dit juridisch wel als bewijs gebruikt kan worden? Zolang het geen verplichting is om robots.txt te respecteren...?

[Reactie gewijzigd door wildhagen op 3 augustus 2024 15:59]

maar achteraf valt toch niet meer te bewijzen of de Ai is getraind op het orgineel of op personen die geïnspireerd waren op dit orgineel?
Het is al meermalen aangetoond door mensen die veel slimmer zijn dan ik, dat het tot nu toe mogelijk is gebleken om een AI dusdanig te manipuleren dat deze zijn bron materiaal prijsgeeft.
En zoals anderen al meldden is het niet zo dat je zo maar ongebreideld dat bron materiaal kan gebruiken om zelf een soortgelijkend materiaal van te maken.
Jorgen Moderator Beeld & Geluid @wildhagen3 augustus 2024 23:58
Precies. Intellectueel eigendom verdwijnt niet zomaar.


Ik snap alleen niet helemaal waarop men ageert.

Gebruiker typt prompt: "Maak iets in de stijl van Artiest-A en Artiest-B."
AI maakt iets in de stijl van Artiest-A en Artiest-B
Gebruiker flipt om dat de AI doet wat er gevraagd wordt.

In de voorbeeldafbeeldingen zie je daadwerkelijk flinke verschillen, waarbij de stijl wel overeenkomt. Exact wat gevraagd werd.
[...]


Gelukkig ook maar dat het niet werkt zoals jij beschrijft. Dat zou een puinhoop worden, waarbij niemand meer eigenaar van zijn werk zou blijven.
*kuch* Adobe
Google/zoekmachines doen eigen iets soortgelijks lijk me!
Zij scannen toch ook websites af zodat het in datasets komt anders werk Google/zoekmachine niet !
Alleen is een AI geen mens. Het is een product/werk van een eigenaar dat niet zomaar door het creëren de wettelijke vrijheid heeft als een mens.

Daarbij, dat een mens kan leren hoe andermans werk er uit ziet geeft ook niet zomaar vrijheid kennis te nemen of die kennis zomaar te gebruiken. Zeker niet als het om wettelijk beschermd werk gaat en de verwerker daar ook nog eens aan wil verdienen.
Je kunt ook stellen dat het de nos is die een illegale opdracht geeft. Dat een model plaatjes heeft gezien waar auteursrecht op zit is niet gek. Dat die plaatjes als inspiratie gebruikt worden ook niet. Zo ontwikkeld kunst zich, netzoals wetenschap.
De stijl is echter een deel van de wat dat plaatje kostbaar maakt en dus van het auteursrecht.
Dus vragen om iets in de stijl van X te maken is een vraag aan iemand om de wet te overtreden. De gevraagde moet dan ook zeggen: dat mag ik niet doen.
Volgens mij zit daar de crux.
Er is geen verbod op het stellen van legitieme vragen. Zeker niet vanuit onderzoek zoals voor wetenschap of journalistiek. Er is echter wel een plicht om niet zomaar andermans werk te gaan gebruiken omdat iemand er mogelijke een vraag over stelt of een vraag stelde. Daarbij is de vraag niet om andermans rechten te overtreden of verplicht met een resultaat te komen wat direct antwoord op de vraag is. Er is dus geen enkele grond om schuld proberen af te schuiven op de vraagsteller.

De eigenaar van een AI kan het daarbij prima inrichten zodat het alleen met toestemming andermans werk als voorbeeld kan gebruiken, het antwoord laten geven dat het resultaat gebaseerd is op legitieme omschrijvingen in plaats van beeld, of dat het een reactie geeft dat het geen antwoord kan geven omdat het weigert andermans recht te schenden en geen andere mogelijkheid beschikbaar heeft.
Als je kan stellen dat de NOS een illegale opdracht gegeven heeft, waaraan het model vervolgens in meegaat, dan kan je ook per direct zeggen dat het model illegale praktijken doet. Dat maakt niet bepaald een sterk punt.

Waar jij, en velen anderen, aan voorbij gaan is dat een model niets anders is dan een wiskundige functie die geoptimaliseerd wordt om, gegeven een bepaalde invoer, zo goed mogelijk de overeenkomstige uitvoer na te bootsen ( = de trainingsdata.).

Verder worden er nog wat truukjes toegepast om wat variatie eraan toe te voegen.

Hoewel we termen gebruiken die aansluiten bij de werking van hersennen, is dat puur ter illustratie om de wiskunde en de opbouw van de modellen beter te begrijpen. Het menselijk brein, en de werking ervan is vele male complexer dan de huidige AI. Zelfs de basiselementen, de neuronen, zijn in een brein stukken complexer dan het gelijknamig equivalent in AI.

Deze modellen zijn gewoon een product geoptimaliseerd, en in de verste verte niet te vergelijken met een mens.

Tot slot: auteursrecht geeft het recht om te bepalen hoe een werk herbruikt wordt. Het herbruiken van een werk om een model te trainen mag - in mijn ogen - dus niet zolang de auteur geen toestemming gegeven heeft (enkele uitzonderingen daargelaten). Bij iets dat publiek op het internet staat, maar waar geen toestemming bij staat, geldt by default dat de auteur geen toestemming geeft. Je zal er dus naar moeten vragen.
Waar baseer je de logica dat er iets "gestolen" word van de originele auteur? Je kan kijken naar wat de wet zegt, maar die is technisch gezien elke seconde 1 seconde out-of-date, en zeker met deze AI gebeurtenissen.

Als je van een moraal standpunt kijkt wil je als schilder geld verdienen met je schilderij. Dat kan door hem te verkopen en in iemands huis te hangen. Maar je kan er ook reclame voor maken door een foto ervan in een brochure te zetten. Als iemand dan die brochure aan een muur hangt is het geen diefstal. Als die foto uit de brochure geknipt word en word opgehangen is het geen diefstal. Als die foto vergroot word en opgehangen in een frame van een schilderij, is dat diefstal? Die persoon hoeft het originele schilderij niet meer te kopen! Het enige wat voor nut het heeft om het origineel te hebben is de marktwaarde als "asset" of als conversation starter. Als er naar die foto gekeken word en er elementen uit gekopieerd worden en gecombineerd worden met miljoenen andere inspiraties (oftewel in het menselijk brein gebeurt dit constant) is dit het minst diefstallig dat ik tot nu toe heb bedacht.
Waarom heb je het over "gestolen"? Dat heb ik bewust niet gebruikt.

Dat een wet achterloopt maakt niet uit: dan moet je de wet volgen zoals die nu is, en dan mag het niet.

Waar het hier over gaat is het zonder toestemming gebruiken van de rechthebbende. Geen toestemming betekent eenvoudigweg niet gebruiken. Of het online stond maakt niks uit.

Bij een brochure heeft de rechthebbende - als het goed is - toestemming gegeven, wetende dat mensen ernaar zullen kijken. Ik denk niet dat iemand een afbeelding van 4x4cm zal uitknippen uit een brochure, inkaderen, en dan serieus gaat zeggen "kijk, nu heb ik het ook." Dat weet de rechthebbende ook.

Maar bij AI is het hele proces trouwens anders: de ontwikkelaars hebben enkel toestemming (tenzij anders gespecifieerd) om een afbeelding te bekijken, maar kopieëren het tijdelijk voor andere doeleinden om een programma mee te maken die hun winst geeft en die opengesteld wordt aan het publiek. De ontwikkelaar overtreedt dus als het aspect van niet te mogen dupliceren en niet te mogen herbruiken zonder toestemming. Het maakt zelfs niet uit of de afbeelding volledig in het model zit opgeslagen of niet.

Om terug te komen op jouw voorbeeld: je mag ook geen brochure nemen, de foto's kopieëren en er een boek van maken die je vervolgens verkoopt. Ook niet als je wat visuele effecten toevoegt op de foto's.
Als je kan stellen dat de NOS een illegale opdracht gegeven heeft, waaraan het model vervolgens in meegaat, dan kan je ook per direct zeggen dat het model illegale praktijken doet.
Ondanks de naam AI/KI blijft het gemodelleerde kennis zonder enig besef wat die gemodelleerde kennis inhoudt. Het ontbreekt hedendaagse AI dus aan besef, laat staan moreel besef. Hedendaagse AI gaat dus gewoon kinderporno genereren wanneer een gebruiker in de prompt opgeeft dat dit de bedoeling is.

De enige reden dat pedofielen niet naar hartenlust allerlei ranzigheid kunnen genereren is dat de prompt eerst gefilterd word op (zeer) onwenselijke combinaties van woorden.

AI is nog niet op het niveau dat het moreel/ethisch/filosofisch besef heeft, dus kan het ook geen morele/ethische/filosofische overwegingen maken. De NOS weet dit, of zou dat moeten weten, en is daarom door het opgeven van die prompt aan te wijzen als verantwoordelijk partij voor eventuele schendingen van het auteursrecht.
Je gaat er hier wel aan voorbij dat iemand het model opgebouwd heeft en getraind heeft. Bijgevolg ligt de verantwoordelijkheid ook bij deze persoon of bedrijf.

Als je zou willen vasthouden aan de vergelijking met hoe het brein werkt, dan moet je dit vergelijken met een kind. Daarvan gaan we ook uit dat het moreel besef niet volledig ontwikkeld is, en zijn de ouders aansprakelijk.
Dan moet je het hele internet achter een paywall zetten. AI modellen moeten leren. Het moet model moet gevoed worden. Of het nou gaat om plaatjes, programmacode of algemene kennis. Dat voeden doe je met bestaande informatie. En alle bestaande informatie is geschreven, getekend, gemaakt of bedacht door mensen.

Dus ergens kan je stellen dat alles wat een AI systeem weet te produceren een vorm van plagiaat is.
Dus alle muziek die op Youtube staat mag ik kopieren en weer verkopen.
Want dat is wat er gebeurd. AI is niet gratis er wordt geld mee verdient.
Dus als je veel luistert naar een bepaald muziek genre, en je daardoor laat inspireren om je eigen nummer te maken, dan overtreedt je copyright wetgeving en moet je betalen? We weten beide het antwoord daarop: Dat is niet zo. Dus waarom een AI wel? En natuurlijk is het een complexer iets, maar het lijkt mij iig vreemd dat ergens op trainen een copyright overtreding is.
Het werkt in de muziek net iets anders. Je kan een bestaand nummer pakken en dat in een ander jasje gieten. Bands als Scott Bradlee and the Postmodern Jukebox en The Baseballs doen dat. Het verschil met AI is dat deze artiesten dat doen met toestemming van de originale rechtenhebber.

AI kan van alles dupliceren, waaronder de stem van Scarlet Johansson. Dat kunnen ze ook met anderen. Zo zou AI een plaat kunnen maken met de stem en de stijl van -pak eens wat- 2Pac Shakur. Die is al jaren dood, maar zijn muziekrechten bestaan nog. Het is dus niet 2Pac die zingt. Het is niet zijn band. Maar het is wel zijn stem en bepaalde baslijnen/riffjes die gebruikt zijn om de sfeer van zijn muziek over te brengen.

AI neemt iets over van materiaal waarmee het gevoerd wordt. Daar vind je altijd wel wat van terug. Uiteindelijk is het aan de bron om te bepalen of deze toestemming wil geven voor het gebruiken van het materiaal.
Ik doel niet op een cover oid, ik doel op dat je een nieuw nummer maakt, maar je laat inspireren door bestaande nummers. Wat natuurlijk elke artiest doet, niemand begint van absoluut nul met muziek.
Slappe reactie. Dit is niet 1 op 1 dupliceren, maar baseren op. Genoeg muziek die herkenbare deuntjes hebben uit oudere nummers. (Tegenwoordig is het bijna niet anders)

Is het dan nog origineel? Nee. Maar een 1 op 1 kopie? Ook niet. Dus wat is nu waar jij de vergelijking maakt van 1 op 1 rippen en dan verkopen?
Slappe reactie. Dit is niet 1 op 1 dupliceren, maar baseren op. Genoeg muziek die herkenbare deuntjes hebben uit oudere nummers. (Tegenwoordig is het bijna niet anders)

Is het dan nog origineel? Nee. Maar een 1 op 1 kopie? Ook niet. Dus wat is nu waar jij de vergelijking maakt van 1 op 1 rippen en dan verkopen?
Wat jij noemt is praktisch sampelen, en ja, daar wordt gewoon voor betaald aan de originele artiest. Vaak nummers die het niet goed deden maar wel een catchy stukje hadden worden nu gebruikt voor een grote hit.
Napster was ook heel groot en toch verboden. Sterker nog de hele pirate bay was verboden omdat er te veel auteursrecht geschonden werd
Bij rechtsspraak en in de politiek worden belangen afgewogen. Als jij denkt dat de rechtspraak en politiek kunstmatige intelligentie gaat stilleggen vanwege een paar auteurs dan ga ja van een koude kermis thuiskomen.
Errrrr trias politica?

Daarnaast verbied je geen Ai , alleen plagiaat
Als je auteursrechtelijk beschermd materiaal gebruikt dan moet je betalen.
Niet voor niets worden er dagelijks nieuwe deals met content makers gemeldt in de VS.
Een AI model heeft een trainingsset. Een afbeelding kan hier in staan of niet. Ik vind dat de orginele maker van de afbeelding toestemming moet geven of je zijn afbeelding in jouw trainingsset mag gebruiken.
Teken een eend in de stijl van Donald Duck en we praten nog eens.
Jij mag om te oefenen als bijvoorbeeld fotograaf natuurlijk proberen werk van Erwin Olaf of Anton Corbijn namaken. Je leert dan hoe het werkt. Maar maak jij vervolgens commercieel werk wat heel erg op dat van anderen fotografen lijkt dan mag dat niet zomaar. Voor AI is dat niet anders.
Zolang er geen trademarks geschonden wordt en het is geen exacte kopie, maar wel in de stijl van, dan is er niks aan de hand.
Beetje vergezocht. Als jij naar de bioscoop gaat en daar een nieuwe film kijkt dan kun je die film niet exact reproduceren maar je hebt “geleerd” hoe het verhaal van die film gaat. Als jij dan vervolgens een script schrijft met dat verhaal en je brengt een film uit met dat verhaal dan is dat volgens jouw redenering helemaal ok. Ik denk alleen dat je dan heel snel bij de rechter zit en daar niet met een pleidooi aan kunt komen over vergaarde kennis die je globaal hebt gereproduceerd maar niet exact hetzelfde is.
Klinkt als een grote deel van de films die er zijn. Vaak zijn die ook rehashes van andere films of boeken.

Waar jij het over hebt heeft meer met trademarks te maken en niet zozeer namaken van films.

Appels en peren vergelijken
natuurlijk niet, er is copyright. iets dat op internet staat is niet vrij van copyright anders zou geen enkel museum een website kunnen hebben.
copyright,auteursrecht, patentrecht en weet ik wat voor namaakverboden er nog meer zijn verzonnen, beperken m.i. de ontwikkeling van de mens. Verzonnen voor de commercie en de huidige economische samenleving waar we ons in hebben vastgezet.
Geef iedereen op alles wat éénieder ook verzint de mogelijkheid om er gebruik van de te maken en het hierdoor verder ontwikkeld en er betere 'dingen' mee kunnen ontstaan.
Concurrentie beperkt de menselijke ontwikkeling, synergie versterkt deze..., maar nee, dat staat onze economische welstaat niet toe.

Door filosoferende:
Als het wiel gepatenteerd zou zijn, zou dat in eerste instantie door een boom zijn gedaan en zouden we die ook niet voor alle andere doorontwikkelde dingen gebruikt mogen worden (zonder de boom daar mee van te laten profiteren). Op een deur, een trap, of andere dagelijkse gebruikte dingen staat ook geen patentrecht waarbij we iedere keer wanneer we de trap op/af gaan iemand moeten betalen of als we ergens door een deur naar binnen/buiten gaan.

Zo jammer, deze beperkende rechten-zooi dat de menselijke ontwikkeling afremt.
Mooi dat /als Ai hier hopelijk een einde aan kan maken!
Ik denk het tegenovergestelde. Ze hebben bij de EU zitten slapen, deze specifieke tools hadden allang verboden kunnen (en moeten) worden.

Dit is geen probleem van AI, maar van bedrijven die de wet negeren. Het kan ook prima wel wettelijk, maar concurreren is onmogelijk met bedrijven die macht hebben en misbruiken.

Er zijn collega’s aan de universiteiten die denken dat geld en mentaliteit het probleem is, maar ik zou op dit moment geen foundation models willen bouwen vanwege de ethische obstakels. Het kan ook wel ethisch en wettelijk maar dan kom je veel minder ver en gaat niemand het gebruiken zolang er tools zoals ChatGPT bestaan.
Leert de AI niet gewoon hetzelfde als leerlingen op de kunst academie? Door werken van anderen te bestuderen en analiseren?

[Reactie gewijzigd door The_Woesh op 3 augustus 2024 20:05]

Nee. Een Machine Learning Model 'leert' niet op dezelfde manier. 'Training' is in die context iets heel anders, en het is eerder vergelijkbaar met sterke compressie (tokenizen van inputs om het later weer te kunnen herhalen, onder andere). Wanneer mensen zeggen dat een AI 'leert' dan is het beeldspraak, of ze hebben het fout.
Dat is gewoon niet waar.
Het is lineaire algebra en het maakt enorme arrays met floats (referentie tabellen).

Wat jij stelt over "leren" hoe het werkt slaat helemaal nergens op.
Wat denk jij dat je hersentjes zijn dan?

Even versimpeld zijn het een grote collectie van neuronen die geladen of niet geladen zijn.

Dus wat ik stelt komt erg dichtbij met hoe het werkt. Dat is het hele punt juist van dit soort transformer AI
Het is absoluut niet hetzelfde.

In de arrays van zijn ML model is het kwestie van fracties kopiëren en plakken.
Ik zie het verschil niet. Je hersens doen precies hetzelfde. De één wat beter dan de ander
Namaken is plagiaat. En dat je ergens bij kan betekend niet dat je er mee mag doen wat je wil.
Is het trainen van een AI dan niet al bij voorbaat (altijd) plagiaat?
Niet als je toestemming hebt, dan heet het geen plagiaat meer...
De prompt is hier wel heel belangrijk en ook hoe vaak ze het opnieuw hebben laten proberen om tot dit resultaat te komen.
Een beetje jammer dat ze dat achterwege hebben gelaten.
Niet akkoord, er moet nul kans zijn om materiaal als output te krijgen dat door copyright beschermd is.
Als je een aap op een toetsenbord tekeer laat gaan is de kans ook niet nul dat er een illegaal getal uit komt rollen. Moet die aap dan ook niet bestaan of mag een aap simpelweg nooit op een toetsenbord slaan?

Ik denk dat er hier een middenweg te vinden is die noch "je mag alle gelezen materiaal 1:1 reproduceren op aanvraag", noch "er moet nul kans zijn" is
Het is niet uniform random. Deze tool laat je teksten en beelden genereren op basis van een opdracht. Er zijn maar weinig contexten waarin een tool te gebruiken is die met redelijke kans output geeft waarvan het illegaal is om dat verder te delen.

Om jouw vergelijking door te zetten: ze hebben dergelijke ‘illegale getallen’ (= informatie waar copyright op rust) als invoer gegeven en daarmee dus het systeem letterlijk verteld dat dat een goed voorbeeld is van wenselijke output. Vind je dat een goed idee?
Oké, nul dus. Ik denk dat er goed te betogen is dat het hier totaal nul gelijkenis is.
Als het is geïnspireerd op een ontwerper, dan is dat normaal gesproken ook geen probleem.
Ik ben geen jurist, maar volgens berust het artikel van de NOS op de premisse dat ook de specieke stijl door copyright beschermd is. Je mag niet zomaar werk van iemand namaken, behalve voor specifieke doeleinden. De tools van OpenAI mag je volgens hen voor vrijwel alles gebruiken dus dat is niet in orde.
Ja, maar dat is iets anders dan inspiratie opdoen.
Mijn punt is dat de NOS slechte journalistiek heeft bedreven door gemakshalve de belangrijkste zaken van het onderzoek niet te publiceren. Het lijkt er meer op dat het gewoon niet goed onderzocht is. Als je na 100 pogingen op een degelijk resultaat komt dan is dat meer toeval dan gelijkenis. Maar dan nog is de gelijkenis m.i. ver te zoeken.

Ik zou wel eens een rechtszaak willen zien waar dit behandeld wordt. Ik denk dat de aanklagers weinig kans maken. Tot die tijd blijft het speculeren.
Ten eerste is ook het overnemen van een specifieke stijl mogelijk een schending van het auteursrecht, afhankelijk van hoe uniek en specifiek die stijl is.

Ten tweede ga jij er vanuit dat de tool echt de patronen erachter doorgrond, op een manier zoals wat dat doen als mensen. Helaas hebben dit soort zeer grote modellen heel erg veel moeite met generalisatie, ze memoriseren meer dan dat de makers je wil doen geloven. Bij beeldgeneratie werkt het op pixelniveau echt heel goed, maar op het niveau van objecten heeft het al veel moeite en abstractere concepten zoals een stijl is het gewoon niet goed (of zelfs bar slecht) in creatief daar mee omgaan en heeft het dus niets met inspiratie opdoen te maken.

Als het echt gaat over op pixelniveau nadoen zoals de foto's of schilderijen van een bepaald auteur, dan is dat mijns inziens gewoon plagiaat zoals dat verboden is bij wet.

De trainingsdata is niet bekend gemaakt en al helemaal niet beschikbaar, daarom is onafhankelijk onderzoek doen naar hoe nauw de modellen trainingsdata herproduceren onmogelijk. Naar mijn indruk (ik doe al 15 jaar onderzoek in machine learning) is de generalisatiecapaciteit van deze modellen heel veel slechter dan de meeste mensen denken.
Misschien kun je mijn bericht nog even lezen voor je zomaar wat roept. Je antwoord sluit niet echt aan op wat ik zeg en bovendien leg je mij woorden in de mond die ik helemaal niet gezegd heb.

Dus lees nog even goed en probeer het dan nog eens.
Hint: Ik ga nergens vanuit.
Okee, sorry dat de link niet duidelijk is. Ik probeer wel degelijk oprecht op jouw berichten te reageren.
Als het is geïnspireerd op een ontwerper, dan is dat normaal gesproken ook geen probleem.
Ik betwist dat je het moet zien als inspiratie op doen, daar gaan mijn berichten over.

Inderdaad is generalisatie de heilige graal van machine learning (de meest voorkomende vorm van AI), waarbij het systeem de echte patronen leert die onze realiteit beschrijven en sturen. Helaas is dat bij grote generatieve modellen zoals DALL-E en ChatGPT niet zo duidelijk in welke mate dat het geval is. Vandaar dat ik erover begin dat het in de eerste plaats heel sterk de data herproduceert, in plaats van nieuwe beelden en tekst te genereren die vanuit een begrip van de inhoud komen.

Een bepaalde mate van antropomorfisering van AI systemen ligt voor de hand en houdt ook wel steek. Om het inspiratie te kunnen noemen, vind ik dat je de aanname moet maken dat het in staat is de patronen achter de beelden te herkennen. Er is daar niet veel onafhankelijk onderzoek over, omdat de trainingsdata niet beschikbaar is en je dus ook geen antwoorden kunt contrasteren met de trainingsdata. Er is voorlopig ook weinig bewijs de positieve richting op, dat het daadwerkelijk nieuwe zaken kan creëren. Papers die bijvoorbeeld aantonen dat ChatGPT examens kan maken op bachelorniveau zijn onderuit gehaald dat dit slechts het geval was omdat bijna dezelfde vragen en daarbij behorende antwoorden in de trainingsdata zaten. Dus, dat die modellen de capaciteit hebben om slechts 'inspiratie' op te doen vind ik een aanname. die waarschijnlijk onjuist is.

Prima dat je vind dat de prompts en het experiment beter beschreven hadden moeten worden. Dat zou wellicht iets toevoegen. Het lijkt mij niet dat ze aan cherry-picking hebben gedaan door het 100 keer te proberen en dat er eigenlijk maar 1 plaatje als bewijsmateriaal kon dienen. In elk geval spreekt dat mijn ervaring tegen en de beschreven problematiek is alom bekend in de sector.

Ik ben het met je eens dat het hoog tijd wordt voor rechtszaken binnen NL en de EU. De voornaamste uitdaging zal echter zijn om daadwerkelijk gederfde inkomsten aan te tonen, niet om aan te tonen dat die tools inbreuk maken en materiaal herproduceren waarop auteursrecht zit. Het zou kunnen dat de autoriteiten nog niets hebben ondernomen omdat ze dat vanuit de AI Act willen doen, waardoor we nog 1-2 jaar in de onduidelijkheid zullen blijven zitten over waar de grenzen komen te liggen wat er wel en niet mag.
Je ervaring laat je misschien geloven dat het vrij makkelijk tot stand is gekomen, maar dat blijft nog steeds een aanname. Dat deel had de betreffende journalist kunnen wegnemen door openheid van zaken te geven.
Door dat niet te doen is de verdenking van een zeer gerichte prompt en veel pogingen alleen maar groter geworden.

Overigens heb ik zelf ook redelijk ervaring met het gebruik van AI en ik heb gemerkt dat het nog niet zo eenvoudig om een werk dat lijkt op het werkt van een bestaande kunstenaar te maken. Dat maakt ook dat ik dit 'onderzoek' nogal dubieus vind. Eigenlijk meer stemmingmakerij dan goede journalistiek.

Mijn betoog over inspiratie betreft natuurlijk menselijke kunstenaars. Technisch gezien is het maar de vraag waar je dan de grens gaat leggen als het om AI gaat. Tenslotte kijkt een menselijke kunstenaar ook in een museum en/of internet rond.
Waar we het blijkbaar over eens kunnen zijn is dat er jurisprudentie over moet komen.
We gaan het zien, want dit gaat zeker bij een rechter komen, zoveel is duidelijk.
Uit de verslaggeving blijkt dat er enkel is gevraagd om de stijl van deze makers na te bootsen, zonder specifieke verdere aanwijzingen.
Dat had ik gelezen en daar ging mijn opmerking dus ook over.
In het artikel had daar wel iets meer aandacht voor mogen zijn. Bijvoorbeeld de betreffende journalist vragen naar zijn/haar motivatie om het weg te laten, want zonder deze details is het de publicatie m.i. niet waard (ook hier niet).
Ik zie niet meer gelijkenissen dan als iemand mij opdracht zou geven een foto in een bepaalde stijl te schieten en in een dergelijk geval zou ik mezelf auteur noemen.
Het verschil is dat een ML model letterlijk het originele werk bevat. Als je dan vraagt, "maak dit na," en die originele afbeelding wordt gebruikt om het resultaat te genereren, dan is het plagiaat.

Zelfs als je het argument zou voeren dat het origineel niet meer in het model zit, dan nog is het zo dat het originele werk gebruikt is bij het trainen, en dus nodig was om de kopie te genereren.
Pardon? Dat is nu hele kwestie bij ML: De training bestaat uit gewichten van de neuronen. Daaruit is het niet eens mogelijk om het originele werk terug te krijgen, de informatie is verloren gegaan, je kunt in het beste geval nog iets maken dat sterk op het origineel lijkt.

Als jij een foto bekijk zit in jouw hersenen ook geen pixel-voor-pixel kopie van die foto, je hebt er delen van onthouden en kunt op basis van je overige kennis (bijvoorbeeld hoe een jurk eruit ziet) weer reconstrueren wat er op die foto stond.
De originele data wordt geëncodeerd naar neural weights (niet neutronen, dat is voor mensen). En het is zeer gemakkelijk om de originele data terug te krijgen, want reproductie is letterlijk waartegen het getest wordt. LLMs kunnen hele boekdelen genereren, en diffusion models kunnen ook dingen haarfijn repliceren. Dat het diffusion models dat niet zo exact als LLMs kunnen is een implementatie detail; dat de geëncodeerde data meer lossy is maakt het niet minder waar dat de originele data er gewoon in zit.
Als jij een foto bekijk zit in jouw hersenen ook geen pixel-voor-pixel kopie van die foto
Nee, hou op. ML models werken niet op dezelfde manier als onze hersens. Dat is een leuk verkoop praatje voor AI evangelisten, maar de realiteit is dat Diffusion models inherent problemen plat kopieëren.
Hoe een Diffusion Model traint is compleet anders dan hoe een mens leert. Echt, straks ga je mij nog vertellen dat NLP daadwerkelijk je neuronen herprogrammeert.
We spreken bij kunstmatige intelligentie wel degelijk over neuronen, in het bijzonder het McCulloch Pitts-neuron is, wat een wiskundig model is van een biologisch neuron. Een biologisch neuron is complexer dan een McCulloch Pitts-neuron, dat houdt ons niet tegen om beide neuronen te noemen.

Als je een netwerk op één stuk invoer traint, en dat netwerk voldoende capaciteit heeft voor die invoer, dan kun je de originele invoer terug terug krijgen. Bij twee ook nog. Ga je er miljoenen afbeeldingen in stoppen, dan vervalt die mogelijkheid, want al die miljoenen afbeeldingen beïnvloeden de gewichten en zullen dus ook de uitvoer beïnvloeden, er zijn in het netwerk simpelweg te weinig bits aan data om al die afbeeldingen te kunnen opslaan. In dat aspect werkt een neuraal netwerk net als biologische hersenen.

Dat een kunstmatig netwerk gelijk functioneert als biologische hersenen is niet mijn standpunt.
maar de realiteit is dat Diffusion models inherent problemen plat kopieëren.
Interessante paper, en stom dat het begraven is onder honderden andere comments, terwijl het immens relevant is voor de discussie.
Klopt, maar als je te dicht bij het origineel komt loop je het risico op plagiaat. Dat is m.i. hier ook het geval.
Plagiaat is het auteursschap opeisen op iets dat je niet gemaakt hebt, daar is hier geen sprake van. Het is eerder de discussie of het een afgeleid werk is (vergelijkbaar met een computerprogramma maken op basis van een bestaand programma).

Je hebt auteursrecht op creatieve keuzes, niet op het technische werk dat nodig is om iets te maken. Bij foto's wordt daar heel scherp op gelet, op een foto van een stofzuiger die Bol.com toont zit geen auteursrecht, omdat hij alleen het product technisch zo nauwkeurig mogelijk vastlegt.

Ik zie grote verschillen in creatieve keuzes tussen beide foto's: Jurk is anders, pose is anders, man is wel/niet aanwezig, gang is anders, lichten zijn anders, vloer is anders, meubilair is anders.

De overeenkomen in creatieve keuzes die ik zie zijn: Vrouw van rond de 30 in gele jurk leunt tegen muur in met hout beklede gang. Dat lijkt me een dunne basis om van een afgeleid werk te kunnen spreken, ik sluit niets uit, maar het lijkt me geen sterke zaak.
De overeenkomen in creatieve keuzes die ik zie zijn: Vrouw van rond de 30 in gele jurk leunt tegen muur in met hout beklede gang. Dat lijkt me een dunne basis om van een afgeleid werk te kunnen spreken, ik sluit niets uit, maar het lijkt me geen sterke zaak.
De creatieve keuzes zitten veel meer in de vorm van belichten, gebruik van lichtval, etc.. Dat is wat een stijl van een fotograaf zijn stijl maakt.

Het onderwerp is eigenlijk totaal irrelevant. Ik pik bij vrienden nog steeds feilloos hun stijl er uit (een werkt inmiddels voor Hollandse Hoogte, de ander als freelancer), ook al is het onderwerp radicaal anders en zijn ze intussen van analoog naar digitaal gewisseld. Regelmatig zie ik een foto van een van hen in een landelijke krant en herken ik gelijk hun stijl, en dan bevestigd de naamsvermelding het. De krant bepaald het onderwerp, maar hun stijl is wat een foto hun specifieke foto maakt, en waarom zij wel professionals zijn en ik niet.
Deze strijd is net zo zinloos als die van 20 jaar geleden tegen het illegaal kopieren van content. De wereld is veranderd. We zouden ons meer zorgen moeten maken over het gegeven dat Europa amper mee doet in de race om AI marktaandeel te pakken.
De strijd is zinloos, maar existentiëler: KI's maken auteurs letterlijk werkloos. Op alles wat een KI maakt zit geen auteursrecht, ik kan ermee doen wat ik wil. Even los van de kwestie een of KI net zo kundig is als een auteur, dat gaat auteurs geld kosten. Ik heb al menig website zien overstappen op gegenereerde afbeeldingen, en geef ze eens ongelijk: Het is goedkoop en makkelijk.
Op alles wat een KI maakt zit geen auteursrecht
Ik denk dat ik even het verdrag heb gemist danwel de rechterlijke uitspraak daarvoor waardoor dat een algemeen correcte uitspraak geworden is. Bedoel je hier de uitspraak van een rechter in een district in een land aan de andere kant van de oceaan misschien? Het Tweakers-artikel gaat over Nederland. Kan zijn dat ik het gemist heb maar ik meen niet dat wij hier wetgeving danwel jurisprudentie over hebben, noch dat de meeste andere landen dat hebben waardoor NL waarschijnlijk zou volgen

[Reactie gewijzigd door Lucb1e op 3 augustus 2024 15:46]

Belangrijk is dat voor auteursrecht een rechtspersoon nodig is, die de rechten heeft. Zolang een KI nog niet als een persoon erkend is, wordt het een erg moeilijk zaak om aan die KI auteursrechten toe te kennen. Net zoals apen geen auteur kunnen zijn.

Dus ondanks dat ik geen Nederlandse jurisprudentie ken, gaat dezelfde redenering in ons rechtssysteem feilloos op.
Ik weet niet of het zo vergelijkbaar is en direct opgaat. Niet dat ChatGPT opeens een rechtspersoon is en rechten en plichten krijgt; meer dat het auteursrecht de makers niet toestond het systeem beschermde werken te laten leren reproduceren. De aap in jouw voorbeeld heeft geen foto van iemand veranderd en dat als diens eigen werk proberen uit te geven, dus lijkt het mij een andere situatie

Goede kans dat je alsnog gelijk krijgt op het overkoepelende punt overigens (nl. dat de output van zo'n systeem publiek domein is tenzij je met extra voorwaarden akkoord bent gegaan), ik vind alleen dat er meer achter zit dan alleen kijken of het systeem welk de reproductie printte een rechtspersoon is
Op alles wat een KI maakt zit geen auteursrecht, ik kan ermee doen wat ik wil
Top, ik ga even een AI maken waar je een film als input geeft, en die een 'bijna identiek' kopietje als output heeft. Handig voor mijn streaming site!
Ik denk wel dat dat de toekomst is. In plaats van bijna identiek zal men de verschillen groot genoeg maken dat niemand een poot om op te staan heeft en fijne wedstrijd gewenst.
Op alles wat een KI maakt zit geen auteursrecht

Dat is niet waar, in Nederland en veel andere landen geldt nog steeds dat als een werk voldoende origineel is dat het nog steeds bescherming kan genieten.

Als ik AI gebruik om een comic voor de Volkskrant te maken en die comic gaat over een lieveheersbeestje met politieke partijlogo's i.p.v. stipjes, een geel bolhoedje, een blauwe wandelstok, rode sandalen en een groene zonnebril die politieke grapjes maakt dan is de kans heel erg groot dat de telegraaf niet ook zo'n comic mag gaan maken en plaatsen.

Het auteursrecht ligt dan bij mij (tenzij ik dit overdraag aan de krant) omdat mijn invoer als onderscheidend genoeg kan worden gezien om als uniek werk gezien te worden.

[Reactie gewijzigd door Groningerkoek op 4 augustus 2024 11:40]

Deze strijd is hartstikke belangrijk. Een van de belangrijkste redenen is m.i. dat echte kunstenaars/creatievelingen minder gaan verdienen en wellicht "uitsterven". Wat overblijft is eindeloos gerecyclede eenheidsworst, want een AI verzint niks nieuws.

Anders gezegd: wil je de komende decennia naar films 'in de stijl' van Kubrick/Tarantino/Anderson/etc blijven kijken of wil je ook wel eens nieuwe stijlen zien?
Destijds werd ook gezegd dat illegaal downloaden de filmindustrie om zeep zou helpen maar nu worden er meer films en series dan ooit gemaakt. Onder andere omdat streamen mogelijk werd door het internet en je dus makkelijker een markt kon vinden en productie kon opzetten. Zo bezien zou je dus ook kunnen betogen dat AI nieuwe manieren van creativiteit mogelijk zal maken voor degenen die met de nieuwe techniek om kunnen gaan.

[Reactie gewijzigd door SwaggyEggs op 3 augustus 2024 14:49]

Je moet elke technologische ontwikkeling ook afzonderlijk kunnen bekijken. Dat we vroeger geen negatieve impact zagen van een andere ontwikkeling is geen garantie. We kunnen hopen en proberen te sturen op de gewenste uitkomst, maar het is niet zo dat de angst voor het verloren gaan van creativiteit of menselijkheid helemaal ongegrond is.
Nee er worden niet meer films gemaakt omdat het publiek die ook zonder ervoor te betalen kan downloaden en bekijken. Daar hebben de acteurs en alle betrokkenen helemaal niets aan. Het is geen reclame.
Spreek je jezelf niet een klein beetje tegen? Je zegt dat AI niets nieuws verzint. Dan is het werk van kunstenaars dus juist héél relevant en waardevol.
Waarom is je strekking of-of, terwijl het en-en kan zijn?
Je zegt dat AI niets nieuws verzint. Dan is het werk van kunstenaars dus juist héél relevant en waardevol.
En het is ook maatschappelijk waardevol. Maar daar hebben de techbedrijven niks aan. Die hebben er, in ieder geval op de korte termijn, baat bij dat ze deze beelden kunnen gebruiken zelfs als ze expliciet geen toestemming hebben.

En hoe je het ook went of keert, als iemand expliciet zegt "gebruik dit niet voor commerciële doeleinden" (zoals ook het geval is bij veel werken waar het artikel van NOS over gaat) dan is het nogal schoftelijk om het wel te doen.
Als leek krijg ik eerder de indruk dat de NOS hiermee aantoont dat het auteursrecht fout zit. Iemand maakt een foto van een dame in een gele jurk en vervolgens mag niets of niemand meer een foto maken van een dame in een gele jurk? Dat zou direct betekenen dat geen enkel modehuis meer gele jurken kan maken, want hoe gaan ze die dan in hun marketing materiaal opnemen? Geldt natuurlijk ook voor de zwart-wit foto's, dat was zelfs de standaard voordat kleurenfotografie gemeengoed werd. De foto van Eddy van Wessel is een goed voorbeeld, hij is geboren na WW2, een periode waarin dit type foto's de standaard was.

Dat het geen exact kopie mag zijn en dat er geen claim mag zijn dat het van dezelfde fotograaf is, dat snap ik. Nu lijkt men te claimen dat iedere fotograaf en iedere AI automatisch wel ergens auteursrecht overtreedt
Het gaat volgens mij niet om het maken van deze foto's door AI. Het gaat erom dat die foto's gebruikt zijn om AI te trainen. Dat is een inbreuk op het auteursrecht. En dat dit is gedaan blijkt uit dat AI soortgelijke foto's kan reproduceren.
Wanneer ik kijk naar die foto’s, word ik ook getraind. Dat zou dan ook niet meer mogen? Auteurs lezen vaak veel, en schrijven dus ook. Dat zou dan evenmin meer mogen?

Ik krijg de indruk dat de discussie over AI de limieten van het auteursrecht aantoont. AI kan sneller leren dan wij mensen, toch leren wij de ik van andermans werk.
Tsja dat is de eeuwenoude discussie die steeds tot in den treuren wordt gevoerd. Jij mag wel een boek lezen, maar niet overschrijven. Waar de grens ligt tussen wat wel en niet mag is altijd discutabel.
Wat een verrassing :D

Hier staan al ruim 5.000 artiesten genoemd voor Stable Diffusion die je kunt gebruiken om een plaatje “in de stijl van” te kunnen maken. Erwin Olaf staat er niet tussen, maar de keuze is reuze.
De vraag is of op een “stijl” op zich auteursrechten gelden. Persoonlijk vind ik van niet, gezien je ook bij kunst door mensen gemaakt je vaak ziet dat er een bepaalde stijl is gekozen.
Een stijl zelf kan niet beschermd worden.

Maar dat is de vraag ook niet in deze kwestie.
Gouden tijden voor auteursrecht advocaten :+

Het is ook lastige materie: als auteur mag ik bepalen onder welke regels mensen mijn werk mogen bekijken en voor welke doeleinden men het mag gebruiken (behoudens een aantal uitzonderingen in de wet). De LLM (en andere generatieve AI) lijkt de impliciete regels te negeren.

Voorbeeld: een auteur maakt een artikel gratis beschikbaar met de expliciete afspraak “lees mijn artikel gratis, zodat je iets nieuws leert”, en de impliciete afspraak “kijk naar de reclame er naast, geef je e-mail adres, en onthou mij in de toekomst als je iets wilt kopen”. OpenAI (en andere LLM) doen iets heel anders: zij trainen hun netwerk op de content (dat was nooit onderdeel van de afspraak) en maken de content (en alle impliciete afspraken) overbodig.

De huidige strategie van OpenAI lijkt te zijn: “maak afspraken met grote/rijke content uitgeverijen die je kunnen aanklagen”. Dat lijkt me niet houdbaar.
Die impliciete afspraak is gebakken lucht natuurlijk, dat lijkt mij auteursrechtelijk totaal irrelevant. Dat is hetzelfde als naar een liedje luisteren, kunstobject of iets dergelijks te kijken en er vervolgens geen commerciële actie aan verbinden. Dat is toch prima? Ik zie weinig verschil tussen artiesten, schrijvers, kunstenaars, etc. die iets maken door inspiratie van anderen en generatieve AI. Dat AI dat veel sneller kan dan wij mag toch hopelijk (auteursrechtelijk) van geen enkele invloed zijn.
Ik als auteur bepaal de regels (binnen grenzen van de wet). Zo is het auteursrecht. Ik mag zeggen dat je het wél mag kopiëren (of niet), en of je het mag aanpassen (of niet), etc

Maar de situatie “een algoritme leest het, slaat er een representatie van op in zijn netwerk, en laat anderen afgeleiden maken” is niet voorzien door de wet.

Impliciet is dat overduidelijk niet de bedoeling geweest van een auteur. Dat weet OpenAI óók wel, getuige de deals die ze nu maken met grote uitgeverijen
lijkt de impliciete regels te negeren
Welke impliciete regels zijn dat en zijn die rechtsgeldig of alleen van een specifieke website of werkgever?
Bovendien gaat het hier over de stijl van een werk en niet over het werk zelf. Een kopie of elementen die 1 op 1 zonder toestemming gebruikt worden zijn overduidelijk inbreuk.
Maar er is normaal gesproken (heel begrijpelijk) geen copyright mogelijk voor afbeeldingen van vrouwen in een gele jurk of het gebruik van meerdere tinten bruin of schemerlampen aan de muur net zoals er geen copyright kan zijn voor meerdere woorden die op elkaar volgen in een tekst of een akkoordenschema in muziek.
Dat AI de stijlkenmerken leert en toe kan passen is niet anders dan wanneer je zelf stijlkenmerken herkent en die reproduceert in eigen werk. Er is pas sprake van copyright inbreuk wanneer iemand bepaald dat er teveel exact overgenomen wordt van het origineel.

Dat Dick Bruna genoemd wordt is dan ook sneu want iedereen die ooit een konijn heeft getekend zal iets als Nijntje (Miffy) getekend hebben. De vraag is dan in hoeverre de stijl gekopieerd wordt, iets nog net 'anders' genoeg is om geen inbreuk te maken. En hoe moeilijk Dick Bruna's rechthebbenden daar over doen. Want geld.

Het enige dat hier interessant is is in hoeverre de LLM kopieën heeft van het originele werk, of het daar toestemming voor heeft en hoe dit anders is dan wanneer ik persoonlijk een werk opzoek in een zoekmachine, foto's er lokaal van opsla en die gebruik voor studie, dat gebruik voor mijn eigen werk en daar geld mee verdien.

[Reactie gewijzigd door centr1no op 3 augustus 2024 14:45]

Met de impliciete regels bedoelde ik de voorwaarden waaronder de auteur (fotograaf etc) het werk beschikbaar maakt. “Jij mag mijn werk zien als”.
Er is een reden dat mensen een werk maken: geld, passie, bekendheid, etc. Een hoop van die redenen verdwijnen nu een machine zonder rancune eindeloos variaties kan uitspugen nadat je 1 bekend werk hebt gemaakt. Daarvoor was de publicatie van je werk niet bedoelt.

Daarnaast is de vraag, wat betekent het als je een algoritme vraagt een werk “in de stijl van” te maken. Ik vindt die term misleidend. Want een neuraal netwerk heeft niet écht begrip van “stijl” of “foto” of “auteursrecht”. Het is een groot statistisch model, bijgesteld obv voorbeelden (“getraind”).
Zonder de juiste instellingen zou het model gewoon letter-voor-letter auteursrechtelijk werk uitspugen als je daarom vraagt. Het zit er wel “in”.
Natuurlijk zit er een hoop 'in'. Daarom is het een AI en geen kopieermachine.
Om overduidelijke redenen is het niet de bedoeling om kopieën te maken. Aan de andere kant lijken de modellen wel heel erg opgezet om vooral variaties van dingen te maken..

Ik begrijp de problematiek heel goed. Maar die staat op sommige vlakken lijnrecht tegenover wat we nu aan regels hebben, omdat die nooit zijn opgesteld met het idee dat AI een bekende kunstenaar, artiest, schrijver of wat voor creatieveling dan ook zou kunnen vervangen. En in een heel korte tijd heeft de praktijk de theorie ingehaald.
Het is een simpel feit dat originaliteit en stijl sowieso al last hebben van het gegeven dat er al enorm veel is gemaakt. En het is logisch dat als we AI z'n gang laten gaan met het oneindig uit laten spugen van alles wat normaal alleen menselijke, creatieve uitingen zouden zijn dat heel vlug een alleen maar groter probleem wordt. Omdat geen enkel mens straks nog iets kan verzinnen dat nog niet door een nader mens of door AI is gedaan.
Tegelijkertijd is het ook mogelijk om AI te trainen op je eigen werk en stijl en er daarvan onmogelijke aantallen van te luiten spuien.

De conclusie is dat er heel rap hele strakke wetgeving voor moet komen.
> Omdat geen enkel mens straks nog iets kan verzinnen dat nog niet door een nader mens of door AI is gedaan.

Dat klopt, maar is ook niet het punt van “echte kunst”. Ik kan in vijf minuten meer songteksten uit laten spugen dan Nick Cave ooit heeft geschreven, maar tegelijkertijd is dat zinloos: want hij zingt over problemen die hij zelf heeft ervaren - en dat maakt de songtekst van één liedje meer betekenisvol dan al die honderden ai-gegenereerde teksten. Het is een gesprek tussen zanger en luisteraar, een gesprek wat tijd en ruimte overspant, maar toch: een gesprek tussen mensen.

Dit is ook een reden waarom men de mona Lisa bekijkt in Parijs en niet genoegen neemt met een poster (niet de enige reden).

Dan klinkt “stijl kopiëren” niet zo erg als men denkt, maar het is potentieel enorm problematisch. Je kunt nu oneindig veel “werk in de stijl van” maken - al op basis van 1 voorbeeld. Ja, dat werk is betekenisloos, maar aan de andere kant voor veel mensen goed genoeg en daardoor gevaarlijk voor het voortbestaan van de kunstenaar. Die ziet zijn inkomsten verdampen en switcht loopbaan naar accountant. Onkruid wat het bloemenperk overspoelt. Vergelijkbaar met het Napster-tijdperk.

Zoals je zei: theorie is ingehaald door de praktijk. Vroeger was het “not done” (en niet praktisch) als artiest om op professionele wijze exact “in de stijl van een ander” muziek te publiceren - en de kosten wogen niet op tegen de baten. Dat zijn (o.a.) de impliciete regels waar ik het eerder over had.

> De conclusie is dat er heel rap hele strakke wetgeving voor moet komen.

Exactemundo!!
Geïnspireerd door is heel wat anders dan overgenomen van. Maar dat is wat veel mensen helaas door elkaar halen en vervolgens met de auteursrecht gaan zwaaien alsof ze er verstand van hebben.

Je moet overduidelijk bewijs van exact overnemen hebben, dat is hier tot heden niet.

Hier lijkt meer spraken van inspiratie.
Je bedoelt te zeggen dat het AI model inspiratie heeft verkregen door het bekijken van afbeeldingen van deze fotografen?
Iedereen kent de voor- en nadelen van internet. Voordeel is dat je snel een groot bereik kunt verkrijgen, veel aandacht, ruime publiciteit, een breed publiek.

Nadeel is dat dan ook werkelijk IEDEREEN er bij kan als je je site niet achter een betaalmuur plaatst.

Kies je voor de gratis publiciteit via internet, dan verspeel je naar mijn mening daarmee gewoon je recht op auteursrecht etc. Je kunt niet van twee walletjes eten. Zet je iets op internet, dan is het van de wereld en niet meer van jou. Wil je dat niet, dan publiceer je het toch niet op internet?
Wel de lusten niet de lasten...
De internetliefde moet wel van twee kanten komen...

En ja, ik publiceer ook, gratis en voor niks, ik schrijf gratis en voor niks en voor de rest bescherm ik mijn intellectueel eigendom gewoon met de middelen die ons daarvoor ten dienste staan: wachtwoorden, registratiecodes, vette copyright meldingen...
Poeh, dat is nogal een uitspraak. Iets gratis ter beschikking stellen zou al je rechten tegenover andere (commericele) partijen beëindigen.... klinkt bijna als je auto niet op slot zetten op een openbare parkeerplaats en dan automatisch toestaan dat een ander die dan mag verhuren zonder jou toestemming.
Lijkt me een wat ver gezochte analogie, maar inderdaad: iets op internet publiceren staat gelijk met een open auto met een bordje 'Gratis mee te nemen' erop...

Op dit item kan niet meer gereageerd worden.