Apple, Anthropic en Nvidia gebruikten video's, onder meer van Tweakers, voor AI

Veel bedrijven, waaronder Anthropic, Nvidia en Apple, hebben ongevraagd een dataset met ondertitels van YouTube-video's gebruikt voor het trainen van hun AI-modellen. Daaronder zijn bekende kanalen als MrBeast, PewDiePie, MKBHD en ook een video van Tweakers.

Het gaat in totaal om ondertitels van ruim 173.000 video's, schrijft Proofnews. Daaronder zijn video's van enkele van de bekendste youtubers zoals MrBeast en MKBHD, maar ook BBC, The New York Times, Last Week Tonight With John Oliver en universiteiten als MIT en Harvard. Proofnews heeft een tool online gezet om video's te vinden in de dataset en daaruit blijkt dat een video over CERN van Tweakers ook in de dataset zit. Er lijkt verder geen tot weinig Nederlandstalig materiaal in de dataset te zitten.

Die dataset is The Pile en baseert zich op de ondertitels van de YouTube-video's in diverse talen. De dataset is van het bedrijf EleutherAI en die wil niet reageren op de vondst. Ook bedrijven als Nvidia en Apple reageren niet op het nieuws. Anthropic bevestigt in een reactie de dataset inderdaad gebruikt te hebben voor zijn AI-model Claude en benadrukt dat het gaat om een klein deel van de totale trainingsdata. Het gebruik van ondertitels voor trainen van AI-modellen lijkt op het oog tegen de voorwaarden van YouTube in te gaan.

Door Arnoud Wokke

Redacteur Tweakers

16-07-2024 • 20:07

111

Reacties (111)

111
105
50
3
0
35
Wijzig sortering
Tja, aan de andere kant: het is wel helemaal vrij toegankelijke data op het internet.

Ik begrijp dat er bedrijven zullen zijn die zoiets hebben van: “Hey, dit is onze content, dus betaal ons maar geld als je die wil gebruiken om je AI tools te trainen…” Maar aan de andere kant: het is dus wel vrij toegankelijk en is het überhaupt wel vereist om onderscheid te maken tussen een ‘echt mens’ die zo’n video (kosteloos!) benaderd of een computer?

Overigens speuren zoekmachine’s ook al jaren het web af en verzamelen allerlei informatie die (openbaar!) toegankelijk is.

Vergelijk het met de fysieke wereld: bij iemand in z’n woning gluren is ongewenst en niet toegestaan, maar buiten op een terras zitten en kijken wat er allemaal in het openbaar op straat gebeurt niet. ;)
Ja, er zit een verschil tussen ik, als mens, die de content bekijkt en een bot die gewoon voor commerciele doeleinden komt scrapen.

Op het einde van de dag valt heel veel van wat je op het internet vindt gewoon onder de bescherming van copyright, tenzij expliciet anders wordt aangegeven. En dan is het aan de auteur van het werk om aan te geven wat voor gebruik wel en niet is toegestaan.

En jarenlang is het al zo dat als je een commerciele toepassing hebt, dat je netjes komt aankloppen bij de rechthebbende en komt vragen of je een licentie kunt krijgen voor het gebruik dat je voor ogen hebt. Zowel vele kleine content creaters als de grootste mediabedrijven doen dat netjes zoals het hoort.

En nu krijg je ineens die AI bots waarbij men een taalmodel wenst te trainen en zou alles ineens weer vogelvrij verklaard moeten worden? Ik dacht het niet. Want waar ga je de grens trekken? En wat als je zo een LLM een nieuw werk laat maken dat wel verdacht veel lijkt weg te hebben van een bekende website of creator? Wiens werk is het dan ineens?
Wat valt er precies onder de bescherming van copyright dan? Als we even gaan filosoferen: wat is het verschil tussen een student die leert van een video op YouTube en een computer die leert van een video op YouTube? Mag een computer niet bekend worden met, bijvoorbeeld, een taal, maar een mens wel?

Met daarbij in het achterhoofd dat video’s op YouTube nadrukkelijk zonder beperkingen toegankelijk is. Het gaat hier niet om filmpjes die pas toegankelijk zijn nadat je een account hebt aangemaakt bijvoorbeeld.

Ik snap verder wel wat je bedoelt hoor: een commercieel bedrijf verzamelt data met als doel uiteindelijk een product te maken, met behulp van die data, waarmee geld kan worden verdiend. Ik vind het dan ook een hele logische reactie van jou om te zeggen: betaal maar voor een licentie.

Tegelijkertijd vind ik ook dat je je kan afvragen of dat ook geldt voor data die ZO vrij toegankelijk is. Als ik in het openbare leven op straat rondloop, dan mag ik toch ook gewoon vrij rondlopen en rondkijken? En niet alleen ik als privé persoon, maar ook bedrijven: denk maar eens aan Google Streetview die alles en iedereen op de openbare weg heeft gefotografeerd.

Als YouTube zo graag wil dat niet alles en iedereen de filmpjes op hun website kan bekijken, dan kunnen ze ervoor kiezen om eerst iedereen te laten inloggen met een account. Dan heb je een toegangscontrole en is er per definitie niet meer sprake van vrij toegankelijke informatie, maar doelgericht het verlenen van toegang aan mensen die filmpjes willen kijken - en dus niet aan bedrijven of computers.

[Reactie gewijzigd door Uniciteit op 22 juli 2024 13:50]

Wat valt er precies onder de bescherming van copyright dan?
Alle creatieve werken van het humaan intellect. In principe hebben alle niet-banale teksten, visuele en auditieve werken die je maar kan bedenken, bij uitstek wettelijke bescherming in de vorm van auteursrecht. Je hoeft het daar niet mee eens te zijn, maar het is wel zo.
Als we even gaan filosoferen: wat is het verschil tussen een student die leert van een video op YouTube en een computer die leert van een video op YouTube?
Het verschil zit hem in de valse premise: de computer leert niet in dit geval. Machine learning is een statistisch algoritme dat heel veel data schraapt en dit met een extreem agressieve lossy compressie in een matrix verwerkt. Het is uiteraard iets complexer, maar er is duidelijk geen sprake van leren. Er is sprake van reproductie en redistributie, factoren die volgens het copyright bescherm zijn.

Als je een eerlijke vergelijking wil, zou je het hebben over echte (general) AI, dat echt kan leren en begrijpen, en geen datasets nodig heeft om op te trainen. Zoals een mens zou deze na het zien van een afbeelding van een banaan in een schaal geïnspireerd kunnen raken om een soortgelijk concept te bedenken, maar dan net iets anders, bijvoorbeeld een mango in een kom. Huidige "AI" kan dit niet.
Met daarbij in het achterhoofd dat video’s op YouTube nadrukkelijk zonder beperkingen toegankelijk is.
Vals. Auteursrecht is en blijft aanwezig. De voorwaarden van YouTube zelf maken dit aanvullend ook duidelijk. Je mag NIET zomaar video's op YouTube op welke manier gebruiken zoals je zelf wil. Er zijn wettelijke restricties, de meeste hiervan behorend tot copyright.
Als ik in het openbare leven op straat rondloop, dan mag ik toch ook gewoon vrij rondlopen en rondkijken?
Ja hoor. Kijken mag. Reproduceren mag niet zomaar. Probeer het maar, ga maar eens merkkleding namaken en verkopen, en zie hoe lang het duurt voordat je een rechtzaak aan je broek hebt. Nogmaals, we hebben het niet over kijken, maar over gebruiken. Dat zijn totaal verschillende dingen.
denk maar eens aan Google Streetview die alles en iedereen op de openbare weg heeft gefotografeerd.
Google moet zich ook aan wetgeving houden wat dat betreft en moet bepaalde dingen dan ook verwijderen of blurren. We dwalen echter af. Terug naar auteursrecht.
Als YouTube zo graag wil dat niet alles en iedereen de filmpjes op hun website kan bekijken, dan kunnen ze ervoor kiezen om eerst iedereen te laten inloggen met een account.
Irrelevant op twee manieren. Ten eerste ligt de verantwoordelijkheid niet bij YouTube. Ten tweede lost dit het probleem op geen enkele manier op en krijg je alleen maar een extra hindernis voor legitieme gebruikers.
en is er per definitie niet meer sprake van vrij toegankelijke informatie
Dat was het bij uitstek al niet. Bovendien blijft dezelfde informatie toegankelijk, je moet alleen een extra stap zetten. We komen dan uit bij de discussie wat "vrij toegankelijk" betekent, maar dat is volstrekt irrelevant aangezien deze discussie juist gaat over wat je wel en niet mag doen met informatie beschikbaar op het internet (in welke vorm dan ook).

Wikipedia: Auteursrecht
Het verschil zit hem in de valse premise: de computer leert niet in dit geval. Machine learning is een statistisch algoritme dat heel veel data schraapt en dit met een extreem agressieve lossy compressie in een matrix verwerkt.
Hoe denk je dat ons brein werkt? Het brein is ook ‘maar’ een hoop neuronen die met behoorlijke compressie en een hoop filters informatie opslaan en verwerken.

Natuurlijk, de structuur van een LLM en het brein is niet hetzelfde. Maar er bestaat een duidelijke analogie tussen informatieverwerking van het brein en generatieve transformers. Mensen die heel stellig het tegenovergestelde beweren die doen alsof we meer weten van taalverwerving dan we daadwerkelijk weten en negeren de duidelijke parallellen.

Ook mensen hebben een sterk statistisch leervermogen. Zeker baby’s zijn eigenlijk gewoon patroonherkenningsmachientjes. Er is nog discussie over in welke mate we ook andere leervermogens hebben en toepassen bij taalverwerving, maar er zijn stapels aan onderzoek die laten zien dat we in ieder geval ook statistische methodes toepassen.

Begrijp me niet verkeerd: ik ben ook tegen het webscrapen voor AI’s. Maar je moet de verschillen tussen het menselijk leervermogen en het leervermogen van LLM’s in de trainingsfase niet overdrijven.

Edit: Even ter opheldering. Ik beweer uiteraard niet dat mensen en LLM’s hetzelfde zijn. LLM’s hebben geen prefrontale cortex bijvoorbeeld (en geen emotionele leefwereld) om maar een van de tig verschillen te noemen. Mijn reactie gaat enkel over de parallellen tussen het talige leervermogen van mensen en dat van LLM’s (in de trainingsfase).

Ik ben zelf taalkundige, met een achtergrond in neurolinguïstiek en theoretische syntaxis, en geef colleges op de universiteit.

[Reactie gewijzigd door MKoot op 22 juli 2024 13:50]

Hoe denk je dat ons brein werkt?
Op een volstrekt andere manier dan een algoritme dat miljoenen tot miljarden afbeeldingen nodig heeft om associaties op te slaan in de vorm van een complexe matrix.
er bestaat een duidelijke analogie
Die analogie is gebaseerd op een foutieve aanname over AI, namelijk dat het intelligent is. Dat is het niet. Het is een computerprogramma dat net even wat meer informatie kan verwerken. Het is geen sentient wezen dat zelf kan nadenken en handelen.

Bovendien draait de hele discussie niet om de overeenkomsten en verschillen tussen mens en "AI", maar om het al of niet inbreuk maken op andermans werk door dit stelselmatig te vergaren, verwerken en reproduceren. En dat is waarom artiesten terecht zo'n ongelovelijke hekel hebben aan die LLM's en diens gebruikers.
Ik snap wat je zegt, maar over loop van tijd zullen deze grenzen vervagen. Ook al werkt AI en ons menselijk brein nog steeds anders wat betreft "leren", verwacht ik wel dat er meer stappen te worden gezet om steeds meer te convergeren naar hoe/wat wij kunnen.

Maar het belangrijkste verschil zal blijven dat wij mensen informatie anders filteren, ons geheugen 'prunen', en daarmee niet 100% perfect kunnen opslaan. Weinig mensen claimen een fotografisch geheugen te hebben, en het is ook vaak gebleken dat ons brein zichzelf goed voor de gek kan houden dat we teksten/feiten helemaal correct kunnen memoriseren. Dat is zelden het geval.

Maar je voorbeeld over die banaan op een schaal: er wordt vaak gegrapt dat creativiteit gelijk staan aan je bronnen/inspiratie verbergen. Bijvoorbeeld: als een andere kunstenaar een aubergine op een schaal legt (want die is soms ook krom), is dat een geslaagde parodie of een flauwe kopie? Wat als je die banaan nu in een pan legt? Dat kan claustrophobie uitbeelden. Of op een spiegel? Je ziet dan meerdere perspectieven van de banaan tegelijk vanuit 1 positie. Of in zand? Je kan dan aan de contouren in het zand zien waar de banaan druk legt op z'n ondergrond.
Enzovoort. Generaliseer een thema, gooi er wat willekeur overheen en je bent "creatief" in het kunstelijk begrip van het woord. Dat kan een AI ook. Of een AI altijd inspirende kunst gaat opleveren betwijfel ik; maar het is niet zo dat elke creatie van een mens altijd een meesterwerk zal zijn. Echter dat is meer een sampling probleem, wij mensen moeten "nadenken" om groot deel van onze gedachten af te wijzen voordat we die uitvoeren (gelukkig!), terwijl een neuraal netwerk over algemeen op lineaire wijze input => output vaststelt.

Dat een AI dan wel dingen 100% perfect kan memoriseren, maakt het wel enorm lastig, vooral als dat juist een van zijn sterkste punten zijn. Ironisch gezien kunnen velen van ons songteksten wel maar al te goed onthouden.. maarja als je die op zo'n mediaplatform gaat nazingen ben je ook al vaak in overtreding. En ook dat is niet zonder controverse.

Filosofisch gezien kan ik dus wel vinden in de reactie van @Uniciteit. Op gegeven moment zal een computer programma als een intelligente autonoom 'wezen' kunnen worden herkend. Daar zijn we nu nog niet. Vooral in dit geval waar er commercieel belang bij zit om data te verkopen en er een andere entiteit is die juridisch verantwoordelijk blijft. Dan maakt het voor de wet niet veel uit hoe iets technisch is gerealiseerd, de overtreding blijft bestaan.

[Reactie gewijzigd door Hans1990 op 22 juli 2024 13:50]

Enzovoort. Generaliseer een thema, gooi er wat willekeur overheen en je bent "creatief" in het kunstelijk begrip van het woord. Dat kan een AI ook. Of een AI altijd inspirende kunst gaat opleveren betwijfel ik;
Creativiteit is niet een ander woord voor willekeurig. Een kunstenaar gebruikt die nieuwe combinatie van elementen om iets te communiceren. Een AI kan via statistiek tot eenzelfde combinatie komen, maar dat betekent niet dat de AI een of ander dieper beeld of boodschap aan je over probeert te dragen. Als kijker kun je er misschien wel iets diepers in "zien", maar dan zit de creativiteit toch echt in jouw hoofd.
Op gegeven moment zal een computer programma als een intelligente autonoom 'wezen' kunnen worden herkend.
Op een gegeven moment zal dat wel een keer gebeuren en dan wordt het bovenstaande verhaal misschien anders. Echter, ondanks alle opgeklopte hype en gebakken lucht: we zijn nog mijlenver daar vandaan.
Eens, deze nuance kwam niet helemaal goed in mijn reactie terug. Een werk bevat vaak wel een rode draad, anders kan je letterlijk alles als compositie bij elkaar zetten, een broodje aap verhaal bij zetten en vervolgens claimen creatief kunstenaar te zijn.

En ook 1 ding wijzigen (zoals ik net voor deed) is te oppervlakkig. Een kunstenaar kan ook kiezen hoe diepgaand/toegankelijk een kunstwerk kan zijn. Soms kan het dingen afbeelden vanuit een bepaald perspectief met tikkeltje provocatie, en hoeven het niet eens harde feiten te zijn, enzovoort. En dan maar zien hoe je publiek alles weer uit verband trekt :+

Maar goed, zoals ik mijn vorige reactie begon, de grenzen zullen steeds verder vervagen. Of men gebruikt dat graag om zich achter te verstoppen. Want op dit moment zijn de AI's niet veel meer dan een paar matrix vermenigvuldigingen waar wij waarde aan toekennen.
Vanuit het perspectief van een "rationele" machine, is creativiteit WEL altijd een afwijking van conventie. Het komt neer op een error maken, strictly speaking. Dat sommige "errors" verbeteringen zijn doet niets af aan het objectieve feit dat het een error is.
Daar gaan we weer, naar van Tweakers mag ik niets slechts zeggen over o.a. Nvidia. Dus laat ik het maar even hierbij ... ..
....? reactie op verkeerde post ...?
Alle creatieve werken van het humaan intellect. In principe hebben alle niet-banale teksten, visuele en auditieve werken die je maar kan bedenken, bij uitstek wettelijke bescherming in de vorm van auteursrecht. Je hoeft het daar niet mee eens te zijn, maar het is wel zo.
Auteursrecht is het recht op reproductie, maar niet het recht om te bepalen hoe het werk gebruik wordt. Misschien vind de schrijver het niet leuk dat je zijn boek onder een tafelpoot schuift om de tafel recht te krijgen, maar hij kan dat niet verbieden.

Onder het auteursrecht is er in principe alleen een claim als de AI (delen van) de tekst letterlijk reproduceert.
Het auteursrecht omschrijft wel degelijk een aantal beperkingen die de artiest op mag leggen, en stelt de artiest ook in staat om bijkomende restricties toe te passen dan hetgeen expliciet in de wet vermeld.

Een aantal wettelijk vastgelegde beschermingen:

- Reproductie

- Redistributie

- Attributie (vooral deze is belangrijk, daar "AI" nooit aan bronvermelding doen)

- Tentoonstelling

- Wijziging

- Commercialisatie

Pas zodra de artiest deze beschermingen vrijgeeft (bv door middel van een CC-licentie) kan een ander met het werk doen wat hij of zij wil.
Onder het auteursrecht is er in principe alleen een claim als de AI (delen van) de tekst letterlijk reproduceert.
Het auteursrecht geldt niet alleen voor teksten, maar dat terzijde. Ook als de AI geen exacte matches reproduceert pleegt het nog steeds inbreuk, daar het in de meeste gevallen geen toestemming heeft tot de hierboven genoemde factoren, met name wat betreft attributie. Nog nooit hebben die bedrijven aan bronvermelding gedaan wat betreft de oorspronkelijke werken die gebruikt zijn bij de productie van de gegenereerde werken. Het is, feitelijk, plagiaat op ongekende schaal.
...en dit met een extreem agressieve lossy compressie in een matrix verwerkt. Het is uiteraard iets complexer, maar er is duidelijk geen sprake van leren.
Is dat niet precies wat mensen ook doen? Data zeer lossy (en soms lossless) opslaan? Wat is het verschil in werking tussen een menselijk neuraal netwerk (de hersenen), en een AI model dat uit kunstmatige neuronen bestaat? Dit valt wel degelijk onder (machine-)learning.
Als je een eerlijke vergelijking wil, zou je het hebben over echte (general) AI, dat echt kan leren en begrijpen, en geen datasets nodig heeft om op te trainen.
Elke vorm van intelligentie heeft een dataset nodig, ook mensen. Je noemt het alleen misschien anders, maar in je hersenen zit een flinke data-set hoor. Zonder te leren, opvoeding, en input van je zintuigen, kan je niet veel als mens!
Ja hoor. Kijken mag. Reproduceren mag niet zomaar.
Een mens kan iets reproduceren wat hij ziet, dat mag niet.
Een mens kan zich laten inspireren door iets wat hij ziet, dat mag wel.

Een AI kan iets reproduceren wat 'hij' ziet, dat mag niet.
Een AI kan zich laten inspireren door iets wat 'hij' ziet........ waarom zou dit niet mogen?

Het blijft een tool, die door de mens gebruikt kan worden om de wet te overtreden, net zoals Photoshop of notepad gebruikt kan worden om auteursrecht te schenen.

Als het écht zo zwart-wit is als je hier schrijft, dan zouden er toch al tig rechtszaken geweest zijn, die allemaal door deze grote tech-bedrijven verloren zouden moeten zijn. Waarom is dat niet gebeurd? Is dat omdat het mogelijk toch wel iets complexer is dan 'standaard' copy-right schending?
Nee, dat is niet precies wat mensen ook doen. Wij slaan informatie ook wel op een lossy manier op, maar dat doen wij niet middels het vergaren van miljoenen tot miljarden instanties van een bepaald object. Bovendien, al zouden we dat wel doen, zijn we alsnog gebonden aan het auteursrecht en mogen we niet zomaar reproducties maken.

De term "learning" is misleidend in de zin dat een mens begrip kan hebben over de informatie die hij of zij opgeslagen heeft, terwijl een LLM dat totaal niet kan. Er vindt geen gedachtegang plaats. Geen creativiteit. Enkel input en output op een volledig deterministische manier zonder enig besef, zoals we van computers gewend zijn. Derhalve is het onjuist om "AI" (eveneens misleidend omdat het totaal niet intelligent is) te vermenselijken en hier bepaalde rechten uit te ontlenen. Ook zou andersom hetzelfde gelden: als je wilt stellen dat AI en mensen niet zo verschillend zijn, moet je ook argumenteren dat AI zich dan maar netjes aan de wetgeving moet houden en niet plagiaat plegen op industriële schaal.
Als het écht zo zwart-wit is als je hier schrijft, dan zouden er toch al tig rechtszaken geweest zijn
Dat is het. Er zijn al rechtzaken aan de gang.
Waarom is dat niet gebeurd?
Deze rechtzaken zijn nog gaande. Daarom.
Is dat omdat het mogelijk toch wel iets complexer is dan 'standaard' copy-right schending?
Uiteraard. De bedrijven die stelselmatig plagiaat plegen op industriële schaal schuilen zich achter vrij sterke drogredenen om er zo lang mogelijk profijt van te hebben ten koste van echte artiesten wiens werken gebruikt zijn zonder hun toestemming. Dit is een ingecalculeerd risico waarvoor de eventuele consequenties (bv boete en niet meer zomaar mogen jatten) niet opwegen tegen de winsten die al gemaakt zijn.
Dat is het. Er zijn al rechtzaken aan de gang.
Rechtszaken gaan niet enkel en alleen over zaken die zwart-wit zijn. En het gebeurt ook nog wel eens dat de klagende partij verliest. Dus dit is geen argument
Deze rechtzaken zijn nog gaande. Daarom.
Hoe kan je zo zeker zijn van je zaak als de rechtszaken nog gaande zijn?

Arnoud, de auteur van dit artikel zei over deze zaak:
Kortom: er zijn redenen te verzinnen waarom OpenAI de rechtszaak zou kunnen winnen en het gebruik van materiaal onder fair use zou vallen en er zijn redenen te verzinnen waarom The New York Times zou kunnen winnen.
Mason Kortz, 'Lecturer on Law' van Harvard zegt hierover:
Because of that, and because of the uncertainty of some of the legal claims — you put 10 intellectual property lawyers in a room and you will get 11 different opinions on this — both sides are going to be facing uncertainty.
Zij zeggen toch echt wel dat het ingewikkelder is dan: "Dat is het."

Er is vast een kans dat je meer weet van wetgeving in de VS, maar je gebrek aan argumenten geeft mij niet echt die indruk. Ik zeg niet dat OpenAI de rechtszaak gaat winnen, enkel dat het niet zo simpel en zwart-wit is.

Met het eerste gedeelte van je reactie ben ik het ook niet eens, maar dat zou een lange discussie worden denk ik :), en is een beetje off-topic
maar alleen al het feit dat dit op grote schaal gebeurt - door soms grote bedrijven met gigantische juridische slagkracht
Dit is geen argument. Dat grote bedrijven het goed kunnen praten maakt het zeer zeker niet juridisch (en al helemaal niet ethisch) goed.

Dat een website technisch gezien openbaar is maakt niet dat het rippen van diens content voor commerciele doelen opeens mag. Websites hebben niet als doel om AI modellen te verrijken, maar om menselijke bezoekers te dienen.

Je hele punt leunt op dat AI menselijke kenmerken heeft en daardoor ook soort van die rechten/ethische status zou mogen hebben. Maar een AI is geen persoon, het is een machine, en bedrijven stelen data om in die machine te stoppen. Het is echt zo simpel.
Bedankt voor je reactie. Maar zoals aangegeven: het is niet zwart-wit en wat je hier beschrijft is jouw mening en niet een gegeven feit. Dat doe ik natuurlijk overigens ook.

(Ik haalde het voorbeeld van de grote bedrijven overigens niet aan omdat zij “het goed zouden praten”. Ik haal dat aan om te illustreren dat hun juridische afdelingen - die veel dichter bij analyse op basis van feitelijke wetgeving i.p.v. meningen zitten - blijkbaar concluderen dat dit wettelijk en juridisch allemaal wel mag).
Er is wel een behoorlijk sterk argument in de vorm van een vraag waarbij meteen duidelijk wordt dat LLM's aan auteursrechtenschending op industriële schaal doen:

Zijn gegeneerde werken voorzien van een bronvermelding?
Microsoft Copilot en ChatGPT verwijst in ieder geval direct door naar bronnen.
Microsoft Copilot en ChatGPT verwijst in ieder geval direct door naar bronnen.
Dat is gewoonweg niet waar. Je kunt ChatGPT van alles vragen, en het geeft je tekst terug. Er wordt dan niet bij gezegd, "Oh trouwens, dit respons is een amalgaam van al deze bronnen:"
Ah, je vraag was mij niet helder. Hold your horses, want het is wel waar! Maar niet op de manier zoals jij bedoelt. Jij wilt op elk stukje tekst dat je krijgt blijkbaar een bron hebben. Dat gaat niet lukken met zulke modellen, want zo werken die neural networks niet. Net zoals dat ik voor het schrijven van deze zinnen geen bron heb en jij voor jouw reactie niet. Dat heeft niemand en een LLM dus ook niet, want zo zit taal niet in elkaar - en toch zijn er een hoop bronnen in jouw hele leven geweest (school, familie, leefomgeving, brieven, tv shows, kranten, artikelen op Tweakers, etc.) die eigenlijk volledig bepalen hoe jouw zinsstructuur is, welke volgorde jij aanhaalt in een opsomming en wat jij kan vertellen over LLM’s heb je ook ergens gelezen of gehoord ;)

Als jij echter concreet info wilt hebben, dan geven ChatGPT en Copilot je echter wel bronnen. Op de vraag “Wat is de nieuwste iPad?” worden er bijvoorbeeld 4 bronnen aangehaald. Op de vraag “Hoe is het weer in Londen?” worden er direct 2 bronnen aangehaald.

Op de vraag “Hoe gaat het?” krijg ik, naar mijn mening logischerwijs, geen bron.

Het is dus gewoonweg wel waar. ;) ;)
Jij wilt op elk stukje tekst dat je krijgt blijkbaar een bron hebben. Dat gaat niet lukken met zulke modellen
En dat is glashard bewijs dat er auteursrechtenschending plaatsvindt. Van ELK beschermd werk MOET je aan bronvermelding doen als je dit elders gebruikt op welke manier dan ook, tenzij de auteur anders aangeeft. Dit is wettelijk vastgelegd. Het is duidelijk dat jij dit niet wil accepteren maar dat verandert de wetgeving niet.
Als jij echter concreet info wilt hebben, dan geven ChatGPT en Copilot je echter wel bronnen.
Deze geven niet de bronnen waarvandaan ze de informatie gehaald hebben. Ook geven ze standaard überhaupt geen bronnen. En image generators kunnen dat niet eens zelfs als je er naar vraagt.
Dank voor de reactie. Dikgedrukte tekst en het gebruik van hoofdletters helpen echter niet bij het overtuigen…

Verder het advies om toch eens ChatGPT en Copilot uit te proberen. Je geeft aan dat ze bij vragen als “Wat is de nieuwste iPad?” en “Hoe is het weer in Londen?” niet aangeven wat de bron is en waar de info vandaan komt. Dat doen ze dus wel. ;)

Het wordt nu een wellus-niettus discussie en je lijkt nu specifiek alleen te reageren op de dingen die jou uitkomen, maar op de overige argumenten niet. Daarom laat ik het hierbij. Wel nog een fijne avond. :)
Dikgedrukte tekst en het gebruik van hoofdletters helpen echter niet bij het overtuigen…
Dikgedrukte tekst was om de kern te duiden. Feitelijke stellingen. Dat ik je niet met de harde waarheid kan overtuigen is duidelijk. Die nadruk was echter niet voor jou bedoeld, maar voor andere lezers die zich wellicht laten misleiden door jouw reacties.
je lijkt nu specifiek alleen te reageren op de dingen die jou uitkomen
Tja, dat kan je zo zien. Ik hoef niet op elk onbelangrijk segment te reageren en doe dat dan ook niet. Het gaat mij er enkel om de essentie van het argument te benadrukken. En dat zit je dwars, want die essentie is tegenstrijdig met je veronderstellingen over het onderwerp.
Ah, je vraag was mij niet helder.
De vraag was niet van mij, maar van Ryunoru.

Het hele punt is dat LLMs inderdaad geen bronvermelding kunnen doen, en dat maakt het inbreuk op auteursrechten. Niet per se om de uitvoer, maar om de input.

Dat er 'bronnen' worden weergeven bij een bepaald soort vraag is irrelevant: dat is een aparte zoek-API van de LLM die dan wordt aangeroepen.
toch zijn er een hoop bronnen in jouw hele leven
Toe nou, dit wordt nu al talloze keren herhaald; vergelijkingen met hoe mensen leren gaan geenszins op. Een LLM is geen mens. Heeft geen mensenbrein, geen mensenrechten, of gevoelens, en het meeste belangrijke: het heeft geen persoon-schap. Een LLM is een stuk gereedschap gemaakt door een corporatie. En die corporatie maakt dat stuk gereedschap door het te voeren met allerlei teksten (die vaak zonder consent zijn afgenomen van auteurs); die is dus ook verantwoordelijk voor het inbreuk op auteursrecht.

En los van dat het illegaal is, is het vooral ook onethisch. Het is niet een mens die een werk absorbeert en het transformeert, het is een stuk gereedschap dat een corporatie aan het maken is, en die maakt misbruik van al die bestaande werken.
Sorry daarvoor, gelukkig had hij ‘m alsnog gevonden.

Dank verder voor de reactie. Zeer interessante discussie, maar in dit nieuwsartikel gaat het om de datavergaring en niet om het uiteindelijke eindproduct (de LLM). De datavergaring is zo te zien alleen gebeurt met data die vrij toegankelijk is zonder enige belemmering door bijvoorbeeld een inlogscherm. Wat mij betreft mag dat en ik vergelijk het daarin met een straatartiest: die kan ook niet voorkomen dat mensen en concurrenten naar hem kijken, hem filmen, hem analyseren, etc. zonder fooi te geven.

Dat is gewoon een mening en dat vind je wel, of dat vind je niet. Zoals onder dit nieuwsartikel blijkt: meningen verschillen daarin. Uiteindelijk is het aan een Amerikaanse rechter om de Amerikaanse wetgeving te interpeteren en een oordeel te vellen. Of aan een politicus die de wetgeving dusdanig aanpast dat het wel of niet mag.

Dan terug naar jouw punt wat los van dit artikel staat: als het uiteindelijke eindproduct wel 1-op-1 kopieën van teksten, gedichten, fotomateriaal, videomateriaal, etc. uitspuugt, dan zal er - ook in Amerika - natuurlijk sprake zijn van schending van copyright wetgeving.

Dat weten we echter nog niet, want o.a. Apple gebruikt deze data en die heeft nog niet eens hun eindproduct uitgebracht. Pas dan wordt bijvoorbeeld Apple mogelijk verantwoordelijk voor schending van auteursrecht en dergelijke.

Om het trucje van @Ryunoru te gebruiken: Ik snap dat het vervelend is, maar in dit geval hebben we simpelweg geen goede AI wetgeving en andere jurisprudentie om op terug te vallen en moeten we het dus doen met meningen en verschillende zienswijzen. ;)
De datavergaring is zo te zien alleen gebeurt met data die vrij toegankelijk is zonder enige belemmering door bijvoorbeeld een inlogscherm
Dat geeft niet een vrijbrief om die data te gebruiken op elke manier. Video's op YouTube, en diens ondertiteling, zijn onderhevig aan gebruiksvoorwaarden. Die zijn gemaakt voor menselijk gebruik. Geautomatiseerde scraping wordt in die voorwaarden afgewezen.

En zelfs al waren die voorwaarden er niet; je mag als derde partij niet zomaar dingen waar je toevallig bij kunt gebruiken voor de ontwikkeling van een LLM. Dat is gewoon illegaal. Zelfs voor eerste partijen is dat niet helemaal kosher: kijk maar naar wat Meta en Adobe probeerden.

En voorbij het legale is het gewoon enorm onethisch. Het is asociaal om dingen te pakken, "want het lag er gewoon". Je steelt toch ook geen fiets omdat die niet op slot staat?
De datavergaring is zo te zien alleen gebeurt met data die vrij toegankelijk is
Maar dat is het dus niet. Dat heb je al meerdere keren als argument gebruikt en keer op keer is het feitelijk onjuist. Auteursrecht wordt op elk niet-banaal werk automatisch toegepast. Er bestaat, behoudens enkele uitzonderingen, dus geen werk dat vrij toegankelijk is.
Wat mij betreft mag dat en ik vergelijk het daarin met een straatartiest: die kan ook niet voorkomen dat mensen en concurrenten naar hem kijken, hem filmen, hem analyseren, etc. zonder fooi te geven.
Het verschil is dat die straatartiest hiervoor kiest, terwijl een andere artiest er een ander model op nahoudt. En in beide gevallen is de crux dat de rechten bij de artiest liggen, en niet bij de kijkers. De artiest bepaalt. Niet jij.
Dat is gewoon een mening
Nee, gast, dat is wettelijk vastgelegd. Elk creatief werk wordt automatisch voorzien van copyright. Dat geeft de artiest bepaalde rechten, en andersom elk ander persoon/bedrijf bepaalde restricties. Dat zijn glasharde feiten. Hier is niets subjectiefs aan.

Nogal vermoeiend dit. Het is duidelijk dat je niet bereid bent om met goede intenties te argumenteren. Elke keer dat een argument van je onderuit gehaald is, negeer je dit volledig en blijf je het herhalen. Dus zoals je zelf al eerder aangaf zonder daad bij woord te voegen: Fijne avond.
Die bedrijven hebben, net als jij, 'een mening' (bij de bedrijven omdat ze met handelen naar die mening dikke winsten pakken) waar er wettelijk duidelijk een ander kader is, dat maakt die 'mening' irrelevant.

Dat 'bedrijven het doen' zegt niks over de wettelijkheid, alleen iets over de verwachte winstgevendheid t.o.v. verwachte kosten (boetes; auteursrecht valt immers niet onder het strafrecht).
hun juridische afdelingen - die veel dichter bij analyse op basis van feitelijke wetgeving i.p.v. meningen zitten
Hé? Nee natuurlijk niet. Die juridische afdelingen bestaan niet om ethisch of moreel te zijn, ze bestaan om geld te kunnen (blijven) verdienen zonder al te veel boetes te betalen. En vanuit dat perspectief is het logisch dat ze dan zeggen, "Uh, mogen we gewoon doen hoor want <redenering>". Feitelijk correct zijn kan ze helpen hun werk te doen, maar dat is geen reden om aan te nemen dat ze dat ook proberen.
Precies wat je zegt: bedrijven zijn er om geld te verdienen. En hun juridische afdelingen om te voorkomen dat ze geld verliezen.

Er worden op die afdelingen wel degelijk analyses gemaakt van wetten en regelgeving.

Als daaruit was gekomen dat het 100% niet mag en ze het dan juridisch moeten opnemen tegen een gigant als Alphabet, dan zouden dit soort bedrijven echt niet het risico nemen. ;)
Maar ze moeten het niet opnemen tegen techgiganten. Ze nemen het op tegen individuele auteursrechthebbenden die doorgaans niet de middelen hebben om rechtzaken aan te spannen. Dat maakt het een zeer lucratief doch crimineel model. De winsten die ze maken wegen niet op tegen de eventuele consequenties.
Op dit moment nemen ze het tegen helemaal niemand op ;)
Auteursrecht (stel ik voor het gemak even gelijk aan copyright) bestaat uit twee hoofdrechten: het recht tot verveelvuldiging van een werk en het recht op openbaarmaking van een werk; beide liggen exclusief bij de maker. De wet is op dat punt vrij duidelijk.

Echter: er zijn beperkingen op dat recht: oa. citatenrecht, vrije nieuwsgaring en thuiskopie. Dit is geen gesloten systeem. In common law landen is dat anders geregeld: daar kent men de fair use doctrine.

Eea wordt gelimiteerd door de driestappentoets uit de Berner conventie: beperkingen mogen niet te breed zijn, mogen geen afbreuk doen aan de normale exploitatie van het werk en mogen de wettige belangen van de auteur niet op ongerechtvaardigde wijze schaden.

Je kunt verder leuk filosoferen, maar dat is het kader waar je het mee moet doen. Zolang er geen rechters zich hierover hebben uitgesproken blijft het onduidelijk.
Uiteindelijk komt het inderdaad neer op die laatste zin: huidige wetgeving is onduidelijk, dus een rechter zal zich moeten uitspreken. Of als tweede optie: politici moeten wetgeving aanpassen.

Tot die tijd lijkt het erop dat grote (LLM) bedrijven en hun juristen er toch vanuit gaan dat dit mag.

En vooralsnog kunnen we dus alleen nog maar filosoferen :9 Het is duidelijk dat de meningen hier op Tweakers verschillen :9

Het is afwachten hoe bedrijven als Alphabet hierop gaan reageren, want wat dat betreft blijft het nog angstvallig stil.
Grote bedrijven en diens juristen gaan er niet van uit dat het mag, ze gaan er van uit dat ze dit kunnen doen zonder directe consequenties met financieel verlies als gevolg. Dat is een zeer cruciaal verschil.
wat is het verschil tussen een student die leert van een video op YouTube en een computer die leert van een video op YouTube?
Kunnen we alsjeblieft een keer ophouden computerprogramma's te anthropomorphiseren? Ik zie dit 'argument' echt veel te vaak langs komen, zelfs op Tweakers.

Een model trainen lijkt veel meer op lossy compressie dan op hoe een mens iets leert. Als je een AI vraagt om exact een citaat te herhalen heeft dat een veel grotere kans van slagen dan bij een mens.
Ligt dat ook niet aan de mens en hoe die getraind is…? Er zijn bijvoorbeeld hardcore Christenen die je zo kunnen zeggen wat a.) het exacte citaat is, b.) welk hoofdstuk het is. Een mens kan dat dus prima, alleen traint in algemeenheid niet zo rigoreus. Uiteraard kan AI meer data, als het gaat om tekst, onthouden en verwerken.

Toch vind ik het een interessante vraag. Als iets publiek beschikbaar is, waarom mag AI er dan niet naar kijken? Het meteen wegwuiven als anthropomorphisme vind ik aan de ene kant heel logisch, maar aan de andere kant ook wel erg makkelijk om er verder niet over te hoeven nadenken. Als ik een kaartje koop voor de bioscoop voor een AI systeem, puur om te leren van de dialoog, de interactie en wat er plaatsvindt: is dit dan een probleem? Zo ja: wat als ik het kaartje zelf gebruik, notities maak en vervolgens aan de AI overbreng wat ik gezien en geleerd heb. Het resultaat is hetzelfde, maar met meer stappen. Is het een een probleem en het ander niet? Is beiden een probleem? Waar ligt de grens? We kunnen de exercitie herhalen voor het bezoeken van websites, e-books over coden, YouTube filmpjes bekijken, etc.
Een computer is geen mens. Hoe een LLM getraind word is wezenlijk anders dan hoe een mens leert. Dan komt niet eens in de buurt van hoe een mens leert; het heeft er alle schijn van, omdat een computer snel en veel is, maar de methodiek is zo anders dat je eigenlijk geen ‘leren’ kan noemen.

Gedachtengangen waarbij we doen alsof een computer een mens is, die leiden gewoon nergens heen. Dat is niet ‘gemakkelijk wegwuiven’ (ik had graag willen denken dat computers echt menselijke gedachtes konden bevatten), dat is noodzakelijk om realistisch te blijven in onze opvattingen. “Wat die AI doet lijkt op wat een mens doet, moeten we het ook behandelen als zijnde?” Is dus een drogreden.
Het zijn domme machines die gemaakt zijn om slim te lijken.

‘AI’ is nog steeds een misnomer, omdat het nog steeds rudimentaire machines zijn die gewoon heel snel heel veel data aan elkaar kunnen verbinden. Alle ondertitels van youtube rippen en die via een python script voeren aan een opgevoerde multidimensionale relationele database is gewoon inbraak op copyright.
Als iets publiek beschikbaar is, waarom mag AI er dan niet naar kijken?
Omdat wettelijk besloten is dat AI geen wettelijk geldende privaat persoon of zelfs maar een rechtspersoon is. Het is enkel maar een stuk gereedschap, en derhalve is de aansturende partij - het bedrijf dat het AI model beheert en traint - de daadwerkelijke partij die jouw door auteursrecht beschermde inhoud inzet. Om hun product te verbeteren, weltverstaan. Wat de voorwaarden van de licentie voor het gebruik van die inhoud kan schenden, waarbij deze partij ook niet de beschermingen geniet van een wettelijk erkend privaat persoon inzake zelf-studie, etc.

[Reactie gewijzigd door R4gnax op 22 juli 2024 13:50]

Je vraag stelt al iets wat niet klopt....
waarom mag AI er dan niet naar kijken?
Een AI kijkt helemaal niet - heeft geen bewustzijn, is geen enkelvoudige entiteit...

Het bedrijf gebruikt / leest / download de data en geeft dat als input aan hun eigen programma... meer is het niet. En dat mag nu eenmaal niet. Waarom is dat zo moeilijk te volgen? Dat de reproductie niet 1 op 1 wordt uitgevoerd is niet relevant.
AI mag er prima naar kijken. Er zelfs van "leren" (doen ze niet, maar dat terzijde). Wat noch AI, noch mens mag doen, is auteursrechten schenden.

Het is niet meteen wegwuiven als anthropomorphisme, het is terecht wegwuiven als anthropomorphisme. Dat is namelijk exact wat je doet door telkens de overeenkomsten tussen AI en mens erbij te halen - niet dat deze overeenkomsten juist zijn, want een AI kan dus niet leren en nadenken. Het heeft geen creativiteit en bewustzijn.

Ik zie ook dat je expres zeer vage voorbeelden erbij haalt. Wat dacht je van naar de bioscoop gaan, met een camera de boel filmen en het dan op internet te pleuren? Wat nu als je dit voor meerdere films tegelijk doet en de frames door elkaar schudt?
Je valt in precies valkuil waarvoor je meermaals in deze thread gewaarschuwd bent. Een AI is geen persoon. En kenmerken die jij ziet als 'menselijk' zijn dat niet, dat komt omdat de machine menselijke inputs vervormd en teruggeeft. AI zelf, en al helemaal het trainen er van, heeft niks weg van hoe wij leren. Echt niet.
Zo ja: wat als ik het kaartje zelf gebruik, notities maak en vervolgens aan de AI overbreng wat ik gezien en geleerd heb
Als jij woord voor woord perfect de ondertitelingen weet over te schrijven van een film is het alsnog plagiaat.
Als jij vrije notities maakt (als zijnde een review) dan is het transformatief genoeg om een eigen ding te zijn. Maar dat wat het een transformatief werk maakt zorgt er dan ook voor dat het niet meer hetzelfde resultaat is als je het in een LLM propt.

Je kan niet zomaar andermans werk pakken en het in een plagiaat machine gooien, net zoals je niet met je videocamera in de bioscoop mag zitten. Als je zelf iets nieuw genoeg maakt (transformative), mag je zelf weten wat je er mee doet. Maar dat een LLM de output uiteindelijk vergarbelt maakt de input die je het gaf niet transformatief.
Je dacht het niet? Ze doen het toch, en nu?

Dit is niet iets nieuws maar dit soort giganten doen gewoon wat ze willen en als klein platformpje zelfs met DPG wat kun je ertegen doen?

Het wordt hoogtijd dat de EU hier tegen optreedt, harde en gigantische straffen voor bedrijven en individuen zijn hoognodig om deze giga bedrijven terug in het gareel te krijgen. Ze worden enkel machtigter en steeds brutaler. Dus dacht het niet, beter gezegd wanneer stopt het.
Je moet niet gaan filosoferen, je moet gewoon kijken naar de licentie en wat die zegt.

Gepubliceerd werk is vrijgegeven onder een licentie, als jouw gebruik inbreuk maakt op die licentie, dat pleeg je inbreuk op de auteursrechten.

En neen, dan moet je niet gaan filosoferen: genoeg IP producten waarbij de licentie die je koopt bepaalt wat je wel en niet mag, en daarbij is het irrelevant dat je zegt "ja maar wat is nu het verschil?"
Zo kan je de community edition van intellij enkel gebruiken voor niet commerciële doeleinden. "Ja maar wat is nu het verschil tussen dat ik het in mn eentje gebruik als hobby of in mn eentje als ZZP ontwikkelaar?" -> irrelevante vraag
Zo mag je als je een dvd koopt die film enkel bekijken "in huiselijke kring", dat wil dus zeggen enkel voor jou, familie, vrienden, etc. "ja maar wat is nu het verschil tussen dat ik met mn uitgebreide familie kijk, of een bordje aan de deur zet dat iedereen welkom is en mag meekijken" -> irrelevante vraag
Zo mag je in theorie muziek die je koop enkel gebruiken voor gebruik binnen huiselijke kring, en niet publiek afspelen... Dat houdt daadwerkelijk in dat een nummer dat je hebt gekocht niet als beltoon mag gebruiken. "Ja maar wat maakt dat jou uit, niemand die daadwerkelijk naar dat nummer luistert als ik gebeld wordt, dat is enkel leuk voor mij" -> irrelevante vraag

Je kan het praktisch en ethisch onderbouwen hoe je wilt, de rechten liggen bijna volledig bij de auteur (of beter: de houder van de intellectuele eigendomsrechten), en onze wetgeving legt heel weinig beperkingen op hoe deze die rechten exploiteert.
De paar uitzonderingen daarop zijn bvb het recht op de thuiskopie, maar die worden actief ondergraven (door drm) en daar wordt niets aan gedaan vanuit de overheid.
Volgens mij is het niet zo zwart wit. Hoezo heeft een mens die kijkt geen commerciele doeleinden?
Als je werknemer bent en jezelf indirect traint door kijken van videos (ongeacht aard van video) dan is dat onderdeel van jou en je werk geworden en bij werk hoort salaris, dus tja.....welk aandeel is wat :)
Ik vind het wel heel ingewikkeld worden als aan vrij toegankelijke data opeens een clausule hangt hoe je die content tot je mag nemen.
Wij gebruiken internet toch ook om allerlei problemen op te lossen? Stel dat je ergens een oplossing vind om je koffiezetapparaat te fixen en daarmee 100 euro uitspaart voor een nieuwe....is dat dan geen commercieel doeleind?
Waar stopt dit dan?

Thepiratebay is vrij toegankelijke data op het internet. Hetzelfde geld ook voor de meeste setup boxen, en illegale video streams.

Het is altijd opvallend, dat als een consument iets doet er direct aangeklaagd wordt en gekeken wordt naar schadevergoedingen.

Maar wanneer een professionele partij 173000 video's misbruikt voor commerciële doeleinden dan laten we dit rusten?

De hypocrisie van de wereld...
Geen zorgen, bij consumenten klaag ik ook niet. ;)

Maar ik vind dat er al een vrij duidelijk verschil is tussen The Pirate Bay en bijv. YouTube. Daarbij wil ik terugvallen op het voorbeeld van de “openbare weg” en iemands “privé thuis”.

Bijv. filmmakers, producenten, etc. delen normaalgesproken niet hun films via The Pirate Bay. Dat willen ze niet en ze hebben het dan ook niet zelf openbaar met de wereld gedeeld. Dit is het “privé thuis” wat ongewild met de wereld wordt gedeeld.

Bedrijven, content creators, etc. die iets op YouTube plaatsen, gooien dit heel bewust in het openbaar domein. Ze doen dit omdat ze zoveel mogelijk clicks, likes en subscribers willen. Dit is de “openbare weg” waar je iedereen kan bereiken, maar dus ook computers.

We kunnen het ook vergelijken met een artiest in het theater en een straatartiest. De artiest in het theater wilt alleen zijn/haar show delen met het publiek dat is uitgenodigd of een kaartje heeft gekocht. Binnen, privé in het theater. Die zal niet blij zijn met indringers die ongewild in de zaal zitten.

De straatartiest doet z’n act op straat. Die weet echter ook dat dan iedereen die maar wil naar zijn show kan kijken - ook mensen die geen fooi geven. Of ook de mensen die misschien wel van de trucjes willen leren om later zelf te gaan optreden. ;)

[Reactie gewijzigd door Uniciteit op 22 juli 2024 13:50]

Platenmaatschappijen daarentegen zetten wel allerlei muziek op YouTube. En toch komen ze klagen om verwijdering/geld/etc. als mensen het (gedeeltelijk) hergebruiken.
Is er wel sprake van hergebruik? Of is er - zoals een student zou doen - eerder sprake van analyse? Patronen herkennen en dergelijke. :)

Uit het nieuwsartikel haal ik in ieder geval niet dat filmpjes van Tweakers en MrBeast op een ander platform zijn gepubliceerd.

[Reactie gewijzigd door Uniciteit op 22 juli 2024 13:50]

Als jij muziek van een officiële video clip ript en het onder jouw video zet mag het niet. Dat is duidelijk.

Maar als jij door de muziek onder een videoclip geïnspireerd raakt om zelf een ander stuk muziek te maken en dat op YouTube te zetten dan is er, mits het geen kopie is, niks aan de hand.

En dat is nu het lastige met generatieve AI. Kopieert deze nu data of leert deze van data om iets nieuws te maken wat er nog niet was. Het is niet 1 op 1 gegevens kopiëren, maar toch kunnen we ook niet spreken van een creatief proces zoals we dat van oudsher kennen.
Helemaal mee eens! We bevinden ons in relatief nieuw gebied.
Ik snap niet echt waarom het AI labeltje dit ineens nieuw en uniek maakt.

In feite gaat het om op grote schaal geautomatiseerd data verzamelen om te verwerken. Veelal met een commercieel doel.

Als dit in het YouTube beleid is verboden heb je eigenlijk maar 1 vraag... Is de een wet te vinden die het beleid overruled? Zo ja dan hebben rechthebbende geen recht om hierover te klagen.

Wat ik zelf interessant vind is de vraag wie in deze context aangeklaagd kan worden. Is het enerzijds Apple en co. Omdat die hier direct of indirect geld aan willen verdienen? Of is het Google/YouTube die hier geen maatregelen tegen heeft getroffen. En als het YouTube betreft, hoe reëel is het vanuit technisch perspectief om maatregelen te implementeren?
Is er wel sprake van hergebruik?
Als deze muziek gebruikt wordt, en het zonder deze muziek niet mogelijk was om tot eenzelfde resultaat te komen.. ja, dan is er per definitie sprake van hergebruik.
eerder sprake van analyse?
Dat ligt eraan hoe je dat woord definieert, maar is ook totaal niet relevant. AI mag alle informatie van het internet plukken wat het maar wil. Maar wat het daarna ermee doet, dàt is waar de restricties gelden.

Jij mag prima een boek woord voor woord overtypen. Wat je niet mag doen is dit overtypsel dan publiceren, commercialiseren of wat dan ook.

Ik raad je aan de beginselen van het auteursrecht eens te doorgronden.
Amerikaans auteursrecht en copyright wetgeving*

[Reactie gewijzigd door Uniciteit op 22 juli 2024 13:50]

Ik had het over principes die zowel in de Nederlandse/Europese als de Amerikaanse auteursrechtenwetgeving zitten. Maakt geen mallemoer uit en de doelpalen blijven op hun plaats staan.
Heb jij toevallig een goede AI tool waarmee ik de beginselen van het auteursrecht kan doorgronden? Dan kan ik goed inschatten of je hier een eigen doelpunt maakt.

Flauw geintje, natuurlijk. Maar het is duidelijk dat onze zienswijzen verschillen. Dat is het mooie van o.a. de ‘gathering of tweakers’: we kunnen hier vrij over discussiëren.

Het is wachten tot politici eenduidige wetgeving gaan maken en er jurisprudentie ontstaat in de rechtszaal. Tot die tijd gaan deze bedrijven gewoon door met data vergaren op vrij toegankelijke webpagina’s.
Maar is er dan geen verschil tussen de content en de ondertiteling van de content. Ze kopiëren niet het format, de inhoud zelf, het beeldmateriaal. Alleen wat er gezegd wordt in de video?
Waar het stopt? Bij wat er achter een betaalmuur zit en/of wat beschermd materiaal is lijkt mij.

Moderne AI (Deep Learning) is niet meer als traditionele AI (ML) waarbij je nog echt trainingsdata moet uitkauwen tot op het punt waar een rechthebbende partij kan zeggen “dit is gekopieerd”. Deep learning verschilt daarin in de vorm dat er met neuronen gewerkt wordt om het menselijk brein na te bootsen, weliswaar niet 1-op-1 maar dat is het punt niet, punt is dat als een moderne AI - welke op deze wijze leert - het “niet goed” doet dan zou een mens dat in principe ook niet mogen.
Thepiratebay is vrij toegankelijke data op het internet. Hetzelfde geld ook voor de meeste setup boxen, en illegale video streams.
Hier zit wat tegenstrijdigheid in....

Ik snap wel wat je bedoelt; als je als consument (en dan vooral meerdere consumten) niet betaalt voor andermans content/data, dan wordt er op je gejaagd. En nu doen grote bedrijven dit en zij lijken er mee weg te komen. Maar dat is nog niet het allerergste.

Als een consument een film heeft gekeken zonder daarvoor te betalen dan is er een klein verlies van mogelijke inkomsten.

Als een bedrijf data heeft 'geabsorbeerd' dan blijft dit verlies voortduren omdat een bedrijf die 'gestolen' data, actief benut.
Dus nu hebben ze de data - hoe gaan ze die weer 'teruggeven'?
verschil is dat die paritj de videos GEBRUIKT heeft. Alleen vind de andere partij het MISBRUIK. Tja....op basis waarvan dan?
Maar met de huidige grote modellen zit het dicht aan tegen het kopiëren en herverspreiden van het materiaal. Een mens is daar niet toe in staat.

Wat we graag willen dat AI doet is dat het echt leert wat de structuur erachter is en er dus van kan leren. We zullen daar wel komen maar dat is helaas niet de stand van zaken.
Mee eens, maar dan moeten we wel een goede scheidslijn aanbrengen in de discussie.

YouTube bevindt zich, naar mijn mening, dusdanig in het openbare domein dat er gewoon sprake is van vrij toegankelijke informatie. Een mens kan filmpjes kijken. En een computer ook. ;)

Het probleem zit ‘m dan in het herverspreiden. Maar dat is iets dusdanig anders: een bedrijf maakt dan een tool die vervolgens gekopieerd materiaal verspreid. Daar kan je een bedrijf wel op aanspreken.

Maar dat zijn dus wel twee verschillende dingen.
Yes. Men doet net alsof de AI hetzelfde doet met hetzelfde doel als bijvoorbeeld een videoripper bot die het vervolgens herdistribueert. Maar het consumeert, leert en acteert. Het doel is compleet anders en niet perse anders dan het doel van een persoon. Toch is het anders, maar een heldere definitie en scheidslijn van wat wel en niet mag is best welkom.
Ik durf wel zo ver te gaan dat als de AI-modellen wel al echt goed zouden werken, we dan zouden inzien dat de copyrightwetgeving rigoureus hervormd zou moeten worden.

Huidige 'AI' (waarmee ik de grote modellen bedoel die nu populair zijn) maakt per ongeluk of op commando namaak en lekt per ongeluk alle gevoelige data die het ooit heeft gezien. Uiteraard zou het dat gewoon niet moeten doen. Stel je voor dat de instructie 'Hou je aan de wetgeving' daadwerkelijk zou werken, dan was er sowieso geen discussie. Daar zit het extreem ver vanaf, het gaat 10 tot 20 jaar duren voor het significant veel beter wordt. We hebben copyrightdiscussies omdat het kopieer-gehalte in de outputs veel te groot is.

Begrijp me niet verkeerd, ik vind die tools echt indrukwekkend en ik denk dat ze ook heel nuttig kunnen zijn. We zouden echter kunnen beginnen met minder hype en meer realisme toe te passen op wat de tools wel en niet kunnen, dat zou alle discussie verder helpen, meer vertrouwen creëren en ook de daadwerkelijk nuttige inzet versnellen.
Ik ben het met je eens, maar nogmaals, dan gaan we qua discussie zitten focussen op de huidige eindproducten van deze LLM/AI-tools.

Dat is naar mijn mening een separate discussie en waar dit nieuws over gaat: namelijk dat een bedrijf openbare data gebruikt om zo’n tool te bouwen.

Dat de tool op dit moment misschien nog niet naar wens is en dat dat copyright-discussies oplevert, is een andere discussie. Daar is een bedrijf natuurlijk gewoon voor aansprakelijk.

[Reactie gewijzigd door Uniciteit op 22 juli 2024 13:50]

Een mens kan filmpjes kijken. En een computer ook.
Nee - want 'een computer' in jouw verhaal is niets meer dan een programma wat gemaakt is door een bedrijf wat de data van ander gebruikt en dat mag niet. Zeker niet als dit eigenlijk wordt gereproduceerd. Maar ook al deden ze het alleen maar voor afgeleide data, dan mag dit ook niet.
Het probleem zit ‘m dan in het herverspreiden.
Daar zit nog een probleem.... je mag niet zomaar andermans data bedrijfsmatig gebruiken, zo simpel is het.

Ik mag wel als medewerker van een bedrijf andermans data - mits gepubliceerd door de eigenaar -gebruiken om meer begrip te krijgen. Maar dat is een simpele nuance. Zomaar de data reproduceren mag ook niet.
Dat jij ergens niet zelf voor betaalt, betekent niet dat het feit dat jij naar content kijkt niks oplevert. Advertenties (Vanuit Youtube ads of via gesponsorde spotjes) betalen de rekening van de maker, maar de waarde van advertenties is er niet als het door AI bekeken wordt.
Mee eens. Mij gaat het vooral om de toegankelijkheid van informatie, zie ook mijn vorige reactie op Blokker_1999.

Als ik een parallel trek met de echte wereld, dan zie ik YouTube echt als de openbare weg. Het is heel makkelijk om daar privéterrein van te maken: introduceer een toegangscontrole. Net zoals, bijvoorbeeld, in de bioscoop. :)
Mja op de openbare weg heb je ook bergen met regels waar je jezelf aan moet houden.
Dat is weer een heel ander probleem. Dat ligt buiten de copyright discussie. Het namelijk niet verplicht (gelukkig niet) om naar advertenties te kijken. Dat ze het zo proberen in te regelen dat het niet te skippen is, is weer wat anders.

De advertentie business zou in deze discussie vooral niet teveel moeten zeggen aangezien ze zelf juist maar wat graag deze domme AI (hetzelfde principe in ieder geval) inzetten om advertenties te slijten.
(Want deze AI is gewoon een groot statistisch model - precies hoe adverteerders te werk gaan - statistieken zonder werkelijk begrip....)
Vergelijk het met de fysieke wereld: bij iemand in z’n woning gluren is ongewenst en niet toegestaan
Ik kan prima vanuit iemands voortuin door het raam naar binnen gluren, hoor. Die zijn doorgaans vrij toegankelijk. Achtertuinen soms ook. Dus ik zie niet in wat die vergelijking nou moet zeggen.

Maar sowieso zijn dit soort vergelijkingen kul. Wat in context A logisch is hoeft dat in context B niet te zijn. En dat is het dan ook niet: dat iets "vrij" toegankelijk is betekent niet dat er aan die toegang geen voorwaarden kunnen zitten. Het invoerveldje van tweakers is ook vrij toegankelijk maar als je er viagra-reclames mee gaat spammen krijg je toch echt een perma-ban.
Overigens speuren zoekmachine’s ook al jaren het web af en verzamelen allerlei informatie die (openbaar!) toegankelijk is.
Dat zijn twee heel verschillende dingen;
Zoekmachines zoeken door content zodat het resultaat vindbaar is voor gebruikers. Daarmee facilitieer je enkel toegnag tot die informatie zonder deze aan te passen. Bij de content staat dan nog steeds dat deze is gemaakt door degene die het er heeft geplaatst.

Een AI gebruikt content om nieuwe content te kunnen maken op basis van de dataset. "Schrijf een boek in de stijl van Shakespeare", "maak een schilderij in de stijl van Rembrand" of "maak deze tekst ABN" opdrachten kan een AI enkel uitvoeren door toegang tot relevante data te hebben.Je kunt je dus ook afvragen wie nu eigenlijk de eigenaar is van het resultaat. Zonder toegang tot de content van de Dikke Van Dale kun je bijvoorbeeld geen goede tekst maken; een plugin voor je tekstverwerker moet je voor allerlei schrijfstijlen nu een betaakde plugin afnemen, maar wanneer een AI model deze content verzameld vind je het dus prima dat dit gebeurd zonder dat het bedrijf die deze content (betaald) beschikbaar stelt daarvoor wordt gecompenseerd?
Er zijn veel producten beschikbaar die je kan kopen en kan gebruiken.
Maar als je ze namaakt en geen China bent, heb je iets dat IP heet.

Ondanks dat het geen tastbaar iets is, vind ik het geen verschil met fysieke producten.
Want in essentie is het stelen, kopieren en nabouwen op een industriele schaal.
Feitelijk staat youtube niet vrij toegankelijk op internet. Als je niet betaalt, moet je namelijk regelmatig reclames kijken om de site te zien. En daar zit nu precies de crux. Door data te forwarden en niet de betaling, schend je de afspraken op youtube.

En nee, als u iemand op het terras ziet zitten en er maar naar blijft staren, wordt dat ook ongewenst genoemd en als u die iemand op de vrij toegankelijke weg volgt, bent u ook gewoon een stalker. Zeker als u ook nog uw camera erbij pakt en deze persoon blijft filmen.
Wie zegt dat de advertenties niet zijn getriggerd tijdens dit proces?

Hoezo vergelijkt u dit met stalking? Dat is toch echt iets heel anders dan rondkijken en alles wat je ziet eenmalig tot je nemen, zoals in dit proces gebeurt.
Nee, dat is dan ook niet wat er gebeurd. Het blijft niet bij eenmalig scannen! De inhoud wordt gebruikt om weer verder te delen en daar zit het probleem. Het zou kloppen als bij iedere query op de resultaten eerst de advertentie van google wordt getoond, maar dat gebeurd hier volgens mij niet!

Het stalking was een voorbeeld waar uw bewering dat alle info in publieke omgeving zomaar vrij zou zijn om te vergaren niet op gaat! Dat ook in publieke omgeving het strafbaar kan zijn wanneer je heel gericht naar bepaalde info zoekt.

[Reactie gewijzigd door rko4u op 22 juli 2024 13:50]

Feitelijk staat youtube niet vrij toegankelijk op internet.
Zeker wel. Reclames moeten kijken is (gelukkig) nergens wettelijk vastgelegd.

Vrij toegankelijk zegt niet "mag bedrijfsmatig worden gebruikt".

Reclames tonen om geld te verdienen stelt nergens dat ze dan ook bekeken moeten worden.
En daar zit nu precies de crux. Door data te forwarden en niet de betaling, schend je de afspraken op youtube.
Welke betaling? De afspraak op YT is niet "Gij zult reclames kijken". Je kan mensen namelijk niet verplichten te kijken en er is dus ook geen betaalovereenkomst.
Vrij toegankelijk betekent niet dat je iets ook vrij mag gebruiken of overnemen.
Kortom je mag het bekijken of beluisteren. Wil je meer, dan zal je wat meer onderzoek moeten doen en naar de voorwaarden moeten zoeken. Staan er geen voorwaarden bij, dan valt het onder de standaard wetten, dus copyright enz. Voor gebruik zal je dan dus eerst netjes moeten vragen of je dat mag.
En wat kan je ertegen doen? Helemaal niets, want machtige bedrijven en relatief klein vergrijp.
Het is niet eens duidelijk of er wel sprake is van een vergrijp, omdat nog niemand heeft besloten of het gebruiken van een beschermd werk voor AI training het copyright schendt. Ik denk ook niet dat iemand dat besluit wil nemen, want daarmee verplaats je de AI business enkel naar het buitenland.
En dan hebben ze bakken vol met juristen als het op het bestrijden van illegale downloads aankomt... Oh ja, dat levert hun geen winst op...
Maar he, ondertussen slaat DPG wel onterecht data van jou als gebruiker op, en stuurt dit ook door aan partners (Cookies etc) maar het moet natuurlijk niet zo zijn dat anderen data gaan gebruiken die van hun is.

Ik vind dat je dit soort dingen niet moet vermelden, tenzij je zelf ook je zaakjes goed op orde hebt. Dat hebben ze niet.
Last Week Tonight is toch met John Oliver, niet met Jamie Oliver (de kok?)?
Tja, de Engelse uitdrukking "He's cooking" kan op allebei van toepassing zijn lijkt me.
MrBeast staat ook 2 maal genoemd in de opsomming in de vetgedrukte tekst 🙈
‘Last Week Tonight With Jamie Oliver’ hahaha, dat is mooi Freudiaans wat John Oliver en Jamie vast zouden kunnen waarderen, als ze Nederlands zouden kunnen lezen.
Ik denk idd niet dat je vanavond nog wil hebben wat Jamie Oliver vorige week op tafel heeft gezet. ;)
Dit mag natuurlijk geen verrassing heten. Reeds in april dit jaar is bekend geworden dat Google en OpenAI, gebruik maken van YouTube video's voor hun taalmodellen: nieuws: NYT: Google en OpenAI hebben YouTube-video’s gebruikt om AI te trainen

Verder lijkt het me in het geval van Google ook lastig om er iets tegen te doen. Zoals gebruikelijk ga je veelal akkoord dat de data die je deelt, gebruikt mag worden door de betreffende dienst.
Google moet sowieso oppassen met hoe het een en ander verwoord, gezien hun eigen geschiedenis en business praktijken met webscrapers. ;)
Ik denk niet dat dat zo’n verrassing is. Wat wel vreemd is dat Tweakers suggereert hier een probleem mee te hebben terwijl ze maar al te graag naar Dall-e grijpen om illustraties bij een artikel te plaatsen ipv een echte illustrator te betalen terwijl ook deze dataset gecreeerd werd met content van dubieuze afkomst.
Of het oké is, dat is te betwisten zeker omdat het ongevraagd is. Alhoewel je natuurlijk je wel af kunt vragen wat je liever hebt: een model getraind op tweakers/dr becky etc of op de rants van alex jones.
Is DPG media op zoek naar een bron van inkomsten?
Tja was te verwachten en dit is helaas maar het begin.

Op dit item kan niet meer gereageerd worden.