Brein haalt illegale Nederlandstalige dataset voor trainen AI-modellen offline

Stichting Brein heeft een grote Nederlandstalige dataset offline gehaald. Deze bevatte volgens de stichting illegale kopieën van auteursrechtelijk beschermde werken en werd gebruikt voor het trainen van AI-modellen.

Volgens Stichting Brein bevatte de dataset 'illegale kopieën van tienduizenden boeken, miljoenen regels uit nieuwsartikelen van websites zoals NU.nl en ondertitels van talloze films en tv-series uit illegale bron'. Brein zegt dat de data gecomprimeerd was, zodat hij gemakkelijk bruikbaar was voor het trainen van AI-modellen, zoals llm's. De data was hiermee niet geschikt voor consumenten om direct te worden ingezien, maar de inhoud was illegaal verkregen.

"We hebben in de dataset onder meer gezocht naar de letterlijke tekst: ‘Niets uit deze uitgave mag worden verveelvoudigd’ en dit leverde meer dan 10.000 resultaten op", zegt Brein-directeur Bastiaan van Ramshorst. "Stuk voor stuk betrof dit illegaal gekopieerde boeken. Ook de nieuwsartikelen zijn gekopieerd van websites met auteursrechtvoorbehoud."

De dataset is inmiddels offline gehaald. Volgens brein heeft de maker ervan een verklaring ondertekend waarin hij belooft geen inbreuk meer te maken op auteursrechten. Hij zou inmiddels ook informatie hebben gegeven over wie de dataset heeft ontvangen. Brein zegt onderzoek te doen naar welke AI-modellen de dataset hebben gebruikt en die daarop aan te spreken.

Er lopen al langer discussies over het gebruik van auteursrechtelijk beschermde werken voor het trainen van AI-modellen. Veel bedrijven trainen hun AI-modellen door content van het internet te scrapen. The New York Times heeft eerder OpenAI en Microsoft aangeklaagd omdat die twee bedrijven artikelen van dat dagblad zonder toestemming gebruikten om chatbots te trainen. Verschillende uitgeverijen verbieden het gebruik van hun content voor het trainen van AI, ook in Nederland. Daaronder vallen bijvoorbeeld Mediahuis en Tweakers-uitgever DPG Media. Tweakers schreef eerder een achtergrondverhaal over het trainen van AI-modellen op basis van gescrapete data.

Door Daan van Monsjou

Nieuwsredacteur

13-08-2024 • 14:10

144

Lees meer

Reacties (144)

144
139
59
5
0
71
Wijzig sortering
Hmm, ik vind dit een nogal grijs/donkergrijs gebied. Wij mensen leren ook door boeken, films, kunst, muziek, etc. te bekijken en hierop verder te bouwen. Denk bijvoorbeeld aan muzikanten die bestaande nummers samplen, zoals Kanye West deed met Daft Punk's ‘Harder, Better, Faster, Stronger’ in zijn hit ‘Stronger’. Hij gebruikte elementen uit het originele nummer om iets nieuws te creëren dat zowel herkenbaar als origineel is. Is dat dan ook tegen de copyright in? AI doet hier eigenlijk hetzelfde door bestaande data te analyseren en op basis daarvan iets nieuws te genereren." Ik vind dat Brein hier nogal snel is met ingrijpen. Te snel zelfs..
Wel eens gehoord van "Sample clearing"?

Als een artiest een duidelijk herkenbaar sample wil gebruiken van een andere artiest, en dit nummer daadwerkelijk uit wil brengen, dan is er toestemming van de rechthebbende te verkrijgen. Gebeurt dit niet, en blijft het gebruik van het stukje audio ongelicenceert, dan kan de rechthebbende via de rechter een deel van de opbrengst opeisen.

En voor boeken: De auteur die, gebaseerd op de Harry Potter wereld, originele verhalen in diezelfde setting schreef kreeg van de rechter géén gelijk. Rowling had hier geen toestemming voor gegeven. Daar mochten alle gedrukte boeken vernietigd worden en konden opbrengsten worden afgedragen.
Tegelijkertijd zijn er tal van dingen die je wel mag doen nadat je Harry Potter leest of naar een audio sample luisterd. Puur omdat je een LLM kan gebruiken om copyright schended materiaal te maken is niet noodzakelijk een argument tegen het trainen van LLMs met gecopyright materiaal. Het LLM blijft enkel een tool~

Niet dat ik denk dat alles maar zou moeten mogen, want tegelijkertijd moet er financiele motivatie zijn om bijv. nieuws artikelen te schrijven en orgineel onderzoek te doen, dus "kant en klare antwoorden op google en bing" zijn zeker problematisch, ondanks dat ze extreem transformatief zijn 😔 . Hopelijk lukt het ons om een goed economische oplossing te bedenken voordat alles mis gaat 😅 .
AI, en LLMs zijn nieuwe technologie, maar dat maakt niet automatisch dat ze alles mogen omdat er nog geen rekening gehouden is met de nieuwe mogelijkheden die erbij horen. In dit geval gaat het dus om een nieuw type gebruik van auteursrechtelijk beschermd materiaal.

Auteursrecht is gebaseerd op instemming verlenen. Een drukkerij mag een boek drukken en publiceren. Of publiceren als e-book. Een film distributeur mag films distribueren. Een streaming dienst mag het aanbieden. Allemaal hebben ze een licentie nodig om dit legaal te mogen doen.

AI trainen is een nieuwe toepassing waar géén expliciete toestemming voor is verleend aan een ieder die een model wil trainen op basis van auteursrechtelijk beschermd materiaal. Ze zitten wat dat betreft nog in een niemandsland.
Ik snap niet waarom iedereen het ineens nieuwe technologie noemt. Het massaal verzamelen en analyseren van data is helemaal niet nieuw. Net doen alsof dit nieuw is doet de hype alleen maar verder op hypen
Verzamelen en analyseren is niet hetzelfde als verzamelen, modellen trainen en op basis daarvan geheel nieuwe werken maken. Het generatieve element is hier nieuw.

Ik zou het ook niet waarderen als mijn verzamelde werk als amateur evenementenfotograaf "geleend wordt" om AI te trainen, zodat met hulp van mijn foto's nieuwe beelden van feestende mensen gegenereerd zouden kunnen worden.
Het begint beide met verzamelen. Als Europeaan ben je iets veiliger maar op alle andere continenten verlies jij het recht om te klagen als jij als evenement fotograaf je fotos upload op 1 van de meta diensten, x(Twitter) of tiktok ;)

Dr zijn diensten die het, vanuit hun eigen perspectief, beter hebben geregeld. Denk aan Redit.... Redit heeft het recht om deals te sluiten met AI bedrijven. Degene die er dingen op posten hebben dat recht weggeven na het zomaar accepteren vd voorwaarden

[Reactie gewijzigd door Mellow Jack op 13 augustus 2024 18:32]

Het probleem zit 'em in het volgende: Als ik eigen beeldmateriaal online publiceer op een dienst die in de gebruiksvoorwaarden opneemt dat zij, na uploaden, dit materiaal ook mogen gebruiken, al dan niet incluus doorlicenceren aan derden, dan is dat iets dat ik van tevoren weet.

Maar een auteur van boeken met e-books bij Kobe, of een filmmaker met films op Vimeo, of een fotograaf die foto's upload naar Werk Aan De Muur, is met een heel andere set aan voorwaarden akkoord gegaan, voorwaarden waarbij nooit expliciet instemming is gegeven voor gebruik op deze manier.
En dat is mijn hele punt. Dit is niet nieuw, het is iets wat al heel lang zo is
Ik merk dat ik mijn punt niet goed over weet te brengen...
Het massaal verzamelen en analyseren van data is helemaal niet nieuw.
Vroeger was het alleen verzamelen (illegale download van films, muziek, series, pr0n, games, e-books, enzovoorts. "Warez", in de volksmond van toen.) In die zin is het verzamelen van auteursrechtelijk beschermd werk inderdaad niets nieuws. Het stukje "analyseren" zal ik dan even ombuigen naar "consumeren". Dit kennen we dus al een goede 25+ jaar: Nuttigen van digtale of gedigitaliseerde werken zonder er voor te betalen, puur passief dus.

Wat hier wél nieuw is is dat er een heel nieuw aspect aan vastzit: Nu wordt een deel van dit auteursrechtelijk materiaal ook gebruikt om nieuwe werken mee te maken. Dat is een extra kostenderving ten opzichte van de oude situatie en een nieuwe vorm van gebruik waar een rechthebbende eerst mee zou moeten instemmen voordat het toegestaan is.
Ik snap je argument maar ergens klopt het niet. Tenminste niet zoals ik de wereld zie.

Het is een beetje te vergelijken met het illegaal verzamelen van iets anders. Denk bijvoorbeeld aan cocaïne of uranium. Leuk dat je er iets mee maakt wat de wereld nog niet eerder heeft gezien. Het blijft een feit dat het verzamelen van cocaïne of uranium illegaal is. Wat je daar verder mee doet heeft verder weinig te maken met het feit dat het verzamelen illegaal is.
Er is ook nog een hele klasse aan auteursrechtelijk materiaal dat, onder voorwaarden, gewoon wél verzameld mag worden. Jij mag gerust een kopie van alle T-net artikelen lokaal opslaan. Deze mag je ook doorzoeken op zoektermen als je dat zou willen. Je mag ook tellen hoe vaak "Motorola" voorkomt.

Of je verzamelt alle columns van de online Algemeen Dagblad (of de Telegraaf, of de NRC. etc), of alles van Fok!, of nu.nl. Niets van dit alles is illegaal al hoard je meerdere terabytes. Zolang het als naslagwerk gebruikt wordt is het OK.

Maar ook bovenstaande gegevens die je uit het publieke domein hebt gevist mag je niet zomaar zonder toestemming voor een LLM gebruiken.
Je lijkt te suggereren naar een "Fair Use" clausule, zoals ze die kennen in de VS.

Als ik het goed begrijp, dan kan je alleen in de volgende situaties uitzondering krijgen op het nederlandse auteursrecht en kent Nederland geen "Fair Use":

- Kopiëren voor privégebruik
- Citeren
- Parodiëren
- Gebruik in het onderwijs

In alle andere gevallen dien je toestemming te vragen en te hebben van de rechthebbende.

Ik ben ook zeer benieuwd hoe het model in kwestie onder één van deze uitzonderingen gaat vallen.

Bron: https://www.auteursrecht.nl/auteursrecht/Uitzonderingen

[Reactie gewijzigd door morrowyn op 13 augustus 2024 18:29]

Je _zou_ kunnen stellen dat
- Gebruik in het onderwijs
het trainen/onderwijzen van een AI/LLM dekt, omdat het niet expliciet zegt dat het om het onderwijzen van personen gaat.
Het artikel legt " Gebruik in het onderwijs" alsvolgt uit:

"De vuistregel is: als auteursrechtelijk beschermd werk gebruikt wordt voor onderwijsdoeleinden, vallend in het leerplan, dan mag dit worden gebruikt zonder toestemming of vergoeding. Het gaat hier om gebruik als toelichting bij het onderwijs, niet als volledige vervanging.

Let wel: deze uitzondering is alleen bedoeld voor onderwijs dat uit naam van de overheid of door een rechtspersoon zonder winstoogmerk wordt gegeven."

En verder :

,,Om muziek buiten de huiselijke kring af te spelen (openbaar maken) is toestemming nodig van de makers, wat in de praktijk meestal via Buma/Stemra en Sena loopt. Binnen het onderwijs mag dat onder omstandigheden ook zonder die toestemming. "

Ik ben benieuwd in hoeverre die AI-bedrijven dit hard kunnen maken hier in Nederland, uitgaande dat deze bedrijven sowieso al non-profit zijn.
Maar is die Harry Potter wereld wel zo uniek ? Toverstafjes, tovernaars en monsters zijn niet enkel Rowlings creatie ... Jorah_Newstone doelt gewoon op het feit dat doordat we dingen absorberen nieuwe creaties kunnen maken. De copyright wetgeving is er maar voor één doel, de zakken van de enkeling vullen.
Daar is dan gelukkig een rechter voor, die kan oordelen of er sprake is van een "afgeleid werk" of niet.

Bepaalde concepten en ideeën rondom tovenaars en monsters zijn gemeengoed, of ze hebben hun origine in al heel lang bestaande en generatie op generatie doorvertelde sprookjes.

Maar als iemand nu begint over een tovenaarsschool, waar je met de trein naartoe moet nadat je door een muur loopt, en iedere leerling heeft een magisch huisdier, en er is een groepssport/competitie met een gek vliegend balletje... Dan ben je waarschijnlijk niet meer origineel bezig. Dan nog, dan mag een rechter bepalen of er inderdaad sprake is van een inbreuk of niet.
Doel je met dat laatste op Tanja Grotter en de Magische Contrabas? 8)7 :D
Bij een sample gebruik ik daadwerkelijk een stukje muziek van een ander. Eventueel klooi ik er nog wat aan, zodat het anders klinkt dan het origineel, maar bij een sample gebruik ik per definitie altijd een stukje uit een ander werk. Als ik het zelf naspeel is het al geen sample meer. Een sample heeft altijd auteursrecht op zich. Naar er is meer mogelijk dan alleen een sample.
Als ik een Rock nummer wil maken en ik luister naar Guns n' Roses, Metallica, AC/DC, etc en laat me daardoor inspireren, dan is er in principe geen sprake van andermans auteursrecht, tenzij ik te dicht bij de bron ga zitten. Hoe vaak wordt er niet gezegd dat een artiest beïnvloed is door bepaalde andere artiesten en dat je dat ook goed hoort? Daar is echt geen toestemming van die artiest voor nodig en er hoeft ook geen geld van artiest A naar artiest B voor te vloeien. Hoogstens moeten er een paar Cd's gekocht worden of als je het echt gek maakt een paar muziekboeken, al kunnen veel muzikanten op gehoor de muziek zelf uitschrijven.

Wat betreft Potter. Ja, als ik een boek schrijf dat zich in het "Potterverse" afspeelt en / of waarin personages en gebeurtenissen ter sprake komen uit de boeken van Rowling, dan is daar inderdaad (vaak) sprake van auteursrecht van anderen. Maar ik kan wel elementen uit de boeken gebruiken als ik er maar mijn eigen draai aan geef. Ik kan door de boeken op het idee gebracht worden om mijn verhaal of een deel ervan in een magisch verboden bos te laten plaats vinden. Of ik kan zeggen dat tovenaars bestaan, maar dat ze zich verschuilen. Rowling heeft ook niet alles zelf verzonnen, maar leent ook uit andere werken.

Waar ligt nu het verschil tussen ik koop 100 boeken, lees die en baseer me daarop / laat me daarmee inspireren om een eigen boek te schrijven en ik laat een computer dat doen? Het lijkt wel of ze de bui al zien hangen. Als AI inderdaad ooit op een punt komt dat het echt kan "denken", dan zijn een hoop industrieën een stuk van hun inkomsten kwijt. Geef de AI een aantal parameters op waar je vind dat je boek of film over moet gaan en de AI kan een reeks uitpoepen voor jou alleen. Geen schrijver of uitgever nodig.
Of dat tegen het copyright in gaat hangt af van factoren. De aanpassing van een stuk content kan soms origineel genoeg zijn (transformative) waar het geen inbreuk hoeft te zijn (ik ken het nummer niet direct, dus geen oordeel daarover). Het kan ook zijn dat Kanye simpelweg Daft Punk om toestemming heeft gevraagd, dat gekregen heeft en netjes royalties afdraagt. Het kan ook zijn dat die overeenstemming er niet is, niet komt, en dat een rechter moet oordelen. Zoals in de 'Blurred Lines' zaak: https://www.rollingstone....n-dollar-judgment-768508/

Het probleem hier zal dan ook niet direct zijn dat er een AI getrained kan worden of een bedrijf er een AI mee traint. Maar dat de partij die dat doet niet betaald voor het 'lesmateriaal' aan de rechthebbenden, die dataset aanbieden zonder daarvoor bevoegd te zijn zal het probleem zijn. Als de afnemers van die dataset gewoon een licentie nemen op het te leren materiaal zou je dit soort berichtgeving niet zien. Echter lijkt het afnemen van licenties of betalen voor een dataset bij veel AI bedrijven niet de gewoonte te zijn.

[Reactie gewijzigd door Dennism op 13 augustus 2024 15:00]

Het kan ook zijn dat Kanye simpelweg Daft Punk om toestemming heeft gevraagd, dat gekregen heeft en netjes royalties afdraagt.
Dat is het geval, Daft Punk is zelfs gecredit als medeschrijvers.
Dat hebben ze. Volgens wikipedia en de description van het nummer op youtube is Edwin Birdsong (de schrijver van de sample source) officieel mede-auteur van Harder Better Stronger Faster.

Zijn werk is blijkbaar ook al vaker gebruikt als sample.
Anoniem: 1872794 @Dennism13 augustus 2024 19:45
Hahaha, de Blurred Lines zaak ja. Ik denk niet dat je naar een betere uitspraak kan wijzen om te zeggen: creativiteit wordt moedwillig de kop in gedrukt, omwille van machtige(re) entiteiten. Daar kun je goed zien, dat zelfs als je geen samples gebruikt, rijke lui iedereen voor het lapje kunnen houden en dan ineens is 'de vibe' te dichtbij en moet je TOCH nog royalties betalen. Je zou maar voortbouwen op de cultuur die voor jouw is geweest, hoe durft iedereen.
Dat gaat uit van de bijzonder dubieuze claim dat "machine learning" vergelijkbaar is met hoe dat mensen leren.
Als tegenclaim, waarom zou het inspireren van mensen dan geen inbreuk zijn op auteursrechten en het 'inspireren' van een machine-learning model wel?

Wanneer ik iets hoor en ik het onthoud dan 'kopieer' ik het ook naar mijn geheugen en haal ik het misschien onbewust op voor een volgende keer.
Je kopieert het nooit 100%, zeker bij artistieke dingen zit er toch altijd nog een vleugje van jezelf bij, en zo evolueert het, oude stijlen die worden vernieuwd en gecombineerd, dat is hartstikke mooi,

Is wat anders dan stukjes uit andermans werken copypasten.
Dat is toch bij een AI 'interpretatie' ergens van niet anders?

Ik ben het met je eens dat je geen datasets openbaar moet gaan zetten maar de output van een AI zou op dezelfde manier een afgeleid werk zijn als wanneer jij of ik ergens door geïnspireerd zouden worden.

Niemand verzint iets 100% origineels, vooral in de muziek niet, want veel (pop)muziek moet het juist hebben van de herkenbaarheid. Een AI die iets maakt wat 'klinkt als' is geen kopieermachine.
Dat is toch bij een AI 'interpretatie' ergens van niet anders?
Nee hoor ! Een AI interpreteert niks. Een AI heeft geen fantasie. Het laat slechts statistische berekeningen los op de input-data. En genereert op basis daarvan vervolgens weer output.
En hoe is dat anders dan een mens? Wie zegt dat een AI geen fantasie heeft? Is de 'fantasie' van een mens niet weinig anders dan het her-verwerken van de input data van onze zintuigen?

Waarom zou je onderscheid maken tussen een neuraal netwerk dat bestaat uit transistors tegenover een neuraal netwerk dat bestaat uit cellen?
Maar dat is het punt, 'Stronger' (van KW) is geen kopie van 'Harder, Better, Faster, Stronger’ (van DP)... :

"Stronger musically derives from a vocal sample of Harder, Better, Faster, Stronger (2001) by French house duo Daft Punk."

En dat is het hele punt in dit soort discussies, tussen 'geïnspireerd op' en 'een kopie' is een altijd een duidelijk onderscheid voor mensen met de benodigde expertise.
Ik ken dit hele nummer niet, maar even opzoeken bevestigt meteen mijn vermoeden van de situatie: voor Kanye West's 'Stronger' is gewoon toestemming gezocht bij Daft Punk, en Daft Punk is gecredit als medeschrijvers van het nummer, ze krijgen royalties.

Als dat niet gebeurd was dan was dat nummer waarschijnlijk óók gewoon auteursrechtinbreuk. Daar kun je meningen over hebben, zie de complete discussie rondom mash-up-artiesten en fair use die tien jaar geleden een hot item was.

Edit: Ter verduidelijking: mijn punt is dus dat ook door mensen gemaakte afgeleide werken onder ons huidige auteursrechtenstelsel gewoon op meerdere manieren auteursrechtinbreuk kunnen zijn. Om een nummer te coveren of te samplen of te remixen of te mashup'en of wat dan ook is er gewoon een licentiesysteem opgetuigd. Als je nummer teveel lijkt op een ander nummer krijg je rechtszaken aan je broek en die kun je nog best verliezen ook als je niet hard kunt maken dat je 't andere nummer nog nooit gehoord had toen jij je eerste draft op papier zette. Dus als AI hier een uitzondering krijgt, dan is dat mijns inziens nog vreemder dan wanneer je zegt "maar AI leert anders dan mensen", want de menselijke tegenhanger van wat generatieve AI echt doet heeft een gigantische bups aan auteursrechtelijke bagage.

[Reactie gewijzigd door MacGyverNL op 13 augustus 2024 15:25]

Uiteraard is er toestemming en credit voor die sample... Beweer ik ergens dat dit niet het geval zou zijn?
Nou...als jij een nummer hoort en daarop gebasseerd een ander nummer gaat schrijven in dezelfde stijl, dus akkoordprogressie, ritme e.d, maar met een andere tekst en hier en daar een variatie, kan je soms ook rekenen op een aanklacht. Je hebt namelijk zelf nauwelijks nagedacht en/of moeite gestoken in het nummer. Dergelijke rechtszaken zijn erg bekend en soms probeert iemand het en het wordt afgewezen, maar soms ook niet.

Dat is met AI hetzelfde. Erger eigenlijk, want AI is niet in staat tot een originele gedachte. Punt is alleen dat diie computers duizenden nummers kunnen analyseren en daaruit iets dat schijnbaar origineel is, maar dan eigenlijk meer een samenraapsel is van alles en nog wat.
Daar gaat het hier niet om.

De dataset zelf is ‘illegaal’. Er staan auteursrechten op. Die rechten zijn gedefinieerd. Als de dataset een licentie zou hebben om AI-bots te trainen was er niks aan de hand. (Mits het alleen voor dat doel gebruikt wordt)

We zouden kunnen stellen dat Netflix ook gebruikt kan worden om geïnspireerd te worden om andere werken te maken.
Maar dat is natuurlijk niet het beoogde doel van Netflix, en het lijkt (op dit moment) niet op grote schaal daarvoor mis/gebruikt te worden.

Stel dat Netflix zonder toestemming haar videotheek beschikbaar zou stellen voor AI-training, zonder toestemming van de rechthebbenden dan hebben we hetzelfde probleem.
Omdat een systeem geen persoon is. Een maker en eigenaar van een systeem hoort deze te maken en gebruiken om andermans rechten niet te (laten) schenden. Het heeft daar de verantwoordelijkheid toe, niet om een systeem te (laten) maken om maar geen verantwoordelijkheid te hoeven nemen en andermans rechten te negeren. Veel dieren die eigendom van iemand zijn hebben ook een lerend vermogen, maar zelfs als dat op natuurlijke wijze tot stand is gekomen en niet zomaar te wijzigen is gaat alsnog op dat de eigenaar dat niet hoort te gebruiken om andermans rechten te schenden.
Als tegenclaim, waarom zou het inspireren van mensen dan geen inbreuk zijn op auteursrechten en het 'inspireren' van een machine-learning model wel?
Een mens heeft vele eigen ervaringen, via de eigen zintuigen, en kan geïnspireerd worden als deze in contact komt met een auteursrechtelijk beschermd werk.

Een LLM heeft geen enkele eigen ervaring, die kan alleen de er ingestopte data verhaspelen en regurgiteren.
En hoe is "een opgeslagen ervaring" anders dan "opgeslagen data"? Beiden zijn bronnen van data die zijn onthouden en gebruikt als invoer om iets nieuws te maken. Of om maar een extreem voorbeeld te geven, stel je zou een robot maken die als elk ander mens opgroeit en leert, maar die zijn waarnemingen opslaat als filmpjes, foto's en teksten op een SSD in plaats van als "ervaringen" in hersenen. Die kan via AI gewoon die data gebruiken om iets nieuws te genereren. En als die robot dat kan, dan kan een losstaande AI dat ook direct op basis van filmpjes, foto's en teksten.

Dit soort argumenten converteert doorgaans naar niet-falsifieerbare redeneringen dat een machine geen 'geest' heeft of iets dergelijks.
Niet 'opgeslagen', het kenmerkende is 'eigen', alles wat je zelf ooit gedaan en meegemaakt hebt, met al je zintuigen. Dat is heel veel eerstehands informatie. Je herinnert je de zintuigelijke sensaties en hoe je je voelde. En dat allemaal niet bezwaard door auteursrecht, want eigen ervaring.

Een auteursrechtelijk beschermd werk dat je dan inspireert om zelf iets te creëren is maar een heel klein deel van de totale input. Daarom kun je bij een mens toch spreken over originele werken.

LLM's zijn niets anders dan een verzameling *tweedehands* informatie, vooral tekstuele beschrijvingen, voor het grootste deel bestaand uit iemand anders zijn creatieve output. Daar zit niets origineels in, de output kan dus alleen een afgeleid werkt zijn.

En inderdaad, als je die robot kan bouwen, dan kan die na de nodige eigen ervaringen te hebben opgedaan ook iets nieuws creëren. Maar iets zegt me dat het nog wel even gaat duren voor we daar toe in staat zijn.
het kenmerkende is 'eigen'
[...]
zintuigelijke sensaties en hoe je je voelde
En daar zijn dus die niet-falsifieerbare definities. ;) aannemende dat die sensaties en gevoelens bestaan in de vorm van neuronen en hormonen is dat in theorie te simuleren, en zou zo exact dezelfde uitvoer gegenereerd kunnen worden op basis van dezelfde invoer.

Een AI kan ook leren over sensaties en gevoelens als het daar de juiste informatie over krijgt, en dat dan gebruiken om zijn "gevoel" in een "creatief" werk te verwerken.

Daar zijn we technisch zeker nog niet, maar dat is geen fundamentele beperking.
Klopt, maar daarom ben ik ook van mening dat er (nog) geen AI bestaat en dat dat waarschijnlijk nog wel even gaat duren ook. Wat ChatGPT en consorten wegzetten is leuk, maar heeft maar weinig met AI te maken. Echte intelligentie is er niet, het is gewoon verdraaien van een gigantische dataset op basis van prompts van de gebruiker. Hele geavanceerde algoritmes, maar het blijft opdracht --> output zonder eigen inbreng.

Op het moment dat een AI inderdaad eigen gevoelens en emoties gaat vertonen, dan wordt het IMO een heel andere discussie.
Lees mijn post nog eens, maar dan met de bril dat het onderwerp auteursrechten is :)
Over het verhaspelen en herhalen van het geleerd materiaal ben ik wel eens maar wat als je een LLM laat trainen op het materiaal dat geproduceerd is geworden door een andere LLM. Kun je als uitgever dan oneindig lang auteursrechten blijven claimen op afgeleide LLM's omdat alle afgeleide werken geïnspireerd zijn geworden op auteursrechtelijk beschermd materiaal? Dit aantonen lijkt me nogal lastig.
Maar is dat noodzakelijk? Wetten zijn gemaakt voor en door mensen. We hebben het hier niet over hoe een AI werkt; maar over een "illegale dataset". Maar het verzamelen van die informatie is dus illegaal geweest. Maar hoe is dit verschillend van iemand die elke tekst leest en memoriseert? Gaat het dan puur om het geautomatiseerd verkrijgen/verwerken zonder toestemming? Maar op welk punt zijn we dan de grens over gegaan van 'fair use' of bijvoorbeeld geciteerd gebruik? Wie heeft Brein de opdracht gegeven om de hele set offline te halen, ipv enkel uit te dunnen voor welke auteursrechten ze wel kunnen vertegenwoordigen?

Dit neigt m.i. heel erg naar een "torrents zijn illegaal" retoriek ipv inhoudelijk te kijken wat hier gebeurd. Er zal ongetwijfeld gegevens in die dataset hebben gestaan waarvan de auteurs willen dat die niet voor dit doeleinde verwerkt worden, maar het grijze gebied wekt voor mij veel willekeur en vragen op dat ik deze gang van zaken ook niet goed vind.
Wie heeft Brein de opdracht gegeven om de hele set offline te halen, ipv enkel uit te dunnen voor welke auteursrechten ze wel kunnen vertegenwoordigen?
Dat zal normaal gesproken Brein zelf geweest zijn, die hebben immers een mandaat van hun aangeslotenen ( https://stichtingbrein.nl/aangeslotenen/ ) om inbreuk op hun rechten op te sporen en te pakken.

Wat normaliter gebeurt is dat Brein een inbreukmaker op het spoor komt, deze aanspreekt en een aanbod doet (om verdere juridische stappen te voorkomen). Het is dan vaak de vermeend inbreukmaker die er voor kiest om te stoppen met inbreuk te maken (hier mogelijk door de dataset offline te halen), en eventuele verdere afspraken maakt met Brein om verdere stappen te voorkomen.

Het kan natuurlijk ook zijn dat zo'n vermeend inbreukmaker daar niet op in gaat, dan zal het over het algemeen voor een rechter komen (al dan niet in een spoedprocedure om de vermeende inbreuk te stoppen hangende de bodemprocedure).
Helemaal met je eens, Daar waar computers data aanzienlijk sneller tot zich nemen dan een mens zou kunnen.

Ik kan er 1, 2, 3 de bron niet voor terugvinden. Maar ik meende te herinneren dat de AI van amazon in 24 uur even veel kon leren als een mens in 70.080.000.000 uur zou kunnen (100.000 mensen die in 80 jaar, 24x7 zouden lezen)
Let op dat het hier puur om data scrapen gaat, hiermee is het model zelf nog niet getraind.

Een AI gelijkwaardig beschouwen aan een mens die iets kijkt, leest of luistert is dus grote onzin.

Ik vergelijk het bijvoorbeeld met een situatie waarin ik vette film gezien heb en dit zo precies mogelijk probeer te beschrijven aan een vriend die graag wilt weten hoe de film gaat. Als de vriend de film vervolgens bekijkt zal deze de hoofdlijnen begrijpen, maar waarschijnlijk toch een compleet ander beeld hebben van de film zoals ik hem ervaren heb.
Daar waai AI de tot op de pixel per frame nauwkeurig zou kunnen uitleggen hoe de film gegaan is.

Ik vind dat het nog steeds moet kunnen dat AI getraind wordt met dit soort data, maar wel als hier toestemming voor is van de mensen die er belang bij hebben. Daar waar de tekst "Niets uit deze uitgave mag worden verveelvoudigd" behoorlijk duidelijk is.
Daar waai AI de tot op de pixel per frame nauwkeurig zou kunnen uitleggen hoe de film gegaan is.
Een AI zoals ChatGPT is een neuraal netwerk dat op basis van een bepaalde input tot een bepaalde output komt. Daar kunnen dingen soms letterlijk uitrollen, maar het is absoluut niet zo dat de hele dataset letterlijk gereproduceerd kan worden. Het wel degelijk een geleerde abstractie van het geheel.
Maar als het AI gebaseerd is op een neuraal netwerk, dan leert de AI dus ook vergelijkbaar met hoe mensen leren, maar dan tich keer sneller.
Ik ben het eens met wat je zegt, maar je zou ook kunnen stellen dat het probleem zit bij het aanbieden van de dataset. Niet dat je je AI er mee traint.
De aanbieder van de set, die verspreidt natuurlijk wel auteursrechtelijk beschermde werken.

Je kunt daarentegen ook weer zeggen: Het is niet leesbaar voor mensen. Is het dan nog wel illegale verspreiding als geen mens er iets aan heeft?
Volgens mij is het nog steeds "verspreiding van auteursrechtelijk beschermd materiaal" of het nu leesbaar is of niet. En als dat bij wet illegaal is dan is dat dus "Illegale verspreiding van auteursrechtelijk beschermd materiaal"

Maargoed, ik ben absoluut geen expert op het gebied van auteursrecht.. dit artikel trok mijn aandacht omdat dit werkelijk de eerste keer is dat ik vind dat Brein iets nuttigs toevoegt aan de samenleving.
Als ik over straat loop en een bekend liedje neurie dan is dat ook een "verspreiding van auteursrechtelijk beschermd materiaal". Oké het kan een beetje vreemd klinken, met noten die er normaal niet zijn. (vergelijking met het hallucineren van AI). Ik zie niet in dat dit enige wijze anders is.
Je neemt het woord "verspreiding" te letterlijk. Je opmerking is raar.
Nee, als je een dataset tbv het trainen van AI verspreid dan is dat eerder de vergelijking dat je alle liedjes achter elkaar op een bandje hebt gezet. Niemand heeft nog een tape speler en dus is het redelijk safe aan te nemen dat het niet zonder meer afgespeeld wordt, maar als jij die bandjes uitdeelt ben je nog steeds auteursrechtelijk beschermd materiaal aan het verspreiden. Wanneer de LLM de data heeft verwerkt in een dataset, dan is jouw situatie van toepassing, en dan ben ik het ook met je eens. (dan wordt het ook erg fuzzy waar de wet ligt)
Niet perse, het gaat pas fuzzy worden als het niet in de datasets zit maar wel in de uitkomst
Je kunt daarentegen ook weer zeggen: Het is niet leesbaar voor mensen.
Brein heeft het ingezien, dus waarom zou het niet leesbaar zijn? Omdat de directe representatie niet leesbaar is? Dan zou elk zipje geen auteursrechten kunnen omzeilen, het spreekt voor zich dat de rechter zich niet zo simpel om de tuin laat leiden.
Ik heb betaald voor de boeken wasruit ik leer. As ik de kennis wil delen schrijf ik op waar ik de kennis vandaan heb middels een regerentie.
Maar als die informatie op een website staat, die vrijelijk toegangkelijk is, kan je in principe "leren" door de website te lezen. Zolang een AI niets anders kan zien dan een gebruiker die de webpagina (zonder extra betalingen) opent zie ik absoluut geen probleem. Wil je dat niet? Dan maak je maar een betaalmuur.
De AI leert niet door het lezen van een webpagina, de content van de web pagina wordt door de trainer gekopieerd, in een bepaald formaat getransformeerd en toegevoegd aan een training set.

Het AI model wordt getraind met die training set. En dat is waar de schoen wringt. De training set bevat auteursrechtelijk beschermt materiaal dus hebben alle de rechthebbenden recht op een vergoeding. En die vergoeding moet elke keer betaald worden wanneer iemand anders de beschikking krijgt over de training set.
Praktisch wordt de content dus verwerkt in e-boeken die speciaal zijn samengestelt om door AI gelezen te worden.
Mooie vergelijking. Wanneer je een boek omzet naar een eBook dan snapt iedereen dat je die niet mag verspreiden zonder te betalen.

Zet je de inhoud van een boek in een trainingset dan geldt hetzelfde.
Ook een mens mag de content van een vrijelijk toegankelijke website niet zomaar (her)gebruiken maar heeft nog gewoon met wetgeving te maken.
Nee, Kanye heeft daar toestemming voor gevraagd en de artiesten van Daft Punk staan ook in de credits van het nummer.
Een getrainde KI bevat niet de oorspronkelijke gegevens, de trainingsdata natuurlijk wel. Zolang je de trainingsdata op een eigen harde schijf bewaart kun je je beroepen op regelingen als billijk gebruik, thuiskopie en dat soort zaken. Zodra je evenwel je trainingsdata op internet gaat publiceren heb je daarentegen gewoon een groot probleem met de auteurswet en Brein staat dan zonder enige discussie in zijn recht.
Denk bijvoorbeeld aan muzikanten die bestaande nummers samplen, zoals Kanye West deed met Daft Punk's ‘Harder, Better, Faster, Stronger’ in zijn hit ‘Stronger’.
Ja, alleen vragen die toestemming aan de rechthebbenden, of ze dragen royalties of licentie-gelden etc af. Dan mag dat uiteraard gewoon.

Dat zijn nou net dingen die hier dus niet gebeurden. En dan is het imho niet meer dan normaal dat daar tegen opgetreden wordt.

Imho is dit geen grijs gebied, dit is gewoon kraakhelder: het is zo fout als maar kan, als men geen toestemming van de rechthebbenden had.
Kanye, net zoals veruit de mééste artiesten, vragen daar toestemming voor aan de rechthebbenden of diens erven.
Als je een nummer covert moet je inderdaad licentiekosten betalen.
Een LLM laten leren van content met auteursrecht is een grijs gebied, maar een dataset maken van die content en dat beschikbaar stellen is natuurlijk gewoon fout.

Dat is beetje hetzelfde als e-books uploaden, zodat andere daarvan kunnen leren.
Dit lijkt me totaal geen grijs gebied, getrainde modellen misschien, maar het gaat hier om het verkopen van een collectie van van matteriaal waar de verkoper geen rechten op heect. Dit mag gewoon niet.

Een beetje als een lesprogramma met gekopieerde lesboeken verkopen. Lijkt me een duidelijke zaak. Dat een deel van de rechthebbende er voor kiezen om dit matteriaal voor iedereen toegangkelijk te maken binnen hun eigen website doet hier niet toe.
Je hebt hier een goed punt hoor! En ik ben het met je eens.

Maar even advocaat van de duivel.. Je betaald normaliter wel voor de boeken waar je uit leert. En de artiest die iets sampled betaald ook voor het gebruik van die sample.
Hmm, ik vind dit een nogal grijs/donkergrijs gebied. Wij mensen leren ook door boeken, films, kunst, muziek, etc. te bekijken en hierop verder te bouwen.
Je hebt hier 3 zaken:

1. Het bezit van tonnen copyright content (Films, boeken, muziek, kunst..) waarvoor geen licentie is.
2. Het verkopen van die copyright content aan derden.
3. Het trainen van AI op die copyright content.

1 = Zo helder als iets, geen grijs gebied.
2 = Zo helder als iets, geen grijs gebied.
3 = Grijzer gebied omdat een AI net zoals de mensen in theorie les kan krijgen door gewoon op aarde aanwezig te zijn. De luisteren naar de radio, kijken naar TV, surfen op het internet, bezien van reclame, lezen twitter posts etc.

Het verschil tussen AI en de mens:
1. AI wordt in korte tijd getraind door grote hoeveelheden illegaal verkregen auteursrechtelijk beschermd materiaal te combineren en op basis daarvan nieuwe creaties te maken. Bovendien is AI geen rechtspersoon. Als een boek of muziek alleen voor persoonlijk gebruik is toegestaan (zoals het gebruiken om jezelf gitaar te leren spelen), dan valt het trainen van een AI-model en dat doorverkopen niet onder persoonlijk gebruik. Evenmin is het 'lezen' van 10.000 boeken per dag en 100.000 tweets geen persoonlijk gebruik.
Hmm, ik vind dit een nogal grijs/donkergrijs gebied. Wij mensen leren ook door boeken, films, kunst, muziek, etc. te bekijken en hierop verder te bouwen. Denk bijvoorbeeld aan muzikanten die bestaande nummers samplen, zoals Kanye West deed met Daft Punk's ‘Harder, Better, Faster, Stronger’ in zijn hit ‘Stronger’. Hij gebruikte elementen uit het originele nummer om iets nieuws te creëren dat zowel herkenbaar als origineel is. Is dat dan ook tegen de copyright in? AI doet hier eigenlijk hetzelfde door bestaande data te analyseren en op basis daarvan iets nieuws te genereren." Ik vind dat Brein hier nogal snel is met ingrijpen. Te snel zelfs..
Hier is niks grijs aan hoor. In ieder boek staat deze tekst, of iets van dezelfde strekking:
Niets uit deze uitgave mag worden verveelvoudigd, opgeslagen in een geautomatiseerd gegevensbestand, of openbaar gemaakt, in enige vorm of op enige wijze, hetzij elektronisch, mechanisch, door fotokopieën, opnamen, of enige andere manier, zonder voorafgaande schriftelijke toestemming van [de rechthebbende].
En zelfs zo'n tekst is eigenlijk overbodig, want op ieder boek of muziekstuk rust automatisch auteursrecht, en heeft de auteur volledig recht op vruchtgebruik. Dus feitelijk zou de winst die gegenereerd wordt door AI-modellen gedeeld moeten worden met de auteurs/rechthebbenden van de werken die gebruikt zijn om die AI-modellen te trainen.

Zie ook Wikipedia.
Het grote verschil is dat in dat geval de originele maker een vergoeding krijgt voor het gebruik van auteursrechtelijk materiaal. Dus Daft Punk krijgt geld elke keer als het liedje van Kanye gedraaid wordt.
Je betaald gewoon voor je boeken en je muziek. Het gaat hier om het verspreiden van trainingsdata waarbij niet elke keer betaald wordt voor de inhoud.
zoals Kanye West deed met Daft Punk's ‘Harder, Better, Faster, Stronger’ in zijn hit ‘Stronger’. Hij gebruikte elementen uit het originele nummer om iets nieuws te creëren dat zowel herkenbaar als origineel is.
Slecht voorbeeld, aangezien dat jatwerk is. Dezelfde discussie zag je ook eind jaren 80, begin 90 toen er volop ge-sampled werd, zonder enige bronvermelding & betalen van royalties.
Volkomen terecht dat auteursrechten organisaties hier tegen optreden. En ja, het is een grijs gebied, maar zolang Big tech hier buitensporig veel geld mee verdient, over de ruggen van anderen, vind ik het volkomen terecht dat men hier tegen optreedt!
Muzikanten betalen voor het gebruik van de samples (lees voor meer info bijvoorbeeld https://rockthebells.com/...redits-and-who-gets-paid/).
Het gaat er om dat je content niet mag gebruiken zonder goedkeuring. Over wat je beschrijft met nummer van Kanye West staat er inderdaad copyright op nummer van daft punk maar er is voor goedkeuring betaald vaak in de vorm van royalties betalen. In literatuur kan je een idee niet copyrighten je mag een in eigen woorden een vergelijkbaar boek of script schrijven zolang er niet 1 op 1 passages worden overgenomen. De data van het bericht is zonder toestemming gebruikt en als jij AI een vraag stelt geeft die vaak een antwoord wat 1 op 1 overgenomen is zonder bronvermelding. Ik denk dat brein hier terecht handhaaft.
Kanye betaalt gewoon afdracht daarvoor hoor
Dat klopt. Wij mensen leren daar ook van. Maar als wij mensen datgene wat wij gelezen hebben, bijvoorbeeld een boek, ook als boek uitbrengen heet dat toch ook echt wel plagiaat.
Bovendien is er denk ik wel een verschil tussen een ontwikkeling van mensen en de ontwikkeling van AI op basis van kennis. Al is dat allen al doordat AI weer gebruik maakt om in veel gevallen geld te verdienen voor iemand anders, waarbij er gebruik gemaakt wordt van de kennis van iemand anders. Ik vermoed dat dat veel meer herleidbaar is, dan de kennis die een mens opdoet. Waarbij kennis ook veel meer gelinkt is aan cultuur en gevoel.

Maar goed, zo denk ik daar nu over, wellicht blijkt in de toekomst dat ik dat mis heb :-)
Maar volgens mij is het de bedoeling dat je een bedrag betaalt voor een boek, film, kunstwerk, museum, etc. als je daar als mens van wil leren?
Je probeert het een grijs gebied te maken door net te doen alsof een AI te zien is als een persoon. Alleen is een AI duidelijk geen persoon, het is een door mensen gemaakt systeem. Dat systeem heeft de kenmerken om te 'leren' gekregen zodat de maker er zelf voordeel bij kan hebben. Terwijl de maker en zijn systeem wettelijk niet zomaar voordeel horen te nemen en ook niet zomaar voordeel mogen claimen omdat ze daar iets voor gemaakt hebben. Als je een systeem maakt dat andermans rechten kan schenden is het eerder de bedoeling dat je dat dus niet doet, voorkomt en verantwoordelijkheid neemt. Bij veel AI en hoe men met andermans gegevens om gaat is dat overduidelijk niet het geval.
Wij maken iets origineel van de bestaande data, AI kan niet veel meer dan collages maken.
Het probleem met dergelijke vergelijkingen is dat datasets en mensen-hersenen niet zoveel op elkaar lijken als je in je uitspraak doet lijken.

Een LLM kan alleen recyclen, het kan slechts voorspellen wat de volgende letter, het volgende woord dat men zou verwachten te verschijnen is. Het kan geen originele ideeën bedenken, of zelfs een compleet nieuwe tekst schrijven.

Jij als mens kan dit wel. Ja, het klopt dat je ook in staat bent je vaardigheden te verfijnen aan de hand van voorbeelden die je gezien hebt, maar je kan ook compleet in een vacuüm nieuwe dingen verzinnen. Dat kan een LLM niet.
Hmm, ik vind dit een nogal grijs/donkergrijs gebied. Wij mensen leren ook door boeken, films, kunst, muziek, etc. te bekijken en hierop verder te bouwen.
Dat mag ook. Alleen verbatim dupliceren mag ook voor mensen niet (tenzij je een beperkte passage citeert).
Denk bijvoorbeeld aan muzikanten die bestaande nummers samplen, zoals Kanye West deed met Daft Punk's ‘Harder, Better, Faster, Stronger’ in zijn hit ‘Stronger’. Hij gebruikte elementen uit het originele nummer om iets nieuws te creëren dat zowel herkenbaar als origineel is. Is dat dan ook tegen de copyright in?
Ja, er moet ook met samples afgerekend worden bij de originele maker. Zijn best wel wat rechtszaken over geweest omdat het al heel snel over heel veel geld gaat.
Wat jij een grijs gebied noemt is niet waartegen Brein heeft opgetreden.
Brein heeft opgetreden tegen een illegale dataset met illegale kopieën van werken die gecomprimeerd waren voor AI doeleinden.

Wat jij een grijs gebied noemt is leren door AI's door lezen/scannen van legale versies van werken.

De realiteit is dat AI's vooral leren van illegale kopieën van werken.
Verder is het zo dat AI's die leren van auterusrechtelijke werken vaak ook flinke unieke stukken van die werken kunnen genereren in hun uitvoer veel meer dan alleen een sample in een muziekwerk.
Niet enkel leren, want je hebt echt creatief geboren mensen die dingen die ze gezien en bestudeerd hebben mixen uit geheugen en er een volledig eigen draai aan geven en je hebt mensen die creatief willen zijn en leren creatief te zijn (alsof dat een ding is) en gewoon zodra ze een opdracht krijgen een bestaand kunstwerk, maatmeubel, muzieknummer of wat dan ook op zoeken en er kleine dingen aan wijzigen.

Gezien een AI momenteel niet creatief kan zijn komt de AI dicht bij de 2e groep (ik durf te zeggen de grootste groep "creatieve" mensen) met het grote verschil dat ze veel meer data tot zich kunnen nemen en onthouden.

[Reactie gewijzigd door Beakzz op 13 augustus 2024 17:27]

Niets grijs aan. Ben het deze keer met Brein eens als het klopt wat ze zeggen:
"Stuk voor stuk betrof dit illegaal gekopieerde boeken. Ook de nieuwsartikelen zijn gekopieerd van websites met auteursrechtvoorbehoud."
Dat is niet recht te praten en bovendien zit er commercieel gewin in als daarmee je AI product traint.

Dat is heel iets anders dan een e-book een keertje illegaal downloaden om te lezen op vakantie of een nieuwsartikel lezen buiten de paywall om. Ook niet helemaal goed, maar niet vergelijkbaar met bovenstaande.
Brein is nutteloos.. Ook die van meestte mensen
De dataset is inmiddels offline gehaald.
Wat? De site is misschien offline gehaald, de dataset staat nog gewoon online. En de torrent is eenvoudig binnen te halen via archive.org. En voor zover ik kan zien wordt deze ook prima 'geseed'.
Ik denk dat er weinig partijen zijn die een volledig nieuw taalmodel in het Nederlands gaan trainen, als je ziet hoeveel uur in het trainen van de echt grote modellen (die al perfect Nederlands kunnen) zit. Deze offline gehaalde dataset is hooguit handig voor wie een model dat nog niet goed Nederlandse teksten kan genereren, wil finetunen naar onze taal, maar ik denk dat wie een deal maakt met bijvoorbeeld Nu.nl voor de volledige content van al hun nieuwsberichten uit de afgelopen x-jaar (plus alle NuJij-reacties) dan waarschijnlijk al meer dan genoeg heeft.
Wel, volledig zelf trainen inderdaad niet. Maar er zijn wel genoeg partijen (ikzelf ook) die wel degelijk Nederlandse modellen trainen. De volgende modellen zijn bijvoorbeeld allemaal getraind op Nederlandse teksten, ook al vertrekken ze van andere, Engelstalige modellen:Daarnaast zijn er ook masked language models zoals mijn RobBERT model die wel degelijk helemaal 'from scratch' getrained zijn op 40 GB Nederlandstalige tekst..

Dit artikel—net als BREIN—is wel extreem vaag over welke dataset dit nu precies is. Zelf gebruiken wij vooral de Nederlandse secties van OSCAR en mC4, wat publiek beschikbare scraped data is.

edit: het lijkt erop dat de 'Dutch gigacorpus' offline gehaald is, ik neem dus aan dat het die dataset was waarover dit artikel gaat.

[Reactie gewijzigd door iPieter be op 13 augustus 2024 14:39]

Dan is de vraag, heb jij de rechthebbenden van de 40GB aan Nederlandstalige teksten een vergoeding betaald of niet. Daar draait het om.

OSCAR:
We do not own any of the text from which these data has been extracted.
En daar gaan we dus. OSCAR levert teksten zonder ervoor te betalen.

En om zich in te dekken:
Notice and take down policy
Notice: Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:

Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
Clearly identify the copyrighted work claimed to be infringed.
Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
And use the contact form below.
Take down: We will comply to legitimate requests by removing the affected sources from the next release of the corpus.

[Reactie gewijzigd door wiseger op 13 augustus 2024 15:04]

De OSCAR-corpus dekt zich inderdaad redelijk in door die policy toe te voegen. Toen wij ons model trainden in 2019 was er ook enkel een "shuffled" dataset beschikbaar die bestond uit fragmenten van 1-2 zinnen. Daar valt eigenlijk niet veel meer terug te leiden naar de originele teksten, maar voor taalmodellen werkte dat wel nog goed genoeg.

Auteurs van die originele teksten terugvinden is daarmee echter ook wel onmogelijk. Pas later heeft OSCAR volledige datasets gepubliceerd waarbij dit wel mogelijk zou zijn. Die dataset is ook stukken groter geworden, maar blijft enkel scraped web content en geen boeken zoals de offline gehaalde gigacorpus.

Maar in ieder geval is er ook nog wel een verschil tussen het publiceren van een dataset, wat onder copyright-wetgeving valt en het trainen van een model. Voor LLMs is dit inderdaad een grijs gebied omdat die teksten kunnen genereren, maar voor MLMs zoals RobBERT zijn sowieso al niet generatief en genereren geen teksten. Dan is er volgens mij ook geen sprake is van distributie waarvoor een vergoeding betaald zou moeten worden.
Erg blij met je modellen, heb er veel mee geknutseld in het kader van mijn patiënten en patiëntdossiers.(Natuurlijk getoetst conform standaarden van ethische commissie)
Het grote spel om de data begint. Was het tot voor kort gewoon data bij elkaar graaien, model trainen en je kon gaan verdienen, nu krijg je te maken met kosten van de trainingsdata.
Heel veel websites (o.a. Reddit!) hebben hun API dichtgetimmerd (omdat het ontzettend veel data/compute slurpt en het niks opleverd) sinds ChatGPT 3 uit kwam.

Bij Reddit was iedereen boos dat ze dat deden, ze hebben nooit expliciet uitgelegd dat het was om ontzettende scraping (door OpenAI) tegen te gaan, maar als je ziet hoe snel ze hun data daarna verkocht hebben aan Google kan je wel 1 en 1 bij elkaar optellen...

[Reactie gewijzigd door ManIkWeet op 13 augustus 2024 15:12]

Ik pak even chips en cola. Dit wordt nog een leuk ping-pong spelletje. Aangezien AI helemaal geen auteursrechten hoeft te schenden, maar wel net als een encyclopedie verwijzingen kan geven naar auteurs en hun geschreven werk. Ben benieuwd hoe dit wordt opgevat door juristen.
Het gaat hier om trainingsdata. Daar zit wel degelijk auteursrecht op en die kan je niet verspreiden zonder te betalen.
wacht ff, dus we trainen op basis van openbare data op internet. Maar omdat we de openbare data gebruiken om te trainen is hij ineens niet meer openbaar ofzo?

Zoals ik het nu begrijp mag google wel het tweakers forum indexen en je vervolgens dit als zoekresultaat geven. Maar als chatgpt een quote van het forum zou vermelden in een antwoord met bronvermelding is dit ineens niet goed?

Ik denk dat brein een donatie van google heeft gehad zodat ze niet te snel irrelevant worden. Als je informatie niet publiek wilt hebben moet je het achter slot en grendel bewaren en niet openbaar op internet zetten lijkt me?

Komt er nu een thuis AI opslag op videokaarten en npu's?
Je kopieert data dat auteursrechtelijk beschermd is naar een trainingset. Dat is een kopie. Als je die kopie verspreid, dan ben je auteursrecht verschuldigd per verspreidde kopie.
ALs je die gegeven gewoon aangeschaft habt mag je dat bij de training gebruiken.
Training is leren, kennis opdoen uit. Dat is nog niet overal geland.
Het uiteindelijke mode bevat normaliter niets meer van de trainingsdataset.
Ik geloof dat je de casus niet begrijpt. Je moet betalen voor het trainingsmateriaal.
Het trainingmateriaal zelf mag je niet verspreiden.
Publiek informatie (nieuwsberichten) zou beschermd materiaal zijn, daar gaat iets mis bij brein.
Het artikel geeft de indruk dat alle materiaal voor AI training bij voorbaat verboden is, dat klopt niet.

Deze hele specifieke zaak gaat om materiaal dat kennelijk niet in eigendom verkregen is en als eigendom naar anderen verhandeld is. Dat is een inbreuk op auteursrecht. Dat heeft niets met AI van doen het had ook een muziekje kunnen zijn.
Open sources voor veel geld verkopen mag ook niet dat valt onder oplichting. Het bundelen met extra functies tot een nieuw geheel levert een nieuwe product op waar wel weer auteursrecht voor gelden.
Het is minder zwart/wit als je doet voorkomen
Het materiaal dat je aanschaft mag je voor training gebruiken. Echter je mag het materiaal zelf niet verspreiden.

Publieke informatie bestaat nauwelijks, nieuwsberichten van bijvoorbeeld het ANP die je gratis kan lezen op nu.nl mag je niet gratis verspreiden. Ook daar zit gewoon auteursrecht op.

[Reactie gewijzigd door wiseger op 15 augustus 2024 15:48]

Daat zit de clou, trouwens openbaar ap mag gebruikt wirden voor training indexering.
De indruk hier wordt gewekt dat het nooit zou mogen. Dst klopt niet
Blijf het apart vinden dat mensen/bedrijven lappen tekst online zetten en dan raar staan te kijken als die gebruikt worden......

Boeken etc snap ik, die moet je daadwerkelijk kopen, maar een vrij toegankelijk nieuwsartikel is wat anders.
Dat iets online staat wil nog niet zeggen dat iedereen maar mag doen met de content wat ze willen. Ze worden niet opeens eigenaar van de content ofzo.

Als je het dan zonodig wil gebruiken, vraag dan gewoon toestemming aan de eigenaar.

Waarom denk je dat er dingen als robots.txt etc bestaan? Die zijn weliswaar vrijwillig en niet verplicht, maar het is wel een gentlemans agreement om je eraan te houden. Helaas doen AIs dat té vaak niet, en negeren ze het gewoon. Juridisch mag het, maar onfatsoenlijk is het wel.
Je mag de content consumeren als hij vrij online staat. Of een mens dat doet of een AI algoritme maakt weinig uit. 1 consumptie is 1 consumptie.

Ik begrijp je punt dat het niet *netjes* is, maar dan had je die content niet online moeten zetten als je verwachtingen gaat scheppen gebaseerd op je eigen moraal.

Zodra het online staat is het zoals ze in het Engels zo mooi zeggen: "It's out of your hands".
Dus als jij foto's online hebt gezet, en ik download ze, knip en plak die door elkaar en verkoop het resultaat, dan is dat geen probleem?
Je mocht altijd al stukjes van die foto gebruiken, dat heet Fair Use :)
Maakt heel veel uit. Alles wat online zit heeft voorwaarden. Op het moment dat het volgens de voorwaarden mag dan mag het
Net als dat ik iets op straat roep, is op internet iets roepen niet gebonden aan voorwaarden.
Als je niet wil dat je boodschap gebruikt wordt, moet je hem niet uitten.
Zeg dat maar tegen de grote nieuwsbedrijven en de vele rechtzaken die zij aanspannen (en winnen) tegen organisaties of personen die hun foto's gebruiken.
Voorbeeld: https://www.haykranen.nl/2021/09/14/geen-plaatjes/
https://www.villamedia.nl...09-4c9c-9115-8106fb2f1e50
Zelfs archief is niet veilig gebleken: https://www.cedar.nl/uplo...tegen_Gemeente_Leiden.pdf
Jah, als ik iets uit een winkel jat en doorverkoop krijg ik ook gezeur. Logisch, deze afbeeldingen zitten achter een paywall.

Ik had het over zaken die volledig toegankelijk op het "open" gedeelte van het internet staan, dus niet achter een storefront of een paywall.
...ik ook. Wijdverspreide digitale (en gedigitaliseerde) media is openbaar toegankelijk maar dat heeft geen enkele beperking op de rechten
Klopt, maar de realiteit geeft daar helaas weinig om.
Leven ze nog? Langs niks gehoord van brein. Ik dacht dat ze eindelijk eens achter nieuwsgroepen aangegaan waren ofzo.

Lekker bezig wel, hip én rechtenschendend.

Al ben ik voor wel pro-scraping van publieke informatie, als ze ouder zijn dan, laten we zeggen, een maand of 3.
Uiteraard ben jij voor want je bent geen of nauwelijks eigenaar van data. Jij hoeft er niet van te leven.

Maar Tweakers denkt er echt heel anders over, die leven van hun content.

Publieke data bestaat praktisch niet, de maker heeft altijd auteursrecht tenzij die er expliciet vanaf ziet.

Een veel genaakte denkfout is dat als data publiekelijk toegankelijk is, er geen auteursrecht op zit.
Ik zeg nergens dat er geen auteursrecht op zit.
Natuurlijk snap ik dat nieuwsberichten waarde hebben als ze net geplaatst worden, maar die waarde gaat vrij snel verloren en dan mag van mij het recht erop gewoon verlopen na een korte tijd. (de tijd staat natuurlijk ter discussie, maar ik gooi er 3 maanden in als richtlijn)

Ik kan als mens de informatie tot mij nemen en verpakken en op een andere website weer opschrijven. Ik kan de gegevens op mijn website dan ook in de markt zetten tegen betaling.

Waarom mag een derde dan geen AI trainen zoals een mens dat ook doet?
Ik vindt die regeling nu zo vreselijk krom om die reden.

Journalisten doen dit volgens mij ook aan de lopende band, niet? Dan staat er ergens heel klein 'bron x' oid. (wat ook staat als je bijvoorbeeld de Copilot AI bevraagd)
Het gaat er hier om dat de informatie letterlijk opgenomen is in een training set die verspreid wordt zonder de rechten te betalen. De training set wordt verspreid zonder dat de afnemers, de AI trainers, betalen aan de eigenaren van de content.

Je mag een AI trainen, dat is hier de casus niet. Je mag alleen geen illegaal verkregen materiaal gebruiken voor die training, dat is waar het hier om gaat.

Bij het verspreiden van een nieuwsbericht gaat het niet om de het nieuwsbericht zelf, het gaat om de geredigeerde, letterlijke tekst die beschermd is. Dus jij mag gewoon zelf een artikel over 'Brein haalt illegale Nederlandstalige dataset voor trainen AI-modellen offline' schrijven en die publiceren. Je mag zelfs citaten met bronvermelding uit het bovenstaande Tweakers artikel opnemen.

Wat je niet mag doen, is het artikel in zijn geheel of gedeeltelijk kopiëren en op je eigen tech nieuws site zetten. Ook al is het artikel ouder dan drie maanden.
"Ondertitels van talloze films en tv-series uit illegale bron". Wat is dat? Zijn de tv-series en films uit illegale bron? Maar dit zijn de ondertitels. Zijn die uit illegale bron?

Brein is een organisatie die zich bezig houd met het verdedigen van een prehistorisch verdienmodel van "rechthebbenden". Dat zijn organisaties die bepalen of jij wel of niet een stukje media mag bekijken/beluisteren omdat zij daar geld voor hebben betaald. Laten we maar niet gaan doen alsof ze dit soort data-sets offline laten halen om het beter te maken voor de gewone consument.
Edit: Na nogmaals lezen lijkt je vraag te gaan of de ondertitels van een 'illegale' website afkomen. Het antwoord is: ja. Het gat echt alleen om de losse ondertitels. Die kan je los downloaden in de taal die jij wil (als die beschikbaar is) als je een film hebt die bijv. alleen in de originele taal te downloaden is.

Als een website ondertitels aanbied waar auteursrecht op zit, dan is die website illegaal bezig. Dus een illegale bron.

Origineel:

De tekst (het script) heeft iemand geschreven en is er dus sprake van auteursrecht.

De auteursbond schrijft het volgende
Ook op een vertaling of op een ondertiteling rust in beginsel auteursrecht. Als vertaler of ondertitelaar ben je dus auteursrechthebbende en kun je een contract sluiten over de exploitatie van de vertaling of ondertiteling.
Bron: https://auteursbond.nl/ke...alingen-en-ondertiteling/

En blijkbaar, als de vertaling relatief veel afwijkt kan er zelfs een dubbel auteursrecht op ontstaan. Tja...
[...] qua totaalindrukken zoverre afwijken dat er ten opzichte van het oorspronkelijke werk te spreken is van een nieuw zelfstandig werk. Wanneer dit het geval is ontstaat er een dubbel auteursrecht op de ondertitels, wat overigens niet wegneemt dat er nog steeds toestemming nodig is van de rechthebbende op het oorspronkelijke werk voor vervaardiging en openbaarmaking van de ondertitels.
Bron: https://solv.nl/blog/rech...et-vrij-van-auteursrecht/

[Reactie gewijzigd door Triblade_8472 op 13 augustus 2024 23:48]

Nu zit ik al een tijdje niet meer in het piraten circuit, maar zijn dit echt ondertitels met auteursrecht (bewezen) of zijn dit "fan" ondertitels die bij potentieel uit illegale bron verkregen media passen en daardoor door brein onterecht als uit illegale bron worden aangemerkt? Want dat laatste was erg vaak het geval toen ik nog wel in het piraten circuit zat.

Edit: die laatste link laat inderdaad zien dat dit dus veranderd is tegenwoordig door een uitspraak van de rechtbank.

[Reactie gewijzigd door Azenomei op 14 augustus 2024 08:01]

Het maakt niet uit wie de ondertitels maakt. Het script/het verhaal/de tekst is auteursrechtelijk beschermd.

Als de fan tekst sterk afwijkt, maar wel nog stevige links heeft met het origineel hebben beide schrijvers de auteursrecht.

Is het echter een compleet nieuw verzonnen tekst, zoals een parodie, dan zit daar natuurlijk geen auteursrecht op. Althans, niet een geregistreerde. (denk hierbij aan parodie tekst zoals bij MasterMovies van lang geleden, al was dat gesproken.)
Interessante ontwikkeling. Dat de rechtspraak steeds veranderd is wel waarom ik compleet ben gestopt met piraten in 2014. Als Brein ooit de claim en privacy inzage goed verwoord, gaat de rechter er in mee en kunnen ze weet ik hoe lang (verjaringstermijn?) terug de verzamelde gegevens gebruiken om achter gebruikers aan te gaan. Gelukkig is het belang van rechthebbenden nog niet zwaar genoeg bevonden, maar dat hing geloof ik meer af van de verwoording in de claim en de geëiste gegevens. Zodra ze de "sweet spot" hebben gevonden, zullen ze ongetwijfeld een mooi verdienmodel optuigen met transactie verzoeken richting consumenten. En wereldwijd ziet het er niet heel rooskleurig uit in de balans consumenten recht op privacy vs belang van de grote "rechthebbenden" en "legitiem belanghebbenden".

[Reactie gewijzigd door Azenomei op 14 augustus 2024 10:58]

Ik vraag me af waarom er nog niemand wat gezegd heeft van Google, die al sedert ±2005 talloze bibliotheken - waaronder universiteitsbibliotheken - aan het scannen is voor hun Books-project. Daarin zit ook veel beschermd materiaal. In 2005 zeiden ze bij Google al : "We are not scanning all those books to be read by people. We are scanning them to be read by an A.I.”. Dat is dus bijna 20 jaar geleden en een onvoorstelbaar grote hoeveelheid (beschermd) materiaal. Maar ja, Google zullen ze wel niet zo snel op de vingers tikken.
Onzin, alle grote partijen zijn druk bezig licentieovereenkomsten te sluiten mbt het gebruik van data om AI te trainen.
De grote AI bedrijven zitten wat kleine spelers op te zoeken die voor een klein bedrag postieve PR kunnen genereren. "Kijk ons eens netjes teruggeven aan de auteurs". Het is puur selectieve PR. Voor alles betalen wat de auteur ervoor vraagt beginnen de meeste niet aan.

Fair use is hun enige hoop (is weliswaar Amerikaans, maar net als met Google books zal de EU wel achter de Amerikaanse rechters aanhobbelen).
Is een rechtszaak over geweest in de VS. Met een uitspraak die in de verste verte niet van toepassing is op trainingssets.

AI zal hun eigen broek op moeten houden.

[Reactie gewijzigd door Pinkys Brain op 13 augustus 2024 14:31]

Is dit die dataset die Geitje ook gebruikte?
Daar stond al bij vermeld dat de 'eigenaar' niet wist of de data gebruikt mocht worden en dat hij de dataset zou verwijderen bij een redelijk verzoek.

Op dit item kan niet meer gereageerd worden.