'Meta gebruikte ruim 80TB aan illegaal verkregen data om AI te trainen'

Meta gebruikte naar verluidt ruim 80TB aan illegaal verkregen data om het Llama-llm te trainen. Werknemers van het bedrijf zouden onder meer ruim 35TB aan documenten uit Z-Library en LibGen hebben gedownload aan de hand van torrents.

Uit geopenbaarde interne e-mails zou blijken dat Meta voor het trainen van Llama grote datasets via torrents downloadde. LibGen, afgekort van Library Genesis, zou de voornaamste bron zijn geweest, zo schrijft Ars Technica. Deze zogenoemde shadow library bestaat uit tientallen miljoenen boeken en materiaal daarin zou door Meta-medewerkers illegaal gedownload zijn. De aanklagers beweren dat Meta eerder al eens ruim 80TB aan alleen LibGen-materiaal downloadde.

Uit de geopenbaarde mails blijkt dat medewerkers onderling en met de juridische afdeling communiceerden over deze illegale praktijk. Een medewerker zou hebben geschreven: "Torrenten vanaf een werklaptop voelt niet juist." Een andere medewerker zou hebben geredeneerd dat Meta moest stoppen met het afnemen van legitieme licenties voor boeken, omdat het bedrijf zich dan niet meer zou kunnen beroepen op 'fair use'-gebruik van het overige materiaal. Ook zou er intern gesproken zijn over het 'vermijden van het gebruik van Facebook-infrastructuur' om het 'traceren van seeds en downloads naar Facebook-servers' te vermijden.

De e-mails maken onderdeel uit van de bewijsvoering van de aanklagers, een groep Amerikaanse auteurs waarvan auteursrechtelijk beschermd materiaal gebruikt zou zijn om AI mee te trainen. Eerder beweerden de aanklagers al dat Meta-ceo Mark Zuckerberg het gebruik van illegaal gedownload materiaal goedkeurde. Het is nog niet duidelijk wanneer de rechter een uitspraak in de zaak gaat doen.

Door Yannick Spinner

Redacteur

07-02-2025 • 20:15

193

Submitter: R3NC0N

Reacties (193)

193
179
111
8
0
50
Wijzig sortering
Het is bizar op wat voor schaal auteursrechten op diverse manieren geschonden worden voor het trainen van de verschillende modellen. Heel het internet is gescraped zonder toestemming om producten te ontwikkelen waar weer stevige licentiekosten voor betaald mogen worden.
En wij maar netjes thuiskopieheffing betalen.
Het ergste is nog dat ze ermee wegkomen. Zelfs in de zeldzame gevallen dat er boetes dreigen, zullen deze nooit zo hoog uitvallen als de winsten die gemaakt zijn met de onrechtmatig verkregen data. En de oorspronkelijke rechthebbenden maken geen schijn van kans meer op de markt verziekt door machine learning.

Super.
Waar is brein als je ze nodig hebt
Die gaat achter de kleine nederlandse modellen aan nieuws: Ontwikkelaar haalt taalmodel GEITje offline na verzoek Stichting Brei... :+

[Reactie gewijzigd door jorismathijssen op 9 februari 2025 19:45]

Eigenlijk vind ik dat best wel goed dat brein zich hier mee bezig houd. Maar wel weer typisch dat brein dan achter de kleine (Open-Source!!!) burger iniatieven gaat, in plaats van de bedrijven die grootschallig inbreuk maken. Vooral omdat die bedrijven er dan ook nog eens aan verdienen...
Dat is logisch. Brein kan niet opboksen tegen bedrijven als Meta of OpenAI.
Voor wie denk je dat brein werkt ?
Terwijl individuëen tot wel $150,000 per werk aan schadevergoeding moeten betalen bij copyrightschending. Nou, reken maar uit hoeveel dat hier is. Denk dat ze Meta zouden kunnen opdoeken.
Zelfs met het minimumbedrag per werk heb je het over miljarden.
Als het muziek was geweest dan hadden ze een serieus groot probleem want die hebben nogal wat geld voor die grote rechtzaken. Nu gaat het om boeken, daar gaat minder geld in om dan muziek voor zover ik weet. Maar het is idd erg hypocriet.

Bijna iedereen herrinerd zich de moeder die een 6 millioen boete kreeg omdat haar zoon wat liedjes had gedownload. Daar was het idd 150.000 per nummer. Dus in dit geval 10 tallen millioenen boeken zou dan op zijn minst 10.000.000 * 150.000 = $1.500.000.000.000 boete moeten zijn :-).
Je zou bijna hopen dat ze de wetenschappelijke tijdschriften databases van Elsevier hebben leeggetrokken... Die hebben namelijk wél geld om achter ze aan te gaan.
Als jij een paar miljoenen doneert aan een zekere president, dan geraak je er misschien ook mee weg? :+

Ik vind het straf dat dit gewoon openlijk toegegeven wordt.
Het is duidelijk dat bepaalde firma's gewoon te groot geworden zijn.
We kunnen wel met ons vingertje wijzen naar een bepaalde president (idioot), maar we moeten niet vergeten dat de EU feitelijk een lobbycratie is. Techbedrijven (lees digitale overheden) zoals Meta of google betalen jaarlijks tientallen miljoenen om politici in Brussel te beinvloeden. En dat zijn dan nog de officiele openbare miljoenen.

Zoiets als Meta zou met 'three strikes out' allang moeten zijn opgehoepeld uit de EU. Nee, ipv geven we ze een 'fop boete' om nog meer geld binnen te harken of in ruil voor data, afkopen heet dat.
Je kunt wel klagen over de EU maar uiteindelijk zijn wij als bevolking de schuldige door deze rommel maar te blijven gebruiken. Zolang de halve wereld maar z’n kattenfoto’s en lunch op social media blijft plempen ipv gewoon een keer z’n account bij al die immorele diensten opzeggen, gaat er nooit wat veranderen.
Je kunt wel klagen over de EU maar uiteindelijk zijn wij als bevolking de schuldige door deze rommel maar te blijven gebruiken.
Mensen zijn inderdaad lui en gemakzuchtig maar ik weiger om ze 'schuldig' te noemen. Het zijn slachtoffers van bedrijven die oneerlijke handelstechnieken gebruiken. Die zijn oneerlijk omdat ze de vrije keuze weghalen waardoor er geen vrije markt meer is. Ik kan mensen niet echt verwijten dat ze in een oneerlijke situatie de verkeerde keuze maken. Het is de taak van de overheid om mensen en de markt te beschermen.

Als mensen hun kattenfoto's met de wereld willen delen dan mogen ze dat van mij, daar is niks mis mee.
Als je niet wil dat ze dat via Faceboek doen dan zal er een alternatief moeten zijn. Mensen kwalijk nemen dat ze kattenfoto's posten leidt alleen maar af van de echte discussie.

Ik neem de politiek kwalijk dat die niet ingrijpt en de bevolking omdat ze stemmen op partijen die niks met techniek hebben en dus de huidige wereldeconomie niet begrijpen. Maar ja, dan kom ik ook weer terug bij het punt dat ik mensen niet kan verwijten dat ze stemmen op leugenachtige politici die hun eigen crisis fabriceren. Dus kom ik er op uit dat ik het alleen de politiek echt verwijt.

[Reactie gewijzigd door CAPSLOCK2000 op 8 februari 2025 19:17]

Dit, je kunt geen systemische oorzaken bij het individu neerleggen.
Wel, als ze bekend zijn en ze gaan er toch mee door. Dan zijn ze minstens deels schuldig.

Nog los van dat politici ook mensen zijn, per definitie een subset
Je hebt als overheden een taak en dat is de bescherming van je bevolking - waarom gebeurd dat in de EU op bepaalde vlakken niet?

Als X Chinees was zou het allang verboden zijn - je moet je afvragen waarom dat nu niet is? Een bedrijf/eigenaar dat de publieke opinie en politiek in het belangrijkste economische land van de EU - Duitsland - mag beïnvloeden? Waarom is X er nog niet uitgetrapt? Waarom wordt Musk hier niet voor vervolgt? Ratten als Musk en idioten als Trump en smerige bedrijven als meta houdt je altijd, de vraag is waarom mogen ze nog functioneren in 'voorbeeld unie' EU?

Dit laat zien dat de EU geo politiek en economisch een papieren tijger is... Een 'papieren rietjes unie' omkoopbaar (20.000 lobbyisten bepalen mede het beleid) laf en op veel vlakken vals naïef.

[Reactie gewijzigd door litebyte op 8 februari 2025 11:07]

How kom je er bij dat X verboden zou zijn als het Chinees was? TikTok kan toch ook ongestoord rommel spuien?

Wat mij betreft mag veel social media in de EU geblokkeerd worden. Teveel mogelijkheden om de massa te beïnvloeden door partijen die ons niet goed gezind zijn.
Klopt, ook gebruikers op TikTok creeren rommel. Het grote verschil is dat dat TikTok ZELF noch haar eigenaar niet een land als Duitsland 'aanvalt' - middels algorithms en/of hetze door de eigenaar (in dit geval Musk) zelf met veel macht en aanzien.

Als Tiktok dit zou doen zou het terecht per direct verboden worden, X zou allang verboden moeten zijn. Als ik de Duitse overheid was zou ik ook zsm maar eesn gaan kijken (mbt risico staatsveiligheid) naar alle visuele data dat Tesla's nu in Duitsland mogen vergaren.
Zolang de halve wereld maar z’n kattenfoto’s en lunch op social media blijft plempen ipv gewoon een keer z’n account bij al die immorele diensten opzeggen, gaat er nooit wat veranderen.
Eens. En hoe bizar is het dat bijna iedereen het met elkaar eens is dat Facebook/Meta een club is die niet deugt, maar WhatsApp blijft zó ingeburgerd dat ieder smartphonetekstbericht een "appje" genoemd wordt. De macht der gewoonte wordt echt onze dood.
Techbedrijven (lees digitale overheden) zoals Meta of google betalen jaarlijks tientallen miljoenen om politici in Brussel te beinvloeden.
Bronverwijzingen graag. Ben erg benieuwd.
Je vergeet de schikkingen ;) weer geen strafmaat :F
Dat is waar, three strikes out, is de echte straf. Maar om geopolitieke, lobby- en electorale belangen durven ze dat niet met VS bedrijven.
Mooie documentaire daarover is 'The Brussels Business'. Ik zag heb op Amazon Prime, maar zie dat hij ook op YouTube te zien is (dus bij twee bedrijven die er zelf ook wel raad mee weten) https://www.youtube.com/watch?v=rUTq3qwjaa0
Niet heel bijzonder, we wonen in Europa en die regels zijn voor ons persoonlijk van belang.
Wat in Amerika gebeurd is ook niet pluis, maar daar hebben we al helemaal geen stemrecht.
De EU is noodzakelijk voor Europa (dat bewijs is geleverd de afgelopen 3 jaar) maar dat wil niet zeggen dat het ook (overal in) goed functioneert.
Google had 'ooit' als slogan: "Don't be evil". Dat was lang geleden.
Ik ben vrij positief ingesteld maar als het op dit soort grote bedrijven aankomt klopt het wat mij betreft wel dat vroeger alles beter was.
Alle grote techbedrijven hebben bij het aan de macht komen van Trump een miljoen oid gedoneerd. Een beetje zoals een nieuwe koning in onze middeleeuwen geld ontving van de edelen die in zijn land de boeren uitbuiten.
Musk alleen al heeft 288 miljoen gedoneerd. Dat is toch wel een stuk meer dan een miljoen.
OpenAI: https://www.nytimes.com/2...n-trump-inauguration.html
Zuckerberg: https://www.bbc.com/news/articles/c8j9e1x9z2xo
Google+Boeing: https://www.cnbc.com/2025...ps-inauguration-fund.html

Beetje het nieuws buiten tweakers in de gaten houden en dan valt dit vrij snel op.
"trust me bro" is dus echt niet aan de orde. Het is gewoon ouderwets geld voor de koning.
Er is breed onafhankelijk gerapporteerd hoe ze dat deden; sowieso bij de inauguratie (soms via CEOs), maar ook uit PACs kun je dat zien. Dat tech bedrijven bij voorbaat al knielen voor Trump is niet bepaald een omstreden observatie, dus vind het bijzonder dat je vraagt om bewijs terwijl dat zo breed beschikbaar is.
Hij geeft een samenvatting van het nieuws dat al sinds het graf van pres. Washington te vinden is.
Denk dat iedere bewijslink vermelden 10 tallen pagina’s gaat opleveren.
Leef je onder een steen? Musk is gewoon openlijk een coup aan het plegen en neemt controle over bijna alles. Met goedkeuring van trump..
FEC filings zijn openbaar.

https://www.fec.gov/data/filings/

Als je te lui bent om deze zelf te doorzoeken, én je weigert kranten te geloven die het werk voor jou hebben gedaan, dan ben je gewoon bewust je hoofd in het zand aan 't steken.

Ligt wel mooi op een lijn met het gedrag van Trump supporters. Bewijs is niet nodig als je zelf wat beweert (verzinsels als: Het Panama kanaal is in handen van het Chinese leger en zij verhogen de prijzen).
Maar als het ze niet uitkomt, en de feiten gewoon openbaar zijn, dan maakt de werkelijkheid niet meer uit. Feiten zijn vast een woke linkse hobby of zoiets :)
Geen idee, ik heb dat niet gezegd in elk geval. Ik heb gezegd dat jouw gedrag (hoofd in het zand steken) overeen komt met het gedrag van Trump supporters.

Net zoals veel Trump supporters die allergisch lijkten te zijn voor het toegeven van hun ongelijk (TWS had wel bronnen, namelijk de FEC filings), en moeite hebben hebben met basisschoolniveau begrijpend lezen
De manier waarop jij reageert op negatief nieuws over, in dit geval, donaties gedaan aan Trump en waarvoor vervolgens bewijs voor geleverd wordt is tekenend voor Trump aanhangers. Daarom wordt jij met hen vergeleken en in mijn beleving ook volledig terecht. Hier nogmaals een link naar een artikel waarin de donaties door Musk uit de doeken gedaan wordt: https://www.washingtonpos...mp-campaign-spending-fec/ of deze: https://www.independent.c...24-election-b2690735.html
Dat is gewoon openbare informatie die je zelf zo kan vinden.
meta, je bent een luie drol :+ en waarom musk? omdat er ergens een statement is dat 'alle grote tech bedrijven ... ' en wie heeft er een collectie tech bedrijven?

[Reactie gewijzigd door analog_ op 8 februari 2025 03:25]

https://www-cbsnews-com.c...n-candidates-donations%2F

En als je het zelf wilt uitzoeken, dan kan bijvoorbeeld deze website gebruiken om naar donaties aan de campagnes door Elon Musk zoeken.

Daarnaast heeft Musk een eigen PAC, welke bijv de campagne van Trump heeft ondersteund
Je geeft nu zelf aan dat dit zelfs in de middeleeuwen al gebeurde, dus vanwaar de plotselinge selectieve verontwaardiging ? Niks persoonlijks, daar hebben er meer last van.

[Reactie gewijzigd door Guus Graspop op 8 februari 2025 09:51]

Je geeft nu zelf aan dat dit zelfs in de middeleeuwen al gebeurde, dus vanwaar de plotselinge selectieve verontwaardiging ? Niks persoonlijks, daar hebben er meer last van.
Wij zijn er mee gestopt zover ik weet. Bedrijven sponsoren partijen in verkiezings strijd. Niet een gift achteraf
Dat zijn semantische zaken. Of het nu een gift achteraf is of een sponsor in verkiezingstijd, het effect is hetzelfde, geld regeert. En of het nu om geld gaat of een afgesproken deal, contracten etc. dit zijn allemaal zaken die de afgelopen 100 jaar al plaats vonden, dit is niks nieuws.

Het enige verschil is dat Trump een olifant in een porseleinen kast is en alles open en bloot legt. Iedereen die verontwaardigd is over de huidige gang van zaken heeft onder een steen geleeft de afgelopen jaren.
Omdat we naar voren proberen te bewegen in plaats van te leven in de middeleeuwen. Mijn god zeg, wat een opmerking.
De tijd gemist tussen de middeleeuwen en nu ?

Punt is niet dat ik vind dat het best is zoals het nu is. Mijn punt is dat we er de afgelopen 50 jaar niks aan gedaan hebben omdat het ons allemaal wel goed uit kwam, kop in het zand etc. Nu lijken bij steeds meer mensen de ogen geopend te zijn maar in plaats van het systeem te bekritiseren, te reflecteren etc. wordt er ineens naar een paar personen gewezen en wordt er gedaan of dit iets nieuws is. Blijf dat vooral doen en we komen geen steek verder. Trump, Musk etc. zijn ontstaan/resultaten van het systeem zoals het al was.

Maar blijf vooral vingertjes wijzen naar de andere "kant/groep". Iets met verdeel en heers.
Musk sponsort de campagne van Trump, met geld, middelen, leverage, en exposure.

https://www.newyorker.com...ly-embracing-donald-trump
November 18, 2024
After spending more than a hundred million dollars to help Trump get elected, Musk stands to earn a lot more.
Dat is daarna niet minder geworden.
Ook zuckerburg heeft geld gedoneerd, dit is geen geheim ofzo.
Je schiet wel heel erg in de Trump verdedig mode. Kun je uitleggen waarom?
Hmm. Volgens mij begon het met een vraag over bronnen van oligarchen die geld aan trump gaven (nadat hij al gewonnen had) waar Meta tussenzat. Musk zit hier inderdaad ook tussen en is denk ik ongeveer net zo naar als de overige vazallen van trump. Om over de broodheer in kwestie nog maar niet te spreken. Wellicht allemaal niet zo relevant in een artikel wat over meta zou moeten gaan, maar de grenzen tussen al deze partijen zijn zo flinterdun dat wat Zuckerberg, Musk, Thiel etc. allemaal doen in elkaars verlengde ligt: rule for thee and not for me is het nieuwe mantra in het land van de onbegrensde mogelijkheden.
Ze zullen denken of nu goede AI of op de legale manier maar dan ben je pas over 30 jaar op het niveau van nu...
Dus betaal de boete als je gepakt wordt en klaar
Anoniem: 334725 @evmmb7 februari 2025 21:25
Auteursrechten zijn niet van ons, het is altijd een wapen geweest die tegen ons gebruikt word. Als een groot bedrijf het doet dan is het een vraagstuk en niet een probleem.

Nu zitten ze te huilen dat deepseek hetzelfde heeft gedaan. Hopelijk is dit het begin van het einde van auteursrecht zoals we die kennen. Wat een hopeloos gedrocht.
Wat is dit nou weer voor onzin. Auteursrecht is heel belangrijk. Zonder auteursrecht kan iedereen alles ongestraft kopiëren en zal de wereld er een stuk saaier uit gaan zien. Waarom zou iemand nog tijd investeren in het schrijven van een boek, van een liedje of het maken van een film als iedereen het zonder probleem mag kopiëren of namaken?
Auteursrecht is wel belangrijk, maar in zijn huidige vorm is het een gedrocht. Het doet mij als filmliefhebber echt pijn dat bepaalde unieke films in de vergetelheid raken omdat de rechthebbende er geen business case in ziet om het werk opnieuw uit te geven, bijvoorbeeld omdat de doelgroep te klein is.

Je kunt wel zeggen dat de rechthebbende de eigenaar is van een werk en er dus mee mag doen wat hij wil, maar daar zijn ook argumenten tegen.

Veel zaken die onder auteursrecht vallen, zijn cultureel of literair belangrijk. Denk aan invloedrijke boeken, muziekstukken of films. Natuurlijk gun ik het een schrijver om geld te verdienen aan zijn werk, maar het werk vervolgens niet meer publiceren zou niet moeten kunnen. Kunst en cultuur zijn te belangrijk om ergens in een kluis te laten liggen.

Ook is de rechthebbende niet altijd de eigenaar of kunstenaar. Soms zijn de rechthebbenden bedrijven, stichtingen of erfgenamen. Ik vind het belachelijk dat er na de dood van de schrijver nog auteursrechten worden geind door bv familie. Waar halen ze dat recht vandaan? Die onzin moet zo snel mogelijk uit de wet.

Wat mij betreft wordt het auteursrecht beperkt tot het leven van de oorspronkelijke creator. Of dat nu een schrijver, regisseur of componist is. Diegene mag de rechten natuurlijk wel tijdelijk overdragen aan een bedrijf, zoals een uitgever, maar zodra de oorspronkelijke schrijver dood is vervalt het auteursrecht. En als een werk meer dan 5 jaar niet officieel is uitgegeven, dan vind ik dat het auteursrecht ook hoort te vervallen. Blijkbaar hoeft de creator er dan geen geld meer mee verdienen, dus dan kan de community ervoor zorgen dat het beschikbaar blijft.

Hoeveel moeite ik soms moet doen om ergens in het illegale circuit een oude obscure film te vinden. Ik zou er graag voor betalen, maar ze zijn gewoon niet te koop. Dat moet niet kunnen bestaan in dit tijdperk.

[Reactie gewijzigd door PhilipsFan op 8 februari 2025 01:00]

Je wil denk ik ook voorkomen dat een artiest wordt vermoord om zo zij werk vrij te maken van auteursrecht.

Ook kan ik me voorstellen dat je wil dat als een auteur jong sterft zijn jonge gezin ineens zonder inkomen zit.

Aan de andere kant. Als ik code schrijf of achter de kassa zit, krijg ik daar slechts 1x voor betaald. Als ik een vernieuwend IT-architectuur-model bedenk en dat succesvol neer zet en uitdraag, krijg ik ook niet per gebruik betaald en ook niet als anderen er lezingen of congressen over geven, zelfs niet als ze er een standaard implementatie van maken en die verkopen. Vergelijkbaar met algoritmes.

Het is soms raar hoe creativiteit en genialiteit anders beloont wordt.

Uiteraard vind ik het fijn dat briljante artiesten muziek, film en kunst maken waar ik en anderen van genieten. En ik ben blij dat we een model hebben waarbij dit niet alleen mogelijk is voor de meest rijke mensen.

Dus het is soms wat dubbel.

[Reactie gewijzigd door djwice op 8 februari 2025 10:19]

Ik ben het met je eens dat enerzijds de lengte van auteursrecht met name dankzij Disney, nergens over gaat. Daarnaast zou het verplicht moeten zijn dat content public domain wordt zodra de eigenaar het opgeeft. Indien een partij niet meer wilt distributeren, zou het verplicht moeten worden dat men deze bij een nationaal archief doneert.
Auteursrecht is wel belangrijk, maar in zijn huidige vorm is het een gedrocht.
Dat 'gedrocht' is wel goed genoeg om META hier behoorlijk voor op de vingers te tikken.
Jij wilt echt met droge ogen beweren dat er bijvoorbeeld in de Middeleeuwen, toen er nog geen auteursrecht bestond geen muziek werd gemaakt (troubadours/minstrelen) en dat er voor auteursrecht geen boeken (zoals de ilias) werden geschreven?

Vreemd eigenlijk dat auteursrecht. We vinden het heel normaal dat een beeldhouwer zijn werk verkoopt en daarna geen cent meer krijgt. Of een (kunst)schilder na verkoop van dat schilderij (of het inkleuren van een huis) geen financiële middelen meer toegeschoven krijgt.

Maar die arme muzikant of auteur die moet uiteraard tot 70 jaar naar zijn dood steeds maar geld zien.
Dat schilderij of beeldhouwwerk bestaat in een gelimiteerde oplage die niet meer groter wordt, met een muziekstuk gaat dat niet op, hier worden zoveel copy’s van gemaakt als de markt wil.
En? Een auteur / lyricist / zanger doet éénmaal zijn werk. Het plaatje wordt opgenomen. Het boek wordt geschreven. Klaar. Een beeld komt in een museum, of op straat. Hetzelfde geldt voor het schilderij.

Toch krijgt de schilder en de beeldhouwer helemaal niets uitbetaald als er bezoekers in het museum komen. (Of op straat er langs rijden). Laat staan zijn erfgenamen, tot jaren na de dood van de beeldhouwer of schilder.
In de Middeleeuwen (waar jij over begint en mee vergelijkt) werd er niets opgenomen.
Ik begin over de Middeleeuwen omdat er gesteld werd dat er zonderde auteurswetgeving de wereld saaier zou worden omdat niemand meer een liedje zou zingen of een boek zou schrijven.

En dan geef ik twee voorbeelden van het ontbreken van een wetgeving, terwijl op hetzelfde moment muziek en boeken wel degelijk gemaakt werden.

Van veel (oude) boeken is de auteur, voor zover de geleerden dat kunnen bepalen, gewoon een aantal mensen en uiteindelijk heb je een resultaat. Kopieer en pas aan.

Hetzelfde geldt voor muziek. Wijs jij bijvoorbeeld maar eens de auteur aan van 'Lang zal ze leven' of het 'Wilhelmus'.

Dus hierbij nogmaals: in het verleden en in de toekomst zullen er muziek en boeken zijn. Met of zonder auteursrecht en met of zonder aanpassingen aan die wetgeving.

Wat mij betreft mogen we ons echt wel afvragen of auteursrecht in zijn huidige vorm wel zo'n goed idee is. En mijn antwoord op die vraag moge duidelijk zijn. Neen.
Anoniem: 334725 @Yalopa8 februari 2025 15:31
Goed argument om het toe te laten: kost je niks.
Op een schilderij of beeld bestaat bestaat ook auteursrecht. Je mag ze niet kopiëren.
Die beeldhouwer of kunstschilder kunnen er voor kiezen dat werk niet te verkopen maar aan een museum te verhuren.
De verkoop gaat meestal voor een prijs die hen compenseert voor het feit dat het slechts een eenmalige koop is.
Beeld je nu eens in dat er Internet was in de Middeleeuwen en dan men met vrijwel geen moeite een exacte kopie kon maken van dergelijke muziek en boeken. Denk je dat menig Middeleeuwse auteur dan rond had kunnen komen van hun werk?

Dat auteursrecht toendertijds nog niet bestond zegt natuurlijk niets over het bestaansrecht van deze wetgeving. Sterker nog, het is juist ontstaan voor een goede reden. Dat we erin zijn doorgeslagen ben ik met je eens, maar het principe zelf is wel degelijk belangrijk voor de rechtenhebbenden.
Waarom zou iemand nog tijd investeren in het schrijven van een boek, van een liedje of het maken van een film als iedereen het zonder probleem mag kopiëren of namaken?
Daarom maakten ze in de oertijd ook geen grotschilderingen, hebben de Grieken en Romijnen nooit een literatuur of cultuur opgebouwd en heeft niemand ooit van Shakespeare gehoord....
Mensen zijn altijd creatief geweest en vinden het leuk om dingen te maken en te delen.

Je kan wel argumenteren dat er meer werken gemaakt worden en de kwaliteit daardoor stijgt. Maar als je doel is om veel werken van hoge kwaliteit te hebben dan werkt het huidige model niet goed. Copyright wordt gebruikt om de verspreiding van werken tegen te gaan. Niet alleen door downloaders maar ook doordat werken alleen verspreidt worden als er voldoende aan verdient kan worden. Oude boeken worden niet opnieuw gedrukt en verwijnen zo effectief van de markt. Digitialisering heeft de kosten gelukkig flink verlaagd waardoor ook de ondergrens is gedaald maar het probleem is daar niet mee verdwenen.
Alle streaming diensten maken het nog veel erger. Papieren boeken kun je nog aan je kleinkinderen doorgeven zodat die de cultuur van hun grootouders kunnen ervaren. Met een streaming account gaat dat niet, na een paar maanden verdwijnen werken uit de catalogus en zijn dan voor eeuwig weg.

Dat copyright duurt tot ver na de dood van de auteur laat zien dat het systeem is doorgeschoten in het voordeel van bedrijven. De auteur zelf heeft niks aan geld na de dood en dat kan dus geen stimulus zijn om harder te werken. Erger is dat de meeste lezers/kijkers/luisteraars/etc die het werk kennen dan ook al zijn overleden. Zo verdwijnt alle kennis van zo'n werk in één generatie en weten we niet eens wat voor pareltjes er al gemaakt zijn.

Er is altijd cultuur geweest, ook zonder copyright. Copyright heeft op een aantal punten echt wel geholpen om de wereld beter te maken maar van het oorspronkelijke sociale contract is weinig over. De industrie plukt vrij eenzijdig de vruchten en de maatschappij krijgt er steeds minder voor terug.

Ik verwacht dat het in dit geval ook zo zal gaan dat Meta wegkomt met een relatief kleine boete en wat ilcentiedeals met grote uitgevers waar de auteurs zelf eigenlijk niks van terugzien omdat al het geld opgaat aan overhead van de industrie. Bedrijven profiteren van de winst terwijl de maatschappij opdraait voor kosten.
Auteursrecht ligt bij de uitgever. Auteursrecht is geen gedrocht maar een groot goed. Men huilt niet om DeepSeek; dat zijn vooralsnog aantijgingen van potten die de ketel zwart noemen.
Auteursrecht ligt in principe bij de auteur.
In beginsel wel, het is echter niet ongebruikelijk om het intellectueel eigendom van artistieke werken, voornamelijk muziek, te verkopen.
auteursrecht ligt altijd bij de auteur. De uitgever krijgt alleen het recht zodra dat in het contract staat. Overigens is dat het domste wat je kunt doen als auteur maar dat is een andere discussie.
Laten we niet vergeten dat auteursrecht niet betekent dat je iets niet zonder toestemming mag lezen. Alleen voor het publiceren van een werk moet je toestemming van de auteur vragen. Net zoals je rustig een boek van een vriend mag lenen.
Het wordt pas problematisch wanneer die taalmodellen delen van de tekst letterlijk ophoesten. De kennis die in een tekst zit valt sowieso niet onder het auteursrecht, alleen die specifieke uiting.
Heel het internet is gescraped zonder toestemming ...
Nee hoor, dat was ook gewoon een download. Een legale zelfs:
https://data.commoncrawl....C-MAIN-2023-40/index.html

100TB downloaden (wet en wat heb je niet nodig, dat is dubbel t.o.v. warc).

En nieuws (~ 6TB per jaar):
https://data.commoncrawl.org/crawl-data/CC-NEWS/index.html

Dit is de internet bron van de meeste modellen. Voeg daar een aantal boek collecties toe en je hebt een groot deel van je data.

Deze bron staat op s3 en is direct benaderbaar met AWS Athena. Je kan er zelf gericht binnen 1.5 minuut in 30 van deze collecties (~ 27 petabyte) alle pagina's en documenten van een merk naar keuze vinden die ze de afgelopen 12 jaar gepubliceerd hebben op internet en binnen halen, classificeren, ontdubbelen en klaar maken voor een AI training binnen een minuut of 6.

Maar als je alles wil en alleen van 1 collectie zoals de AI-modellen, dan gaat het sneller, past per file gewoon in geheugen.

[Reactie gewijzigd door djwice op 7 februari 2025 20:49]

Volgens mij ga je voorbij aan het punt: dat het alsnog afkomstig is van het bredere internet, van recht hebbenden die er geen toestemming voor gaven. Dat het technisch door iemand anders is gescraped maakt de bron er van niet anders.
Zie onder andere:
https://www.rvo.nl/onderw...scherming/databankenrecht
Het geautomatiseerd doorzoeken van tekst en databanken om (nieuwe) patronen, trends en verbanden te ontdekken (tekst- en datamining - TDM) mag wel zonder toestemming van de maker.
Een taal model trainen is typisch het geautomatiseerd ontdekken van nieuwe patronen en verbanden.

Heb ik ook niet bedacht. Zie ook https://eur-lex.europa.eu...T/?uri=CELEX%3A31996L0009

[Reactie gewijzigd door djwice op 8 februari 2025 01:17]

Nee. Ik weet niet of je hier bewust aan het cherry picken bent, of dat je op de een of andere manier over alles heen leest, maar wat je stelt wordt niet gestaafd door die pagina.

Om te beginnen zegt die pagina duidelijk dat het alleen een databank betreft die rechtmatig jouw eigendom is—als je hebt lopen scrapen van het web is dat dus niet zo.
Daarnaast valt het voeren van zo’n databank aan een LLM training overduidelijk onder gebruik, niet enkel zoeken naar records en wat het verband er tussen is.

Iemand die iets meer kaas van dit soort recht (uit 1996?) heeft gegeten kan hier vast meer over vertellen, maar op een eerste gezicht is het wel duidelijk dat het om een hele andere context gaat dan waar jij het nu in probeert te plaatsen.
Ik ben niet bewust aan het cherry picken. Volgens mij zegt de pagina dat
de producent van de database .. [kan] .. anderen verbieden een substantieel deel van de gegevens in de databank op te vragen en te hergebruiken.
onder een aantal voorwaarden. Maar dat hier een uitzondering op is en dat is
Het geautomatiseerd doorzoeken van tekst en databanken om (nieuwe) patronen, trends en verbanden te ontdekken (tekst- en datamining - TDM) mag wel zonder toestemming van de [producent].
En kijken we naar boeken en andere creatieve werken:
Artikel 15o"]Auteurswet
15o. Onverminderd het bepaalde in artikel 15n wordt een reproductie in het kader van tekst- en datamining niet als inbreuk op het auteursrecht op een werk van letterkunde, wetenschap of kunst beschouwd mits degene die de tekst- en datamining verricht rechtmatig toegang heeft tot het werk en ...
Als informatie publiek op internet is gezet, of te koop is in een winkel interpreteer ik dat als "iedereen heeft (tegen betaling) rechtmatig toegang* tot de informatie.
[15o vervolg] ... het auteursrecht door de maker of zijn rechtverkrijgenden niet uitdrukkelijk op passende wijze is voorbehouden, zoals door middel van machinaal leesbare middelen bij een online ter beschikking gesteld werk.
Dit lees ik als dat de bron duidelijk op een voor een machine passende manier moet hebben duidelijk gemaakt dat tekst- en data mining niet mag. Als dat voorbehoud niet gemaakt is, is het automatisch toegestaan (mits de informatie publiek gemaakt is, of te koop is aangeboden door de producent).
Ik interpreteer "passende wijze" als bijvoorbeeld een meta-tag op de pagina of een http-tag of een robots.txt. Of op een manier die internationaal gezien wordt als "standaard" hiervoor.

Veel internet pagina's van oktober 2023 of eerder hebben hierover niets vermeld. Veel boeken en wetenschappelijke publicaties van voor die tijd hebben hier ook geen tekst voor opgenomen.

Verderop staat een uitleg over wat met tekst- en datamining bedoeld wordt:
3
In deze paragraaf wordt onder tekst- en datamining verstaan een geautomatiseerde analysetechniek die gericht is op de ontleding van tekst en gegevens in digitale vorm om informatie te genereren zoals, maar niet uitsluitend, patronen, trends en onderlinge verbanden.
Let ook op de grote van een LLM model ten opzichte van de bronnen. De grote van het hier besproken data-model is 43GB.

De bronnen waar deze analyses op gedaan zijn, zijn gecomprimeerd (gzip 1:100) meer dan 200TB. Dat betekent dat er maximaal 1 op 4.500ste deel ten opzichte van de bron data is overgebleven in het model.

Voor de meeste boeken betekent dat in verhouding ongeveer een paragraaf of minder (1/8 deel van een pagina bij 250 bladzijdes).

Uiteraard moet het dan wel gaan om boeken die door de producent beschikbaar zijn gesteld aan het publiek, of Meta. En dat de boeken geen expliciete uitzondering gemaakt hebben voor tekst- of data mining, die machinaal redelijkerwijs goed te interpreteren is.

Mijn indruk is dat Meta auteurs bewust betaald voor de boeken, zodat ze rechtmatig toegang heeft.

Dit is mijn interpretatie van wat ik lees. Ik ben geen jurist.


side note
En ik vermoed dat gemiddeld één paragraaf per boek overnemen in je analyse model in Amerika geschaard kan worden onder fair use.
De meest populaire versie (7B - 5GB - llama3.1) van het model bevat gemiddeld 1/16.000 (=80TB/5GB) deel van een boek. Dat is een halve zin of minder per boek van 250 pagina's.

[Reactie gewijzigd door djwice op 8 februari 2025 09:03]

Dat je iets van het internet kan downloaden betekent niet dat het legaal is.
Het CommenCrawl archief lijkt met niet een illegale website, gezien ook de juridische status, de financiering die er aan gekoppeld zit en de partijen die het ondersteunen.
Net als archive.org niet illegaal is.
Dat is ook de achilleshiel. Waar gaan we toekomstige modellen mee trainen, als alles al gebruikt is?
Met door AI gegenereerde data welke door AI gefilterd en verbeterd is tov initiële 'illegale' data. Let wel dat exacte reproductie van boeken niet mogelijk is dus deze 2e en volgende generaties staan steeds verder af van initiële data. Het is een beetje 't bloed geld van de AI wereld.

Door data eindeloos in allerlei vormen te combineren, randomizen en mixen kun je betere AI trainingsdata genereren, maar dat zal op den duur ook een keer af vlakken. Relaties vinden in data die mensen simpelweg niet kunnen maken vanwege de hoeveelheid data. Zie Deep Research bijvoorbeeld.

Wat daarna wellicht zou kunnen gebeuren is dat AI zelf (empirisch) onderzoek gaat doen (agents/operators, agi) obv de inzichten in de huidige en nieuwe trainingssets met visuele en sensor modellen icm reasoning en research modellen die real world data kunnen classificeren en input verwerken. Het is al gebleken dat hier nog redelijk wat laag hangend fruit in zit voor AI om op voort te borduren.

Ik zeg niet dat ik het goed keur hoor, wat huidige AI bedrijven doen om hun modellen te trainen. Net als slavernij en het kolonie verleden, wat Nederland veel heeft opgeleverd, plukken wij nog steeds de vruchten van. Wellicht dat dat met AI ook gaat gebeuren. Moreel niet verantwoord, geeft een paar generaties later daar nog iemand echt om? Het zijn wel lastige vraagstukken.
Wat is in deze context de definitie van: "relaties vinden"?
Wanneer het hier bedoelt het identificeren van correlaties dan ben ik het met je eens. Echter zoals iedereen weet is een correlatie nog geen causaal verband.
Voor de mensen die weinig tot niets weten van LLM's lijkt hetgeen een LLM momenteel doet de reinste magie. Mensen die iets meer weten over de werking van LLM's zien dat de technologie zich momenteel in de oertijd bevindt. Je kunt er nog zoveel data tegenaan gooien, alle documenten, boeken en nieuwsartikelen ooit geschreven en dan nog is het maar de vraag of de output van een LLM daadwerkelijk te vertrouwen is. Hallucinaties zijn bug maar een feature, dat is namelijk hoe een LLM intern werkt. Op basis van waarschijnlijkheid worden woorden aan elkaar geregen. Hoe meer de dataset wordt vervuild door LLM gegenereerde tekst die weer wordt gebruikt om de volgende generatie van LLM's te trainen hoe erger het wordt. Hier is overigens al wetenschappelijk onderzoek naar gedaan. Na een aantal iteraties wordt alles eenvormig.
Wat daarna wellicht zou kunnen gebeuren is dat AI zelf (empirisch) onderzoek gaat doen (agents/operators, agi) obv de inzichten in de huidige en nieuwe trainingssets met visuele en sensor modellen icm reasoning en research modellen die real world data kunnen classificeren en input verwerken. Het is al gebleken dat hier nog redelijk wat laag hangend fruit in zit voor AI om op voort te borduren.
We hebben een paar miljard mensen van wie iedere actie op internet wordt vastgelegd. Dat is/wordt een enorme levende dataset met een razensnelle directe feedbackloop. Net als de algoritmes van social media en streaming sites die proberen je filmpjes aan te raden.

Dat model kun je verder optimaliseren door niet alleen de content door een algoritme te laten aanleveren maar ook het ontwerp van de pagina zelf. Dat wordt één groot gepersonaliseerd dark-pattern. Iedereen krijgt een gepersonalieerde website vol valkuilen die precies zijn afgestemd op je eigen zwaktes.

Één argument voor privacy is dat in een toekomst waarin al het werk wordt gedaan door robots en AI's de waarde van menselijk werk verdwijnt het enige waardevolle dat overblijft onze voorkeuren zijn en met name ons aankoopgedrag. Met genoeg informatie kun je mensen altijd wel verleiden, manipuleren of chanteren om te doen wat je wil. In zo'n wereld is het van het grootste belang dat je persoonlijke data van jouw blijft.

We zijn al een heel stuk op weg, we hebben het al over 'betalen met je data'. Dan moet je die data wel beschermen. Als een AI goed genoeg wordt om onze data te voorspellen dan daalt de waarde van die data en krijgen we er steeds minder voor terug. We zullen dus steeds meer data moeten betalen voor steeds minder functionaliteit.
Moreel niet verantwoord, geeft een paar generaties later daar nog iemand echt om?
Dat ligt er nogal aan of je de kolonist bent of de gekoloniseerde.....
Ik denk dat je die vraag beter kan stellen in Indonesïe of Suriname dan in Nederland.

[Reactie gewijzigd door CAPSLOCK2000 op 8 februari 2025 19:14]

Nouja, als je het als mens gewoon kunt lezen zonder door paywall heen te moeten, heb ik echt totaal geen moeite mee dat een AI leert op basis van al die vrij beschikbare informatie. Uiteindelijk hebben wij daar gewoon ook profijt van.
Waar is het europeese Brein? Wanneer gaan ze dat aanpakken.
Wanneer komt er een search machine voor de rest of US us.
Er zal wel weer een gigantische schikking worden getroffen waar de getroffenen niks van terugzien en alles is weer koek en ei.
Op naar de volgende misstap. Al hoop ik dat er wel iets van geleerd word.
De getroffenen hebben ook feitelijk, of minimaal niet aantoonbaar, geen schade geleden. Maar het is wel zo dat de boetes dusdanig laag zijn dat voor die grote bedrijven genezen altijd beter is dan voorkomen.

Als de EU nou ècht eens een keer zo'n monsterboete van 10% van de wereldwijde omzet zou geven, dan gaat het echt wel ophouden.
De getroffenen hebben ook feitelijk, of minimaal niet aantoonbaar, geen schade geleden
Datzelfde kan je zeggen van artiesten wiens muziek illegaal gedownload werd/wordt.

Maar als een gewone burger dat doet? Voor 1 album krijg je dan van de hoogste rechter in de VS doodleuk een boete van 222.000 dollar.

Als de straf voor Facebook even zwaar was, nu ze ZES MILJOEN BOEKEN illegaal gedownload hebben, dan zou de boete 1.332.000.000.000 dollar bedragen.

Maar in de oligarchie die de VS is gaat dit natuurlijk nooit gebeuren: de wet is er daar enkel om kapitaal te beschermen, dus wanneer een miljardenbedrijf de wet overtreedt gelden andere regels dan voor burgers.

[Reactie gewijzigd door kiang op 7 februari 2025 21:12]

Het gaat hier niet om aantoonbare schade, maar overtreding van auteursrechten.

Daar Meta maar bezig blijft met willens en wetens de wet overtreden is een hele grote boete wel eens op zijn plaats. Het is echter niet de privacywet die overtreden wordt. Die 10% omzetboete hangt daar aan vast. Bij overtreding van de auteurswet zal een rechter de straf moeten berekenen. De straf kan een boete zijn, maar de eigenaren van de gebruikte documenten kunnen ook nog een schade-eis indienen.
Bij bekeuringen zijn deze beduidend hoger wanneer bijvoorbeeld een vrachtwagen chauffeur te snel rijdt. Maar daar ligt dan ook het pijnpunt, bij te snel rijden met je truck is het vastgelegd en krijg je zo de bekeuring.

Dit soort giganten staan boven de wet, ze komen met een leger advocaten van hunzelf en daarnaast ook nog eens de duurste advocaten die je kunt vinden. Vervolgens gaan ze jaren zaken traineren dat het interessanter wordt om tot een akkoord te komen dan daadwerkelijk een boete. En al komt het op een boete aan, wat maakt dat uit, ze verdienen in de tussentijd miljarden met hun misdadig gedrag en krijgen dan een tikje op de vingers. Het loont om crimineel te zijn.
Ik dit geval gaat het om auteursrecht. Dat valt niet te traineren. Het is vrij rechttoe recht aan. Heb je toestemming van de auteurs of niet. Er zijn ook interne documenten waarin staat wat er wat Meta betreft gebruikt mocht worden. Als ze geen bewijs van toestemming kunnen overleggen is het einde discussie en mag de rechter een straf verzinnen.
Normaal zijn straffen op auteursrechten niet zo hoog, maar met terabytes aan data heb je het over heel veel stukken. Doe desnoods $ 5,- per artikel en het gaat aardig in de papieren lopen.
Eerlijk gezegd vind ik 10% van de jaaromzet helemaal niet zo'n monsterboete. Ja, het gaat om veel geld maar we hebben het ook om bedrijven met heeeel veel geld. Wellicht is het te vergelijken met een gevangenisstraf van 1 maand voor een misdaad waar je 1 miljoen euro mee hebt verdiend. Ik denk dat een hoop mensen de gevangenisstraf in zo'n geval voor lief nemen.

In de maatschappij kennen we delicten die we zó erg vinden en op z'n manier bestraffen dat eenieder die bij zijn of haar verstand is het wel uit het hoofd laat dat te doen. En als iemand zo'n delict toch begaat, de straf de maatschappij beschermt tegen herhaling van het delict door het betreffende individu. Denk aan (levens) lange gevangenisstraf na moord. Voor bedrijven kunnen we denk ik ook op zo'n manier straffen: 500% van de jaaromzet als boete + raad van bestuur 10 jaar gevangenisstraf om maar iets te noemen. Dat betekent het eind van het bedrijf. Dan gebeuren dingen waarvan we me met z'n allen vinden dat het echt niet mag praktisch nooit meer. Het klinkt wat extreem maar het wordt denk ik zo langzamerhand wel een tijd om extreem vermogende bedrijven ietwat meer te motiveren zich aan de wet te houden.
Probleem is dan dat bedrijven gewoon doei zeggen en het land verlaten waar dit heeft plaatsgevonden. En er zijn altijd landen die willen profiteren van dit soort gedrag.
Er geldt voor meta maar 1 boete, en dat is dat ze (tijdelijk) worden stilgelegd/ niet meer mogen opereren in de EU.
Het is wel 10% van de omzet, niet alleen van de winst. In geval van Meta blijft er nog steeds winst over, maar dat halveert dan bijna. Daar zijn de aandeelhouders dan niet blij mee.

De straf van max 10% van de omzet is hier overigens niet van toepassing. Die geldt voor het overtreden van de Europese regels (privacy ed), maar het gaat hier om auteursrechten. Dat is een totaal andere rechtsgang die de rechthebbende moeten aanspannen.
De getroffenen hebben ook feitelijk, of minimaal niet aantoonbaar, geen schade geleden. Maar het is wel zo dat de boetes dusdanig laag zijn dat voor die grote bedrijven genezen altijd beter is dan voorkomen.
Makkelijk gezegd maar als Meta (en alle andere AI pipo's) mijn data willen gebruiken, dan wil ik daar revenue van zien. Sure, misschien kost het hun een 2-3 EUR voor mijn data...maar dat maal een paar miljard mensen?

Ik denk dat we niet simpelweg het feit dat het per persoon niet veel geld is, want als we alles samentellen dan is elk dubbeltje ineens veel waard
Makkelijk gezegd maar als Meta (en alle andere AI pipo's) mijn data willen gebruiken, dan wil ik daar revenue van zien. Sure, misschien kost het hun een 2-3 EUR voor mijn data...maar dat maal een paar miljard mensen?
Is dat de moeite waard? Iedere cent die jij krijgt van Meta moet met reclame worden verdient. Die reclame moet ook weer worden terugverdient en de consument moet dat uiteindelijk betalen. Je betaalt die 2-3 euro dus zelf én alle overhead die in het proces zit.

Ondertussen leert het algoritme van ieder stuk data dat je deelt. Hoe meer ze van je weten hoe minder ze nog zullen betalen voor nieuwe data. Op lange termijn is het eindpunt dat onze data nagenoeg waardeloos is en we ons hele leven moeten delen terwijl we er bijna niks voor terugkrijgen.
Is dat de moeite waard?
Ja. Waarom? Het is irritant voor hun. Die reclame blokkeer ik gewoon, iets dat iedereen zou moeten doen.

Alles wat ik deel is MIJN data. Ze kunnen ook gewoon simpelweg mijn data niet gebruiken. Dat hebben hun geen overhead en hoef ik me geen zorgen te maken.
Bizar eigenlijk dat "eerst doen, achteraf (eventueel) verontschuldigen" de standaard is geworden. Ze *wisten* ook van te voren al dat ze fout zaten; als een boek *kopen* er voor zorgt dat je werkzaamheden illegaal worden, dan kun je er van uit gaan dat illegaal torrenten dat zeker ook is.
Bizar eigenlijk dat "eerst doen, achteraf (eventueel) verontschuldigen" de standaard is geworden.
Niet zo bizar als je het als een kosten-batenanalyse en risicoanalyse door een beursgenoteerd bedrijf ziet, waarbij de baten hoger worden geschat dan de mogelijke kosten en risico's.

[Reactie gewijzigd door The Zep Man op 7 februari 2025 20:34]

Mmm misschien moet ik mijn films maar weer eens van usenet downloaden om mijn film-AI te trainen....
It's easier to ask forgiveness than it is to get permission.
- Admiral Grace Hopper
Volgens mij is dat altijd al de standaard geweest. Zo heb je ook een gezegde over het geloof (ik weet alleen niet meer waarvan het is).

I pray to God to give me a bread. But I know God doesn't work that way. So I steal the bread and ask for forgiveness instead.
Ik verbaas me er telkens over dat je nooit wat hoort over het Books-project van Google, dat is ondertussen al 20 jaar aan de gang. In 2005 (!) zei George Dyson van Google zelfs in een interview : "We are not scanning all those books to be read by people. We are scanning them to be read by an AI." Aangezien dat project duizenden boeken van universiteiten en uitgeverijen wereldwijd scant, moet daar vroeg of laat toch kritiek op komen? Van auteursrechtelijk beschermd materiaal wordt uiteraard op books.google.com alleen een snippet getoond, met daarnaast netjes wat links naar Amazon e.a. waar je het boek eventueel kunt kopen. Maar ondertussen zit de volledige inhoud natuurlijk wel op de servers van Google en die zullen het ongetwijfeld ook wel gebruiken voor hun AI-winkel - met of zonder medeweten van de auteurs van al die boeken.

[Reactie gewijzigd door JanVQ op 7 februari 2025 20:42]

Dat verbaast mij nou weer net niet. Als ze dat aan de grote klok hangen, gaan alle auteurs en creators protesteren. Het verbaast me ook niet dat China zich bij het trainen van z'n AI modellen helemaal niets van copyrights aantrekt. Eerlijk gezegd, het wordt ook wel een ingewikkelde bedoening als we daar met z'n allen wél rekening mee moeten houden. Welk plaatje of tekstje of muziekje wel en welk plaatje of tekstje of muziekje niet. Lijkt me onbegonnen werk.

[Reactie gewijzigd door BasHouse op 8 februari 2025 02:30]

Als je dat nou eens aan Brein uitlegt, die er actief voor zorgt dat Nederland op AI gebied niks te bieden heeft, mede dankzij het blokkeren van trainingsmodellen op basis van auteursrechtelijk beschermd materiaal, dan ga ik nog even een paar miljoen boeken downloaden. Het is immers te veel moeite voor ze om bij te houden welk tekstje of plaatje ik wel en niet gebruik, en waar ik dan recht op heb. Als de grote AI bedrijven het mogen, dan mag ik het als individu ook, toch?
Volgens mij is er helemaal geen drempel en hebben alle AI-bedrijven alles gevoerd wat ze konden vinden. Er zijn mensen die serieus geloven dat het anders is?
Dit, inderdaad. En zoals hierboven al aangehaald: als de gevolgen, boetes, van zulke praktijken geen invloed meer hebben op bedrijfsresultaten, hebben die copyrightwetten inderdaad geen nut meer.
En precies dit gebeurt nu over de hele wereld en niemand kan die bedrijven stoppen. Wat nu? Hiermee is die copyrightwet wereldwijd effectief bij het vuilnis gezet. Door het bedrijfsleven nog wel.
Ik voel me ook totaal niet meer bezwaard als ik content illegaal consumeer. Laat die bedrijven het onderling eerst maar uitvechten, als ze vinden dat ze boven de wet staan dan mogen ze het ook zelf opknappen. Brein neem ik al helemaal niet meer serieus.
Het is een rare wereld geworden in de laatste paar jaar. (Vroeger hielden ze het nog enigszins geheim)
als ze vinden dat ze boven de wet staan dan mogen ze het ook zelf opknappen. Dit heb ik ook, justitie staat al op de stoep als je paarse ledverlichting in huis hebt, 8km te hard rijdt of zelfs als je je emotie uit en iemand vervloekt en dit soort bedrijven die willens en wetens dit doen, een schikking snel treffen, want dan is er geen strafmaat.

En dan komt die stichting Brein met een brief dat je een stuk tekst gebruikt heb van een artiest, pardon?
Ik zou bijna een patent op alle tekst nemen :+
Dus daarom jatten we het allemaal maar zonder vooraf om toestemming te vragen.
Daar lijkt het wel op Frank.
Kennelijk kan het allemaal niet op een eerlijke manier en is de standaard om gewoon bij alles maar de wet te overtreden onder het mom van, denk aan het hogere goed wat we hiermee creëren. Ik vind daar iets van.
Ik denk dat de waarde van dit gewoon doen en de risico's later voor lief te nemen (wss boetes alleen) niet opwegen tegen de voordelen voor deze bedrijven en de snellere voortgang die ze hierdoor kunnen realiseren.
Gelegaliseerde diefstal dus.
Ik denk dat de straf/risico's te laag zijn helaas
Integer handelen en ethiek staat al lang niet meer in het woordenboek van dit soort bedrijven.
Stonden nooit in het woordenboek van grote bedrijven, waarom? Omdat het concurendende grote bedrijf het ook niet in zijn woordenboek heeft. In het begin concureren kleine bedrijfjes elkaar op het beste product, dan worden ze groter en raken ze een plafond. Dan komen ze op een punt waarbij ze onder druk staan van aandeelhouders, concurentie is toegenomen, product nog verbeteren steeds duurder is geworden etc. Dan opeens blijkft dat regeltjes overtreden en de gevolgen daar van nog altijd vele malen efficienter, goedkoper en winstgevender is dan alle andere opties. Doe jij het niet, dan doet de concurrent het wel en delf je het onderspit. Het bedrijf is inmiddels in handen van mensen die er later bij zijn gekomen voor het geld en daar draait het om. Er moet meer geld verdient worden en regels overtreden en gevolgen daar van worden letterlijk ingecalculeert en worden gewoon onderdeel van de bedrijsvoering. Kapitalisme is op papier best een goed systeem, alleen dan gebasseerd op het idee dat iedereen eerlijk zou zijn. Maar als in de praktijk de gevolgen van oneerlijke praktijken geen impact meer hebben op de winsten die je ermee kan behalen gaat het dus niet werken. Iedereen weet het, iedereen weet dat het eigenlijk zou moeten veranderen. Maar dat kan alleen als de hele wereld mee zou werken hieraan en dat gaat nooit gebeuren. Ons kapitalistisch systeem zit al jaren in een impasse en we kunnen er niets aan doen. Grote bedrijven opereren zonder wetten en het laten liljken naar de buitenwereld alsof zij zich wel netjes aan de wet houden valt tegenwoordig onder marketing. Iedereen mag doen wat die wil en marketing moet ervoor zorgen dat et niet zichtbaar is.
Niet alleen van de bedrijven, ook het koningshuis weet er goed raad mee.
Hoeveel er wel niet het daglicht zien of weg gemoffeld wordt :F en maar denken dat de rest idioten zijn.

Edit; emoticon

[Reactie gewijzigd door GameNympho op 8 februari 2025 21:42]

Je kan je ook afvragen of de wetten nog wel bij deze tijd en techniek(en) passen.
Alles dat ooit aan Intellectual Property (IP) is geproduceerd, komt uiteindelijk in het collectief geheugen terecht. Je kunt AI als de verwerkelijking daarvan zien. Iets tastbaars, dat eerder niet bestond. De oude wetten zijn daar niet op voorbereid. Hoe dan wel toepasbaar?
AI die alleen IP-rechten vrije informatie zou gebruiken, is per definitie niet 'van deze tijd'. Alle rechthebbenden (volgens de oude regels) vinden en compenseren is niet te doen. Want hoe bepaal je dat iemand als eerste een bepaald idee had? Als iemand iets als eerste opschrijft, wil dat nog niet zeggen dat het die persoon zijn idee was, iedereen doet inspiratie op uit zijn omgeving
Letterlijk iemand quoten kan nog als plagiaat worden gezien en bestraft. Maar een idee overnemen, of een verdere redenatie daarop maken, kan toch geen diefstal zijn. Dan zou je op het moment dat je iemand overtuigt van jouw standpunt hem direct van plagiaat kunnen beschuldigen. Lijkt me bizar.
U ken te wet overduidelijk niet. Stukken tekst quoten is toegestaan, mits het niet te lang is en je netjes de bron vermeldt. Een quote gebruik je om je eigen schrijven kracht bij te zetten. Je haalt andermans werk aan om er kritiek op te leveren of omdat het jouw betoog ondersteunt. Het nieuwe werk wat je creëert kan vele quotes bevatten maar mag op geen enkele wijze een integrale inhoud van het originele werk bevatten, dan is het namelijk geen quote meer maar ben je gewoon andermans werk aan het heruitgeven.

En wat betreft de discussie over wie wat al eerste heeft uitgevonden, daarvoor hebben we het reproductierecht. Daar moet iemand een vergoeding voor ontvangen. En voor wat betreft quotes verwijs ik terug naar het voorgaande.
Waarom zou China dat wel doen, terwijl Amerikanen het op enorme schaal ook niet doen?
Als ik het heel simpel maak.
IK als consument moet toch ook gewoon een bepaald boek KOPEN.
Waarom META dan niet?
Volgens mij kan dat prima.

En big tech bedrijven kunnen prima scannen op CSAM content, dus zoiets voor rechthebbende zou ook mogelijk moeten zijn.

Is het makkelijk, nee. Onmogelijk, ook weer niet.

Kijk eens naar de muziekindustrie. Bijna elke artiest vraagt toestemming of een sample gebruikt mag worden.
Niemand wil een Bitter Sweet Symphony ervaren.
Daar is een rechtszaak over geweest en Google heeft die gewonnen. Dat is ook de reden dat de algemene aanname is dat scrapen voor trainingsdata gewoon mag in de VS.

De EU is iets explicieter over scrapen en copyright (zie TDM): die zegt dat scrapen altijd mag voor onderzoek en opt-out is voor commerciële partijen.
Bol.com oudsher ook een bedrijf dat alleen boeken verkochte, hoe zit het daarmee?
IK kan geen enkele overheid serieus nemen als het gaat om onze data bescherming, want ze doen precies wat ze zelf willen en die paar miljoen boete betalen ze wel. Het is gewoon wie veel kapitaal heeft of waarde boeit het niet en gaat gewoon gebruik maken en wachten tot ze op de vingers worden getikt. Het vervolg is dat ze hier goed naar gaan kijken en dan afwachten tot er een boete komt.
Ik begrijp niet goed wat deze reactie met de inhoud te maken heeft. De overheid heeft gewoon wetgeving voor het illegaal gebruik van “ boeken” en andere content.
Mensen stemmen er voor. Ook in Nederland winnen partijen die vooral voor de grote bedrijven dingen regelen. En in de VS is het helemaal duidelijk: senaat en congres een meerderheid voor de pro-grote-bedrijven partij.

En de kiezer heeft altijd gelijk hoor je dan te zeggen.
Dit gaat niet over overheden toch?
Dus brein... wanneer kom je hiervoor in actie ipv de belasting betaler lastig te vallen? :o
Eerder de RIAA omdat het waarschijnlijk in de VS is gebeurd.
De RIAA redeneert vaak dat iedere gedownloade torrent heel veel verkopen heeft laten mislopen. (tot op het niveau van, ondertussen lang geleden, dat de ze een bedrag eistte, dat hoger was dan dat er geld was... Op Aarde...)
Als er boeken van nederlandse schrijvers, vertaald of niet, tussenzaten, mag er in Nederland van mij ook gewoon gekeken worden naar de impact hiervan. En daar mag stichting Brein vanuit haar vakgebied en kennis best het voortouw in nemen.

Op basis van internationale verdragen ligt er best een casus voor vergoeding. Zie ook:
https://nl.wikipedia.org/wiki/Berner_Conventie_(1886)
Ik dacht dat ze al druk bezig waren, meerdere Nederlandse projecten zijn offline gehaald.
Brein is puur een organisatie die bestaat om geld te maken. Die zullen wel gewoon schikken voor een mooi bedrag, of genegeerd worden.
Je kon er op wachten, al vind ik 80TB niet echt veel. Lijkt mij dat je veel en veel meer trainingsdata nodig hebt
80tb aan tekst is best veel. het zijn geen blurays.
Hangt er vanaf hoeveel waardevolle data het bevat, c.q. hoe geconcentreerd het is.
Even heel plat. Dit zal meneer Trump vast wel goedkeuren of een decreet uitschrijven. En ploef rechtzaak weggetoverd... Geen idee of dat kan met dit, maar tis raar land aan het worden dus wie weet.
Trump kan hier alleen maar iets in Amerika voor doen.

De andere 95.8% van de wereld kan Meta hiervoor aanklagen. Als er in elk land een rechtzaak start kan het misschien eindelijk eens gedaan zijn. :)
Ik denk dat meta dan doodgewoon wat oppositie partijen gaat promoten. |:(
Gewoon, de posts van de meta-gezinde partij meer tonen. En dat van de andere wat minder.
Hoe/Wie gaat je/er aantonen dat dit gebeurt?

De invloed van de sociale media zijn niet te onderschatten.
Dan kunnen we het ook gewoon geen verbannen als ze zich beginnen moeien.
Trump kan hier alleen maar iets in Amerika voor doen.
volgens de Amerikaanse wet mag de president een belastingverhoging toelegen op een land dat een Amerikaans bedrijf "oneerlijk" behandelt. Als Trump vind dat een boete voor facebook oneerlijk is kan hij importheffingen leggen op elk land dat een boete aan facebook geeft
Daar moet je toch niets van aantrekken. Dat land staat bijna op ontploffen met die blaaskaak van een Trump.
Dus de juiste oplossing is dat als die bedrijven actief willen zijn in Europa, dat ze dan Europees moeten zijn? Of gaat dat ook niet werken, dat is toch wat ze ginder met TikTok ook doen. Kunnen wij toch ook?

Het is gewoon zo hard tijd voor Europese alternatieven…
trump ligt tegenwoordig wel vooraan in de mond.
Die heeft hier niets mee te maken.

Ik zou Poetin verwachten. :P
De reactie van Anna's Archive, wat o.a. Meta gebruikte, is wel interessant:
“If the West wants to stay ahead in the race of LLMs, and ultimately, AGI, it needs to reconsider its position on copyright, and soon (...)”

“Whether you agree with us or not on our moral case, this is now becoming a case of economics, and even of national security. All power blocs are building artificial super-scientists, super-hackers, and super-militaries. Freedom of information is becoming a matter of survival for these countries — even a matter of national security (...)”

While a shadow library’s calls for copyright reform seem unlikely to be considered, the AI copyright discussion isn’t over. We expect to see similar talking points in the future, also from other sources.

Anna’s Archive maintains that it will continue to operate, regardless of the legal implications.

“[We] will continue our underground work rooted in moral conviction. Yet our greatest wish is to enter the light, and amplify our impact legally. Please reform copyright,” Anna Archivist concludes.
edit:
Quote ingevoegd

[Reactie gewijzigd door Sando op 7 februari 2025 23:30]

Dus omdat anderen het illegaal doen moet iedereen dat maar mogen doen in het teken van nationale veiligheid?

Alle gesprekken op internet vrijgeven? Alle dms? Alle boeken? Alle papers? Wat niemand zomaar mag, maar omdat het om ai gaat wel?

Wellicht echte politieke sancties instellen tegen landen die dit doen ipv tegen de internationale rechtbank. Het gaat helaas de hele verkeerde kant op on de wereld, samenwerken is taboe, de eigen belangen regeren.
Het lijkt me cruciaal om de bredere implicaties toch wat breder overwegen, zowel op het gebied van innovatie als nationale veiligheid.

Landen als China investeren bijvoorbeeld aanzienlijk in de AI-ontwikkeling. Zij maken daarbij zorgeloos gebruik van uitgebreide datasets. Als zij de hele westerse cultuur meenemen in hun training, dan kunnen ze bijvoorbeeld makkelijker misinformatie genereren en inspelen op de westerse emotie. Als de "westerse" modellen getrained worden zonder de westerse cultuur omdat die licentietechnisch niet meegenomen mag worden, dan kunnen "onze" modellen deze misinformatie niet makkelijk detecteren en weerleggen. Dat geeft China eem strategisch voordeel.

Het huidige auteursrecht stamt uit een tijdperk vóór AI, vóór Internet, toen de tijd nog 10 keer zo langzaam leek te gaan. De termijn van 70 jaar na het overlijden van de auteur is in dit digitale tijdperk totaal arbitrair en niet te rechtvaardigen. Dit zou op zijn aller minst gelijk getrokken mogen worden met de 20 jaar die voor patenten geldt, maar realistischer wordt het wanneer je specifiek voor AI misschien een embargo vam 2 jaar na de publicatiedatum in acht houdt.
Verrassend? Nou nee.

Op dit item kan niet meer gereageerd worden.