Ik ben niet bewust aan het cherry picken. Volgens mij zegt
de pagina dat
de producent van de database .. [kan] .. anderen verbieden een substantieel deel van de gegevens in de databank op te vragen en te hergebruiken.
onder een aantal voorwaarden. Maar dat hier een uitzondering op is en dat is
Het geautomatiseerd doorzoeken van tekst en databanken om (nieuwe) patronen, trends en verbanden te ontdekken (tekst- en datamining - TDM) mag wel zonder toestemming van de [producent].
En kijken we naar boeken en andere creatieve werken:
Artikel 15o"]Auteurswet15o. Onverminderd het bepaalde in artikel 15n wordt een reproductie in het kader van tekst- en datamining niet als inbreuk op het auteursrecht op een werk van letterkunde, wetenschap of kunst beschouwd mits degene die de tekst- en datamining verricht rechtmatig toegang heeft tot het werk en ...
Als informatie publiek op internet is gezet, of te koop is in een winkel interpreteer ik dat als "iedereen heeft (tegen betaling) rechtmatig toegang* tot de informatie.
[15o vervolg] ... het auteursrecht door de maker of zijn rechtverkrijgenden niet uitdrukkelijk op passende wijze is voorbehouden, zoals door middel van machinaal leesbare middelen bij een online ter beschikking gesteld werk.
Dit lees ik als dat de bron duidelijk op een voor een machine passende manier moet hebben duidelijk gemaakt dat tekst- en data mining niet mag. Als dat voorbehoud niet gemaakt is, is het automatisch toegestaan (mits de informatie publiek gemaakt is, of te koop is aangeboden door de producent).
Ik interpreteer "passende wijze" als bijvoorbeeld een meta-tag op de pagina of een http-tag of een robots.txt. Of op een manier die internationaal gezien wordt als "standaard" hiervoor.
Veel internet pagina's van oktober 2023 of eerder hebben hierover niets vermeld. Veel boeken en wetenschappelijke publicaties van voor die tijd hebben hier ook geen tekst voor opgenomen.
Verderop staat een uitleg over wat met
tekst- en datamining bedoeld wordt:
3
In deze paragraaf wordt onder tekst- en datamining verstaan een geautomatiseerde analysetechniek die gericht is op de ontleding van tekst en gegevens in digitale vorm om informatie te genereren zoals, maar niet uitsluitend, patronen, trends en onderlinge verbanden.
Let ook op de grote van een LLM model ten opzichte van de bronnen. De grote van het hier
besproken data-model is 43GB.
De bronnen waar deze analyses op gedaan zijn, zijn gecomprimeerd (gzip 1:100) meer dan 200TB. Dat betekent dat er maximaal 1 op 4.500ste deel ten opzichte van de bron data is overgebleven in het model.
Voor de meeste boeken betekent dat in verhouding ongeveer een paragraaf of minder (1/8 deel van een pagina bij 250 bladzijdes).
Uiteraard moet het dan wel gaan om boeken die door de producent beschikbaar zijn gesteld aan het publiek, of Meta. En dat de boeken geen expliciete uitzondering gemaakt hebben voor tekst- of data mining, die machinaal redelijkerwijs goed te interpreteren is.
Mijn indruk is dat Meta auteurs bewust betaald voor de boeken, zodat ze rechtmatig toegang heeft.
Dit is mijn interpretatie van wat ik lees. Ik ben geen jurist.
side note
En ik vermoed dat gemiddeld één paragraaf per boek overnemen in je analyse model in Amerika geschaard kan worden onder fair use.
De meest populaire versie (7B - 5GB - llama3.1) van het model bevat gemiddeld 1/16.000 (=80TB/5GB) deel van een boek. Dat is een halve zin of minder per boek van 250 pagina's.
[Reactie gewijzigd door djwice op 8 februari 2025 09:03]