Stichting Brein heeft een grote Nederlandstalige dataset offline gehaald. Deze bevatte volgens de stichting illegale kopieën van auteursrechtelijk beschermde werken en werd gebruikt voor het trainen van AI-modellen.
Volgens Stichting Brein bevatte de dataset 'illegale kopieën van tienduizenden boeken, miljoenen regels uit nieuwsartikelen van websites zoals NU.nl en ondertitels van talloze films en tv-series uit illegale bron'. Brein zegt dat de data gecomprimeerd was, zodat hij gemakkelijk bruikbaar was voor het trainen van AI-modellen, zoals llm's. De data was hiermee niet geschikt voor consumenten om direct te worden ingezien, maar de inhoud was illegaal verkregen.
"We hebben in de dataset onder meer gezocht naar de letterlijke tekst: ‘Niets uit deze uitgave mag worden verveelvoudigd’ en dit leverde meer dan 10.000 resultaten op", zegt Brein-directeur Bastiaan van Ramshorst. "Stuk voor stuk betrof dit illegaal gekopieerde boeken. Ook de nieuwsartikelen zijn gekopieerd van websites met auteursrechtvoorbehoud."
De dataset is inmiddels offline gehaald. Volgens brein heeft de maker ervan een verklaring ondertekend waarin hij belooft geen inbreuk meer te maken op auteursrechten. Hij zou inmiddels ook informatie hebben gegeven over wie de dataset heeft ontvangen. Brein zegt onderzoek te doen naar welke AI-modellen de dataset hebben gebruikt en die daarop aan te spreken.
Er lopen al langer discussies over het gebruik van auteursrechtelijk beschermde werken voor het trainen van AI-modellen. Veel bedrijven trainen hun AI-modellen door content van het internet te scrapen. The New York Times heeft eerder OpenAI en Microsoft aangeklaagd omdat die twee bedrijven artikelen van dat dagblad zonder toestemming gebruikten om chatbots te trainen. Verschillende uitgeverijen verbieden het gebruik van hun content voor het trainen van AI, ook in Nederland. Daaronder vallen bijvoorbeeld Mediahuis en Tweakers-uitgever DPG Media. Tweakers schreef eerder een achtergrondverhaal over het trainen van AI-modellen op basis van gescrapete data.