Het Nederlandse AI-taalmodel GEITje is offline gehaald op 'dringend verzoek' van Stichting Brein. GEITje zou volgens Brein deels getraind zijn op documenten uit de dienst Library Genesis, die afgelopen zomer is geblokkeerd.
Brein zegt dat het model is getraind met tienduizenden Nederlandstalige boeken die afkomstig zijn uit een illegale bron, namelijk Library Genesis, die afgelopen zomer op verzoek van Brein is geblokkeerd door Nederlandse accessproviders. De illegaal verkregen documenten en e-books waren waarschijnlijk terug te vinden in Gigacorpus, de dataset die afgelopen zomer door de maker zelf offline is gehaald. Gigacorpus bevatte naast boeken ook andere Nederlandstalige data, zoals wetsartikelen en uitspraken van Rechtspraak.nl.
"Brein is niet tegen het trainen van AI, maar vindt wel dat de auteurs van al die muziek, boeken etc. daarvoor een eerlijke vergoeding moeten krijgen. Indien de oorspronkelijke makers niet willen dat hun materiaal voor het trainen van AI wordt gebruikt, dan moet dat ook gerespecteerd worden", schrijft de stichting.
De ontwikkelaar van GEITje verweerde dat tekstdatamining is toegestaan voor wetenschappelijke doeleinden en dat het model door wetenschappers wordt gebruikt, volgens Brein. De stichting wijst er echter op dat het model ook voor commercieel gebruik openbaar werd aangeboden op Huggingface.co. "De AI Act schrijft voor dat wetenschappers rechtmatig toegang moeten hebben tot materiaal om het te mogen gebruiken voor het trainen van AI. Dat is niet het geval als bij het trainen van een model gebruik is gemaakt van evident illegale bronnen", aldus Brein.
GEITje-maker Edwin Rijgersberg, op Tweakers bekend als E_Rijgersberg, bevestigt in een eigen post dat het taalmodel eind 2023 getraind is op gedeelten van het Nederlandse Gigacorpus. Brein heeft tegen Rijgersberg gezegd dat volgens de geldende wet- en regelgeving GEITje daarom offline gehaald moet worden.
"Ik ben door auteursrechtenexperts ervan verzekerd dat dit niet zo zwart-wit is als gesteld, maar ze vertellen me ook dat er nog veel juridische vragen in Europa hierover onbeantwoord zijn. Ik kan het me niet veroorloven om een lange en vooral zeer dure rechtszaak te voeren om die vragen wel beantwoord te krijgen. GEITje is immers een niet-commercieel, wetenschappelijk hobbyproject. Daarom voldoe ik aan het verzoek van Brein.(...) Ik had gewild dat GEITje voor wetenschappers beschikbaar bleef om de wetenschappelijke reproduceerbaarheid van hun onderzoek te kunnen garanderen. Maar helaas: gesprekken daarover met Brein zijn op niets uitgelopen", verklaart Rijgersberg.
Aanpassing, 11.00 uur - In een eerdere versie van het artikel stond dat Gigacorpus door de rechter als onrechtmatig werd bevonden en door accessproviders is geblokkeerd. Het ging echter om Library Genesis, niet om Gigacorpus. Gigacorpus is door de maker zelf offline gehaald afgelopen zomer. Daarom is het artikel aangepast.