Common Crawl heeft op verzoek van Stichting Brein twee miljoen nieuwsartikelen van bekende Nederlandse nieuwssites en digitale kranten verwijderd. Brein stelt dat deze zonder toestemming zijn gekopieerd en gebruikt om generatieve-AI-modellen te trainen.
De aanbieder, Common Crawl, is een non-profitorganisatie die het internet crawlt en de resultaten in een dataset openbaar aanbiedt aan gebruikers en bedrijven. Volgens Brein zijn vrijwel alle grote AI-modellen onder meer op de dataset van Common Crawl getraind. Het zou onder meer om ChatGPT, Deepseek V3, Claude, Phi en OpenELM gaan. Het internetarchief Wayback Machine werkt samen met Common Crawl door het scrapen van het internet uit te voeren en de bestanden met de organisatie te delen.
Het materiaal dat Common Crawl aanbiedt, is volgens Brein veelal auteursrechtelijk beschermd. In samenwerking met een aantal Nederlandse nieuwsuitgevers werd er bezwaar gemaakt bij de trainingsdata-aanbieder. Die heeft dat verzoek nu gehonoreerd. Volgens de stichting zijn de twee miljoen artikelen echter slechts een fractie van de totale dataset, die ruim zes petabyte groot is.
Stichting Brein voert vaker actie tegen bedrijven die iets met kunstmatige intelligentie doen en daarvoor afhankelijk zijn van auteursrechtelijk beschermd materiaal. Zo haalde de stichting in 2024 een Nederlandstalige dataset voor het trainen van AI offline omdat hierin beschermd materiaal zat. Ook werd het Nederlandse AI-model GEITje om dezelfde reden op verzoek van de stichting offline gehaald.