Mediahuis en DPG Media gaan het gebruik van hun artikelen en andere content voor het trainen van AI-modellen verbieden. Nieuwsmedia van Mediahuis hebben hun robots.txt-bestanden aangepast om crawlers van OpenAI te blokkeren. DPG doet dat in de komende weken.
Mediahuis, de uitgeverij van onder meer Nederlandse dagbladen NRC en De Telegraaf, heeft inmiddels in zijn robots.txt-bestanden aangegeven dat de GPTbot-crawler van OpenAI geen content van zijn websites mag verzamelen. OpenAI gebruikt die scrapers om content van openbare websites binnen te halen. Het bedrijf gebruikt die content vervolgens om zijn GPT-taalmodellen mee te trainen.
DPG Media, de uitgever van de Volkskrant, NU.nl en ook Tweakers, heeft deze week besloten om crawlers van AI-bedrijven te blokkeren. De uitgeverij gaat zijn robots.txt-bestanden 'in de komende weken' aanpassen. Het bedrijf gaat dan de crawlers van onder meer OpenAI verbieden op de websites van zijn media. Tweakers heeft dat inmiddels al gedaan. Op termijn kan de lijst met geblokkeerde crawlers worden uitgebreid. DPG Media verbiedt het gebruik van zijn content voor het trainen van AI-modellen al in de gebruikersvoorwaarden.
De twee uitgeverijen, die actief zijn in Nederland en België en daar ook een groot deel van het medialandschap bevatten, volgen hiermee het voorbeeld van verschillende andere grote media. The New York Times voerde eerder al een soortgelijke wijziging door. Ook internationale media als CNN, Reuters en The Guardian hebben dat al gedaan.
AI-modellen worden doorgaans getraind op basis van datasets van het internet. Daar kunnen ook auteursrechtelijk beschermde werken zoals journalistieke artikelen in zitten. Google zette onlangs in zijn privacyvoorwaarden dat het bedrijf publieke data van het internet kan gebruiken om zijn AI-diensten te trainen, waaronder chatbot Bard. OpenAI doet hetzelfde voor zijn GPT-modellen. Website-eigenaren kunnen de crawlers van OpenAI echter sinds begin augustus blokkeren via hun robots.txt-bestand.