Veel bedrijven, waaronder Anthropic, Nvidia en Apple, hebben ongevraagd een dataset met ondertitels van YouTube-video's gebruikt voor het trainen van hun AI-modellen. Daaronder zijn bekende kanalen als MrBeast, PewDiePie, MKBHD en ook een video van Tweakers.

Het gaat in totaal om ondertitels van ruim 173.000 video's, schrijft Proofnews. Daaronder zijn video's van enkele van de bekendste youtubers zoals MrBeast en MKBHD, maar ook BBC, The New York Times, Last Week Tonight With John Oliver en universiteiten als MIT en Harvard. Proofnews heeft een tool online gezet om video's te vinden in de dataset en daaruit blijkt dat een video over CERN van Tweakers ook in de dataset zit. Er lijkt verder geen tot weinig Nederlandstalig materiaal in de dataset te zitten.

Die dataset is The Pile en baseert zich op de ondertitels van de YouTube-video's in diverse talen. De dataset is van het bedrijf EleutherAI en die wil niet reageren op de vondst. Ook bedrijven als Nvidia en Apple reageren niet op het nieuws. Anthropic bevestigt in een reactie de dataset inderdaad gebruikt te hebben voor zijn AI-model Claude en benadrukt dat het gaat om een klein deel van de totale trainingsdata. Het gebruik van ondertitels voor trainen van AI-modellen lijkt op het oog tegen de voorwaarden van YouTube in te gaan.