Stanford-onderzoekers zeggen dat de Laion-5B-dataset ruim duizend afbeeldingen van kindermisbruik bevat. Onder meer Stability AI gebruikt deze dataset om hun generatieve kunstmatige intelligentie te trainen.
Laion-5B is een dataset met links naar afbeeldingen die onder meer gescrapet zijn van sociale media en pornosites. Onderzoekers van de Stanford Internet Observatory zeggen dat deze dataset meer dan duizend afbeeldingen bevat waarvan bekend is dat het om kindermisbruik gaat. Dit hebben de onderzoekers geverifieerd bij Amerikaanse en Canadese organisaties die zich inzetten tegen kindermisbruik, door hashes van de Laion-5B-afbeeldingen te controleren met hashes van die antikindermisbruikorganisaties
De omstreden dataset bestaat uit ruim vijf miljard beelden en is onder meer gebruikt als dataset voor Stable Diffusion. De onderzoekers waarschuwen dat generatieve-AI-projecten die gebruikmaken van Laion-5B potentieel realistische kindermisbruikbeelden kunnen maken. Laion, de Duitse stichting achter de omstreden dataset, zegt tegen Bloomberg dergelijke illegale content niet te tolereren en zegt de datasets tijdelijk offline te halen om de omstreden content te verwijderen. De organisatie geeft daarnaast aan eerder filters te hebben uitgebracht die de illegale content moeten kunnen tegenhouden.
Stability AI zegt dat zijn Stable Diffusion-model is gebaseerd op 'een gefilterde subset' van Laion-5B en dat het model is afgesteld om 'overgebleven gedrag tegen te gaan'. Extra filters moeten onveilige prompts van gebruikers en onveilige outputs tegengaan, aldus Stability AI. Bij Stable Diffusion 1.5, waar minder van zulk soort filters aanwezig zijn, zou het eenvoudiger zijn om seksueel expliciete content te maken. De Stanford-onderzoekers waarschuwen er dan ook voor dat Stable Diffusion 1.5-modellen niet meer gebruikt moeten worden.