Amazon ontdekt honderdduizenden beelden kindermisbruik in trainingsdata AI

Amazon ontdekte vorig jaar honderdduizenden beelden van kindermisbruik in trainingsdata die bedoeld is om kunstmatige intelligentie op te trainen. De beelden zijn verwijderd voordat de data gebruikt zijn voor AI-training.

Amazon Nova Sonic
Amazon maakt onder meer het taalmodel Nova Sonic

Het techbedrijf maakt volgens Bloomberg steevast melding van beelden bij het Amerikaanse National Center for Missing and Exploited Children. Het Ncmec is een non-profitorganisatie die kindermisbruik bestrijdt en vermiste kinderen opspoort. Er worden echter geen gegevens gedeeld over de herkomst van de beelden, wat verder onderzoek zou verhinderen. Volgens Amazon zijn deze gegevens niet beschikbaar.

De hoeveelheid kindermisbruikmateriaal in AI-gerelateerde producten dat gemeld werd in 2025 is vijftien keer zo hoog vergeleken met het jaar daarvoor. Het overgrote merendeel daarvan blijkt meldingen van Amazon te zijn.

Het is niet duidelijk waarom specifiek Amazon zoveel kindermisbruikmateriaal detecteert in trainingsdata en AI-gerelateerde gegevens. Het Ncmec stelt dat vergelijkbare bedrijven slechts 'een handvol' meldingen deden en meer informatie over de herkomst van de beelden konden delen.

AI-bedrijven scannen, maar voorkomen slechts deels problemen

Alle AI-bedrijven met een eigen model hebben grote hoeveelheden data nodig om hun product te trainen. Het is daarbij gebruikelijk om deze gegevens te scannen op kindermisbruikmateriaal en andere ongewenste inhoud. Door de data eerst te filteren voorkomen bedrijven dat hun AI uiteindelijk dit soort ongewenst materiaal gaat reproduceren.

Ook als trainingsdata eerst gefilterd wordt, kan het misgaan. Zo krijgt het xAI-model Grok de afgelopen weken veel kritiek vanwege de mogelijkheid om afbeeldingen van mensen te bewerken, bijvoorbeeld door kleding van een afbeelding van een kind te verwijderen.

Door Yannick Spinner

Redacteur

29-01-2026 • 17:48

35

Submitter: Noxious

Reacties (35)

Sorteer op:

Weergave:

Waar komen deze beelden dan vandaan? Gebruiken ze beeldmateriaal die op hun talloze servers staan? Dit kom je normaal toch niet tegen zou je denken, ook niet als AI.

En zou die AI dit niet moeten herkennen als kinderporno en daardoor dit verwerpen?
Toch is dat soms moeilijk. Zie jij het verschil tussen iemand van 17,5 en 18+? Ook op de gekende websites die niemand bezoekt (kuch) staan gewoon filmpjes met jongedames die een krant vast houden op hun 18e verjaardag en daarna allerlei handelingen verrichten die een dag eerder officieel kinderporno zouden zijn. Als wij het verschil niet kunnen beoordelen, hoe moet AI dat doen?
Als het 17,5 zal het ook niet zo gemeld worden als kindermisbruik. En zoals je zegt, veelal weten we het zelf ook niet. Maar wanneer men het echt over beeldmateriaal hebben van kindermisbruik, dan hebben we het niet over grensgevallen, maar overduidelijk minderjarig.

Als dit echt over grensgevallen zou gaan, dan zou dit soort nieuwsartikelen wel heel erg misleidend zijn.
En vergeet niet dat iemand Ai dat moet leren, hè. Uit zichzelf zal dat niet gebeuren. Laatst een stukje gelezen over de Afrikanen die dat smerige klusje voor een hongerloontje mogen opknappen... Dat is een van de duistere kanten van AI.
En voor een AI is het vast ook lastig om volwassenen die zich verkleden als een 'schoolgirl' te onderscheiden van een echte 'schoolgirl'.
Omgekeerd ook; met makeup kan een 16- à 17-jarige er ook veel volwassener uit zien.
Ik weet ook niet of bvb een 3D animatie van kinderporno illegaal is? Bvb bij anime is het ook erg lastig om er een leeftijd op te kleven; dit zal bij hentai vast ook zo zijn...

Ik vrees natuurlijk wel dat het hier eerder gaat om 12 jaar en jonger... Dan is er meestal geen twijfel mogelijk denk ik.

Ik vermoed ook dat ze een database bijhouden van beelden om hier een hash van te maken en later op het net eenvoudig terug te vinden in al-dan-niet resized versie.
Big tech gebruikt alles wat ze kunnen vinden om AI te trainen. Het is een lage risicoaanpak; de gevolgen zijn zeer beperkt, terwijl ze er veel baat bij hebben.

Het wordt vaak herkend als kindermisbruik, maar niet altijd gemeld. Vraag is waarom Amazon er nu voor gekozen heeft om het te melden.
Toch raar dat afbeeldingen uit de krochten van het internet zo makkelijk in die datasets komen. Zou je denken dat de bronnen aangepakt moeten kunnen worden.

Komen die bedrijven overigens zomaar weg met dat bezit? "Nee meneer agent die foto's zijn om AI op te trainen, niet voor persoonlijk gebruik".
Toch raar dat afbeeldingen uit de krochten van het internet zo makkelijk in die datasets komen.
Mij verbaast het niks. Uit de berichtgeving over de bedrijven die met nepintelligentie bezig zijn is overduidelijk dat het ze niks komma nul boeit waar de data vandaan komt en hoe die is verkregen.
Ze kwamen weg met de grootste "piraterij heist" uit de geschiedenis onder het mom van trainen.
Wie is hier dan voor verantwoordelijk, de CEO? In de VS geld dat wanneer je echt veel geld heb, dat je gewoon wordt beschermd door de president zelf.
Jij gaat ervan uit dat meneer agent toegang krijgt tot systemen van Amazon om erachter te komen dat er mogelijk kindermisbruik en andere schendingen zijn. Alsof de politie een tool heeft die continu de servers van Amazon scant.
Ik zou vermoeden dat je hier de juiste goedkeuringen voor moet hebben.
Beetje zoals herstellen of onderhoud van wapens, aankopen of bezitten van explosieven, etc...
Dus verkrijgen, verwerken en opslaan van illegaal materiaal (welk dan ook) zou moeten kunnen, maar enkel met de juiste goedkeuring.
(dit is natuurlijk mijn mening).
Er worden echter geen gegevens gedeeld over de herkomst van de beelden, wat verder onderzoek zou verhinderen. Volgens Amazon zijn deze gegevens niet beschikbaar.
was er ook maar 1 iemand zo naïef om te geloven dat hun datasets allemaal braaf aangekocht waren bij gekende reputabele partners die de kwaliteit van hun product belangrijk vinden?
Wel, het komt niet veel meer in het nieuws maar er worden op dit moment veel contracten gesloten waarbij firma's als OpenAI licenties nemen van firma's als Disney. Op veel andere datasets rust gewoon geen copyrights. Er is eenvoudig geen manier waarop Tweakers kan verhinderen dat OpenAI jouw posts hier leest. Jij hebt ze openbaar gemaakt door ze te posten.
Op het moment dat data in een set wordt opgenomen moet er een source en timestamp zijn + validatie dat de data mag opgenomen worden. Legaal gezien mag je namelijk niet zomaar dingen verzamelen/opslaan en gebruiken, zeker niet als het zoals hier gaat om strafbaar materiaal, dan zou je theoretisch zo snel mogelijk aangifte moeten doen als je het vindt. De verzamelaar is verantwoordelijk (niet de oorspronkelijke eigenaar) als hij dit soort materiaal in zijn bezit houdt, of dat nu automatisch gescrapet is of manueel bij elkaar gezocht.
Op veel andere datasets rust gewoon geen copyrights. Er is eenvoudig geen manier waarop Tweakers kan verhinderen dat OpenAI jouw posts hier leest. Jij hebt ze openbaar gemaakt door ze te posten.
Tweakers content mag niet gebruikt worden, maar OpenAI heeft vast de voorwaarden niet gelezen en scraped vast vrolijk illegaal
10.3 Het Lid mag de op de Website opgenomen Content raadplegen en daarvan kopieën maken voor uitsluitend eigen persoonlijk gebruik, bijvoorbeeld door deze te printen of op te slaan. Elk ander gebruik van de Website of de Content, bijvoorbeeld het overnemen, reproduceren, distribueren of anderszins openbaar maken van (een deel van) de Website is niet toegestaan zonder uitdrukkelijke schriftelijke toestemming van Tweakers en/of het betreffende Lid.
Hoe werkt dit trainen dan precies? Want je moet toch een context meegeven aan die data?
Je kunt toch niet miljoenen afbeeldingen aanbieden in een training set en zeggen: je kijkt maar wat je doet?

Edit:
Ik ben dit even uit gaan zoeken:

Je hebt een afbeelding. Tijdens de training wordt zo'n afbeelding als rgb pixel voor pixel opgebouwd als een getallen matrix. Daar wordt vervolgens een stukje pixels uitgehaald.
De training gaat dan zitten gokken wat die getallen in de matrix zouden kunnen zijn. Het wiskunding controle algoritme geeft dan aan hoeveel procent deze gok goed was. De uitkomst wordt opgeslagen in de trainingsdata (model past zichzelf aan).
Daardoor maakt het dus niet uit wat voor garbage je erin stopt. AI kan leren van alles zonder enige vorm van context.

[Reactie gewijzigd door L0g0ff op 29 januari 2026 18:50]

Zover ik weet, maar dat kan inmiddels achterhaald zijn, is dat handwerk wat ze voor een habbekrats in een derdewereldland laten doen. Gewoon medewerkers die trefwoorden aan elke afbeelding toevoegen.
Ik snap niet waarom ze niet de bron zouden kunnen achterhalen.
Jaa smerig ect ect.

Maar even in de rationele sfeer blijven. Moet je niet juist trainen op de dingen die je AI wil leren die “fout” zijn?

Kortom, is dit niet gewoon logisch om wel op te trainen?

[Reactie gewijzigd door Dlsruptor op 29 januari 2026 17:53]

Nee. Is wel logisch. Dat materiaal is illegaal.
Niet met generieke AI iig. Gericht trainen moet je aan de betreffende instanties over laten.
Zo ingewikkeld zou het niet moeten zijn om per data set te loggen waar deze data vandaan komt?
Tenzij dit via torrents of een tornet is binnengekomen. Dan kun je misschien de torrent achterhalen, maar niet wie er mee te maken heeft of waar het vandaan is gekomen.


Ik speculeer natuurlijk. Ik heb werkelijk geen idee hoe die bedrijven aan alle data komen. Dat het geen zuivere koffie is, dat is wel gebleken. Er zit veel copyright en illegaal materiaal in de dataset.
Tenzij je zelf op de zwarte markt illegale data gekocht hebt. Dan weet je het ineens niet meer!
Honderdduizenden klinkt natuurlijk als heel veel, maar ik had liever een percentage gezien.
"detecteert in trainingsdata en AI-gerelateerde gegevens"
Beetje onduidelijk om wat voor data het nu precies gaat. Beelden die al gebruikt worden om kinderporno te vervaardigen met AI?
Dat kinderporno fucked up is (understatement) staat buiten kijf. Wat ik me dan afvraag, hoe is dit juridisch geregeld in deze situatie? In feite kan Amazon veroordeeld worden voor bezit van kinderporno. Ik hoor graag hier meer over. Dat het moreel fucked up is, staat wederom buiten kijf.
Dat is strafbaar is staat niet altijd gelijk aan er ook voor veroordeeld worden. Het lijkt me voor de hand liggend, met de informatie die we hebben, dat Amazon geen rol speelt in hetgene wat KP zo slecht maakt. Ze vervaardigen, verspreiden en "consumeren" het niet, dus maken ze in principe geen deel uit van het probleem.

Wanneer jij eens uit interesse door het dark web heen klikken en per ongeluk op een foute site komen, ook al klik je daar direct weg, dan bestaat de kans dat je dit materiaal cached in je bezit hebt en je in principe ook strafbaar bent. Veroordeeld zul je er achter niet voor worden.

Dat gezegd hebbende, je zou Amazon eigenlijk moeten dwingen ervoor te zorgen dat het al überhaupt in hun datasets komt. Niet op de laatste plaats omdat het dus zo al duidelijk wordt dat ze zelf geen flauw idee hebben waar het allemaal vandaan komt. Maarja, dan kom je in het gebied van regulering en daar is de VS nogal vies van.

Om te kunnen reageren moet je ingelogd zijn