Amazon ontdekt honderdduizenden beelden kindermisbruik in trainingsdata AI

Amazon ontdekte vorig jaar honderdduizenden beelden van kindermisbruik in trainingsdata die bedoeld is om kunstmatige intelligentie op te trainen. De beelden zijn verwijderd voordat de data gebruikt is voor AI-training.

Amazon Nova Sonic
Amazon maakt onder meer het taalmodel Nova Sonic

Het techbedrijf maakt volgens Bloomberg steevast melding van beelden bij het Amerikaanse National Center for Missing and Exploited Children. Het Ncmec is een non-profitorganisatie die kindermisbruik bestrijdt en vermiste kinderen opspoort. Er worden echter geen gegevens gedeeld over de herkomst van de beelden, wat verder onderzoek zou verhinderen. Volgens Amazon zijn deze gegevens niet beschikbaar.

De hoeveelheid kindermisbruikmateriaal in AI-gerelateerde producten dat gemeld werd in 2025 is vijftien keer zo hoog vergeleken met het jaar daarvoor. Het overgrote deel daarvan blijkt meldingen van Amazon te zijn.

Het is niet duidelijk waarom specifiek Amazon zoveel kindermisbruikmateriaal detecteert in trainingsdata en AI-gerelateerde gegevens. Het Ncmec stelt dat vergelijkbare bedrijven slechts 'een handvol' meldingen deden en meer informatie over de herkomst van de beelden konden delen.

AI-bedrijven scannen, maar voorkomen slechts deels problemen

Alle AI-bedrijven met een eigen model hebben grote hoeveelheden data nodig om hun product te trainen. Het is daarbij gebruikelijk om deze gegevens te scannen op kindermisbruikmateriaal en andere ongewenste inhoud. Door de data eerst te filteren voorkomen bedrijven dat hun AI uiteindelijk dit soort ongewenste materiaal gaat reproduceren.

Ook als trainingsdata eerst gefilterd wordt, kan het misgaan. Zo krijgt het xAI-model Grok de afgelopen weken veel kritiek vanwege de mogelijkheid om afbeeldingen van mensen te bewerken, bijvoorbeeld door kleding van een afbeelding van een kind te verwijderen.

Door Yannick Spinner

Redacteur

29-01-2026 • 17:48

78

Submitter: Noxious

Reacties (78)

Sorteer op:

Weergave:

Hoe werkt dit trainen dan precies? Want je moet toch een context meegeven aan die data?
Je kunt toch niet miljoenen afbeeldingen aanbieden in een training set en zeggen: je kijkt maar wat je doet?

Edit:
Ik ben dit even uit gaan zoeken:

Je hebt een afbeelding. Tijdens de training wordt zo'n afbeelding als rgb pixel voor pixel opgebouwd als een getallen matrix. Daar wordt vervolgens een stukje pixels uitgehaald.
De training gaat dan zitten gokken wat die getallen in de matrix zouden kunnen zijn. Het wiskunding controle algoritme geeft dan aan hoeveel procent deze gok goed was. De uitkomst wordt opgeslagen in de trainingsdata (model past zichzelf aan).
Daardoor maakt het dus niet uit wat voor garbage je erin stopt. AI kan leren van alles zonder enige vorm van context.

[Reactie gewijzigd door L0g0ff op 29 januari 2026 18:50]

Zover ik weet, maar dat kan inmiddels achterhaald zijn, is dat handwerk wat ze voor een habbekrats in een derdewereldland laten doen. Gewoon medewerkers die trefwoorden aan elke afbeelding toevoegen.
En dit levert trauma's op bij deze laagbetaalde mensen. Het zit in dezelfde hoek als social media scannen voor goedkeuring, dan komen ze ook veel ellende tegen.
Toch raar dat afbeeldingen uit de krochten van het internet zo makkelijk in die datasets komen. Zou je denken dat de bronnen aangepakt moeten kunnen worden.

Komen die bedrijven overigens zomaar weg met dat bezit? "Nee meneer agent die foto's zijn om AI op te trainen, niet voor persoonlijk gebruik".
Toch raar dat afbeeldingen uit de krochten van het internet zo makkelijk in die datasets komen.
Mij verbaast het niks. Uit de berichtgeving over de bedrijven die met nepintelligentie bezig zijn is overduidelijk dat het ze niks komma nul boeit waar de data vandaan komt en hoe die is verkregen.
Nep of niet, het is nog steed ene handige tool voor een hoop dingen. Denigreren veranderd daar niets aan. Het verhoogd mijn productiviteit enorm. Ik hoef het alleen nog maar na te lopen. Met een hand vol AI agents kan ik veel meer tegelijk. Daar kunnen die "AI" haters niet tegenop. Bedrijven vinden output EN kwaliteit belangrijk, maar output belangrijker. Kan je wat van vinden, maar wel waar.
Een handige tool voor wat precies? Ik kan me nog steeds niet aan de indruk onttrekken dat het vooral handig is in het mooi verpakt presenteren van een willekeurig verhaal (opstel, verslag, beoordeling, rapport), maar dat het nul komma niks toevoegt aan de inhoud en de kans heel groot aanwezig is dat de inhoud ondergeschikt wordt aan de verpakking.

Coderen met AI is ook zo iets. Het creëert enkel luie programmeurs die uiteindelijk niet meer verder komen dan werkende code. Van de week de videokaartdrivers van mijn laptop geüpdatet. 1 gigabyte aan data! Dit is werkelijk volkomen bezopen en wordt enkel geaccepteerd omdat de systemen per saldo sneller worden. Maar alle vooruitgang op het gebied van hardware wordt grotendeels weer teniet gedaan door slecht geschreven software.
De grote van je video driver heeft veel meer oorzaken die niets met AI te maken hebben. Die situatie bestond ook al voor AI. En vergeet niet dat die driver vol zit met game specifieke ondersteuning, vele API's en tegenwoordig high res graphics en animaties voor allerlei tools en gimmicks. Maar ja ook zeker bloat.

Ik programmer met AI. Ik geef dat ding een RFC van een protocol. laat zeggen SMTP of zo of SCIM of POP3 en rammelt er zo een server uit op basis van die specificatie. Tests erbij en documentatie met diagrammen en alles. Ik hoef alleen een officiele test suite er tegen te runnen en ik ben klaar. Het is verbazend hoe foutloos ze kunnen zijn met correct opgebouwde input.

Ik ben ook geen webdesigner. Maar met de MCP server van figma hoef ik ook geen designer meer te hebben. Klant levert het ontwerp in en AI genereert alles wat er in zit. Inclusief de verdeling tussen masters, views, css en javascript files die ik wil, inclusief herkennen van herbruikbare stijlen, inclusief (svg) animaties etc etc...

Swagger specificaties, genereert endpoints in seconden. Soap net zo goed.

Uiteindelijk hoef ik alleen de maatwerk logica nog maart te doen.

Ik ben ook niet goed met FPGA's maar in mijn hobby kan ik de AI nu designs laten schrijven. Mijn mogelijkheden zijn weer groter. En ik ben goed genoeg om fouten te vinden.

Ik kan porten van code van de ene naar de andere taal zo door een AI laten doen. Wat dat is gewoon simpele conversie.

Er zijn zoveel opties.

Moet je wel een kwaliteit gespecialiseerde AI gebruiken. Copilot en zo is redelijk maar niet geweldig. Augement Code vind ik veeeeel beter.

[Reactie gewijzigd door bzuidgeest op 30 januari 2026 11:07]

Ze kwamen weg met de grootste "piraterij heist" uit de geschiedenis onder het mom van trainen.
Wie is hier dan voor verantwoordelijk, de CEO? In de VS geld dat wanneer je echt veel geld heb, dat je gewoon wordt beschermd door de president zelf.
Niet helemaal, je moet het delen met de President, anders ben je als nog vogelvrij
Jij gaat ervan uit dat meneer agent toegang krijgt tot systemen van Amazon om erachter te komen dat er mogelijk kindermisbruik en andere schendingen zijn. Alsof de politie een tool heeft die continu de servers van Amazon scant.
Ik zou vermoeden dat je hier de juiste goedkeuringen voor moet hebben.
Beetje zoals herstellen of onderhoud van wapens, aankopen of bezitten van explosieven, etc...
Dus verkrijgen, verwerken en opslaan van illegaal materiaal (welk dan ook) zou moeten kunnen, maar enkel met de juiste goedkeuring.
(dit is natuurlijk mijn mening).
Dat dit soort materiaal enkel of vooral in "de krochten van het internet zit" is een misvatting. Heel vaak blijkt het delen juist via chatdiensten en platforms zoals Facebook te gaan.
Zeker. Kijk maar naar alle beelden die in de Studio Ghibli stijl zijn gegenereerd door de hele wereldbevolking.
Hoe veilig is onze prive data vraag ik me dan ook ineens af (en zit die ook al lang in de trainingsdata)
Als je het in de "cloud" plaatst, helemaal niet
De Krochten van het Internet - hosted by AWS
Het jammere is dus dat het niet eens uit de donkere kieren van het internet hoeft te komen, ik rapporteer dagelijks CSAM op Twitter X.

[Reactie gewijzigd door [Remmes] op 30 januari 2026 22:42]

Raar ik zit er best veel op maar heb dat nog nooit gezien.
Ik heb 1 keer een doodnormale tag opgezocht en die werd samen met wat andere tags dus ook gebruikt door (99%) bots voor het adverteren van sites en gebruiken daarbij CSAM photos/videos of CSAM in de thumbnail van de website, sindsdien zoek ik dus gewoon elke keer op die tag om te rapporteren. Ook werd de tag "loli" vaak gebruikt maar die is sinds kort verbannen.


Kom ook bestiality tegen, die report ik ook, maar dan krijg ik een email van X dat de gebruiker geen regel heeft overtreden.... Te sneu voor woorden (soms na controleren bestaat het account ook nog gewoon een tijd)
Er worden echter geen gegevens gedeeld over de herkomst van de beelden, wat verder onderzoek zou verhinderen. Volgens Amazon zijn deze gegevens niet beschikbaar.
was er ook maar 1 iemand zo naïef om te geloven dat hun datasets allemaal braaf aangekocht waren bij gekende reputabele partners die de kwaliteit van hun product belangrijk vinden?
Wel, het komt niet veel meer in het nieuws maar er worden op dit moment veel contracten gesloten waarbij firma's als OpenAI licenties nemen van firma's als Disney. Op veel andere datasets rust gewoon geen copyrights. Er is eenvoudig geen manier waarop Tweakers kan verhinderen dat OpenAI jouw posts hier leest. Jij hebt ze openbaar gemaakt door ze te posten.
Op het moment dat data in een set wordt opgenomen moet er een source en timestamp zijn + validatie dat de data mag opgenomen worden. Legaal gezien mag je namelijk niet zomaar dingen verzamelen/opslaan en gebruiken, zeker niet als het zoals hier gaat om strafbaar materiaal, dan zou je theoretisch zo snel mogelijk aangifte moeten doen als je het vindt. De verzamelaar is verantwoordelijk (niet de oorspronkelijke eigenaar) als hij dit soort materiaal in zijn bezit houdt, of dat nu automatisch gescrapet is of manueel bij elkaar gezocht.
Op veel andere datasets rust gewoon geen copyrights. Er is eenvoudig geen manier waarop Tweakers kan verhinderen dat OpenAI jouw posts hier leest. Jij hebt ze openbaar gemaakt door ze te posten.
Tweakers content mag niet gebruikt worden, maar OpenAI heeft vast de voorwaarden niet gelezen en scraped vast vrolijk illegaal
10.3 Het Lid mag de op de Website opgenomen Content raadplegen en daarvan kopieën maken voor uitsluitend eigen persoonlijk gebruik, bijvoorbeeld door deze te printen of op te slaan. Elk ander gebruik van de Website of de Content, bijvoorbeeld het overnemen, reproduceren, distribueren of anderszins openbaar maken van (een deel van) de Website is niet toegestaan zonder uitdrukkelijke schriftelijke toestemming van Tweakers en/of het betreffende Lid.
OpenAI is dan ook niet een 'Lid' van Tweakers.

(Overigens, dat ze geen lid zijn, houdt nog niet in dat ze mogen scrapen, en een derived work mogen maken.)

[Reactie gewijzigd door Jerie op 29 januari 2026 23:05]

Op vrijwel alles wat door het creatief vermogen van mensen is gemaakt, rust copyright.

Je hoeft dat niet te claimen of vast te leggen. Het bestaat van nature.

Ook deze post.
Waar komen deze beelden dan vandaan? Gebruiken ze beeldmateriaal die op hun talloze servers staan? Dit kom je normaal toch niet tegen zou je denken, ook niet als AI.

En zou die AI dit niet moeten herkennen als kinderporno en daardoor dit verwerpen?
Toch is dat soms moeilijk. Zie jij het verschil tussen iemand van 17,5 en 18+? Ook op de gekende websites die niemand bezoekt (kuch) staan gewoon filmpjes met jongedames die een krant vast houden op hun 18e verjaardag en daarna allerlei handelingen verrichten die een dag eerder officieel kinderporno zouden zijn. Als wij het verschil niet kunnen beoordelen, hoe moet AI dat doen?
En voor een AI is het vast ook lastig om volwassenen die zich verkleden als een 'schoolgirl' te onderscheiden van een echte 'schoolgirl'.
Omgekeerd ook; met makeup kan een 16- à 17-jarige er ook veel volwassener uit zien.
Ik weet ook niet of bvb een 3D animatie van kinderporno illegaal is? Bvb bij anime is het ook erg lastig om er een leeftijd op te kleven; dit zal bij hentai vast ook zo zijn...

Ik vrees natuurlijk wel dat het hier eerder gaat om 12 jaar en jonger... Dan is er meestal geen twijfel mogelijk denk ik.

Ik vermoed ook dat ze een database bijhouden van beelden om hier een hash van te maken en later op het net eenvoudig terug te vinden in al-dan-niet resized versie.
Ik weet ook niet of bvb een 3D animatie van kinderporno illegaal is?
Dat is het voor zover ik heb begrepen (iemand op Reddit postte een keer de wettekst volgens mij). Ik heb alleen geen zin om een bron erbij te zoeken omdat ik het niet in m'n zoekgeschiedenis wil hebben, dus excuus voor deze bronloze bewering :/
In Nederland wel, maar dit is niet overal hetzelfde.

Tijdens mijn (lang geleden) Minor lessen over digitale rechten is dit aangekaart: elke vorm van wat als kinderen geïnterpreteerd kan worden seksueel afbeelden valt onder dezelfde "in bezit hebben" wetgeving. Daarnaast is het nog verboden om materiaal te maken, dat is weer een andere wet.

(zelfde reden geen bron)
Het lastige is dat er aan elke wet wel een "maar" moet hangen, om niemands rechten te schenden.

"elke vorm van wat als kinderen geïnterpreteerd kan worden seksueel afbeelden". Dus als een 18-jarige er 16 uit ziet, en deze laat zich suksueel afbeelden, dan is het niet ok. Zelfs als die haar vriend gewoon foto's van haar heeft.
Om nog niet te spreken van mensen met een groeihormoon issue (GHD, Syndroom van Laron, Panhypopituitarisme, ...) Deze mensen zijn volwassen, maar zitten "gevangen" in een kinderlichaam. Mogen zij hun seksualiteit niet uitten? Eens dat dit een edge case is, maar het toont aan dat dingen nooit zo eenvoudig zijn als dat ze het lijken.
Partners van mensen mensen met dergelijke aandoening worden ook vaak als pedofiel bestempeld, terwijl dit vaak is gegaan zoals bij ons. Leren kennen in de tienerjaren, maar de ene wordt visueel ouder en de andere niet... Weinig pedofiel aan op zich...

En als "in bezit hebben van" een schending is, dan moeten we dus allemaal in ons fotoarchief van onze jeugd duiken en zien dat doorgestuurde foto's van onze partner als deze jonger was zeker verwijderd zijn. "Toen waren ze jong en we hebben het nu in ons bezit".
"Seksueel afgebeeld" is hier wel een zwaar wegend deel. Dus je jeugdfotos zouden per definitie niet moeten meedoen, tenzij je ouders er al een vreemde moraal op na hielden.

Als een 18 jarige er bewust uit gaat laten zien als een 12 jarige om dan seksueel af te beelden dan voldoet dat er inderdaad aan.
En wat betreft de uitzonderingen met bijvoorbeeld groeihormoon issues, dit is inderdaad lastig. Maar daar is ook de vraag voor wie het bedoeld is weer belangrijk. Voor je partner is anders dan voor het WWW.

Uiteindelijk hebben wij rechters in Nederland die hierover zouden beslissen. Die zullen, samen met experts, hier een mening over vormen per case en daar naar straffen of niet.
En vergeet niet dat iemand Ai dat moet leren, hè. Uit zichzelf zal dat niet gebeuren. Laatst een stukje gelezen over de Afrikanen die dat smerige klusje voor een hongerloontje mogen opknappen... Dat is een van de duistere kanten van AI.
Als het 17,5 zal het ook niet zo gemeld worden als kindermisbruik. En zoals je zegt, veelal weten we het zelf ook niet. Maar wanneer men het echt over beeldmateriaal hebben van kindermisbruik, dan hebben we het niet over grensgevallen, maar overduidelijk minderjarig.

Als dit echt over grensgevallen zou gaan, dan zou dit soort nieuwsartikelen wel heel erg misleidend zijn.
Big tech gebruikt alles wat ze kunnen vinden om AI te trainen. Het is een lage risicoaanpak; de gevolgen zijn zeer beperkt, terwijl ze er veel baat bij hebben.

Het wordt vaak herkend als kindermisbruik, maar niet altijd gemeld. Vraag is waarom Amazon er nu voor gekozen heeft om het te melden.
Amazon beschikt over een dataset met miljoenen afbeeldingen. Voor deze door een AI wordt verwerkt, gaat de set eerst door een eenvoudiger proces om de data te ontdubbelen en illegale inhoud te filteren, bijvoorbeeld met behulp van PhotoDNA. Daarna gaat de AI met de dataset aan de slag.

Wanneer de dataset wordt uitgebreid, voeren ze het opschoonproces opnieuw uit. Maar net als antivirussoftware krijgt een programma als PhotoDNA regelmatig updates, waardoor er ineens nieuwe illegale afbeeldingen kunnen worden ontdekt.

Daarna volgt een standaardprocedure: er wordt informatie verzameld over de herkomst en het gebruik van de beelden, waarna aangifte wordt gedaan. Als het om foto’s van een gebruiker of medewerker gaat, blijft dit stil, maar in dit soort gevallen wordt wel een persbericht verstuurd om aan de informatieplicht richting aandeelhouders te voldoen.
Scrapen met AI zal een groot deel hier voor gezorgd hebben.
Normaal wordt een AI getraind op afbeeldingen + context. Een AI die vanaf 0 wordt getraind weet niet wat een man of een vrouw is, hond of kat etc. En zo geld dat ook voor leeftijden. Maar zie jij bijvoorbeeld het verschil tussen een kat van 3 jaar en die van 5? Zo ook bij afbeeldingen van mensen. Je hebt 18 jarige die in mijn ogen veel jonger lijken. Maar ook 15 jarige die als 18+
Daarom moeten afbeeldingen van context worden voorzien wat er te zien valt.

Daarna kan je dmv model restricties aangeven wat wel / wat niet gemaakt mag worden.
Een officiële data bron zal naar verwachting (heb er geen verdere ervaring mee) dus afbeeldingen met context aanleveren. Of deze context correct is, is weer een andere vraag.
Dus als de data leverancier "liegt" over hoe deze aan afbeeldingen is gekomen en weer door image to text AI context heeft genereerd dan kan het mis gaan.
Los van dat zo'n AI uit strafbare beelden put, wat al bijzonder is, moet zo'n AI zeker kunnen weten over wat voor leeftijden je het hebt. Zat beelden zijn wel gekoppeld aan leeftijden of leeftijdsfases. Daarnaast moet je altijd een AI een basis geven, zonder een basis heb je gelijk, dan weten ze helemaal niets, en kan zo'n AI denken dat een naakt kind een trein is, dat is totdat ze zoveel beelden van treinen hebben gezien die aangemerkt wordt als 'trein', dat de AI een ander beeld krijgt hiervan.

Zoals het artikel schrijft, doe je dit normaal vooraf, dus of zij zijn uiterst onnauwkeurig geweest, of die AI heeft ergens wel een hele bizarre afslag gemaakt.

Verder zou ik echt wegblijven uit de groep adolescenten (dat is vanaf een jaar of 15), ondanks dat wij hen wettelijk, en heel terecht, zien als minderjarig en als 'kind', en dat mentaal ook zeer zeker is, is dat biologisch heel anders, en dan kan een AI heel makkelijk verward raken.

Ik denk dat je hier echt moet denken aan kinderen van bijvoorbeeld 12 en jonger.
De wetten verschillen per land. Kijk hier in de EU. Age of consent is in Frankrijk 13 jaar. Dus het is niet moeilijk om materiaal te vinden dat hier verboden is maar elders mag.

Mijn zusje kon vroeger toen ze 14 was in elke 18+ disco en kroeg naar binnen. Zo hoefde nooit haar ID te laten zien waar haar oudere vriendinnen dat wel moesten. Weet je wat het verschil was? De cupmaat en een beetje zelfverzekerdheid. Mijn zusje was vroeg goed bedeeld en haar oudere vriendinnen minder bedeeld. De bouncers dachten blijkbaar dat dit voldoende onderscheid is. Maar het slaat nergens op. Hoe denk je dat een AI het verschil gaat zien als volwassenen het vaak niet eens kunnen?

ER IS GEEN STANDAARD MENS. Iedereen is anders.

[Reactie gewijzigd door bzuidgeest op 30 januari 2026 10:53]

Laten we wel even bij de feiten blijven. Dat is in Frankrijk 15, niet 13. Daarnaast is sekswerk 18+. Hoe de precieze vertaalslag is naar naakt beeldmateriaal e.d. weet ik niet, maar als we dat naast onze wetgeving leggen, dan is dat 16 voor seks, echter beeldmateriaal en sekswerk is 18+.

Dus als een AI foto's heeft van naakte kinderen van 13, dan is dit absoluut niet iets wat legaal is in Frankrijk, en alles wijst er naar dat dit 18+ zal moeten zijn. Dus 13 is gewoon heel erg illegaal.

Maar nogmaals, ze hebben het hier over kindermisbruik, en dan spreek je in deze context nooit over de twijfelende situatie "zijn ze nou 17 of 18"

Wat betreft dat ze een 14 jarige toelieten, dat is gewoon omdat dat soort tenten gewoon walgelijk zijn. Bij enige twijfel moeten ze om een ID vragen. Dus ook al vermoed je dat iemand 18+ is, moet je gewoon bewijs vragen, en dat weten ze dondersgoed. Het is volstrekt normaal dat iemand van 25 zich nog moet legitimeren, maar tenten die het prima vinden om minderjarige meiden te hebben rondlopen, die doen dat niet.
Je hebt gelijk maar pas sinds 1945. Punt is dat dit nog steeds lager is dan de 18 of zo van hier. En ook zonder sekswerker te zijn maken mensen wel eens filmpjes die onbedoeld toch verspreid raken.
en dan spreek je in deze context nooit over de twijfelende situatie "zijn ze nou 17 of 18"
Helaas vind ik dat dikke onzin. De wet maakt een absolute grens. Als je het nieuws volgt dan zijn er genoeg zaken voorbij gekomen waar een jongen veroordeeld word om de wet omdat het zelfs op 17 typisch illegaal is. Jij kan de context nauwer proberen te maken, maar dat is niet de gebruikelijke realiteit.

En die tenten waren ook niet walgelijk. Ze gingen gewoon uit van cliches, gingen af op uiterlijk. Iedereen controleren vinden ze de nieuwe niet.

Ik denk dat je in je reacties je emoties nog al laat meeslepen en niet altijd logica of de wet.

En in een foto kan niet met 100% zekerheid leeftijd bepaald worden. Niet door mensen en niet door ai. Ik durf te wedden dat als ik jou zou testen met fotos van 14 jarigen en 18 jarigen ik jou naar meer dan 50% fout aanduiden kan krijgen. Met of zonder kleren aan. Mensen denken alleen maar dat ze het altijd kunnen zien, maar dat is alleen wanneer ze de mensen kennen en dus al informatie over de leeftijd hebben. Veel 18 jarigen zien er uit als kinderen en andersom.
Pas sinds 1945? Ik weet dat we hier oude leden hebben, maar wist niet dat sommige zo oud zijn, dat 80 jaar terug als 'pas' wordt gezien....

Je probeert herhaaldelijk de discussie te veranderen, ipv te reageren. Het gaat hier om kindermisbruik, niet illegale content.

Het gaat hier niet om de grens van de wet, maar of een AI verkeerde beelden creeert op basis van kindermisbruik, oftewel die kan dan beelden creeren van kinderen, en dan heeft niemand het over een grensgeval. Op het moment dat jij een AI vraagt om een naakte vrouw van 18 te creëeren, die dit produceert op o.a. beelden van minderjarigen van 17, dan zal dit geen wezenlijk verschil opleveren. Dit artikel gaat juist over beelden die wel dat verschil opleveren, en dus moet je het bij een veel lagere doelgroep zoeken.


Jij probeert hier nu een morele discussie te voeren als tegenargument van de betekenis van de tekst, namelijk hoe oud waren de kinderen in het gebruikte materiaal. Daarbij is er ook een verschil tussen misbruik, en een gelekte video, want een gelekte video van 2 mensen die plezier beleven, levert ander materiaal op voor een AI, dan iemand die misbruikt wordt.

Nogmaals, laat de morele discussie er even uit, want daar gaat de discussie niet over.
Nee dat gaat het niet om. Lees het artikel het gaat om content in de trainingsdata van de Amazon ai projecten.

Ik verander dus niet de discussie, jij hebt het artikel niet eens goed gelezen. Dat verklaart een hoop, maar niet alles.
"Door de data eerst te filteren voorkomen bedrijven dat hun AI uiteindelijk dit soort ongewenste materiaal gaat reproduceren."

Dat is het doel, daar heb ik het over. Jij komt hier aan met wetgeving over Frankrijk van voor 1945, en dan zeg je dat ik de discussie verander?

Wat een volstrekte onzin kraam je hier uit. Maar blijf vooral het niet begrijpen, past prima in je narratief.
Hahaha, blijf vooral bozer worden en doen alsof het probleem bij mij ligt als je het niet begrijpt. En beetje transparent ben je wel. Als je niet verder wil praten, zet dan gewoon geen verder commentaar neer, reageer gewoon niet. Of heb je een behoefte om superieur over te komen en de laatste post te hebben. In dat geval, geef. Ik je toestemming om nog een keer te reageren hierop. Ik beloof dat het de laatste post zal zijn in deze rij. Kan je, je ego blij maken.
Want een ongelooflijke doorzichtige opmerking. Dit soort truukjes zag ik 20 jaar geleden al op het internet. Je doet voorsorteren op een mogelijke uitkomst, waardoor jij jezelf boven de ander probeert te plaatsen. Precies waar je de ander van beschuldigd, is wat jijzelf doet.

Verder kom je met het woord 'boos' aan, ondanks dat je hier geen enkele onderbouwing voor hebt, maar je bent vast gewend dat wanneer jij iemand beschuldigt van boos zijn, dat ze dan boos worden. Het zijn uiterst doorzichtige truukjes, maar laten vooral zien dat je inhoudelijk niets meer te bieden hebt.

Hou je vooral aan je belofte, scheelt weer wat vervuiling.
Dat kinderporno fucked up is (understatement) staat buiten kijf. Wat ik me dan afvraag, hoe is dit juridisch geregeld in deze situatie? In feite kan Amazon veroordeeld worden voor bezit van kinderporno. Ik hoor graag hier meer over. Dat het moreel fucked up is, staat wederom buiten kijf.
Dat is strafbaar is staat niet altijd gelijk aan er ook voor veroordeeld worden. Het lijkt me voor de hand liggend, met de informatie die we hebben, dat Amazon geen rol speelt in hetgene wat KP zo slecht maakt. Ze vervaardigen, verspreiden en "consumeren" het niet, dus maken ze in principe geen deel uit van het probleem.

Wanneer jij eens uit interesse door het dark web heen klikken en per ongeluk op een foute site komen, ook al klik je daar direct weg, dan bestaat de kans dat je dit materiaal cached in je bezit hebt en je in principe ook strafbaar bent. Veroordeeld zul je er achter niet voor worden.

Dat gezegd hebbende, je zou Amazon eigenlijk moeten dwingen ervoor te zorgen dat het al überhaupt in hun datasets komt. Niet op de laatste plaats omdat het dus zo al duidelijk wordt dat ze zelf geen flauw idee hebben waar het allemaal vandaan komt. Maarja, dan kom je in het gebied van regulering en daar is de VS nogal vies van.
Nou, in principe zou je kunnen zeggen dat het trainen van een AI op een dataset met daarin KP ook onder "consumeren" valt. Nu kun je een bedrijf daar moeilijk voor opsluiten, maar het zou wel strafbaar kunnen zijn. Ik kan me voorstellen dat daar dan een flinke boete uitrolt. En dan heb ik het nog niet eens over de imagoschade die een bedrijf oploopt en de gevolgen die dat kan hebben.

edit:
Mijn reactie is hypothetisch bedoeld en niet gebaseerd op de feiten bij Amazon, zoals die in het artikel genoemd worden.

[Reactie gewijzigd door PCG2020 op 29 januari 2026 21:58]

Maar ze geven dus aan dat ze er niet op getraind hebben.
Dat klopt, Amazon filtert het eruit, dus dat trainen op KP is niet gebeurd. Mijn reactie was ook hypothetisch bedoeld. Dat zal ik nog even verduidelijken.
Dat is de vraag. Nu heeft Amazon het netjes gemeld en verwijderd voor training (zeggen ze).

Echter: AI genereren plaatjes die seksueel getint kunnen zijn (zie Grok bijvoorbeeld). Dus vervaardigen en verspreiden iig wel. En ik kan me ook voorstellen dat de feedback op eigen gegenereerde data opgeslagen wordt (dit plaatje wordt als goed beoordeeld) en dus wordt er ook geconsumeerd.

Als ze het niet in de set hebben, weten ze ook niet dat ze dit soort beelden NIET mogen genereren. Er is dus iets voor te zeggen om een soort "basisset" beschikbaar te stellen om iedere AI verplicht te trainen om te weten wat fout is.
Vergeet niet dat twee personen van 17 + 300 dagen ook onder kinderporno valt. En kan jij die onderscheiden van 18+ ?

Het gaat uiteindelijk om het soort materiaal. Onder de 18 mogen ze niet hebben in Amerika en veel andere landen. Maar genoeg plekken waar de grens (veel) lager ligt. Zelfs in de EU.

Als amazon kan aantonen dat het bijvangst is van een automatisch proces dat publieke data vergaard. ze het meteen melden en vernietigen is er niets aan de hand. Niet anders dan dat iemand jou een doos vol van dat materiaal stuurt. Je maakt de doos open en meld het bij de politie. De ontvangst maakt je niet strafbaar. (mogelijk word je even onderzocht waarom het bij jou uitkwam).
The tech giant reported hundreds of thousands of cases of suspected child sexual abuse material, but won’t say where it came from.
When asked why the company didn’t disclose information about the possible origin of the material, or other key details, the Amazon spokesperson replied, “because of how this data is sourced, we don’t have the data that comprises an actionable report.” The spokesperson did not explain how the third-party data was sourced or why the company did not have sufficient information to create actionable reports.
Walgelijk dat Amazon hier niet actief aan meewerkt. Het gaat om kinderen die seksueel worden misbruikt. :(
Ik denk dat de informatie achterhalen gewoon überhaupt al moeilijk zou zijn. Ze hebben gewoon zo een beetje op de hele internet getraind. Hoeveel websites zijn er wel niet? Dan zouden ze dus elke link moeten bijhouden. Hoeveel artikelen heeft alleen Tweakers al wel niet? Dan nog de forum. Want de wordt kindermisbruik komt zo goed als niet voor hier op Tweakers dus moeten ze wel weten welke links precies. Laat staan dan de rest van de internet nog. Dan heb je een database van zo een beetje alle websites en links in de wereld. Is dat echt logisch om dat te gaan bijhouden?
Amazon, zoals veel andere big tech, gebruikt data illegaal. Ze scannen internet af voor data en gebruiken het zonder toestemming. Daarom kunnen ze hun bronnen niet delen.
Misschien dat misschien mede een reden geweest zijn dat ze het niet op willen slaan. Maar zoals ik zeg moet je echt alles urls gaan opslaan die je gebruikt? Dat is gewoon gigantische database. Daarnaast is het in de meeste gevallen gewoon nutteloos. Vaak is de bron gewoon niet belangrijk meer dus waarom zou je nutteloze info willen opslaan? Heb jij alle websites die je ooit bezocht heb opgeslagen of is het meestal "ik heb het gezien en ik onthoudt wat ik wilde weten" en verder niet meer? En heb je ook nooit gehad dat iemand je ooit heeft gevraagd van waar heb je dit gekocht of gedownload en dat je het niet meer wist (misschien bijvoorbeeld een mooie achtergrond ofzo)?

Ik denk als Amazon de data had dat ze wel een deal hadden proberen te maken -> geen media en geen boete voor de illegale en foute content voor de links.
Toch is het raar. Als iemand een prompt maakt zoals verwijder de kleding dan is dat toch al een signaal dat er iets niet klopt? Dat moet toch te loggen zijn? Ze kunnen toch ook ongewenste content filteren ala maak een 3d model voor een geweer?

Verder vraag ik mij af waar men in wroet om de data te vinden voor die AI training. Of is het de hele tijd eenzelfde serie foto's die overal opduikt? Zoeken ze dan op het dark web o.i.d.?
Is hier sprake van een (AI) prompt. Lijkt me niet; ik maak een foto die niet deugt. (Bad, very bad dragon). En zet die op mijn website, die toegankelijk is voor al mijn (betaalde) supporters. (Robot.txt: google do not search).

(Amazon haalt informatie op zonder zich te bekommeren op copyyright, dus nee, ze gaan zeker niet loggen waar ze het vandaan hebben).

Dus, nee er wordt niet eenzelfde serie foto's gebruikt. En ja, uiteraard zoekt Amazon (ook) op het ''Dark web'' en zullen ze dat nooit loggen.

(Dark web is een marketing verhaal: er is geen verschil tussen (netjes) 136.0.0.0:1230 / plaatje en (dark) 136.0.0.0:1500 / plaatje. Dat :1230 wel via Google gevonden kan worden en :1500 niet, maakt :1500 niet opeens tot "dark web", maar het klinkt uiteraard wat beter).

Er is geen verschil tussen "internet" en "dark net" afgezien van de bereikbaarheid via Google (en dergelijke).
Ik snap niet waarom ze niet de bron zouden kunnen achterhalen.
Zo ingewikkeld zou het niet moeten zijn om per data set te loggen waar deze data vandaan komt?
Tenzij dit via torrents of een tornet is binnengekomen. Dan kun je misschien de torrent achterhalen, maar niet wie er mee te maken heeft of waar het vandaan is gekomen.


Ik speculeer natuurlijk. Ik heb werkelijk geen idee hoe die bedrijven aan alle data komen. Dat het geen zuivere koffie is, dat is wel gebleken. Er zit veel copyright en illegaal materiaal in de dataset.
Tenzij je zelf op de zwarte markt illegale data gekocht hebt. Dan weet je het ineens niet meer!
Iedereen gaat er maar van uit dat het materiaal gebruikt wordt diensten die hier niet bevoegd voor zijn. Wat ik denk is dat er waarschijnlijk een groot deel gewoon van bevoegde diensten komt in het kader van bestrijding.

Om te kunnen reageren moet je ingelogd zijn