Onderzoekers vinden kindermisbruik in AI-dataset die Stable Diffusion gebruikt

Stanford-onderzoekers zeggen dat de Laion-5B-dataset ruim duizend afbeeldingen van kindermisbruik bevat. Onder meer Stability AI gebruikt deze dataset om hun generatieve kunstmatige intelligentie te trainen.

Laion-5B is een dataset met links naar afbeeldingen die onder meer gescrapet zijn van sociale media en pornosites. Onderzoekers van de Stanford Internet Observatory zeggen dat deze dataset meer dan duizend afbeeldingen bevat waarvan bekend is dat het om kindermisbruik gaat. Dit hebben de onderzoekers geverifieerd bij Amerikaanse en Canadese organisaties die zich inzetten tegen kindermisbruik, door hashes van de Laion-5B-afbeeldingen te controleren met hashes van die antikindermisbruikorganisaties

De omstreden dataset bestaat uit ruim vijf miljard beelden en is onder meer gebruikt als dataset voor Stable Diffusion. De onderzoekers waarschuwen dat generatieve-AI-projecten die gebruikmaken van Laion-5B potentieel realistische kindermisbruikbeelden kunnen maken. Laion, de Duitse stichting achter de omstreden dataset, zegt tegen Bloomberg dergelijke illegale content niet te tolereren en zegt de datasets tijdelijk offline te halen om de omstreden content te verwijderen. De organisatie geeft daarnaast aan eerder filters te hebben uitgebracht die de illegale content moeten kunnen tegenhouden.

Stability AI zegt dat zijn Stable Diffusion-model is gebaseerd op 'een gefilterde subset' van Laion-5B en dat het model is afgesteld om 'overgebleven gedrag tegen te gaan'. Extra filters moeten onveilige prompts van gebruikers en onveilige outputs tegengaan, aldus Stability AI. Bij Stable Diffusion 1.5, waar minder van zulk soort filters aanwezig zijn, zou het eenvoudiger zijn om seksueel expliciete content te maken. De Stanford-onderzoekers waarschuwen er dan ook voor dat Stable Diffusion 1.5-modellen niet meer gebruikt moeten worden.

Door Hayte Hugo

Redacteur

20-12-2023 • 19:56

83

Submitter: Robbierut4

Reacties (83)

83
83
44
2
0
29
Wijzig sortering
Wordt dit niet juist bewust gedaan zodat IA straks ook kan worden gebruikt om kindermisbruik te herkennen?

Nu worden dit soort controlle door mensen gedaan waarvan de vraag is tot hoe ver dat wel wenselijk is.
Als ik het artikel goed begrijp is het een dataset die gebruikt wordt voor AI's die (onder meer) realistisch ogend pornografisch materiaal kunnen genereren.

Vanwege de aanwezigheid van foto's van kindermisbruik is het voor een AI dus wellicht ook mogelijk om er realistisch lijkende kinderporno mee te maken.
Om even advocaat van de duivel te spelen; zou dat niet positief kunnen uitwerken?
Liever een computer gegenereerd kind waar onreine dingen mee gedaan worden dan een daadwerkelijk echt bestaand kind lijkt mij?

Wil het wel graag heel duidelijk maken dat ik kinderporno niet goedkeur. Het is meer dat in mijn ogen iemand zo zijn illegale behoeftes kan vervullen zonder daadwerkelijk een slachtoffer te maken.
Het probleem met het vervullen van die illegale behoefte is dat het slechts een stapje verder is naar de fysieke behoefte. Die slachtoffers komen er uiteindelijk gewoon.
Dat zou je voor legale porno dan ook kunnen zeggen. Dat het misbruik en verkrachting in de hand werkt. Hier is echter de populaire mening dat het juist misbruik voorkomt. Uiteindelijk is er geen onderzoek op dit gebied en alleen maar stellige overtuigingen.
Onderzoek is er gewoon, conclusie is alleen nooit absoluut, en niemand wil zich branden aan de mogelijkheid dat de verwachtte uitkomst niet uitkomt.
https://bmcpsychiatry.bio...es/10.1186/1471-244X-9-43
https://arno.uvt.nl/show.cgi?fid=127492
https://www.scribd.com/do...udy-Bourke-Hernandez-2009
https://pubmed.ncbi.nlm.nih.gov/21173158/
Dat idee houdt de Japanners niet tegen om er quasi een volledig genre van animé van te maken :/
Dat is nog ontsproten aan een menselijk brein ook...
"Het is geen kindermisbruik, het is een geest van vierduizend jaar oud gevangen in het lichaam van een meisje van veertien!"

:')
Hoe verzin je het. _/-\o_ _/-\o_
Kan je dit onderbouwen met statistieken oid? Want bij gewone porno, gewelddadige games etc roepen we niet dat het slechts een stapje verder is naar de fysieke behoefte.

De slachtoffers zijn er altijd al geweest, al voor dat er uberhaupt porno of computers waren.
Het probleem met het vervullen van die illegale behoefte is dat het slechts een stapje verder is naar de fysieke behoefte.
Ik ben geen professional op dat gebied maar volgens mij is die drempel behoorlijk hoog en niet "een klein stapje".
Het is gewoon een markt. Het getal 17 verkoopt beter dan 18. ongeacht de echte leeftijd. Een significant deel vah die industrie is hierop gebouwd.
Euh ja dat zal. Maar niet echt wat ik trachtte aan de kaak te stellen.
En het roken van een stickie is slechts een stapje naar heroineverslaving?
Of brandstichting. :+

[Reactie gewijzigd door Waswat op 23 juli 2024 06:35]

Jaja, wanneer je call of duty speelt ben je binnen no time een school shooter!
Het is meer dat in mijn ogen iemand zo zijn illegale behoeftes kan vervullen
Sinds wanneer is de behoefte illegaal? Het vervullen van de behoefte is illegaal, en daar ben ik het 100% mee eens. Maar de behoefte zelf, is die echt illegaal gemaakt? Een crimineel zijn enkel vanwege je sexuele voorkeur, en niet vanwege je daden?
In dezelfde lijn van gedachtegang, zou het ook illegaal zijn als je fantaseert over verkrachting. Iets dat in de "reguliere" pornografie nogal eens in scene is gezet... Maar de kleine stap is zo gezet toch? Of een actie-film waar de held met de grootste Magnum .44 alle boeven tot pulp knalt. De stap is klein toch?
Dus inderdaad komt het hier op neer: "Het is meer dat in mijn ogen iemand zo illegaal zijn behoeftes kan vervullen". Fixed.

Een groter probleem lijkt mij dat na ("nep") KP te hebben gezien, de stap naar praktiserend niet mogelijk is zonder illegaal en destructief bezig te zijn.

--> Reguliere porno gekeken? De stap naar "echte" sex is in een juiste context volledig legaal. Je kan zelf praktiserend zijn zonder dat de wet er iets van vind. Verkrachting en nog wat obscure zaken uitgezonderd natuurlijk; dat moet maar bij toneelspel blijven (op een scherm of eigen rollenspel). Plezier en vertier voor een ieder hier.

--> KP gekeken? De stap naar praktiserend is in geen geval te maken zonder de wet te overtreden en hoogstwaarschijnlijk een kind voor het leven een trauma te geven.
Maar de kleine stap is zo gezet toch? Of een actie-film waar de held met de grootste Magnum .44 alle boeven tot pulp knalt. De stap is klein toch?
Om eerlijk te zijn, ik vind dat een gigantische stap. Fantasie en werkelijkheid zijn geheel andere dingen die je (zeker in het geval van gevoelige onderwerpen als criminaliteit) gescheiden moet houden.
Een groter probleem lijkt mij dat na ("nep") KP te hebben gezien, de stap naar praktiserend niet mogelijk is zonder illegaal en destructief bezig te zijn.
Ik zie niet in waarom je dat een probleem noemt. KP praktiseren is niet bepaald iets wat ik legaal zou willen maken. Dat ik een film zoals Taken (2008) tof vind betekent niet dat ik graag jonge vrouwen kidnap of mensen doodschiet. Fantasie en werkelijkheid zijn geheel andere zaken; ik meen dat de meeste mensen het hierover met mij eens zullen zijn. De implicatie dat mensen al hun fantasieennaar de werkelijkheid willen brengen vind ik eigenlijk best wel extreem.
[...]
Om eerlijk te zijn, ik vind dat een gigantische stap. Fantasie en werkelijkheid zijn geheel andere dingen die je (zeker in het geval van gevoelige onderwerpen als criminaliteit) gescheiden moet houden.
[...]
Ik zie niet in waarom je dat een probleem noemt. KP praktiseren is niet bepaald iets wat ik legaal zou willen maken. Dat ik een film zoals Taken (2008) tof vind betekent niet dat ik graag jonge vrouwen kidnap of mensen doodschiet. Fantasie en werkelijkheid zijn geheel andere zaken; ik meen dat de meeste mensen het hierover met mij eens zullen zijn. De implicatie dat mensen al hun fantasieennaar de werkelijkheid willen brengen vind ik eigenlijk best wel extreem.
Lees "kleine stap" vooral cynisch ;) ik wilde vooral benadrukken dat een "dat wil ik ook" in de ene situatie benaderd mag worden binnen de kaders van de wet en maatschappelijk volledig omarmd is (dus het rollenspel spelen met je partner/date/scharrel). Je kunt de behoeften dus prima kanaliseren en hierin voorzien.

In de andere situatie vooral verwerpelijk en strafbaar (kinderen molesteren, ook al lijkt het kind op dat moment misschien geen weerstand te bieden. Immers: kind kan nog niet volwaardig doordacht beslissen hierover en er heerst er een scheve machtsverhouding). Je kunt dus op geen enkele legale / moreel aanvaardbare manier voorzien in de behoefte.

Wanneer je op legale vlakken zoals films de grens tussen fantasie en realiteit niet kunt zien heb je eveneens een reden om hulp te zoeken. Taken is een mooi voorbeeld, Perfume (2006) is nog een stapje verder gezocht.
Er zijn heel, heel erg veel mensen die, als die hun zin zouden krijgen, iets als "gedachten-politie" met open armen zouden ontvangen. Angst is en blijft een slechte raadgever, angst zorgt ervoor dat je dingen voor jezelf invult en naar de snelste illusie van oplossingen grijpt.

En in gevallen van pedofilie of de echt zorgwekkende pedoseksuele neiging is snel alles al "not done", terwijl ik ook verwacht dat juist dit meer als een metaforisch methadon zou kunnen dienen. Ik denk echter hardop.

[Reactie gewijzigd door SkyStreaker op 23 juli 2024 06:35]

De behoefte an sich is toch ook onwenselijk en om uitvoer te voorkomen kun je beter in dat stadium behandeld worden dan wanneer het te laat is, opgesloten worden?
Ik had het inderdaad beter kunnen verwoorden, je hebt helemaal gelijk dat de behoefte zelf niet illegaal is.
Verbod is niet zomaar beperkt tot geheel 'echt' materiaal. Het gaat ook om intentie of wat het ongewenst veroorzaakt. Ik lees bij je argument geen situatie die bewezen vooral maar zal zorgen voor slechts een gewenste situatie. Terwijl het ongewenste (dat wat wel verboden is) al niet zomaar valt te accepteren en dus ook niet snel als 'niet alles valt te voorkomen'.

Daarbij, als men duidelijk verboden content hier gebruikt om andere content mee te laten genereren dan gaat men hoe dan ook al te ver. Want dan is het doel niet andermans recht respecteren maar negeren om een ander doel met risico's maar belangrijker te vinden. Dat is niet waarom er bescherming is.
De gewenste situatie in mijn voorbeeld zou het voorkomen van echte slachtoffers zijn. Als fictieve slachtoffers volstaan (in dit geval AI kinderporno) dan hoeft er geen echte kinderporno gemaakt te worden.
Je doel is duidelijk, maar het ontbreekt aan onderbouwing of en hoe dat redelijk bereikt kan worden bij dit nieuws. Het is niet zomaar gewenst of toegestaan beeld doordat je het 'fictief' kan noemen. In dit geval bijvoorbeeld door gebruik te maken van content die hoe dan ook al verboden is. En door geen oplossing te bieden als je er vanuit kunt gaan dat je dat doel niet zomaar haalt (je bewijst niet dat je doelgroep zich tevreden stelt met fictie en ook niet dat je de groep daarmee niet laat groeien) is het negatieve gevolg ook niet zomaar acceptabel. Dat is het immers nu al niet.
Ik zou ook niet weten hoe ik dat in mijn eentje zou kunnen bewijzen. Het doel van mijn comment was vooral om de discussie te openen omdat het me logisch leek dat mensen een uitlaat klep bieden misschien kon helpen :)
Dat werkt alleen in de aanname dat het een "of / of" is, dwz, "als ik mijn trekken niet virtueel krijg doe ik het in het echt"

Maar dat argument valt heel snel door de mand. Ik heb al dagen niemand meer in een computerspel vermoord, ga ik het nu in het echt doen?
Inderdaad. Ik zou het nog te verantwoorden vinden dat deze subset als discriminator wordt gebruikt om ongewenste resultaten te voorkomen.
In mijn negatieve prompt laat ik "child, childlike, children" e.d. bewoording behoorlijk zwaar wegen om dit te voorkomen en dan lukt het nog niet altijd als je bijv. iets mooi sensueels wil genereren of erotisch smaakvol.

Er lijken wat mensen lijken te vergeten dat AI een absoluut is in neutraliteit.
Waarom is een AI absoluut in neutraliteit? Dat is toch niet vanzelfsprekend als de trainingsset samengesteld en gewogen wordt door mensen?
Omdat een AI geen mening vormt en data gebruikt naar gelang de aansturing, toch?
Maar zonder trainingsset heb je geen AI, dus tenzij je trainingsset neutraal is kan een AI dat ook, per definitie, niet zijn.

En neutraal bestaat niet echt, niet op dit gebied. En ook al ben je er dichtbij, de definitie ervan zal mettertijd verschuiven.
Goed punt, vanuit dat aspect valt neutraal inderdaad ook niet te realiseren. De AI volgt echter wel de aansturing, ofwel in zoverre ik doe exact wat je vraagt, 1 of 0. In dat aspect kan je AI (of moet ik zeggen prompt?} wel neutraal noemen, al is de dataset dat niet?
Vanwege de aanwezigheid van foto's van kindermisbruik is het voor een AI dus wellicht ook mogelijk om er realistisch lijkende kinderporno mee te maken.
Dat is het dus sowieso, ook zonder daadwerkelijk kindermisbruik in de dataset.
Ik hoop dat je ongelijk hebt.
Wordt dit niet juist bewust gedaan zodat IA straks ook kan worden gebruikt om kindermisbruik te herkennen?
Nee, het is niet bewust. Het is gewoon een verzameling plaatjes, er zit geen specifiek doel achter. Als je een systeem wil trainen om dit soort plaatjes te herkennen zal je moeten beginnen met "goede" en "foute" plaatjes als voorbeeld. Als je niet weet wat er op de plaatjes staat kun je het systeem ook niet leren wat ongewenst is.

Iemand heeft gewoon zoveel mogelijk plaatjes van internet verzamelt en daar zit rommel bij.

[Reactie gewijzigd door CAPSLOCK2000 op 23 juli 2024 06:35]

De foute plaatjes zijn toch al bekend en al gelabeld als fout? Het lijkt me niet dat je ze in detail hoeft te labelen?
Goede plaatjes zijn prima te vinden, namelijk alle foto's die trotse ouders plaatsen op social media.
Een LLM is in principe geen classifier, het is een seq->output model dat een input sequence omzet naar dat wat je wilt. Er kan wel human feedback worden gebruikt om bepaalde dingen minder te doen.

Maar om dit te herkennen zou je dus een ander type model moeten trainen, een zogenaamde classifier.
De foute plaatjes zijn toch al bekend en al gelabeld als fout? Het lijkt me niet dat je ze in detail hoeft te labelen?
Goede plaatjes zijn prima te vinden, namelijk alle foto's die trotse ouders plaatsen op social media.
Dat soort datasets bestaan maar dat is niet waar het hier over gaat.

Dit is een enorme dataset van plaatjes (niet alleen van mensen) die van heel internet bij elkaar zijn gesprokkeld. Niemand weet precies wat er allemaal in zit. Er zitten wel beschrijvingen bij maar de kwaliteit daarvan is niet bekend.
Dat snap ik, maar ik reageerde hierop:
Als je een systeem wil trainen om dit soort plaatjes te herkennen zal je moeten beginnen met "goede" en "foute" plaatjes als voorbeeld. Als je niet weet wat er op de plaatjes staat kun je het systeem ook niet leren wat ongewenst is.
Maar misschien heb ik het verkeerd begrepen.

[Reactie gewijzigd door singingbird op 23 juli 2024 06:35]

Ik heb juist liever dat een levend persoon, en niet een computer controle uitvoert op dat soort foute content.

Want we weten allemaal wel hoe dat gaat als men het aan een computer over laat, deze maakt een fout en de bedrijf/instantie erachter verschuilt zich achter "but the computer said no".

Ook als dit onterecht was.
Er zijn levende personen die dit doen maar het niet lang volhouden. De geestelijke belasting is echt ontzettend zwaar. Beeld jezelf maar eens in dat je 8 uur per dag naar dit soort beelden moet kijken.
Dat begrijp ik, nooit dat soort dingen gezien maar ik kan het mij wel goed voorstellen hoe zwaar zoiets mentaal is.

Maar tenzij bedrijven het grondig anders aanpakken kun je het niet aan computers toevertrouwen, vooral de mentaliteit dat "als de computer zo zegt, dan heeft deze gelijk" moet nodig stoppen, eventueel dan kan men dit aan computers over laten.

[Reactie gewijzigd door Mizgala28 op 23 juli 2024 06:35]

Op het moment is het een hybride systeem, door machine learning algoritmes en hashing is er bekende media die sowieso niet toegestaan wordt. Een ander deel krijgt een score, "waarschijnlijk niet goed" en wordt ook verwijderd. Pas de twijfelgevallen, als de machines onzeker zijn, of als er iemand een appeal doet komt er een mens bij aan te pas, en hun "ruling" over de media komt weer terug het systeem in zodat niemand anders het opnieuw zou hoeven zien.

Dat betekent nog wel dat er tienduizenden mensen wereldwijd zijn die de hele dagen dit soort shit onder ogen zijn, maar ook dat er een meervoud van het werk wat zij doen op internet gezet wordt (of iig geprobeerd).
In Nederland mag je geen kp gebruiken voor detectie, vanwege privacy. Ook niet gehashed. Dat begreep ik uit een lezing van de cto van ministerie van v&j.
Daar is wel een workaround voor, je laat het land in je samenwerkingsverband waar alles wel mag het uitvoeren.
Waarom niet gehashed het hele idee van hashing is dat het niet herleidbaar is.
Hoe krijg je de hashes en hoe zorg je ervoor dat die legitiem zijn? En hoe zijn die aangemaakt zonder dat de privacy wetten die in Nederland gelden overtreden zijn?

Ik denk dat een set hashes uit het buitenland halen gezien zal worden als het omzeilen van de in Nederland geldende wetten, en da's niet fijn.
Het probleem is dat ze niet gelabeld zijn als kindermisbruik. Dus daar kan je niks op trainen.

Omdat het bezit van zulke afbeelding verboden is (misschien mag het wel voor onderzoek dat weet ik niet) zijn er op dit moment alleen datasets met hashes van verboden en bekende afbeeldingen.
In hoeverre is het uberhaupt wenselijk dat je private foto's van mensen controleert? Veel belangrijkere discussie.
Misschien begrijp ik het niet goed, en kan best controversieel zijn, maar wil je soms niet juist wel foto's van kindermisbruik in je dataset zolang deze goed getagged zijn? Er zijn immers reeds bestaande foto's daarvan. Zo kan je het algoritme toch leren dit te detecteren en bvb inzetten om op grote schaal bvb netwerken of nieuwe foto's ervan te ontdekken en ontmaskeren?
Je wil natuurlijk niet dat je zonder dat je het maar invult ineens die misbruik, ik kan het woord niet eens uit m'n strot krijgen, ineens op je scherm krijgt.

Het moet er gewoon per direct uit, anders wordt een net prompt al eng.
Je wil natuurlijk niet dat je zonder dat je het maar invult ineens die misbruik, ik kan het woord niet eens uit m'n strot krijgen, ineens op je scherm krijgt.

Het moet er gewoon per direct uit, anders wordt een net prompt al eng.
Zo werken die systemen niet. Ze laten die plaatjes niet zien en ze hebben ook geen exacte voorbeelden nodig. Het krachtige van dit soort systemen is dat juist dat ze beelden kunnen maken die er nog niet waren. Zelfs als er foute plaatjes gebruikt zijn om zo'n systeem te trainen zullen die in principe* niet volledig zijn opgeslagen en dus ook niet oproepbaar zijn.

* aantekening: af en toe vallen er wel degelijk complete stukken trainingsdata uit zo'n model maar dat zijn uitzonderlijke fouten, niet de norm.
Een AI zal nooit zomaar iets gaan doen als je het niet expliciet vraagt. Maw. je input weegt heel zwaar. Verder zijn er, zoals aangegeven, al filters op dergelijke modellen die een groot aantal prompts en outputs filteren. Dan maakt het vrij weinig uit dat het in de originele dataset zit, het kan niet in de uitvoer voorkomen.
Dat kan je zelf aangeven via de CFG, hoe lager je die zet hoe meer Stability AI zelf invult, zet je die heel hoog zal hij zich vrijwel strikt aan de prompt houden. Op CFG 1 krijg je hele rare dingen.

https://i.imgur.com/2g4QKzk.jpg

Zelf een keer helemaal uitgewerkt in een tabel. Heb m'n watermark er maar uitgehaald ivm reclame.

[Reactie gewijzigd door JDx op 23 juli 2024 06:35]

Het gaat hier om generatieve AI, je kunt hiermee op je eigen pc afbeeldingen genereren. Dit is in principe een leuke technologie, maar je wilt zeker niet dat er illegale content in het model voor komt.

Een leuke toepassing is bijvoorbeeld het turbo model van Stability.AI, als je die gebruikt in een ComfyUI workflow, kun je in 0.1 seconden (afhankelijk van je hardware natuurlijk) een afbeelding genereren. Dus als je Auto Queue aan zet, zie je tijdens het typen de afbeelding zich aanpassen aan de prompt. Een leuke manier om te experimenteren hoe je een goede prompt schrijft.

Maar in dit turbo model is de negatieve clip weg geoptimaliseerd (het filter wordt genegeerd, hij kijkt alleen naar de positieve prompt). Ondanks dat, heb ik niet de indruk dat je bij dit model zomaar onbedoeld sexuele content genereerd, maar dat de kans bestaat, is zeker niet gewenst. Dit model wordt gebruikt voor het genereren van afbeeldingen, voor het opsporen van criminelen, kunnen ze lijkt me, andere modellen gebruiken.

Waar je goed voor moet oppassen:
Je kunt bij ComfyUI makkelijk een workflow uitwisselen, en daar zit wel een gevaar in. Want dat is in principe interesant om de techniek beter te leren kennen. Maar zo'n workflow gebruikt dan weer een ander AI model en andere extensies, dus als je die dan weer download, dan heb je voor je het weet toch AI-modellen op je pc staan, waarbij je dan dus geen idee hebt waarop het getrained is. Terwijl je geinteresseerd was in de techniek.
Maarja, gegenereerde 'kinderporno' ofwel compleet gefabriceerd uit niets, zie ik eigenlijk geen probleem mee, er zijn geen kinderen misbruikt om te maken. Zolang het allemaal nep/virtueel is, zal het mij een reet roesten, ik hoef er niet naar te kijken, want ga je daar wel een probleem van maken, dan moet je elke gewelds film/serie/spel ook verbieden.
Is dat niet een beetje kort door de bocht? Er zijn al meerdere zelfmoorden geweest doordat echte naaktfoto's verspreid werden. Op deze manier wordt het wel heel gemakkelijk om je pijlen te richten op een bepaald persoon.

Willekeurig uit de lucht gegrepen: een 16-jarige heeft een boontje voor een klasgenote maar het wil niet lukken. Dan genereert ie maar filmpjes en foto's om aan zijn fantasie te voldoen. Bewust of onbewust worden die beelden verspreid. Dan mag iedereen nog weten dat het fake is, die beelden zijn er voor altijd en zullen een effect hebben op het "onderwerp".

En maakt het kijken naar fake, gegenereerde beelden de stap naar op zoek gaan naar echte beelden niet een stuk kleiner. Of de stap naar nog verder gaan dan foto's bekijken, nog kleiner
Maar dat is deepfake wat nu al verboden is. Ben met je eens dat als het werkelijk een gelijkenis is met de gebruikte leerdata is, dat het dan vergelijkbaar is met deepfake. Maar een random gegenereerd digital human moet geen probleem zijn. Ja, het kan dan nog lijken op een bestaant persoon, maar dat is dan gewoon puur toeval, vergelijkbaar met hoe random mensen ook op elkaar kunnen lijken, zonder dat er ook maar iets van familiere genen in hun verleden zitten.
Net zoals deepfakes is ook overige Ai kindermisbruik verboden en strafbaar.

ik neem aan dat dit is omdat je hiermee anders misbruik normaliseert en de drempel lager legt voor verdere illegale activiteiten.
Maar waarom voor kinderporno wel illegaal, maar voor moord en andere porno niet? Slaat toch helemaal nergens op. Iets dat fictief is zou nooit verboden moeten kunnen worden.
Als je een afbeelding van een bekend persoon wilt genereren, dan herken je over het algemeen ook die persoon in het resultaat. Een model kan ook zo getrained zijn dat (eventueel bij specifieke prompts), de output bewust dicht bij de training data ligt. Je moet dus wel ergens een grens trekken.

Als het aan mij ligt zou de grens moeten liggen bij het versprijden (de afbeeldingen, en de AI-modellen), en niet bij het genereren (dat kan nu makkelijk onbedoeld zijn). Ook voor "toegestane" sexuele content, vind ik dat het ethisch beter wanneer mensen naar gegenereerde content kijken, versus online. Veel mensen worden echt nog steeds uitgebuit en verhandeld.

Dus de grens precies goed leggen, lijkt mij best lastig. Maar dat is mijn vakgebied ook niet.
Maar er is hier wel degelijk sprake van misbruik, namelijk de afbeeldingen in de training set. Jij zal maar net het slachtoffer zijn waarop de generatieve AI zijn output baseert.
Oh, dat die originele content verwijders wordt uit de leerset ben ik het natuurlijk helemaal mee eens, daar is voor mij geen twijfel over mogelijk, en vind het al uberhaupt gek hoe die er in is gekomen. Maar een beetje 'intelligente' AI zou van 18+ porno toch ook wel 18- porno moeten kunnen genereren obv de kennis van de anatomie van 18-ers, in ieder geval dat lijkt mij zo, immers een mens kan dat ook goed bedenken.
Niet echt. Ten eerste moet je de foto’s dus zelf vinden voordat je ze kan verifiëren. Als je al de juiste adressen heb, dan hoef je niet meer te zoeken.

Net zoals satellieten: ondanks dat er satellieten zijn, die heel de aarde kunnen fotograferen en analyseren, betekent niet dat ze zomaar gecrashte vliegtuigen kunnen vinden. De satellieten moeten ergens op gericht worden voordat ze het kunnen zien. Maar als je weet waar het vliegtuig ligt, dan heb je ook geen verdere informatie nodig.

Ten tweede, dit gaat een gevoel van nep beveiliging geven. Zodra zo’n filter er is, dan is er geheid kans dat er een iets te grote groep is die dan alles wat niet gefilterd is gelijk als acceptabel zien. Zie hoe men met chatGPT omgaat.
Misschien begrijp ik het niet goed, en kan best controversieel zijn, maar wil je soms niet juist wel foto's van kindermisbruik in je dataset zolang deze goed getagged zijn?
Je mag die plaatjes niet hebben van de wet, dus dat is een probleem als die op jou computer staan.
Zo kan je het algoritme toch leren dit te detecteren en bvb inzetten om op grote schaal bvb netwerken of nieuwe foto's ervan te ontdekken en ontmaskeren?
Er is geen algoritme. Dit gaat alleen over de set met plaatjes. Stable Diffusion is één van vele gebruikers van die set. Die plaatjes zitten er niet met een of ander hoger doel in, het is gewoon een grote verzameling plaatjes.
Waarom zou dat deze trainingsset zijn taak zijn? D'r zijn bestaande technologieën voor het herkennen van kinderporno.

Daarnaast, het bedrijf dat deze trainingsset beheert heeft vzviw geen uitzondering voor het hebben van deze content; ze zijn dus ook schuldig aan het bezit van kinderporno.
Zo kan je het algoritme toch leren dit te detecteren en bvb inzetten om op grote schaal bvb netwerken of nieuwe foto's ervan te ontdekken en ontmaskeren?
Dat kan niet met Stable Diffusion omdat het daarvoor niet is gemaakt.
Ergens valt duizend uit vijf miljard me nog mee.

Overigens slaat de waarschuwing van de onderzoekers om 1.5 modellen niet te gebruiken nergens op. De AI weet hoe kinderen er uit zien en weet hoe porno er uitziet en is daarom ook in staat deze te combineren. Ik zie niet in hoe je dit zou kunnen voorkomen zonder draconische censuur toe te passen zoals in Bing Image Create.
Bor Coördinator Frontpage Admins / FP Powermod @ErikT73821 december 2023 09:11
Ergens valt duizend uit vijf miljard me nog mee.
Procentueel gezien valt het mee maar wat betreft mogelijke impact niet. Je wilt van sommige zaken zeker weten dat het 0% invloed heeft. Afbeeldingen rond kindermisbruik lijkt mij zo'n geval.
Ik denk dat die invloed zodanig klein is dat het echt niet uitmaakt. Zie het als een publiek zwembad. Iedereen weet dat er een bepaald percentage pis in het water zit (waarschijnlijk nog in hogere mate dan 1 druppel pis per 5.000.000 druppels water) maar in de praktijk merk je daar helemaal niets van.
Maar betekent dat dat we maar gewoon in het zwembad moeten gaan pissen? "Je merkt er toch niks van" is imo geen valide excuus om het maar te gedogen.
Nee, dat betekent dat je niet al het zwembadwater weg moet gooien of het zwembad moet mijden omdat er iemand in gepist heeft. Als men een manier weet om de pis eruit te filteren of het te neutraliseren dan moet men dat vooral doen.

Je metafoor impliceert dat er MEER afbeeldingen met kindermisbruik aan de dataset worden toegevoegd en dat is niet het geval.
Heel naar maar dit was ook te verwachten. Ergens in een dataset zit wel iets verkeerds denk ik dan, ook omdat die datasets enorm groot zijn.
Nou ja dat is zeker te verwachten in een dataset van 5 miljard. Maar daar heb je toch ook die prompt filtering voor? Om dubieuze opdrachten te filteren, dan zit het misschien wel in de dataset maar je krijgt het er niet zodanig uit.

En tja er zit waarschijnlijk ook wel ergens een kindermisbruik handboek in de dataset van chatgpt, maar ook dat valt niet te reproduceren door die filters.

En dit komt natuurlijk alleen maar aan het licht omdat het relatief eenvoudig te controleren is, dat is lastiger bij een taalmodel zoals chatgpt.
Geen verrassing natuurlijk als je kijkt wat voor plaatjes 1.5 kan maken. En dan zijn dat alleen officieel bekende hashes.
Je begrijpt niet hoe het werkt. De AI kan dingen maken die niet in de dataset zitten als het de losse onderdelen van het prompt wel begrijpt.
Wie is goed op de hoogte van hashes?

Als leek vraag ik mij af: Bij zulke grote datasets, kan je dan nog wel zondermeer zeggen dat dezelfde hash dezelfde afbeelding is? Een hash kan je toch terug vertalen naar meerdere inputs?

Een tweede vraag die in mij opkomt is: Zijn die anti-kindermisbruik organisaties wel zuiver?
In een vaag verleden meen ik mij te herinneren dat er ooit eens bij een rechtszaak werd gesproken over schaamharen tellen en hoe groot de borsten waren. En in een andere rechtszaak dat een klein anime (getekende cartoon) icoon van heel weinig pixels ook telde als kinderporno.

De VS blijft een preuts land (wij hollen helaas hard die kant op), waar 15-jarigen zijn veroordeeld voor het elkaar eigen foto's te sturen.
En tegelijkertijd hebben ze dingen als 'Toddlers and tiaras' (een schoonheidswedstrijd voor peuters, die op mij in hoge mate geseksualiseerd overkomt: de peuters blazen bijvoorbeeld kusjes naar de jury, gebruiken makeup en dragen volwassen kleding).

Het is een fantastisch land, maar sommige gebieden daar zijn wat gek... En dat maakt nogal uit voor het begrijpen van berichtgeving.

[Reactie gewijzigd door Siaon op 23 juli 2024 06:35]

Bij zulke grote datasets, kan je dan nog wel zondermeer zeggen dat dezelfde hash dezelfde afbeelding is? Een hash kan je toch terug vertalen naar meerdere inputs?
Ja, maar die kans is astronomisch klein. Bij "absolute" hashes iig, bij afbeeldingen zit er marge in, ivm edits, compressie artefacten, resizes, etc. Maar ook dan zal het een percentage match zijn, als het hoog genoeg is gewoon niet toelaten, als het discutabel is, laat er een persoon naar kijken.
Zijn die anti-kindermisbruik organisaties wel zuiver?
Wat voor antwoord verwacht je hier? Je doet wat vage verwijzingen die je jezelf half herinnert maar... dat zegt weinig. Let er ook voor jezelf op dat je niet in de "I'm just asking questions" valkuil valt, waarbij je een indirecte beschuldiging doet; zie ook https://rationalwiki.org/wiki/Just_asking_questions
Tja, AI, dit zijn dus weer van die typische dingen waarvan ik denk van tja, automatiseer maar zoveel mogelijk. Nu is het weer dan kindmisbruik ( zeer triest ) en dan is het weer dit, dan weer dat zucht...... Dus wat mij betreft hoeft die hele AI niet maar ik word misschien oud, wie weet.

Op dit item kan niet meer gereageerd worden.