Facebook geeft tools voor opsporen van schadelijk video- en fotomateriaal vrij

Facebook heeft de broncode vrijgegeven van de tools die het gebruikt om onder meer kinderporno en gewelddadige video's en foto's op te sporen. Met het posten van de broncode kunnen ook andere organisaties de tools gaan inzetten.

Het gaat om twee algoritmes voor het opsporen van kwalijke video's en foto's, genaamd PDQ en TMK+PDQF. Volgens Facebook neemt de hoeveelheid kwalijke video- en fotocontent op internet, waarbij het dus bijvoorbeeld gaat om kinderporno of terroristische content, sterk toe, waardoor de tools die Facebook nu opensource maakt een bijdrage kunnen leveren aan het indammen van de verspreiding. De broncode staat op GitHub, tezamen met een uitleg over de werking.

Met de software is het mogelijk om een foto of video te scannen waarna deze wordt vergeleken met bekend materiaal. Bij een match wordt er een seintje gegeven, en kan de content bijvoorbeeld verwijderd worden. Ook kunnen hashes van de gematchte video's en foto's worden gedeeld, zodat ook andere bedrijven en organisaties op de hoogte zijn. De beide tools zijn gemaakt door Facebooks eigen team dat zich bezighoudt met kunstmatige intelligentie.

Volgens Facebook zijn de opsporingstools geschikt voor verwerking van foto- en videomateriaal in real time en kan het grote hoeveelheden aan. Dat maakt de software geschikt voor gebruik op bijvoorbeeld sociale media, waar gebruikers veelvuldig video's en foto's posten en waarbij dus veel materiaal gescand moet worden.

Facebook hackathon

IT-banen

Reacties (45)

Frozen 4 augustus 2019 12:12

Maar dan vraag ik me af, als de broncode openbaar is. Kan dit juist niet worden gebruikt om kinderporno e.d. juist te vinden?

ACM Software Architect @Frozen • 4 augustus 2019 14:31

Nee, je hebt een brondatabase van hashes nodig van foute data en dan kan je dit doen:

quote: https://newsroom.fb.com/n...rce-photo-video-matching/
Today, we are open-sourcing two technologies that detect identical and nearly identical photos and videos

En zelfs als je die brondatabase hebt, zal het tamelijk nutteloos zijn voor iemand die kinderporno probeert te vinden. Want daar staan alleen hashes in.

Al met al is dit zo te zien met name - of zelfs uitsluitend - bedoelt voor het snel vinden van duplicate video's, van reeds bekend kwalijk materiaal.

Verwijderd @ACM • 4 augustus 2019 15:07

De hashes zijn geen fool proof middel. Al zou je de originele video gewoon een 'mirror' geven dan is de hash volledig anders.

ACM Software Architect @Verwijderd • 4 augustus 2019 15:10

Natuurlijk. En hoe meer foutmarge je inbouwt, hoe meer false-positives je juist zou krijgen.

Geen van dit soort tools is feilloos. Maarja, het is een noodzakelijk kwaad waarvan helaas iedereen die wel goed bedoelend is last kan hebben.

Zoijar @Verwijderd • 4 augustus 2019 18:39

Dat ligt er maar aan. Ik neem aan dat veel van dit soort dingen translatie/rotatie invariant hashen. Invariant feature detector erop, bv relatieve afstand tussen "corners" en die outputs hashen. Dan kan je schalen en mirroren wat je wilt, maar de hash blijft hetzelfde.

Perihelion @ACM • 4 augustus 2019 14:40

Zijn deze tools ook geschikt om zelf een database te maken om ander materiaal mee te vergelijken?

ACM Software Architect @Perihelion • 4 augustus 2019 14:43

Het is specifiek voor afbeeldingen en video's geschreven. Maar het lijkt me verder heel generiek inzetbaar voor het herkennen van duplicaten. Het maakt voor die software tenslotte niet uit waarom de bronhashes in die database staan.

Het is overigens wel bedoeld om te werken met een beperkte set 'bron'-hashes en veel 'test'-hashes.
Ik weet niet of je het bijvoorbeeld efficient zou kunnen gebruiken om een afbeeldingen-database te ontdubbelen.

arbraxas @Frozen • 4 augustus 2019 12:17

Denk niet dat dit geschikt is om op een desktopje op het internet te zoeken.
Dit zal geschreven zijn om op de eigen server parken in te zetten.

FB heeft sowieso niet de taak om terrorisme op of andere criminaliteit op te sporen buiten hun eigen servers. En zelfs dat is discutabel. Daar hebben we politie voor.

ACM Software Architect @arbraxas • 4 augustus 2019 14:34

Dat is in dit geval irrelevant (zie mijn reactie op Frozen) omdat de software helemaal niet nieuw materiaal kan herkennen, alleen bestaand materiaal kan herkennen als duplicaat van een brondatabase.

Maar deze - en dit soort - software kan prima op 1 server of computer gedraaid worden. Er is geen technisch significant verschil tussen servers en computers waardoor dit niet op een willekeurige zou kunnen draaien.
Sterker nog, het is vrijwel altijd per definitie ontwikkeld om zo schaalbaar mogelijk te zijn en daardoor dus juist ook vrijwel onafhankelijk goed op 1 computer te laten draaien (en dan mogelijk een heleboel tegelijk).

Je hebt dus alleen maar een serverpark nodig als je zoveel filmpjes binnenkrijgt dat 1 computer dat niet aan kan.

teacup @ACM • 4 augustus 2019 18:17

In eerste instantie begreep ik niet goed waarom zich in de tool geen AI leermechanisme bevond. Dat zou ook in staat zijn om nieuwe afbeeldingen te kwalificeren. Maar dat is het doel van Facebook helemaal niet (ook om de reden die arbraxas hierboven al geeft FB != Politie). Het hoofddoel van Facebook staat trouwens ook goed omschreven in het artikel:

Volgens Facebook zijn de opsporingstools geschikt voor verwerking van foto- en videomateriaal in real time en kan het grote hoeveelheden aan. Dat maakt de software geschikt voor gebruik op bijvoorbeeld sociale media, waar gebruikers veelvuldig video's en foto's posten en waarbij dus veel materiaal gescand moet worden.

Het accent lijkt dus ook meer op het indammen van de verspreiding van bestaand materiaal te liggen.

Als een AI tool in handen zou komen van criminaliteit dan zou die tool wel verkeerd gebruikt kunnen worden. Dan kan gekeken worden of er manieren zijn om kinderporno aan de aandacht van die tool te laten ontsnappen. Dit zou dan weer het begin van een nieuwe (wapen)wedloop worden. Als ik d ze redenering volg dan zou AI herkenning het exclusieve domein van de Politie moeten blijven, en zou de tool hiervoor niet op straat moeten komen te liggen.

[Reactie gewijzigd door teacup op 22 juli 2024 13:45]

ACM Software Architect @teacup • 4 augustus 2019 18:57

Er is al jaren machine learning en neural network software open source. En daar zitten ook defacto industriestandaarden tussen (o.a. Apache Spark en Google's TensorFlow), het lijkt me heel waarschijnlijk dat Facebook daar gebruik van maakt en/of zelf er actief aan bijdraagt.
Bij inzetten van dergelijke software ('echte AI' bestaat nog altijd niet) gaat het vooral om op de juiste manier inzetten van de algoritmen en data en vooral het bieden van de juiste trainingsets.

Die trainingsets en daaruit afgeleide models zullen inderdaad niet zo gauw openbaar gemaakt worden, al is het alleen maar omdat je dan mogelijk verboden materiaal verspreidt (hangt er vanaf of je de beelden verspreid of e.o.a. afgeleide). Maar aangezien Facebook naakt (en op naakt lijkend) beeldmateriaal al kan herkennen - naast allerlei gezichten van leden - , zullen ze dat al lang als zodanig inzetten.

Maar dat is simpelweg niet het doel van deze tool. Het is onverstandig heel veel verschillende taken in een tool te stoppen, dus deze is 'lekker simpel' en kan alleen aan de hand van een reeks bronbestanden/hashes bepalen dat andere bronbestanden/hashes (vrijwel) exacte kopieën daarvan zijn.
Verder kan het inderdaad praktisch zijn om aan de hand van een betrouwbare leverancier - ik neem voor het gemak aan dat de politie betrouwbaar is in deze - van zo'n lijst van 'verboden' hashes. En als dat inderdaad (al) geleverd wordt, dan is een tool als deze erg nuttig om te kunnen hergebruiken. Ook voor Facebook zelf, want van dat bronmateriaal hoeven ze in principe geen kopie te krijgen, alleen maar een passende hash en wat metadata.

Daarnaast hebben ze vast wel tools op basis van AI en/of simpelere algoritmes om te (proberen te) herkennen wat voor soort onderwerpen en objecten er in het beeldmateriaal staan. Sterker nog, dezelfde soort tooling gebruiken ze ook voor hun gezichtsherkenning en het huidige herkennen van naaktbeelden.

Travelan @arbraxas • 4 augustus 2019 12:23

Onderschat de serverparken die worden gebruikt om kinderporno e.d. te verspreiden niet! De technologie dat is ontwikkeld door die gasten is erg zorgwekkend. Het darkweb floreert enorm...

arbraxas @Travelan • 4 augustus 2019 12:53

Welk serverpark is dan specifiek opgezet voor kinderporno? Dat is namelijk zelfs het darkweb niet. Ja er wordt misbruik van infrastructuur gemaakt. Daarom geeft fb nu ook deze tools vrij. Zodat legitieme bedrijven dat misbruik kunnen voorkomen.
Maar jij overschat de capaciteit van de crimineel een beetje.
Sowieso willen die geen eigen park, dat is veel te makkelijk op te sporen.

dasiro @arbraxas • 4 augustus 2019 13:37

veel van die content wordt niet zomaar openbaar gezet, laat staan dat je directe database-toegang hebt, dus het kàn wel, maar zal ongeveer even efficiënt zijn als een google-search.

bilbob 4 augustus 2019 20:09

wat heeft de foto met het artikel te maken?

DeTeraarist @bilbob • 4 augustus 2019 20:46

Het zijn Facebook programmeurs op een Facebook hackathon en dus mogelijk de schrijvers van de software.

litebyte

Facebook

4 augustus 2019 12:17

Het tegengaan van 'schadelijke' naakte afbeeldingen uit musea of ander 'naakt' artistiek werk zit ook in de broncode?

erikmeuk3 @litebyte • 4 augustus 2019 12:27

Ja, musea en artiesten klagen over het blokkeren van naakt.
Zie dit bericht: https://www.tubantia.nl/e...ilderde-borsten~aac615d0/

litebyte

Facebook

@erikmeuk3 • 4 augustus 2019 13:19

Idd, naast musea zijn ook talloze kunstenaars en fotografen benadeeld doordat hun werk werd verbannen van facebook.

De facebook moraal an sich is vele malen schadelijker dan het algoritme dat ze gebruiken.
Gelukkig zijn er hele /slimme\ mensen die er iets op hebben gevonden om toch hun lichaams delen zichbaar te krijgen op het kwaadaardig gezwel van het internet - facebook (instagram).

*knip*

Admin-edit:Het plaatsen van een expliciet voorbeeld is niet nodig in deze discussie

[Reactie gewijzigd door Dirk op 22 juli 2024 13:45]

ACM Software Architect @litebyte • 4 augustus 2019 14:41

Nee, deze software is heel dom. Het kan alleen dit:

Met de software is het mogelijk om een foto of video te scannen waarna deze wordt vergeleken met bekend materiaal.

Als dat artistieke naakt bij dat bekende beeldmateriaal zit, dan zal het uiteraard wel gesignaleerd worden. De software die bepaald dat iets nieuws wel/niet goed is, is hiermee niet open source gemaakt.

Verwijderd @litebyte • 4 augustus 2019 18:57

Dan heb je het bericht niet gelezen.

mj.oke 4 augustus 2019 14:33

opzich een goed idee, transparantie gevalletje.

als je eigen hashes kan toevoegen via deze software, van "eigen foto's"
kan je dan ook wraakporno foto's vanuit je eigen omgeving toevoegen? zodat je familie en vrienden beter beschermd worden.

zo kan je dan ook een stap verder je eigen foto's waar je alleen recht op wilt houden "copyright"
om zo bij de volgende Europese auteur rechten filter je foto's beter beschermen.

en je kan in de daarop volgende stap ook je eigen profiel foto's uploaden om je weer beter anoniem te maken

en je kan ook veel schade toebrengen aan andere, door al hun social media foto's toe te voegen

controle required!

ACM Software Architect @mj.oke • 4 augustus 2019 14:46

Deze software is onafhankelijk van de brondatabase, maar de te gebruiken brondatabase moet inderdaad goed worden beheerd

mj.oke @ACM • 4 augustus 2019 14:57

ah, dus de regel
"Ook kunnen hashes van de gematchte video's en foto's worden gedeeld, zodat ook andere bedrijven en organisaties op de hoogte zijn.""

geeft niet aan dat je meteen hashes zelf kan maken en toevoegen

het delen met andere partijen is meer tot doel voor bestrijding en eventuele vervolging

als je de 2doc "the Cleaners" bekijkt is automatisering voor veel materiaal zeer welkom, aangrijpende docu

de manier waarop word interessant om te volgen

ACM Software Architect @mj.oke • 4 augustus 2019 15:01

Jawel, je kan er ook hashes mee maken. De brondatabase kan je uiteraard ook helemaal zelf beheren

biglia 4 augustus 2019 14:21

Code die naaktafbeeldingen kan detecteren is toch wel iets dat iedere website waarbij gebruikers content kan uploaden, nodig heeft. Hoe zou tweakers.net dit geregeld hebben, bij bijvoorbeeld het uploaden van avatars etc?

ACM Software Architect @biglia • 4 augustus 2019 14:49

Dat is niet per se nodig. Het is vooral nodig op het moment dat er zoveel binnenkomt - en daardoor in absolute zin ook veel troep - dat het praktische onmogelijk is om e.e.a. handmatig op te sporen en op te lossen.
Dergelijke software ontwikkelen/beheren en/of inkopen is een erg dure aangelegenheid. Dus dat moet je alleen doen als de kosten/baten dat toelaten.

Het merendeel van de websites - inclusief Tweakers - doet dat daarom dan ook in de praktijk domweg handmatig als er aanwijzingen zijn om ergens in te grijpen.
Tweakers heeft daarbij het geluk dat de community-leden zelf ook willen dat e.e.a. netjes is, dus die helpen ons door dergelijke zaken te melden.

[Reactie gewijzigd door ACM op 22 juli 2024 13:45]

LANterfantje 5 augustus 2019 12:21

Dit vind ik wel interessant, omdat Facebook hier toch een transparantie mee toont.
Nu lijkt mij het verstandig om te kijken hoe die tools werken en waar ze hun vergelijkingsgegevens vandaan halen (mits de Facebook dit hier ook mee verstrekt).
En anders wordt het gewoon een verhaal van passen en meten.

Dit zou een hele hoop naar boven moeten halen over op welke gronden hun algoritme werkt, die ik meerdere keren lichtelijk heb zien werken op aparte manieren.

Ivysaur 4 augustus 2019 12:16

Hoe werkt dat dan? Als je wil meehelpen met bv kp zoeken en vernietigen / rapporteren ben je al strafbaar want je moet o.a kp- materiaal op je pc hebben om deze foto/hash te kunnen zoeken. Tegelijk ben je kp aan het binnenharken en je kijkt er ook nog eens naar. Allemaal strafbaar. Ondanks je goede bedoelingen kan het slecht uitpakken.

En dan bijvoorbeeld een ex die geblokt is vanwege stalken. En met oude foto's elke keer de nieuwe onbekende account probeert te zoeken met oude foto's / hashes. Dat soortgelijke dingen.

Kwalijke zaak Facebook.

DaManiac @Ivysaur • 4 augustus 2019 12:19

Je "harkt niets binnen". Er worden hashes gemaakt van de beelden en die worden vergeleken met een database van hashes van bekend kp-materiaal.

Iblies

Facebook

@DaManiac • 4 augustus 2019 13:02

Dat is nou juist de vraag.

Melding maken van bepaalde sites zijn genoeg opties voor.

Foto’s downloaden en die uploaden mag formeel niet.

Wat wil Facebook dus hier eigenlijke mee ?

Volgens Facebook zijn de opsporingstools geschikt voor verwerking van foto- en videomateriaal in real time en kan het grote hoeveelheden aan. Dat maakt de software geschikt voor gebruik op bijvoorbeeld sociale media, waar gebruikers veelvuldig video's en foto's posten en waarbij dus veel materiaal gescand moet worden.

Open-source en Facebook heeft de regie.... Doet me denken aan Google die groot mee is geworden met ‘gratis’ software, Amazon met haar AWS die (semi)open-source gebruikt zonder fatsoenlijke bijdrage.

Facebook zit op dit moment redelijk in de maag met mensen die de rommel op haar medium controleren en ik vermoed dat ze een efficiënt alternatief nodig met ‘vrijwilligers’ die hier mee aan de slag gaan.
https://www.nrc.nl/nieuws...er-voor-facebook-a3962439

Verontrustende beelden en teksten flitsten dag in dag uit over zijn scherm. Zelfmoordpogingen, IS-executies, wraakporno, kindermisbruik, zelfmutilatie, racisme, scheldpartijen. Het systeem gaf hem telkens vier keuzes: laten staan, verwijderen, aanmerken als zelfbeschadiging, of voor een second opinion doorsturen naar het hoofdkantoor in Dublin. En dat tweeduizend keer per dag.

beerten @DaManiac • 4 augustus 2019 13:18

Hashes van afbeeldingen als in een soort van md5 checksum? Of begrijp ik je verkeerd?
Is het niet dat AI-software het beeld of video zelf analyseert? En op basis van algoritmes filtert wat mogelijk onwenselijk is en die beelden laat beoordelen door mensen?
Dat resulteert in een blacklist Dat de software weer gebruikt als referentie cq vergelijkingsmateriaal? Dat kan als een soort snelfilter fungeren?

ACM Software Architect @beerten • 4 augustus 2019 14:39

Dat begrijp je niet verkeerd. Het zijn echter wel hashes waarbinnen ook een zekere foutmarge mee te nemen is.
Maar dit is dus bedoeld om te herkennen dat iemand reeds bekend materiaal uploadt. Sterker nog, het zou me niks verbazen als ze deze software ook gebruiken om te bepalen dat een video bekend/duplicaat is en wel door de beugel kan.

Ze hebben daarnaast vast ook nog andere software om van nieuw materiaal te bekijken of e.e.a. niet door de beugel kan. En wat daar dan door afgekeurd is, zou inderdaad prima als bron kunnen dienen voor de hier beschreven software.

Ivysaur @DaManiac • 4 augustus 2019 12:29

@xehbit

Ah, dat kan ook. Nog niet aangedacht. Goedemorgen, haha.

@DaManiac

Dan snap ik het. Het is niet het bekend materiaal op je eigen pc of server, maar bv die van FB. Neem aan dat FB dan ook elke afbeelding opslaat op hun eigen servers om nog meer beelden te verkrijgen? Handige zet voor FB, minder voor ons de gewone man.

erikmeuk3 @Ivysaur • 4 augustus 2019 12:49

Als er iets op FB geplaatst is, volgt er direct een scan en dan pas kun je het zien.
Is het fout, kun je helemaal niets meer posten.
Bij mij duurde het een halve dag, tot een medewerker tot de conclusie kwam dat het filter zich vergist had.
Ik kreeg geen berichtgeving over het incident.
Het betrof een foto van een Spaanse peper.

litebyte

Facebook

@erikmeuk3 • 4 augustus 2019 13:41

Ze maken gebruik van object herkkenning, en dat algoritme maakt idd geregeld fouten. ..spaanse peper had ik nog niet van gehoord maar wel voorbeelden van macro fotografie (van bloemen), fruit en afbeeldingen van rotsformaties die op borsten met tepels leken.

Volgens mij wordt een vergelijkbaar algoritme toegepast als op instagram.

erikmeuk3 @litebyte • 4 augustus 2019 13:51

heb even gezocht.
Het was deze foto, die hier op leek.
https://www.moestuinforum...pepper177841394736896.jpg

Een van mijn ex FB vrienden, postte een filmpje van een massa onthoofding in full HD.
Werkelijk een gruwelijke film, die bleef staan.

[Reactie gewijzigd door erikmeuk3 op 22 juli 2024 13:45]

xehbit @Ivysaur • 4 augustus 2019 12:18

Ik denk dat dit meer bedoeld is voor bijvoorbeeld een implementatie binnen een upload platformen, waar je de door gebruikers geuploade materiaal kan scannen.

jpsch 4 augustus 2019 12:11

Hopelijk wordt 't niet misbruikt.

GenetiX 4 augustus 2019 23:05

In de basis is het vrijgeven van dit soort tools een positieve ontwikkeling. Ben wel bang dat de software door sommige 'elementen' gebruikt gaat worden om materiaal zodanig aan te passen, dat het onder de radar blijft.

Persoonlijk schrik ik iedere keer van de groeiende hoeveelheid van dit soort materiaal (bron?), met name kinderporno. Dat is in de essentie gewoon vraag en aanbod gedreven. Blijkbaar is hier dus veel interesse voor en zou het ook je buurman kunnen zijn. Walgelijk.

Bjorn89 5 augustus 2019 09:28

Heeft niemand anders het gevoel dat Facebook met een grote PR campagne bezig is om de negativiteit rondom het bedrijf te verminderen?

Zo van, kijk wat voor goede dingen wat allemaal doen

(Of denk je dat ik dit echt toevallig is)

[Reactie gewijzigd door Bjorn89 op 22 juli 2024 13:45]

Patkroi @Bjorn89 • 5 augustus 2019 12:42

Krijgen ze mij niet mee terug, never again.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (45)

Sorteer op:

Weergave: