EC publiceert database met miljoenen contentverwijderingen door techbedrijven

De Europese Commissie heeft een database online gezet waarin de beslissingen staan opgenomen van techbedrijven die content verwijderen. Dat valt onder de verplichtingen van de Digital Services Act, die onlangs in werking trad.

De Europese Commissie heeft de DSA Transparantie Database woensdag openbaar gemaakt. In die database staan alle beslissingen van techbedrijven om content te verwijderen. In de inviduele entry's staat opgenomen op welke grond content is verwijderd, op welk initiatief dat gebeurde, wat ruwweg de inhoud van de schadelijke content was en in welke landen de content is verwijderd of onzichtbaar is gemaakt. Ook staat in de database of de verwijdering handmatig of geautomatiseerd gebeurde.

De database toont op ieder moment 200 pagina's met 10.000 records. Wie meer beslissingen in wil zien, kan daarvoor een CSV-bestand downloaden. De database is sinds woensdagochtend openbaar en bevat op moment van schrijven al 5.450.409 beslissingen, maar dat aantal loopt per minuut op.

Het overzicht is een onderdeel van de DSA, de Digital Services Act. Dat is een Europese wet die techbedrijven verplicht harder op te treden tegen grensoverschrijdende berichten, zoals haatdragende content of nepnieuws. De bedrijven moeten transparant zijn over die beslissingen; daarvoor is de nieuwe database bedoeld. Die zal in de praktijk vooral interessant zijn voor onderzoekers. Die kunnen de database gebruiken om de effecten van de DSA te meten. De DSA werd vorige maand van kracht. Tweakers schreef eerder al een achtergrondartikel over de mogelijke gevolgen van de wet.

DSA DAtabase

Door Tijs Hofmans

Nieuwscoördinator

27-09-2023 • 08:51

47

Reacties (47)

Sorteer op:

Weergave:

Momenteel is de database niet bruikbaar in welke vorm dan ook voor analyse. Ik heb een poging gedaan om data te parsen en loop tegen de volgende dingen aan:

1. Je kan geen bulk export doen (de FAQ zegt dat je paginering download moet doen, maar hun data import set gaat sneller dan je het kan binnenhalen)
2. De fields zijn niet te vinden in de documentatie, dus je weet niet welke waardes er allemaal zijn, en waarvoor ze staan. (Bijvoorbeeld: Zijn 'DECISION_GROUND_INCOMPATIBLE_CONTENT' en 'DECISION_GROUND_ILLEGAL_CONTENT' de enige van de type 'DECISION_GROUND_'?)
3. De field 'IncompatibleContentGround' staat meerdere talen toe (Wat ik nu kan zien is Engels, Arabish? en Frans en Kyrillisch?)

Wellicht met meer tijd en documentatie dat er wat meer zinnig uit te halen is. Ja er is een 'Analytics' pagina, maar daar kan je alleen een catagorie kiezen.
Een apart fenomeen vind ik wel dat er wel erg vaak de combinatie "Scams and/or fraud" staat met daarbij de marker voor "Is the content considered as illegal?" op "No". Ik vraag mij dan af of de legaliteits-marker slaat op de content zelf of op het gebruik ervan. Ik kan me voorstellen dat een link naar een nep tikkie-site op zichzelf niet illegaal is en dat de context waarin hij verzonden word het gebruik het illegaal maakt. Ik vraag me erg af waar ze de invulling van deze marker op baseren.
Niet alle scams zijn strafbaar als oplichting. In Nederland is bijvoorbeeld 'gewoon' een aanbieding doen voor een hele lage prijs en dan na vooruitbetaling simpelweg niks opsturen een niet te vervolgen activiteit. De koper moet zelf maar een rechtszaak beginnen wegens wanprestatie. Ik snap dat je als platform zulke dingen weg wilt halen en dat je dat 'scam' noemt, maar strafbaar is het niet.
Ah als dat waar is is dat inderdaad te begrijpen. Heb je hier toevallig enige bronnen of artikelen over? Ik vind het betwistbaar dat zoiets niet vervolgbaar zou zijn. Dat klinkt voor mij wettelijk gezien gewoon als fraude en wanprestatie en lijkt mij gewoon een strafrechtelijk vervolgbare zaak.

Edit: even wat onderzoek gedaan en wanprestatie is inderdaad een civiele zaak. Er moet vaak een patroon of regelmaat zijn om oplichting aan te kunnen tonen en dat is wel strafrechtelijk vervolgbaar maar ik begrijp dat dit dus zeker niet in alle gevallen aan de hand zal zijn.

[Reactie gewijzigd door lethalbas op 22 juli 2024 15:35]

Ja sorry had een bron moeten plaatsen. Zie mijn blog https://blog.iusmentis.co...hting-is-geen-oplichting/ hierover met het standaardarrest https://uitspraken.rechts...t?id=ECLI:NL:HR:2016:2889

Het punt is kort gezegd dat het pas fraude is als je trucs uithaalt. Gewoon niet leveren is geen truc, dus is het geen fraude.
Off topic: Wel straf dat dit niet als fraude wordt aanzien, ben zo ooit zelf eens bedrogen voor gelukkig een nog vrij beperkt bedrag.
Na kort eigenhandig onderzoek na de feiten kwam ik op fora uit waar hetzelfde bankrek. nr wel 10tallen keren vermeld was voor lage bedragen van 2dehands aankoop zonder levering.

Eerlijkheidshalve niet zo moeilijk om te bewijzen dat dat over 'kwaad opzet' gaat en niet over een 'vergetelheid'. Echter onmogelijk om als individu voor 50 euro verlies of dergelijk een rechtzaak aan te spannen...

Wat mij betreft mogen ze feedback van 2dehands/marktplaats... combineren met meldingen bij de politie en met evaluaties van bankrekeningen. Als die mix niet klopt: boeltje blokkeren en de identiteit vlaggen als fraudeur, zodat die in de toekomst gewoon geen bankrekening meer kan krijgen.
Zal rap gedaan zijn...
Wanprestatie bij een overeenkomst tussen twee private partijen is bij voorbaat geen strafrecht, maar privaat recht. Privaat recht is niet te vervolgen. Fraude daarentegen valt wel onder strafrecht, maar om van wanprestatie naar fraude te gaan, dat gebeurd niet zomaar.

Edit: had je edit niet gelezen en was gelijk de pen in gekropen, strekking van mijn reactie is hetzelfde als jouw edit.

[Reactie gewijzigd door Djerro123 op 22 juli 2024 15:35]

alle scams zijn strafbaar, maar niet alles dat als een scam beschouwd wordt is het van te bewijzen dat het fraude is. Het niet leveren van een product na aankoop is een civiele zaak. Het bewust verkopen van dingen waar je al op voorhand van weet dat je het niet kan leveren is daarentegen fraude. Dat verschil is zeer belangrijk, maar niet te bewijzen in de meeste gevallen adh van 1 zaak. (daarom ook altijd belangrijk om melding te doen bij politie, als meerdere mensen dit doen over 1 verkoper kan dit wel een duidelijk teken van fraude geven)
Is een verwijderd item uit de database traceerbaar naar burger die het online had gezet? Dat zou erg gek zijn.
Nope, dit is meer een audit log zonder rechtstreekse verwijzing naar de content. Miljoenen lijnen a la "content or listing violated t&s" en "sexual content" etc. Compleet waardeloos qua dataset, behalve dat je een nummer op aantal moderaties kan plakken.
Alleen al het plakken van een nummer op moderaties per platform is al handig. Het onderscheid tussen handmatig en automatisch, de categorie etc etc...

Als je met rechtstreekse verwijzing bedoeld een link naar de verwijderde content of die content zelf, dan is dat een dwaze verwachting. Het is geen portal voor verwijderde mogelijk illegale content. Misschien dat dit zou kunnen voor een beperkt publiek zoals opsporingsinstanties.

Als je een duidelijkere beschrijving wil over wat er is verwijderd en waarom, daar kan ik inkomen. Maar dit soort wetten en regels staan in kinderschoenen. We kunnen altijd de wet aanpassen als de aanleveraars te vaag blijven.
Ik hoef geen verduidelijking, ik probeer ze te geven zonder in details te treden, mijn collega heeft die DB gebouwd :+
Blijkbaar wel, want het bouwen van een set wil niet zeggen dat je goed bent in het gebruik van een set of alle dingen ziet die wel mogelijk zijn er mee.
er is een verschil tussen een log en een dataset. Uiteraard kan je een log als dataset beschouwen, maar dat wil daarom niet zeggen dat die volledig is, meer nog: je wil in logs net niet alle data hebben.
Elke groep van data is een dataset. Dus een log ook. "log" geeft alleen iets aan over het doel waarmee de dataset vergaard is.

Ik beweer ook nergens dat de set volledig is. Ik stel dat deze niet volledig nutteloos is zoals door verschillende personen word gesteld.

Hoeveel data je in logs wil is afhankelijk van het doel van het log. Er kan niets vast gedefinieerd over gezegd worden. Buiten wellicht dat het de minimum set nodig moet zijn. Maar in geval debuggen van een intermittend probleem kan "minimum nodig", "alles" zijn.
Lees de comment nog eens waarop ik antwoord, en bekijk m'n antwoord eens in die context. Mijn 'compleet waardeloos' sloeg op het gebruiken van de DB om de poster van de content te traceren.

Tuurlijk kan je hier nog analyses op laten lopen, maar dit gaat geen info opleveren die niet al beschikbaar is voor bevoegde instanties. Hiervoor was deze investering echt niet nodig geweest. Dit is de uitwerking van een idee dat politiek zeer goed leek, maar in praktijk bijna geen nut zal hebben.

Maar bedankt voor je arrogantie! x
Mijn arrogantie? Ooit in een spiegel gekeken?
De investering was alleen al nodig omdat het publiek zo veel mogelijk transparantie wenst. En dit is daar onderdeel van. Dat jij niet verder kan kijken dan je neus langs is kan ik niets aan doen.
Kan je me eens uitleggen hoe deze DB exact extra transparantie oplevert voor het grote publiek?

Maar het antwoord waarop je reageert ging en blijft gaan over traceerbaarheid van de originele posters van de content, niet over meta analyses of transparantie. Je had me verdere vragen kunnen stellen die ik zo goed mogelijk zou beantwoord hebben in de mate van het mogelijke, maar je koos ervoor mij de les te lezen. Een antwoord uit context trekken en daarop mensen de les spellen omdat je denkt het beter te weten, dat valt toch onder arrogantie volgens mij.
Ja, had eigenlijk wel verwacht dat ze in ieder geval duidelijker zouden zijn dan “against t&c”, meer in de richting van “against t&c wit regards to xyz” waar xyz dan ietsspecifieker is (plagiaat, IP, spam, whatever)
Als de wetgeving dat niet specifiek afdwingt gaan die bedrijven dat nooit vanzelf doen. Dus zoals met alles in de EU zal er wel een evaluatie zijn over een paar jaar en kan de wet worden aangevuld. De EU heeft nog steeds de neiging het bedrijfsleven een kans te geven iets zelf goed te doen en als dat achterwege blijft de voet dwars te zetten.
Zolang Amerika is zoals het is, zullen bedrijven nooit iets uit zichzelf doen omdat het maatschappelijk goed is. Dat is not done in de US waar de meesten vandaan komen
Her zou natuurlijk ook een beetje vreemd zijn om links naar de content te hebben. Die platforms hebben het niet voor niets verwijderd.

Het zou anders één grote database van gore, kinderporno, doodsbedreigingen, antisemitisme, auteursrechteninbreuk, aanzetten tot geweld, holocaustontkenning, strafbare feiten en covidontkenning worden.
Je hebt natuurlijk gelijk, maar wat die mensen die dat roepen waarschijnlijk willen is zelf kunnen zien dat er geen onterecht materieel tussen zit of politieke censuur etc. Dat kan je alleen controleren met het materiaal zelf. Persoonlijk denk ik dat dit aan de juiste opsporing instanties behouden moet zijn en wellicht een paar onafhankelijke organisaties of zoiets. Controle moet er zijn.
Ik weet zeker dat de media er een paar artikelen weet uit te persen met passende clickbait titels.
In deze database staat bijna niks, alleen platform, datum, website, een uniek UUID per melding, en een standaardtekst over hoe bedrijf x geen content van type blabla wil hosten. De CSV zal wel aardig comprimeren, want ik zie steeds dezelfde tekst in dat laatste veld staan.
Dat is genoeg voor een WOB verzoek of iets dergelijks. Daar is de database ook voor.

Hoe zou jij het aanpakken dan?
Niet heel anders, al had ik van platformen verwacht inhoudelijker te zijn in hun details. Op de vraag "is dit een privacyrisico voor burgers" acht ik dit voldoende om aan te geven dat er vanuit deze database niets te vrezen valt.
Waardeloze DB qua content, maar een technisch hoogstandje qua verwerking submits.
Wat had je dan verwacht, dat men content die vaak in gaat tegen privacy regels, die kwetsbaar of schadelijk kan zijn of die illegaal kan zijn allemaal gaat publiceren in 1 grote publieke database?
Ja. Want nu heb je een lijst die aangeeft dat men content verwijdert. Voor transparantie, publieke controle, wil je kunnen controleren welke content men verwijdert.
men wil het niet op internet hebben, dus wil jij op internet hebben, wat men niet op internet wilt hebben?
Hoe zie je dat voor je? Dat deze bedrijven een supergrote database bijhouden met alle kinderporno, haat en onzin die ze voorbij zien komen?
Nee beter nog, dat de EC de grootste database ooit met kinderporno en haatdragende berichten publiceert!
Mooi training materiaal voor chatgpt
Ja (min KP).

Dit is geen "men (als in iedereen) wil het niet op het internet (als in waar dan ook) hebben", Social media platforms willen het niet op hun eigen platform hebben. Dat is heel wat anders.

De berichten op Facebook, YouTube, Twitter, etc. Hebben bereik: het wordt algoritmisch opgediend aan Jan en alle man en/of gericht aan bepaalde personen. Dat is inderdaad toxistisch voor het Social media platform, en dat wil je daar ook redelijkerwijs niet hebben.

Maar deze database is geen Social media platform: je wordt niet algoritmisch de meest interessante of trending berichten gevoerd. Je kan niet berichten gericht naar gebruikers sturen. Je kan het niet upvoten, commenten of anders sinds de populariteit van de content afwegen of verhogen. Het is enkel een stapel van de content die Social media platforms niet willen hebben, met nagenoeg geen verdere context of interactiviteit.

Laat daar maar de rasistische scheldcannonades staan. Laat daar de meest haatvolle beledigingen of ontspoorde complottheorieën zien. Wat maakt het uit? De enige manier om er aan blood gesteld te worden, is moedwillig het opzoeken. En zelfs dan is het, door een beperkt live overzicht en gebrek aan ingebouwd zoekfunctie of algoritmische doorverwijzing naar soortgelijke content, niet effectief bruikbaar om te radicaliseren.

Als je dat doet, dan bewijs je ten minste dat de moderatie acties daadwerkelijk doelgericht zijn op echte excessen. Dan haal je de twijfel weg over "Facebook verwijderde een haatvol bericht, maar ging het om doodsbedreigingen of onwelvallige politieke opinie?".

Zoals het nu is, is het een wassen neus wat betreft transparantie. Het bevat dan wel de interne reden voor verwijdering, maar er is absoluut geen mogelijkheid om te controleren of die redenen wel redelijk zijn voor de verwijderde content, of dat een FB gewoon te pas en te onpas het stempel 'rasistisch haatzaaien' gebruikt. Het is niet veel beter dan een verzameling van 'your content violated our community guidelines' berichten.

[Reactie gewijzigd door wild_dog op 22 juli 2024 15:35]

klopt helemaal, daar sloeg ook mijn waardeloos op. Met die generische boodschappen is niemand wat.

Maar ik wil wel een kleine nuance toevoegen: de verwijderde content is nog steeds beschikbaar binnen de platformen. Deze DB dient helemaal niet om te gaan controleren wie de poster was, wat de content was, en dat was ook nooit de bedoeling. Dit was echt bedoeld als een soort audit trail, maar met motivaties ipv content. Want zoals iemand al aan gaf, de EC wil echt niet de grootste host van kinderporno en hatespeech worden en deze vrij beschikbaar stellen... Ze zouden dit natuurlijk in een afgeschermde DB kunnen doen, maar het opzet was hier transparantie..
Idd beetje absurd, dit is ruim voldoende voor de persoon om zelf te zien hoe/wat/waarom.
Daar dient deze DB helemaal niet voor, de bedrijven dienen hier enkel te loggen dat ze een moderatie hebben uitgevoerd, en waarom.
Staat dus helemaal niet in waarmee het in strijd is. Alleen een algemeen begrip. Met andere woorden, het is een nietszeggend document waar geen enkele conclusie aan verbonden kan worden omtrent de legitimiteit van de verwijdering.
Deze database gaat het wereldrecord "grootste database zonder inhoudelijke informatie" breken.
Al deze techbedrijven zijn kampioen in vaag blijven.
Nietemin, aantal moderaties per platform, per platform in een categories. Al dan niet automatisch of handmatig. Verpreid over tijd.

Ik kan daar nuttige informatie uit halen. Bijvoorbeeld of er upticks zijn bij bepaalde internationale gebeurtenissen of landen met gebeurtenissen.

Je kan ook een indruk krijgen als een bedrijf dingen meld over zijn moderatie.

Het is zeker dat die bedrijven koning vaag zijn. Wellicht wat extra wet voor verduidelijking, maakt het echter niet meteen totaal waardeloos.
Klopt. Het gaat inderdaad waarschijnlijk vooral inzicht geven in moderatie in relatie met nationale en internationale gebeurtenissen.
Stel bijvoorbeeld dat Belarus besluit om Polen binnen te vallen.
En Rusland spammed propaganda en anti-Poolse berichten via niet-Russische accounts.
Dan zal het aantal moderaties op de bijbehorende categorie toenemen.
Dus dan weet men in de EU dat er iets mee/tegen gedaan wordt.
Dit zal ook laten zien of het algoritme wat websites gebruiken nog wel efficiënt is.
Als deze spike in moderatie bijvoorbeeld wel plaatsvind op Facebook, maar niet op TikTok, dan gaat er of bij 1 van de twee iets niet goed, of TikTok vind die content wél ok.
Neem als voorbeeld Chinese misinformatie over de Vernigde Staten.
Een niet illegaal image maar wel weg.. zie voorbeeld.
Jammer, ik weet niet of het bij alle records is -ik verwacht bij 90% of meer- maar de reden is wederom: You know what you did! Ik wil naam en paard (van de overtreding, niet persoon of bedrijf)
Zeker als het geautomatiseerd is zoals in het voorbeeld zal die reden bekend zijn.

De "TOs zegt dat het niet mag" vind ik in dit verband totaal nutteloze informatie.
Er zal code op bepaalde criteria zijn getriggerd. Waarom staat dat er niet ook verplicht bij?
Het zou ook nog wel mooi zijn als toegevoegd zou worden of er bezwaar is gemaakt tegen de verwijdering en wat daar dan uiteindelijk het resultaat van was. Ik denk dat dat iets wat nu nog heel vaak fout gaat, iets wordt verwijderd, je maakt bezwaar, maar ook dat wordt dan weer geautomatiseerd afgehandeld, dat moet m.i. niet de bedoeling zijn.
Ik zie in deze ontwikkeling een eerste stap naar een soort van censuur.
Wie stelt de regels op en op basis van welke ethiek?
Wat vandaag als normaal word aanzien kan in korte tijd tot vervolging komen.
Dan moet er tegelijkertijd ook bij staan: of die druk er was voor die ene specifieke post, of dat die druk er in het algemeen is vanwege EU-wetgeving. Dat is nl. een wereld van verschil.
Als ik het goed zie, kan men trouwens al aangeven of het n.a.v. wetgeving is. Dit zou men nl. bijv. in het veld 'Facts and cirumstances...' of in het veld 'Is the content considered as illegal?' kunnen zetten.

Op dit item kan niet meer gereageerd worden.