'Scrapingsite van Rus met 4,3 miljoen bestanden schendt privacy'

In samenwerking met een Nederlandse onderzoeker heeft RTL Nieuws de site docplayer onderzocht, die 4,3 miljoen documenten zou hosten. De site verzamelt die door andere sites te scrapen. Volgens de Autoriteit Persoonsgegevens schendt de site daarmee de privacy van personen.

De toezichthouder reageert net als met de politie en het NCSC tegenover RTL Nieuws. Volgens de organisaties is wat de site doet niet toegestaan. Niet alleen zou de privacy worden geschonden, maar ook zou het auteursrecht in het geding komen omdat de bestanden zonder toestemming aan de verzameling van de site worden toegevoegd. RTL schrijft dat er onder meer ingevulde belastingaangiftes van Nederlanders op de site te vinden zijn.

De nieuwsorganisatie werkte samen met onderzoeker Sijmen Ruwhof, die een blogpost aan zijn bevindingen heeft gewijd. Daarin maakt hij een schatting van de omvang van de site en de inkomsten. Zo zou het verkeer de via whois-informatie gevonden Russische eigenaar ongeveer een miljoen dollar per jaar kunnen opleveren. Op de site zouden vooral pdf- en Office-documenten te vinden zijn. Er is een uploadfunctie, maar volgens Ruwhof werkt deze niet en is de site er alleen op gericht dat bezoekers inkomsten opleveren via advertenties.

Docplayer en zustersite slideplayer zouden wel een goed werkende takedown-procedure hebben waarmee bepaalde bestanden verwijderd kunnen worden. Ruwhof schrijft dat het gehele netwerk van sites zich uitstrekt over 45 domeinen in 19 verschillende landen. Hosting zou in Duitsland plaatsvinden op 42 servers. Het lukte RTL Nieuws niet om een reactie van de Russische eigenaar te krijgen.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Sander van Voorst

Nieuwsredacteur

Feedback • 29-09-2017 20:19
57 • submitter: drdray29

29-09-2017 • 20:19

Submitter: drdray29

Lees meer

Minister: geen actie tegen scrapingsite van Rus met 4,3 miljoen bestanden Nieuws van 10 november 2017

Organisaties hoeven geen melding meer te doen als ze persoonsgegevens verwerken Nieuws van 6 november 2017

Rechter verbiedt LinkedIn om scrapen publieke profielgegevens te verhinderen Nieuws van 15 augustus 2017

StemWijzer gaf inzicht in alle gegeven stemadviezen - update 2 Nieuws van 7 februari 2017

Ticketscript-database gaf toegang tot data kwart miljoen concertbezoekers Nieuws van 21 december 2016

Student ontdekt lek in studenteninformatiesysteem HvA en UvA Nieuws van 20 juni 2016

Meer producten en artikelen

Internet Privacy

IT-banen

Meer vacatures

Reacties (57)

-Moderatie-faq

Wijzig sortering

mexicanburribo 29 september 2017 20:27

Ik heb weleens een onderzoek van mij op de site zien staan. Deze was echter wel volgens de pagina geupload door een bepaalde gebruiker. Al zou het uiteraard ook kunnen dat dit fake is, en dit een random generated user is. Vervolgens een takedown request naar de site gestuurt waarna alles netjes in ieder geval onzichtbaar voor het publiek is gemaakt

Verwijderd @mexicanburribo • 29 september 2017 21:42

Daarom kan zo'n site juist ààn onderzoek bijdragen. Al moet je verifiëren of & waar de 'echte bron' online is. M.i. is het grote verschil met het oudere TV-tijdperk dat ook negatieve publiciteit dankzij internet 'reclame' is. N.b. kan het goed zijn dat de WHOIS informatie ook foutieve informatie is want het is een NL-talige site. Als je nagaat dat steeds meer onderzoek achter (betaal)muurtjes verdwijnt zie ik vooral visie als reactie daarop.

Doordat alle tekst tevens is ge-OCR'd doorzoekt het vrij uniek t.o.v. dat je veel ruisresultaten zou Googelen. Uiteraard heb je het wel bij het rechte eind over het op verzoek onzichtbaar maken. Inherent aan het sociale web is je recht om je privacy te managen. Fictieve uploadvermelding kan ook SEO-optimalisatie zijn. Legaal tot het tegendeel dus is bewezen. Mits je je eigen rechten kunt beheren en dat het 'compliant web schraapt'.

Vizzie @Verwijderd • 30 september 2017 07:37

Ik heb een beetje moeite met verzoeken voor takedowns of het nu op deze site is of ergens anders.

Een platenmaatschappij bijvoorbeeld heeft de middelen om veel in de gaten te houden en takedown verzoeken te automatiseren, maar ik niet.

Men lijkt er vannuit te gaan dat je alles maar mag scrapen en voor je eigen gewin mag gebruiken als je maar zo'n takedown procedure hebt. Dat vereist dat iedereen die zijn of haar info niet op zo'n site wil hebben al die sites actief in de gaten moet houden en verzoeken moet sturen. Wie heeft daar nou tijd voor of zin in?

Naar mijn mening zou het juist "nee, tenzij iemand expliciet toestemming geeft" moeten zijn in plaats van "ja, mits je het maar weghaalt als iemand er achterkomt dat je het hebt en daarom vraagt".

Natuurlijk moet je zelf ook het maximale doen om te voorkomen dat je info op zo'n site kan komen, maar zodra je gegevens moet delen met derden voor je werk ofzo moet je ook maar weer hopen dat zij en degenen waarmee zij delen hetzelfde met jouw gegevens omgaan.

[Reactie gewijzigd door Vizzie op 23 juli 2024 05:40]

koelpasta @Vizzie • 30 september 2017 13:01

Natuurlijk moet je zelf ook het maximale doen om te voorkomen dat je info op zo'n site kan komen, maar zodra je gegevens moet delen met derden voor je werk ofzo moet je ook maar weer hopen dat zij en degenen waarmee zij delen hetzelfde met jouw gegevens omgaan.

Daarbij moet dus worden geconcludeert dat het probleem vooral aan de brakheid van basisbeveiliging in onze digital samenleving ligt.

WPN @Vizzie • 30 september 2017 13:42

Met je eens... echter blijkbaar is het mogelijk om rechtzaken te starten als je de informatie van jouw site weer beschermd (linkedin)

n4m3l355 @Vizzie • 30 september 2017 18:29

Dit is natuurlijk wel erg lastig. Ik snap wel waar je heen gaat maar als iets opgezet/gehost wordt in een land waar dit wel mag, hoe ga je hier dan mee om? Of in dit geval een Russische ontwikkelaar die het host in Duitsland ga daar maar eens aan de deur kloppen. Nu is het zo dat de EU met grote sites hier wel mee aan tafel zit en duidelijk met de regelgeving probeert te zijn. Echter met relatief kleine sites is dit natuurlijk veel lastiger.

gjmi @Verwijderd • 30 september 2017 19:13

Het zou niet moeten zijn dat ik zelf moet uitvinden welke websites mijn docs misschien gescraped hebben en dan een takedown verzoek indienen? Dat is de omgekeerde wereld.

Em!L 30 september 2017 10:11

Laten ze maar een onderzoek doen naar wat onze eigen overheid van plan is te doen met de introductie van de sleepwet, en hoe dat de privacy in het gedrang brengt.

Vergeet dan vooral niet de invoer van de GDPR waarbij het voor elk bedrijf verplicht is in kaart te brengen welke persoonsgegevens het verwerkt worden en deze bij voorkeur geautomatiseerd op moet kunnen hoesten in een leesbaar formaat. Recht van inzage.

Recht van inzage door onze eigen overheid die met deze wet ook ‘recht van inzage’ heeft op alles.

Halleluja, gaan we ons druk maken om een druppel water terwijl er aan de andere kant met emmers vol gegooid wordt.

Een Rus met 4,3 mln pdf bestandjes, jippy cay yee motherfucker.....

Teken het sleepwet referendum, NU!

Verwijderd 30 september 2017 11:26

Als de auteur wat meer onderzoek had gedaan had deze gezien dat dit valt onder myshared.ru. Ik vind het ook nog steeds onbegrijpelijk dat als men onderzoek doet men niet even de moeite neemt om dat te doen in de eigen taal. Het is een rus dus doe je dat in het russisch en als je de taal niet machtig bent vraag je hulp? Heel leuk om dan dingen te googlen maar men googled niet in Rusland, als je iets wil weten gebruik je yandex.

Ik heb niet verder gekeken maar de klachten die men uit heeft men ook in het thuisland. Slechte site, documenten moeilijk of niet te downloaden maar takedown verzoeken worden erg snel ingewilligd. Nou ja iets met storm, glas water enzo. Dit vond ik dan ook wel weer geinig: "One of the most visited sites in the world" als titel en vervolgens: "According to Alexa the site is ranked as the 209,334 most visited site in the world, and the 3,945 most popular site in The Netherlands."

Ik hoop voor de heer Ruwhof dat hij hier een leuk zakcentje mee heeft verdiend want erg diepgravend is het onderzoek niet geweest en daar kan nooit veel tijd in gestoken zijn. Overigens vind ik de klacht ook een beetje vreemd aangezien men zelf de vrijheid neemt een (welliswaar van google maps) foto van het appartement van de eigenaar (is dat zo? Wellicht staat het alleen op zijn naam) te plaatsen en zelfs ongevraagd langs te gaan. Het zal aan mijn normen en waarden liggen maar dat gaat mij toch een stap te ver....

[Reactie gewijzigd door Verwijderd op 23 juli 2024 05:40]

sijmen-ruwhof @Verwijderd • 2 oktober 2017 03:44

Ik ben de onderzoeker waar je het over hebt. Je hebt exact dezelfde comment ook op mijn weblog achter gelaten en dat lokt een reactie bij me uit. Je hebt geen idee waar je het over hebt. Aangezien je publiek je kritiek uit, en mensen hier op reageren, vind ik een correctie wel op zijn plaats.

> Als de auteur wat meer onderzoek had gedaan had deze gezien dat dit valt onder myshared.ru.

myshared.ru is één van de vele SlidePlayer websites van Vladimir en niet een overkoepelende website. Ik benoem myshared.ru ook expliciet in mijn artikel, maar die heb je niet goed gelzen..

> Ik hoop voor de heer Ruwhof dat hij hier een leuk zakcentje mee heeft verdiend want erg diepgravend is het onderzoek niet geweest

Ik heb dit onderzoek vrijwillig gedaan en krijg hier niet voor betaald vanuit RTL Nieuws. Je aanname dat ik hier "een leuk zakcentje mee heeft verdient" klopt dus van geen kant.

> Ik vind het ook nog steeds onbegrijpelijk dat als men onderzoek doet men niet even de moeite neemt om dat te doen in de eigen taal. Het is een rus dus doe je dat in het russisch en als je de taal niet machtig bent vraag je hulp?

Zelf spreek ik geen Russisch en ga hier ook niet iemand voor inhuren om mijn verslag te vertalen aangezien ik hier al veel vrije tijd in heb gestoken. Er bestaat zoiets als Google Translate tegenwoordig en die weten de Russen ook wel te vinden.

> Overigens vind ik de klacht ook een beetje vreemd aangezien men zelf de vrijheid neemt een (welliswaar van google maps) foto van het appartement van de eigenaar

De informatie die ik van Vladimir gepubliceerd heb is allemaal openbare informatie. Ik link in mijn weblog wat open bronnen aan elkaar.

> is dat zo? Wellicht staat het alleen op zijn naam) te plaatsen en zelfs ongevraagd langs te gaan.

Ja dat is zo. Omwonenden hebben het bevestigd. Staat ook in het artikel wat je niet goed gelezen hebt.

> Dit vond ik dan ook wel weer geinig: "One of the most visited sites in the world" als titel en
> vervolgens: "According to Alexa the site is ranked as the 209,334 most visited site in the
> world, and the 3,945 most popular site in The Netherlands."

Met onderstaand punt van je weer duidelijk gemaakt dat je niet mijn hele weblogartikel goed hebt gelezen. In het artikel staat duidelijk verderop genoemd: "slideplayer.com is ranked as the 6,047 and myshared.ru is ranked as 11,806 most visited site in the world.".

Jammer dat je met zoveel aannames, door vluchtig en verkeerd lezen een hele stellige mening inneemt, want er klopt niets van.

Wh4ck0 @sijmen-ruwhof • 2 oktober 2017 11:38

"Zelf spreek ik geen Russisch en ga hier ook niet iemand voor inhuren om mijn verslag te vertalen aangezien ik hier al veel vrije tijd in heb gestoken. Er bestaat zoiets als Google Translate tegenwoordig en die weten de Russen ook wel te vinden."

Slecht argument hoor, hij zegt niet dat je iemand moet inhuren om je verslag te vertalen, maar om meer onderzoek in het russisch te doen zodat je wat meer via de russische kanalen informatie krijgt.
Ik weet zeker dat als je een soortgelijk onderzoek zou doen via amerikaanse nieuwswebsites in het engels over een Nederlands bedrijf, dat je veel minder informatie vindt, dan als je Nederlandse websites zou bezoeken.
Ik snap wel dat je daar misschien niet het budget voor hebt, en dat kan natuurlijk, maar ik vind niet dat je het argument daarmee onderuit kunt trappen.

MrFax @Verwijderd • 30 september 2017 22:59

Als je de blog leest staat er dat een correspondent van RTL News is langsgeweest en dat omwonenden bevestigd hebben dat hij daar woont. Het staat dus niet "alleen op zijn naam".

[Reactie gewijzigd door MrFax op 23 juli 2024 05:40]

Wh4ck0 @MrFax • 2 oktober 2017 11:57

EDIT: sorry verkeerd gelezen.

[Reactie gewijzigd door Wh4ck0 op 23 juli 2024 05:40]

supersnathan94

Privacy
Internet

30 september 2017 15:02

Ben ik de enige die zich afvraagt waarom er belastingaangiftes staan?

RTL schrijft dat er onder meer ingevulde belastingaangiftes van Nederlanders op de site te vinden zijn.

Hoe kan dit? Is het niet beter om daar onderzoek naar te doen? Gaat er iets fout bij de belastingdienst? Zijn er private belastingkantoren/accountants die iets fout doen of zijn dit gewoon random nederlanders die geen idee hebben waar ze mee bezig zijn?

Het klinkt namelijk alsof er iets goed fout gaat en dat daar dan niet verder naar gekeken gaat worden.

millman @supersnathan94 • 1 oktober 2017 04:29

Dit dus.. behalve jij haalt niemand dit aan.. alsof het normaal is dat een Rus belastingdienst informatie scraped.. daar gaat de verdediging van je privacy.. blunder zoveel..

supersnathan94

Privacy
Internet

@millman • 1 oktober 2017 08:57

Dat hij het scraped is nog tot daar aan toe, maar als hij het kan kunnen anderen het natuurlijk ook. Google dan dus bijvoorbeeld ook.

Dat het überhaupt kan is veel erger dan dat het ook daadwerkelijk gebeurt. En dat RTL er verder niets mee doet is nog slechter.

rjberg 29 september 2017 20:39

Geldt dit dan ook voor de wayback machine? Die werkt toch aardig hetzelfde, behalve dat het hier om websites gaat.

David Mulder @rjberg • 29 september 2017 21:02

Eén groot verschil is dat archive.org expliciet een non profit is zonder advertenties of iets dergelijks. Dat, plus hun enigszins nobele doel zorgt ervoor dat niemand te erg over hun klaagt buiten officiële takedown verzoeken om. Google cache is een andere site die het ook doet natuurlijk, en die doet het zelfs met winstoogmerk, dus dat is in principe nog meer vergelijkbaar.

Jerie

@David Mulder • 29 september 2017 23:32

Google Cache kun je door Google laten verwijderen, of voorkomen dat het wordt aangemaakt. Volgens mij wordt dat auto verwijdert als het origineel niet meer bestaat. Da's heel iets anders dan de archive.org snapshots.

David Mulder @Jerie • 30 september 2017 01:00

En je kunt ook heel makkelijk DCMA requests naar archive.org sturen (die ze snel afhandelen) en blijkbaar ook naar deze rus (die het dan ook snel neer haalt). Dus dat klinkt allemaal toch echt wel flink vergelijkbaar... echter natuurlijk niet hetzelfde.

Jerie

@David Mulder • 30 september 2017 01:53

Google en archive.org schenden redelijkerwijs de wet niet.

Dat is bij iets als TPB of een scrapingsite makkelijker te betwisten. Het gros van het aanbod linkt immers naar auteursrechtgeschonden materiaal.

David Mulder @Jerie • 30 september 2017 11:53

Archive.org WBM is letterlijk een scrapingsite... en Google cache is dat op zich ook. Ze hosten allemaal naar auteursrechtelijk beschermd materiaal.

question @David Mulder • 30 september 2017 17:12

Archive.org WBM is letterlijk een scrapingsite... en Google cache is dat op zich ook. Ze hosten allemaal naar auteursrechtelijk beschermd materiaal.

Wanner je het Artikel 89 in de Algemene Verordening Gegevensbescherming (AVG) erbij pakt zie je dat het verzamelen van persoonsgegevens in het kader van archivering in enkele gevallen is toegestaan.

1. De verwerking met het oog op archivering in het algemeen belang, wetenschappelijk of historisch onderzoek of statistische doeleinden is onderworpen aan passende waarborgen in overeenstemming met deze verordening voor de rechten en vrijheden van de betrokkene. Die waarborgen zorgen ervoor dat er technische en organisatorische maatregelen zijn getroffen om de inachtneming van het beginsel van minimale gegevensverwerking te garanderen. Deze maatregelen kunnen pseudonimisering omvatten, mits aldus die doeleinden in kwestie kunnen worden verwezenlijkt. Wanneer die doeleinden kunnen worden verwezenlijkt door verdere verwerking die de identificatie van betrokkenen niet of niet langer toelaat, moeten zij aldus worden verwezenlijkt.
2. Wanneer persoonsgegevens met het oog op wetenschappelijk of historisch onderzoek of statistische doeleinden worden verwerkt, kan in het Unierecht of het lidstatelijke recht worden voorzien in afwijkingen van de in de artikelen 15, 16, 18 en 21 genoemde rechten, behoudens de in lid 1 van dit artikel bedoelde voorwaarden en waarborgen, voor zover die rechten de verwezenlijking van de specifieke doeleinden onmogelijk dreigen te maken of ernstig dreigen te belemmeren, en dergelijke afwijkingen noodzakelijk zijn om die doeleinden te bereiken.
3. Wanneer persoonsgegevens met het oog op archivering in het algemeen belang worden verwerkt, kan in het Unierecht of het lidstatelijke recht worden voorzien in afwijkingen van de in de artikelen 15, 16, 18, 19, 20 en 21 genoemde rechten, behoudens de in lid 1 van dit artikel bedoelde voorwaarden en waarborgen, voor zover die rechten het verwezenlijken van de specifieke doeleinden onmogelijk dreigen te maken of ernstig dreigen te belemmeren, en dergelijke afwijkingen noodzakelijk zijn om die doeleinden te bereiken.
4. Wanneer verwerking als bedoeld in de leden 2 en 3 tegelijkertijd ook een ander doel dient, zijn de afwijkingen uitsluitend van toepassing op verwerking voor de in die leden bedoelde doeleinden.

[Reactie gewijzigd door question op 23 juli 2024 05:40]

David Mulder @question • 30 september 2017 17:28

Paar dingen om te beseffen hier:

Zover ik begrijp is hetgeen je quote enkel een statement dat er op Europees of Nederlands niveau een uitzondering mag worden gemaakt.
3. Wanneer persoonsgegevens met het oog op archivering in het algemeen belang worden verwerkt, kan in het Unierecht of het lidstatelijke recht worden voorzien in afwijkingen van de in de artikelen [...] genoemde rechten
En zover ik weet is er geen enkele uitzondering van dit type die voor WBM zou gelden.
Hier is een heel algemene enginszins oude analyse betreffende de legaliteit van Google Cache en WBM door een duitse rechtsgeleerde (werd gelinkt op wikipedia onder legal status of WBM). Zijn conclusie is dat het een schending is van bepaalde duitse wetten.
Ook Docplayer presenteerd zich als 'electronische bibliotheek' op z'n homepage

[Reactie gewijzigd door David Mulder op 23 juli 2024 05:40]

watercoolertje @David Mulder • 30 september 2017 11:07

Als je iemand vermoord en het niet voor het geld doet is het niet erg? Okee nogal overdreven versie van wat je nu zegt, maar in grote lijnen nogal gek statement dat je als het non-profit is ineens niet meer aansprakelijk bent voor wat je doet

David Mulder @watercoolertje • 30 september 2017 12:02

Wat ik stelde was enkel dat dat een significant verschil is. Neem bijvoorbeeld zo iets als de vertalingen van unlicensed comics uit Japan. Het is sowieso een erg donkergrijs gebied, maar zolang je het onbetaald doet vindt iedereen het prima, echter zodra je ze hier in de winkel gedrukt zou proberen te verkopen zul je binnen de kortste keren in de problemen zitten. Hetzelfde verhaal met het verkopen van mods voor games trouwens.

De realiteit is dat zowel 'de gewone man', als bedrijven en de rechtspraak echt wel kijken naar intenties. In jouw extreme versie is het inderdaad erger om iemand te vermoorden voor geld (moord met voorbedachte rade of hoe dat ook hete op z'n Nederlands). Met moord is de minder erge versie echter nog steeds extreem erg, terwijl met dingen als archíve.org, onbetaalde mods en die onbetaalde fan vertaalde comics iedereen het wel prima vindt.

Timoo.vanEsch @watercoolertje • 30 september 2017 14:05

Hmmm...
Wel binnen proportie blijven he.
Dit is meer alsof iemand bij jou is binnengewandeld, een kopie heeft gemaakt van een aantal documenten op tafel en deze probeert aan de man te brengen. Fout, maar niet te vergelijken met moord...

Chopp 29 september 2017 20:38

Foute manier om geld te verdienen.
Maar die Nederlandse belasting documenten zijn dan ergens op een andere site openbaar gezet. Het zou mij niks verbazen dat mensen hun eigen documenten online zetten om die te delen met een bedrijf of iemand.

NullCrayfish @Chopp • 29 september 2017 23:53

Of een foutje op belastingdienst.nl

CivLord

@NullCrayfish • 3 oktober 2017 09:26

Dat zou dan groot in de Telegraaf (en andere kranten) hebben gestaan. Zo'n fout zou niet lang onopgemerkt zijn gebleven.
Het zullen eerder aangiften zijn die door gebruikers per ongeluk op een openbaar toegankelijk deel van een cloud-storage site hebben gezet. Of in een map die toegankelijk is/ was voor peer-2-peer clients.

Verwijderd 29 september 2017 20:39

Volgens de Autoriteit Persoonsgegevens schendt de site daarmee de privacy van personen.

Intussen gaan we in Nederland gewoon door met de sleepnetplannen voor AIVD en co.

Skit3000

29 september 2017 20:45

Technisch gezien zit op elk werk dat je maakt auteursrecht. Dus zelfs als je expres jouw document ergens online zet en toestemming geeft aan één bepaald persoon om dit te bekijken, wordt de kopie van dit bestand via verschillende servers verzonden (gekopieerd) voordat het bij de daadwerkelijke ontvanger aankomt. RTL Nieuws zou dáár eens achteraan moeten gaan.

-Einde sarcasme-

ExtendedCaesar @Skit3000 • 30 september 2017 09:19

Fair use

RoestVrijStaal 29 september 2017 20:57

Ik snap het gefoei en gezuurpruim in het artikel en comments niet. Wat doet WayBackMachine e.d. anders dan docplayer.nl? Er wordt gedaan alsof dataverkeer en hosting gratis is en de zogenoemde Rus in het geld zwemt

Daarnaast hebben we het nu allemaal over een schrijfsel van een bedrijf dat financiële baat heeft bij het "opblazen" van nieuws: RTL

[Reactie gewijzigd door RoestVrijStaal op 23 juli 2024 05:40]

TimBee 30 september 2017 12:09

In GDPR terminologie is Docplayer een "verwerker" die zonder overeenkomst met de verwerkingsverantwoordelijke persoonsgebonden data beschikbaar maakt. De data staat in de EU, maar de organisatie heeft zijn zetel buiten de EU. Je zou kunnen stellen dat de EU gelokaliseerde verwerkingsverantwoordelijken vanwaar de data is gekopieerd kunnen spreken van een lek, en aangifte moeten doen.

[Reactie gewijzigd door TimBee op 23 juli 2024 05:40]

Op dit item kan niet meer gereageerd worden.

Uitnodiging gebruikerstest in Amsterdam

Lees meer

IT-banen

Reacties (57)

Sorteer op:

Weergave: