LinkedIn: dataset van 500 miljoen gebruikers die te koop staat is gescrapet

Op een populair hackersforum worden de gegevens van vijfhonderd miljoen LinkedIn-gebruikers aangeboden, die volgens LinkedIn via scraping zijn verkregen. Volgens het platform gaat het om openbaar beschikbare data en is er geen sprake van een datalek.

De hacker claimt de gegevens van 520 miljoen LinkedIn-gebruikers te hebben en 500 miljoen 'andere data'. In de dataset staan de voor- en achternamen van gebruikers, de woonplaats en -land, e-mailadres, huidige werkfunctie, waar ze in het verleden hebben gewerkt en welke diploma's ze hebben. In een voorbeeldset wordt gesproken over telefoonnummers, al is dit veld in de voorbeeldset wel leeg. Hoeveel de hacker wil voor de dataset is niet bekend, al stond er eerder in zijn post dat hij er minstens duizend dollar voor wilde hebben.

In een reactie stelt LinkedIn de data te hebben bekeken en te concluderen dat de data van meerdere websites en bedrijven komt. Tussen de informatie zit 'publiekelijk leesbare gebruikersdata' die ogenschijnlijk van het platform is gescrapet. LinkedIn ontkent dat er sprake is van een datalek en benadrukt dat er geen LinkedIn-privédata in de dataset zit. Het scrapen van data is in strijd met LinkedIns voorwaarden en het bedrijf zegt deze vorm van dataverzameling te willen tegenhouden. Of LinkedIn gebruikers actief gaat waarschuwen is niet duidelijk; Facebook zei eerder deze week bij een vergelijkbare dataset dit niet te doen.

De Italiaanse privacywaakhond Il Garante per la protezione dei dati personali zegt een onderzoek te starten naar het datalek. De waakhond waarschuwt mensen die het bestand willen kopen ook dat het bezitten van deze persoonlijke informatie waarschijnlijk illegaal is. LinkedIn-gebruikers worden daarnaast gevraagd op te letten op onregelmatigheden met het telefoonnummer en hun LinkedIn-account.

Door Hayte Hugo

Redacteur

09-04-2021 • 10:46

111

Submitter: icratox

Lees meer

Reacties (111)

Sorteer op:

Weergave:

Ik het verleden een keer een minor gedaan waarbij we onderzoek mochten doen naar politieagenten middels Open-source intelligence (OSINT).

We hebben als start punt de website van de politie zelf gebruikt en zijn vanaf daar gaan zoeken en je zal echt schrikken hoeveel je dan kan vinden. We hadden één agent die online best lastig te vinden was maar die was ergens in een bericht van iemand anders getagd en op die manier wisten we toch zijn adres te achterhalen. Soms voor de gein doe ik ook wel eens OSINT gegevens verzamelen voor vrienden en die worden dan boos dat je bepaalde dingen over ze te weten komt :Y) .

Als de dataset echt op basis van 'scraping' is verkregen dan kun je er maar 1 ding tegen doen en dat is je informatie online beperken of eigenlijk accepteren dat mensen die informatie over je te weten komen :X .
Grootste probleem hier heb je reeds aangehaald. Jij zelf kan zoveel mogelijk zorgen dat je data niet op het net komt, iemands anders doet het wel in jou plaats.

Zelf geen FB, ik kan vanaf google wel foto's van mezelf op FB vinden. Was op n gegeven moment zelfs mogelijk mn GSM nummer te laten zien op FB, hoewel ik deze nooit gegeven heb. Je moet maar een familielid of vriend hebben die Ja klikt op de vraag: "Wil je automatisch contacten toevoegen." en je gegevens worden gedeelt zonder jou toestemming. Erger nog, zonder jou medeweten.

Al jaren ben ik uiterst voorzichtig met wie ik mijn gegevens deel. Dit nadat ik als naief mens m'n e-mail deelde met m'n bank en daarna bestookt werd met advertenties van bedrijven die m'n e-mail van de bank kreeg.

Een ander hekel punt is je werkgever dat je gegevens zomaar mag delen. Weet niet of dit nog altijd mag door GDRP maar ik vermoed van wel. Zo heeft FB wel een redelijk accuraat werkgeschiedenis van mij omdat de bedrijven waar ik voor werkt allemaal Workspace gebruikte en zonder mijn expliciete toestemming m'n gegevens deelde met FB. Enquetes van de werkgever is nog zo'n punt. Allemaal externe firma's die wel mijn gegevens doorgespeeld krijgen. Zonder mijn expliciete toestemming.
Even formeel, het zijn niet jouw foto's, maar foto's van de ander waar jij op staat afgebeeld.

Er zijn (gelukkig) wel beperkingen (vanuit privacy, en portret recht), maar dus niet jouw foto's in de zin van eigendom.

En juist dat maakt het lastig: het niet eigenaar zijn van data die over jou gaat.
als je dan verder gaat moet je ook eerst de toestemming hebben van iedereen op een foto of diens voogd om ze te maken en te verspreiden. Zo misbruiken bedrijven hiaten in de privacywetgeving door individuen verantwoordelijk te stellen voor gegevens die tot de privé-sfeer behoren in hun datasets te laten uploaden.
als je dan verder gaat moet je ook eerst de toestemming hebben van iedereen op een foto of diens voogd om ze te maken en te verspreiden.
Enkel met publiceren. Als ik een foto van de eiffeltoren maak, maar jij loop toevallig in de verte in beeld, dan kan jij je als burger niet beroepen op potretrecht om mij te dwingen toestemming te vragen voor de foto van de eiffeltoren. Als ik een foto van jou maakte, dan wel. Maar ook alleen als ik die foto publiceer.

Publiceren is dan weer een hele andere discussie.


EDIT: Dit geld trouwen voor publieke ruimtes zoals het schoolplein of in een winkel in de stad.

[Reactie gewijzigd door odiw op 22 juli 2024 16:35]

wat facebook met foto's en data van jou doet valt misschien niet onder het publicatierecht, maar dat wil niet zeggen dat iedereen jouw gegevens zomaar mag gaan uitdelen aan bedrijven die er daarna commercieel mee aan de slag gaan.

trouwens foto's van de eifeltoren mag je niet publiceren, bekijk deze leuke video erover (maar niet ervan :+ ) maar eens: https://www.youtube.com/watch?v=M16CGK1T9MM
De eigenaar moet toestemming of een andere grondslag hebben inderdaad, maar dat is alleen als de eigenaar een niet-natuurlijk persoon is.
Je moet maar een familielid of vriend hebben die Ja klikt op de vraag: "Wil je automatisch contacten toevoegen." en je gegevens worden gedeelt zonder jou toestemming. Erger nog, zonder jou medeweten.

En met al die vrienden en familieleden bij elkaar hebben ze gewoon álles. Het ene familielid heeft je verjaardag in de contactinfo staan en een ander familielid je adres. Al die contactlijsten bij elkaar die ze moeten uploaden om Messenger te kunnen gebruiken is een volledig profiel, ondanks je zelf nooit op heel Facebook bent geweest.
Een ander hekel punt is je werkgever dat je gegevens zomaar mag delen. Weet niet of dit nog altijd mag door GDRP maar ik vermoed van wel.
Nee dit mag helemaal niet onder de AVG, zie de AP. Ook 'interne' gegevens over eigen werknemers moet je in kaart brengen waarvoor het wordt gebruikt, en mogen alleen gebruikt worden voor redelijke doelen.

Dat ze je werk e-mailadres ergens in een (extern) systeem zetten lijkt me niet zo'n punt (mits ze een verwerkersovereenkomst afsluiten uiteraard), maar zeker bij een privé-emailadres of privé-telefoonnummer zou niet zomaar moeten gebeuren.

[Reactie gewijzigd door Bazi op 22 juli 2024 16:35]

Vroeger stond bijna iedereen met naam en toenaam in een telefoonboek.
Moest je echt laten weten dat je er niet in wilde vermeld worden.
Zou nu als enorme inbreuk op je privacy zijn als die data ongevraagd wordt aangeboden op iedere deurmat van Nederland.
Andere tijden en andere middelen.
Dat telefoonboek op de deurmat had inderdaad alle gegevens van jouw regio en tegen betaling ook andere regio's. Alleen kwamen die via dat boek niet zomaar al deze nummers in een database terecht. Simpelweg de rug eruit snijden en alle pagina's onder een grote scanner leggen, was er toen niet bij. Daar moest je moeite voor doen. En dit vervolgens koppelen aan andere bronnen was ook niet makkelijk.
Mwha, de Wet bescherming persoonsgegevens (Wbp) bestond al in 2000, en dat papieren boek is sinds 2018 van het toneel verdwenen. Net voor de AVG aan, maar dat doet geen afbreuk aan het feit dat het aan sinds 2000 eigenlijk niet meer kon :)
Ik heb als studentenjob vanaf '94-5 tot '99 telefonische enquêtes gedaan. Ik heb geweten dat je hier in België bij Proximus (vroeger dus belgacom) toen datasets kon kopen. Hierin kon je gemakkelijk filteren op bepaalde zaken zoals gezinsinkomen, gezinssamenstelling, al dan niet kinderen, leeftijdsgroep van kinderen, leeftijdsgroep ouders. Zo kon je gerichter cold calls doen. Je moet maar eens telefonisch proberen te vragen .. heeft u kinderen tussen x en x leeftijd en mag ik ze een paar vragen stellen over kinder surprise eitjes ... in het dutroux tijdperk. Maar dankzij deze info kon je zo een enquête dus wel laten slagen. Of gewoon zoals ik, telefoonboek van de ouders mee (ja toen had je nog een boekje met telefoonnummers) en kende ik meestal wel de gezinssamenstelling van en dan ging het wat vlotter :). Heb er toen nooit bij stilgestaan, maar dat bestaat dus al langer
Vroeger stond bijna iedereen met naam en toenaam in een telefoonboek.
Het grote voordeel van die tijd was dat een telefoongesprek tenminste een redelijk relevant tarief had. Daarmee had je tenminste een drempel voor de bellers die je onzindingen wilden verkopen: zeker 99% valt dan af.
Een chat / bel medium waar ik per gesprek significant betaald wordt lijkt mij wel een goed idee. En de echte vrienden, familie en kennissen via een nultarief. Net als net de post: leve de postzegel!
Net als net de post: leve de postzegel!
Absoluut, alleen jammer dat ze dan jobstudenten inhuren die hun marketing door je postgleuf rammen ookal heb je de "aan-de-gemeente-betaalde" geen reclame stickers. Zucht !
Het is inderdaad bizar hoeveel je kunt vinden op internet. Wanneer je maar 1 broodkruimeltje hebt kun je uiteindelijk van alles en nog wat van iemand vinden.

Ik heb als vrijwilliger ooit is meegeholpen met een zoekinitiatief waarbij we met de informatie die we hadden een framework lijstje afwerkte om zo nog meer informatie te krijgen over een persoon/organisatie. Bizar hoeveel je kunt vinden en linken.
Dat is een heel mooi framework, wij hadden van te voren een aantal zoekparameter opgegeven die we wouden gebruiken. Ik had een excel spreaksheet gemaakt en vanwege beveiliging van de die data alles bij mij thuis gehost. Via een VPN konden de overige teamleden er dan ook bij.

Na het veel vulldig zoeken op onze zoekstrings met een N van 211 vond Google het wel leuk geweest en werd ik beperkt in het aantal zoekhists dat ik nog mocht uitvoeren :+ O-) Daarna heb ik een tijdje steeds een captcha moeten invullen als ik wat wou zoeken :X
Mooi lijstje inderdaad, ik gebruik deze ook voor mijn huidige werkgever waar ik af en toe een pentest uitvoer.
Maar dit is toch (bijna) hetzelfde als dat je een aantal personen op de hoek van een straat laat staan en bij laat houden hoe laat iedereen zijn deur uit gaat en weer in gaat, welke auto ze instappen en dan kenteken bij straatnaam huisnummer postcode koppelen, vermoedelijk ook wel naambordjes te zien naast de deur. Vaak nog te zien welke telefoon de mensen hebben (als ze deze in de hand hebben), je kan de kleding van de personen herkennen en koppelen en ga zo eigenlijk maar door!
Kost natuurlijk veel meer mankracht en tijd maar het is zeker te doen, daarna weet je echt belachelijk veel over een heleboel personen, zonder dat ze het weten of toestemming hebben gegeven.
Met computers en internet zeker veel makkelijker maar toch. Geen idee of we hier moeite in moeten stoppen om tegen te gaan of ons tegen te beschermen.
Zeker! Hier heb je een heel goed punt }> .

Vroegâr ging het gewoon op die manier, surveillance en daar informatie uit verzamelen, mijn ziens ook een vorm van OSINT. Ik denk dat als je de twee combineert het pas echt krachtig word.

Voor mijn studie bracht ik veel tijd door in de trein :O en het is toch altijd leuk als iemand naast je zijn/haar laptop inschakelt. Redelijk wat mensen gebruiken volledige voornaam en achternaam en loggen vaak in met een email-adres (zoals W10 graag wil :z ) en hebben een profiel foto. Als je daar dan verder op gaat zoeken is het gemakkelijk om meer informatie te vinden 8)7 .

Ook een mooie functie is de image search in Google. Heb je een profiel foto gevonden op LinkedIn? Grote kans dat die persoon hem ook op andere plekken gebruikt. Google Image Search en dan vindt je nog weer meer bronnen om informatie te vergaren :Y)
De Italiaanse privacywaakhond Il Garante per la protezione dei dati personali zegt een onderzoek te starten naar het datalek.

Nee... zij gaan onderzoek doen naar het incident, of het een datalek is moet nog maar blijken. Je kunt van openbare data altijd een dataset maken met persoonsgegevens omdat heel veel mensen die data gewoon beschikbaar stellen.

Goed dat ze hiernaar gaan kijken maar laten we vooropstellen dat dit geen datalek is maar een wakeup call voor veel mensen die er niet bij stilstaan welke persoonlijke gegevens zij publiek maken en wat voor totaalplaatje je daarvan kunt samenstellen. Dat is het enige dat deze 'hacker' heeft gedaan.
Dat vind ik altijd zo raar. Mensen zetten willens en weten hun hebben en houwen online en zijn dan verbaasd dat iemand die gegevens ook leest en mogelijk zelfs gebruikt. Als je iets openbaar post is het niet veel anders als een advertentie in de krant zetten.
De definitie van datalek is aan het verwateren dankzij de houding van deze bedrijven. Toevallig precies dezelfde houding als Facebook.

Tenenkrommend.
De gegevens van LinkedIn vallen niet bepaald onder een datalek. De gegevens zijn dan ook niet beschikbaar gekomen door een fout in de informatiesystemen. Het betreffen gegevens welke de LinkedIn gebruikers zelf publiek hebben geplaatst.
Een datalek is een omschrijving voor de situatie dat anderen onbedoeld persoonsgegevens kunnen verwerken. Linkedin doet daarbij de bewering dat deze verwerking niet de bedoeling was. Dan kan je dus niet zomaar stellen dat dit geen datalek is. Daarbij toont linkedin alleen aan dat de gegevens kennelijk online stonden, maar niet dat ze op die manier verkregen zijn of dat linkedin voldoende heeft gedaan om te voorkomen dat het massaal in verkeerde handen is gekomen. Om een datalek uit te sluiten lijkt dus meer nodig dan simpelweg stellen dat anderen er bij konden.
Je mag vanuit je huis niet de openbare weg filmen ivm privacy. Als je dat wel doet en de gegevens van de mensen online zet die langs zijn gelopen. Is dat dan een datalek van de gemeente/politie die onvoldoende werk heeft verricht om het tegen te gaan?

Scrapen is niets anders dan geautomatiseerd copy-pasten. De gegevens staan op de "openbare weg", iedereen kan het zien. Dus iemand kan het ook opslaan. Ik vind dit geen lek. En LinkedIn kan ook maar beperkte maatregelen treffen om dit tegen te gaan. Denk aan max aantal requests per minuut. Of dat je ingelogd moet zijn. Maar als je genoeg ip adressen en accounts hebt, kun je dat ook weer omzeilen...
Je geeft zelf redenen aan om het wel een lek te vinden. Niet alles is maar openbaar of bedoeld voor verwerken simpelweg omdat het kan. En dat is precies waar het hier om gaat: dat linkedin en gebruikers iets mogelijk maken wil niet zeggen dat de voorwaarden en wetgeving zomaar irrelevant zijn. Dan doe je namelijk geen recht aan het bestaan van voorwaarden en democratisch gekozen wetgeving die niet zomaar belerkingen op legt. Dat linkedin moeite kan hebben om te voorkomen dat anderen massaal de voorwaarden of mogelijk de wet overtreden maakt daarmee nog niet dat linkedin dus geen lek zou hebben. Dan verwacht ik eerst dat linkedin duidelijk maakt hoe ze hier moeite hebben gedaan die voorwaarden die er ook lijken te zijn om de persoonsgegevens te beschermen te handhaven en de betrokken personen in te lichten dat ze dat niet zou lukken.
Dan laat ik het zo stellen: Je badkuip is lek, ondanks dat je het stopje erin hebt gedaan. Want mensen kunnen met een bekertje, er water uit halen.
Je badkuip is dus net zo "lek" als LinkedIn, dat mensen er op de bedoelde manier data uithalen is geen lek. Ze krijgen alleen data die ze mogen zien. Je zou deze data van 500 miljoen gebruikers prima mogen raadplegen als je daar de tijd en zin in hebt. Je mag het alleen niet opslaan.
LinkedIn is dan toch niet lek? Dus moeten we het geen Datalek noemen, maar oneigenlijk gebruik van publieke data van het netwerk van LinkedIn.
Alleen stelt zowel de wet als linkedin zelf voorwaarden voordat je dat bekertje mag vullen. Dat het kon wil dus nog niet zomaar stellen dat het ook hoorde en de badmeester daarmee voldoende heeft gedaan.
Dat snap ik, en daar heb je ook volledig gelijk in. Maar omdat iemand iets ermee doet wat niet mag volgens de voorwaarden, betekent niet dat het lek is, omdat het openbare data is.

Voorbeeld: Ik heb ooit eens een app gemaakt die het eenvoudig maakte om je staatsloten te checken of je iets gewonnen hebt. De uitslagen worden openbaar gemaakt, dus daar kun je gebruik van maken.
Maar ik kreeg wel fijn een telefoontje van de staatsloterij dat ik daarmee in overtreding was, omdat ik op een of andere manier de resultaten her publiceerde (ik gaf alleen aan of je iets gewonnen had, ik publiceerde niet eens de uitslagen in de volledigheid). En dat mag volgens een artikel in de wet alleen bij toestemming van de minister van financien.
Is dat dan ook een datalek? Ja ik heb iets gedaan met de data dat niet mocht, en heb dan ook de app uit de appstore gehaald.
Maar de data is nog steeds publiek beschikbaar op de website en op teletekst.
Daarom noem ik ook die voorwaarden en de wet: de term datalek is volgens de toezichthouder ruimer dan zeker weten dat iets afgeschermd was en toch bij anderen kwam. Je hoort ook voldoende controle over de persoonsgegevens te hebben. Zoals over de betrouwbaarheid en voldoende aantonen dat anderen aan de voorwaarden voldoen terwijl je ze toelaat tot de gegevens en ze verzameld zijn voor ongewenste doelen. Nu stel ik daarmee niet dat linkedin dus alle gebruikers die gegevens raadplegen dus een rapport van een accountant moet laten overleggen dat ze de regels van linkedin en wet naleven, maar ik lees aan de andere kant ook op geen enkele manier hoe linkedin hier voldoende heeft gedaan om aan de eigen voorwaarden of zelfs wet te voldoen dat die gegevens niet in verkeerde handen zijn gekomen. En dan is het niet makkelijk om te stellen dat hier geen datalek is.
Dat is toch nog steeds vreemd he, je mag vanuit je huis niet de openbare weg filmen, maar als je op de openbare weg staat mag je het wel 8)7
Je mag het wel, maar niet automatisch. Als je een camerapaal op de openbare weg mikt durf ik wedden dat het ook niet mag.
tja, onzin toch, of ik het nu automatisch doe of met de hand, het is en blijft filmen...
kleine nuance, je mag opnames maken als het als doel heeft om je eigendom te beveiligen
Ja maar dan moet die zo afgesteld staan dat je zo min mogelijk van de openbare weg filmt, en voornamelijk je eigendom. Dus bijvoorbeeld op je voordeur gericht, en niet op de straat om te zien wie er langs je huis lopen. Dat je daarmee een klein deel filmt van de weg is dan ok.
Een Ring deurbel is vaak kwa wat het filmt al in overtreding.
hangt af per geval, als jij kan aantonen dat je niet 24/7 de hele straat aan het filmen bent, dan verwacht ik niet dat je in overtreding bent.

Voorzover ik de AP mag geloven (het mag, tenzij, als, maar, probeer / mag niet, maar, als, tenzij, tussen)
Het is niet zo dat omdat ‘t technisch kan (schrapen) ‘t dan dus goed is. Je zet publieke info op LinkedIn omdat je die vindbaar / inzichtelijk wil hebben voor andere LinkedIn gebruikers (waarmee je wel of niet gelinked bent afhankelijk van je settings). Geen enkel ander doel, dus zeker niet om in een van linkedin gescrapte database terecht te komen. Dat ‘t technisch - makkelijk - kan is dus een fout van LinkedIn. Ook de gebruikersvoorwaarden zouden dit moeten verbieden (heb ze er niet op na gelezen).
En als LinkedIn het nou ontieglijk moeilijk had gemaakt, bij wijze van spreke dat alle tekst in images zat, dat je dus OCR moet gebruiken om de tekst eruit te halen. En allerlei robotchecks, om er zeker van te zijn dat er een echt persoon de gegevens opvraagt. En er zou een slimme jongen zijn die die gegevens alsnog in een database opslaat. Dan heb je nog altijd hetzelfde probleem dat die data beschikbaar komt, en alleen omdat LinkedIn er nog meer werk in heeft gestoken, is het dan niet meer hun fout.

Ja je hebt gelijk dat soms scrapen wel erg makkelijk gaat, maar het zijn de gebruikers die deze data openbaar hebben gezet. Dus of het nou makkelijk of moeilijk is, iemand vind wel een manier om die data te pakken.
Probleem blijft hetzelfde, maar ik vind niet dat je hier LinkedIn zo makkelijk de schuld van kan geven. Ze hebben immers niks fout gedaan. Er is geen informatie gelekt, die mensen niet zelf hebben gedeeld.
Bij een datalek gaat het om vernietiging, verlies, wijziging, of het delen van persoonsgegevens zonder dat dat de bedoeling was.
De gegevens zijn volledig publiek toegankelijk en op een zelfde wijze bij elkaar geharkt als dat de crawlers voor de zoekmachines gebeurd. De gegevens zijn publiek gedeeld en dus exact zo verkregen zoals dat de bedoeling was.

Mensen hebben deze gegevens zelf bewust online gezet. Dat heeft vrij weinig te maken met of LinkedIn wel of niet deze gegevens voldoende beschermd. Kennelijk waren de LinkedIn gebruikers er zelf volledig OK mee dat deze gegevens door jan en allemaal in te zien zijn. Dat mensen er zelf niet genoeg over nadenken wat ze publiek online knallen is niet iets wat je LinkedIn kwalijk kan nemen.

Bij een datalek verkrijgen mensen toegang tot gegevens welke je normaalgesproken niet in had moeten kunnen zien.
Ja - inderdaad.

De ellende is dat te lang niet stil gestaan is bij de kracht van meer data / beter beschikbare data. Een oud papieren telefoonboek bevat nummers en namen van heel veel mensen. Maar het was niet mogelijk om met behulp van een telefoonnummer iemands naam te achterhalen. Echter als je het hele telefoonboek digitaal inleest (met bijv. OCR) dan is dat opeens niet meer zo moeilijk. Scraping dus.

Pas nu begint men te beseffen dat het kan worden misbruikt. De gebruikers de 'schuld' geven dat ze hun naam hebben verteld is niet terecht. Hetzelfde geld voor iemands naam in het telefoonboek. Hij/zij wil tenslotte gebeld worden. Maar als nare mensen (of nare bedrijven) het gaan gebruiken dan wordt dit anders. Daarom ontstonden de 'geheime' telefoonnummers en optionele vermelding in het teleoonboek. Dus we beseften het toch wel steeds meer.

Maar dankzij de noodzaak van werk hebben hebben we dat terzijde geschoven op het moment dat we LinkedIn onze naam vertelden. Want daarmee konden we wellicht eerder/beter werk vinden.

Dus naast onze terechte zorgen over datalekken en privacy moeten we ook meer werk gaan maken om die nare mensen en nare bedrijven aan de kaak te stellen.

In Nigeria zitten bijv. heel wat nare prinsen... :P
Wat mensen vooral niet inzien is dat de gegevens die ze publiek delen op de verschillende plekken op het internet vrij makkelijk aan elkaar te linken zijn. Door openbare gegevens die ze zelf online zetten op Facebook, LinkedIn, Instagram, Youtube enz aan elkaar te koppelen kan je soms onwijs veel over de betreffende persoon te weten komen. Deze informatie is vervolgens weer te misbruiken voor social engineering om vervolgens op diverse slimme manieren mensen af te kunnen persen, accounts buit te maken, mensen op te lichten enz.

Ik werk zelf met jongeren in het vrijwilligerswerk. Ik heb daar al eens laten zien wat er allemaal makkelijk digitaal van ze op te vragen is en hoe je een heel profiel van ze kon schetsen zonder ze te kennen. Zo was bij een aantal zelfs makkelijk in kaar te brengen wanneer ze waar naar toe reizen met de fiets enz.

[Reactie gewijzigd door daredevil__2000 op 22 juli 2024 16:35]

Janoz Moderator PRG/SEA @bazs20009 april 2021 11:05
Het is niet hetzelfde als Facebook. Bij linkedin is data gescraped van de site. Data die iedereen sowieso kan zien die de pagina bezoekt en waarvan de gebruiker aangegeven heeft dat het publiekelijk beschikbaar mag zijn. Facebook had een 'feature' waardoor het mogelijk was om mensen te vinden obv hun telefoonnummer. Dit telefoonnummer was niet publieke informatie en de gebruikers hebben ook niet expliciet toegestaan dat dit telefoonnummer getoond mag worden. De rest van de informatie is misschien publiek, maar de koppeling tussen persoon en telefoonnummer was dat zeker niet.
Nou ja, als de data al voor iedereen in te zien is en iedereen het kan scrapen dan is het toch niet gelekt?
Dan kan het toch nog steeds een lek zijn als per abuis het verkeerde openbaar beschikbaar is?
Dat is dan je eigen verantwoordelijkheid lijkt me?
Alleen lijkt linkedin daar dus ook verantwoordelijk in doordat ze niet zomaar andermans persoonsgegevens online mogen zetten en zelf ook eisen hebben wie onder welke omstandigheden bij die gegevens mag of mag verwerken.

Ik lees niet dat linkedin die verantwoordelijkheid neemt. Waarmee ik niet stel dat ze de enige verantwoordelijke zijn, maar ze hebben er kennelijk bij miljoenen persoonsgegevens wel een zeer groot aandeel in.
Je kiest er zelf voor welke gegevens van jouw profiel je invuld en welke openbaar zijn.

Overigens is het alleen zichtbaar voor ingelogde gebruikers normaal gesproken, met deze dataset hoef je geen linkedin account te hebben om deze gegevens in te kunnen zien, dat is het enige verschil lijkt het.
Als jij er voor kiest om andermans persoonsgegevens in te vullen, waaruit blijkt dan dat linkedin geen verantwoordelijkheid heeft dat zij het voor anderen beschikbaar stellen? Want de wet stelt niet dat als gebruikers persoonsgegevens invullen een bedrijf het dus zomaar mag aannemen dat het dus de eigenaar is die dat wil. En aangezien ze zelf ook voorwaarden stellen lijkt het me juist dat linkedin aannemelijk moet maken zelf voldoende gedaan te hebben. De wetgeving stelt bedrijven niet zomaar eisen om andermans persoonsgegevens te beschermen.
Je maakt het onnodig ingewikkeld (en je verdraait mijn woorden), het is gewoon heel simpel, als jij er voor kiest om gegevens op een platform openbaar te maken dan heeft dat gevolgen.
Als ik je woorden zou verdraaien dan lees ik graag waaruit dat blijkt. Ik denk namelijk dat ik alleen een andere mening heb en het niet eens ben met de simpelheid en er daar dus meer bij betrekken dan jij wil. Dat ik er meer bij betrek komt omdat de voorwaarden en wetgeving ook verder gaan.
Ik kan niet vinden waar ik het heb over andermans gegevens invullen, ik laat het hierbij we zijn het niet eens blijkbaar, case closed.:-)
Omdat ik het vroeg en je antwoord geeft leg ik dat dan ter afsluiting nog wel uit.
Dat over andermans gegevens invullen erbij noemen komt omdat je het hebt over wat iemand onder ideale omstandigheden zelf invult en duidelijk is wat de bedoeling is. Met het invullen van persoonsgegevens kan het niet alleen gaan om wat de bedoeling zou zijn. De wetten en regels dat een bedrijf verantwoordelikheid over persoonsgegevens heeft zijn er ook om gevolgen van onjuist/crimineel gebruik als bij invullen en onduidelijkheid over wat de bedoeling is tegen te gaan. Dan kan je dus niet alleen maar doen alsof linkedin er vanuit kan gaan dat een gebruiker alles maar goed doet of accepteerde dat linkedin voorwaarden stelde die ze kennelijk niet kan afdwingen. Verantwoordelijkheid gaat dus hoe dan ook verder dan wat een gebruiker doet.
In deze zet LinkedIn geen persoonsgegevens "zomaar" online. Dat doet de gebruiker zelf specifiek. De gebruiker neemt het besluit wat wel of niet publiek staat. Daar hoeft LinkedIn verder dan ook totaal geen verantwoording over te nemen.
Misschien is het verstandig om dan nog eens de wetveving over persoonsgegevens te lezen waarin staat je als bedrijf verantwoordelijkheid hebt en niet zomaar iets doen en dat wat je doet genoeg is ergens duidelijk vooraf uit moet blijken. Ik lees linkedin namelijk daar geen verantwoordelijkheid nemen met de uitleg die ze geven.
Misschien is het verstandig om nog eens goed te lezen wat de wetgeving over de persoonsgegevens daadwerkelijk betekend.

Het bedrijf bied de dienst voor het delen van informatie over jou als persoon en/of over je bedrijf. Daarbij krijgt de gebruiker zelf de keuze welke informatie ze wel of niet publiek getoond willen hebben. LinkedIn heeft volledig voldaan aan de afspraken die jij met de gemaakt hebt over wat publiek of privé moet staan. Er zijn niet meer gegevens publiek gezet dan de gegevens waarvan de gebruiker wil dat dat deze publiek zijn. Gegevens waarvan de gebruiker heeft aangegeven dat deze privé moeten zijn die zijn nog steeds privé. Exact volgens de afspraken van de afgenomen dienst.

LinkedIn hoeft dan ook 0 verantwoordelijkheid te nemen voor het feit dat jij als eindgebruiker informatie publiek hebt gezet waarvan achteraf is gebleken dat deze misschien beter niet publiek had moeten staan.

Je slaat echt volledig de plank mis met je redeneringen omtrent de wet omtrent de persoonsgegevens. Ik ben zelf functionaris gegevensbescherming en bezig met mijn CISO en CISSP. Ik ben in mijn functie dan ook dagelijks bezig met de bescherming van zelfs bijzondere persoonsgegevens van een flink aantal duizend personen. I

Bij Facebook zijn er wel voorwaarden geschonden van de overeenkomst tussen de gebruiker en de leverancier van de dienst. Daar is immers niet afdoende bescherming geweest van de gegevens welke niet publiek geplaatst waren. Daarbij gaat het ook nog eens om een dataset van ruim 2 jaar geleden. Waarbij ook gebruikers benadeeld zijn welke de overeenkomst met Facebook hadden opgezegd (door middel van het verwijderen van het account) en welke nu ruim 2 jaar later alsnog geconfronteerd worden met een recent datalek van de Facebook informatie systemen.

Dat is ook de reden waarom er wel diverse instanties en advocaten kantoren bezig zijn met het voorbereiden van acties omtrent het lek bij Facebook en je niets hoort over acties tegen de LinkedIn omtrent die dataset.
Het verschil lijkt mij te zitten in wat er uiteindelijk blijkt, niet alleen wat een bedrijf zelf stelt. Bij facebook hebben we een mening omdat er meer bekend was, niet omdat ze zelf zo goed aantonen dat het scrapen zou zijn. Dat gaat net zo goed op voor de situatie bij linkedin. Ze kunnen wel een mening hebben terwijl we zelf niet weten wat daar werkelijk van klopt, dat wil niet zeggen dat het dus maar geen lek is. Hooguit dat het vooral een conclusie van ze is waarbij linkedin een belang heeft om het geen datalek te noemen. Ik stel daarmee niet dat het een datalek is maar dat het te makkelijk is om ze het voordeel van de twijfel te geven bij de motivatie die ze geven. Ik denk dat je een ander belang hebt als je op basis van dit gelijk geeft. Maar dan heeft discussie verder weinig zin. Laat de toezichthouders er maar een oordeel over hebben die hopelijk wat meer wil beoordelen dan de kant van linkedin.
Hoezo zet linkedin andermans persoonsgegevens online? Jij als gebruiker van linkedin bepaald wat er wel/niet zichtbaar is. Daar heeft linkedin dan ook geen verantwoordelijkheid in.
De wetgeving stelt dat bedrijven die persoonsgegevens verwerken daar verantwoordelijkheden in hebben. Er is niet zomaar af te schuiven naar andere die persoonsgegevens op linkedin kunnen plaatsen omdat linkedin het mogelijk maakt. Net zo min als dat er af te schuiven is dat als je als bedrijf zelfs zelf eisen stelt het dus maar geen lek is omdat anderen toch iets konden. Linkedin heeft haar bestaan daarbij gebaseerd op onder voorwaarden die persoonsgegevens door anderen te laten verwerken, dan kan je echt niet meer zomaar stellen dat het aan de gebruikers ligt als persoonsgegevens massaal buiten linkedin online beschikbaar komen. Wat ik verwacht is een betere onderbouwing van linkedin waar volgens hun de grens ligt. Iemand heeft gegevens aan linkedin gegeven om onder voorwaarden inzichtelijk te maken is en gegevens onder bepaalde voorwaarden zijn niet in verkeerde handen terecht gekomen en anderen wel lijkt mij onvoldoende.
Alleen lijkt linkedin daar dus ook verantwoordelijk in doordat ze niet zomaar andermans persoonsgegevens online mogen zetten en zelf ook eisen hebben wie onder welke omstandigheden bij die gegevens mag of mag verwerken.

Ik lees niet dat linkedin die verantwoordelijkheid neemt. Waarmee ik niet stel dat ze de enige verantwoordelijke zijn, maar ze hebben er kennelijk bij miljoenen persoonsgegevens wel een zeer groot aandeel in.
Misschien voor jezelf een stelregel houden, Wat je NIET online wilt hebben, niet online zetten !

Vooralsnog ben ik mijn data niet tegengekomen in zulke lekken.
HIBP heeft van mij alleen maar 'oh-oh's' op "anonieme" mail-adressen die, lastig tot niet hetleidbaar zijn naar mijn persoon.
Zou je op basis van die data mij echt willen opduikelen, moet je meer resources achter de hand hebben, dan alleen een google of shodan database.
( dan zal je al richting overheids/gerechterlijke middelen moeten kijken )
In het bericht staat:
" LinkedIn ontkent dat er sprake is van een datalek en benadrukt dat er geen LinkedIn-privédata in de dataset zit."

Dus volgens die reactie is het niet zo dat de verkeerde data openbaar beschikbaar is.
Publieke gegevens wil niet zomaar stellen dat daaruit geen abuis blijkt of zelfs maar rechtmatig is. Stel een handige kennis van je maakt een script om een online profiel aan te maken en eigen gegevens bij te werken en die zet per abuis jou gegevens online zonder dat jij daarom gevraagd hebt. Dan kan linkedin niet zomaar stellen dat die gegevens publiek hoorde te zijn of dat prima was. Ook is het ook online hebben van gegevens niet zomaar hetzelfde als dat de gegevens daar dus vandaan komen of dat ze dus maar door een ander gebruikt mogen worden. Dat laatste stelt linkedin zelf ook. Het is dus te makkelijk om te stellen dat al die gegevens dus online hoorde te staan omdat andere gegevens prive stonden.
Nee, maar met het woord datalek kan je wel wijzen met een vingertje naar de grote bedrijven dat ze het allemaal slecht doen. Terwijl dit gewoon info is die wij zelf op internet dumpen.
Hoewel ik hellum gelijk geef dat dit geen datalek is kun je wel degelijk een deel van de verantwoordelijkheid bij zulke bedrijven leggen als de software uit te buiten is. Denk aan het scrapen van informatie rondom telefoonnummers, bedrijven horen daar limieten op te zetten waarbij niet mogelijk hoort te zijn om alle nummers ter wereld in je telefoon te zetten en die dan te syncen om zo informatie te krijgen van wie de nummers zijn.

Of zoals de oude naamcheck bij ING die te misbruiken was.
flabber in 'nieuws: ING activeert naamcheck bij internetbankieren'

Tevens ben ik van mening dat veel zaken in een profiel standaard uit of onzichtbaar horen te staan en dat je die zelf zichtbaarder moet zetten.

[Reactie gewijzigd door jdh009 op 22 juli 2024 16:35]

Als jou gegevens ergens publiek staan wil dat niet zeggen dat het jou bedoeling is of dat iedereen dus maar bij die gegevens mag, laat staan verder mag verwerken. Iemand die jij niet kent kan namelijk ook andermans gegevens online zetten, bijvoorbeeld bij Linkedin.
Daarbij is ergens bij kunnen niet hetzelfde als dat je het dus zomaar mag verwerken voor wat je wil zonder rekening te houden met voorwaarden en wetgeving.
Iets een datalek noemen is dus niet zomaar makkelijk klagen over een bedrijf, als dat bedrijf zelf stelt dat er beperkingen zijn voor het gebruik. De vraag is dus redelijk waaruit nu blijkt dat als linkedin aangeeft dat er beperkingen voor verwerken door anderen zijn hier dus wel of geen datalek is. Ik lees linkedin niet aantonen dat omdat anderen er bij konden het dus geen datalek zou zijn.
Als jou gegevens ergens publiek staan wil dat niet zeggen dat het jou bedoeling is of dat iedereen dus maar bij die gegevens mag, laat staan verder mag verwerken. Iemand die jij niet kent kan namelijk ook andermans gegevens online zetten, bijvoorbeeld bij Linkedin.
Daarbij is ergens bij kunnen niet hetzelfde als dat je het dus zomaar mag verwerken voor wat je wil zonder rekening te houden met voorwaarden en wetgeving.
Iets een datalek noemen is dus niet zomaar makkelijk klagen over een bedrijf, als dat bedrijf zelf stelt dat er beperkingen zijn voor het gebruik. De vraag is dus redelijk waaruit nu blijkt dat als linkedin aangeeft dat er beperkingen voor verwerken door anderen zijn hier dus wel of geen datalek is. Ik lees linkedin niet aantonen dat omdat anderen er bij konden het dus geen datalek zou zijn.
Bedoel je verwerkingsgronden onder GDPR? 1 vd 8 verwerkingsgronden is dat je zelf opdracht geeft om dat te doen. Bij Linked en Facebook is het toch dat jij zelf opdracht geeft voor bepaalde dienstverlening om jouw info openbaar te maken.
Als het niet jouw bedoeling is dat iedereen maar bij die gegevens mag, maar je dumpt toch alles op Linkedin? Bedoel je dat ze zelf geen flauw idee hebt wat een bepaald platform doet? Dan is het nog steeds geen datalek.

[Reactie gewijzigd door Verwijderd op 22 juli 2024 16:35]

Het lijkt me niet dat je kan stellen dat er geen datalek is door gebrek aan inzicht of uitleg waaruit blijkt dat linkedin hier aan een opdracht heeft voldaan. Linkedin lijkt daarbij zelf onderdeel van de opdracht te zijn, door de bijkomende voorwaarde dat ze zelf vinden dat een ander niet zomaar iets met de gegevens mag doen ook al kan men er bij. Linkedin geeft aan dat de gegevens bij hun vandaan lijken te komen terwijl niet aan een belangrije voorwaarde lijkt te worden voldaan en terwijl onduidelijk is of binnen de opdracht dan de gegevens maar verstrekt mochten worden. Dan lijkt uitgaan van een datalek tenzij ze met redelijker bewijs komen het uithangspunt.
Het lijkt me niet dat je kan stellen dat er geen datalek is door gebrek aan inzicht of uitleg waaruit blijkt dat linkedin hier aan een opdracht heeft voldaan. Linkedin lijkt daarbij zelf onderdeel van de opdracht te zijn, door de bijkomende voorwaarde dat ze zelf vinden dat een ander niet zomaar iets met de gegevens mag doen ook al kan men er bij. Linkedin geeft aan dat de gegevens bij hun vandaan lijken te komen terwijl niet aan een belangrije voorwaarde lijkt te worden voldaan en terwijl onduidelijk is of binnen de opdracht dan de gegevens maar verstrekt mochten worden. Dan lijkt uitgaan van een datalek tenzij ze met redelijker bewijs komen het uithangspunt.
Het is vast wel duidelijk bij Linkedin of Facebook of binnen de opdracht de gegevens verstrekt mochten worden. Je moet vast wel iets aangevinkt of geklikt hebben waar je akkoord mee was. Dat je geen weet heb waar je mee akkoord was of wat de dienstverlening uit bestaat dan is het nog steeds geen datalek.
Nu doe je een aanname dat het duidelijk zou zijn maar ik lees op geen enkele wijze terug in de bewering van linkedin iets terug waaruit dat blijkt. Er zomaar vanuit gaan dat ze verantwoordelijkheid hebben genomen of dat iets duidelijk zou zijn, maar ondertussen wel een regel opstellen wat ze niet acceptabel vinden lijkt me te makkelijk om het maar van uit te gaan dat het geen datalek is. Laat de toezichthouder er maar objectief naar kijken want met aannames is het probleem er niet minder om.
dat is inderdaad werk voor de toezichthouders.
op de overeenkomst met linkedin staat:
art. 2.5: Via onze Services kunt u op allerlei manieren berichten versturen en gegevens delen, waaronder uw profiel, artikelen, groepsbijdragen, links naar nieuwsartikelen, vacatures, berichten en InMails. Door u gedeelde of geplaatste gegevens en content zijn mogelijk zichtbaar voor andere Leden, Bezoekers of anderen (ook buiten de Services).

staat duidelijk dat alles wat je plaatst mogelijk zichtbaar is voor iedereen, wat is nou onduidelijk?

[Reactie gewijzigd door Verwijderd op 22 juli 2024 16:35]

Inderdaad. Het is meer een wedstrijdje aan het worden wie de informatie het makkelijkst presenteert.
Ik heb het de afgelopen dagen al vaker gezegd, en bij deze LinkedIn toestand weet ik niet hoe de vork in de steel zit maar bij FB was het niet alleen openbare data. Zo heb ik m'n nummer zeker weten niet openbaar gemaakt op FB en toch zit deze er tussen. Bovendien heb ik al lange tijd geen FB meer.

Ik ben het er mee eens dat als je je data bewust openbaar hebt gemaakt dat je dan weinig te klagen hebt, zo niet dan is er iets niet in orde. En dan vind ik dat zulke bedrijven op het matje geroepen mogen worden.
Wat hier gebeurt is in principe exact hetzelfde als al die sneue types die openbare KvK-gegevens opvragen, en ondernemers helemaal suf bellen en mailen met irrelevante aanbiedingen. Alleen dan op een 'iets' grotere schaal.

Dit is geen datalek in de zit van het verkrijgen van data die niet verkregen had mogen worden. Dit is een ongewenste uitwas van iets wat op zich een nuttig feature is - niet leuk voor wie erdoor getroffen is, maar wettelijk gezien niet strafbaar.

Uiteindelijk ben je er als gebruiker ook in grote mate verantwoordelijk voor welke gegevens vrij opvraagbaar zijn op platforms als Facebook of LinkedIn. Ik heb bijvoorbeeld een heleboel gegevens alleen zichtbaar voor connecties. Als je het uit hoofde van je functie nodig vind om contactgegevens openbaar te maken is het sowieso handig om zakelijk en privé te scheiden. LinkedIn kan er ook niet zo heel veel aan doen als mensen scrapers aan het werk zetten om data te oogsten; met een uitgebreid botnet kan zo'n scraper vrij makkelijk onder de radar blijven.

LinkedIn zit hier natuurlijk ook mee in z'n maag, want dit raakt aan de betrouwbaarheid van de service die ze aanbieden. En dus doen ze er alles aan om dit soort acties in de toekomst te voorkomen. Maar dat wil niet zeggen dat ze nu het boetekleed aan moeten trekken.
Al die data lekken van tegenwoordig zijn voor mij een extra reden om zo veel mogelijk 2-staps verificatie aan te zetten waar dat mogelijk is, en het aantal accounts tot een minimum te beperken.
2-staps verificatie helpt weinig tegen dit probleem, anders dan je wachtwoord staan data zoals woonplaats, e-mailadres, geboortedatum, etc bijna altijd bloot (zonder encryptie) in een database.

Met 2-staps verificatie zorg je er alleen voor dat ze je data niet kunnen krijgen d.m.v. inloggen op je account. 9 van de 10 datalekken gebeuren niet op die manier.
MFA is zeker een nuttige veiligheidsmaatregel, en kan voorkomen dat je account wordt overgenomen. Maar zal er niet voor zorgen dat data die je publiekelijk op het internet gooit niet meer te vinden is door anderen. Dus in deze situatie maakt het geen enkel verschil of je wel of geen MFA had ingesteld.
Wat kan een bedrijf effectief doen tegen scrapen? Los van hun gebruikers informeren over welke gegevens openbaar of prive in te zien zijn.
Er wordt technisch vaak wel het een en ander gedaan. Met wisselend succes.

Je kunt bijvoorbeeld:
  • zorgen dat één IP adres niet duizenden pagina’s per minuut kan bekijken.
  • checken of de user agent van de bezoeker wel een browser of bekende search engine spider is en niet iets anders.
  • geen oplopende nummers gebruiken voor publiek zichtbare user-ID’s.
  • valse info er tussen stoppen die voor gewone gebruikers niet zichtbaar is maar voor simpele scrapers wel.
  • zorgen dat een simpele zoekopdracht niet teveel informatie teruggeeft (alleen zoeken op “a” niet alle gebruikers met een “a” in de naam terugsturen anders heb je in 26 zoekopdrachten het hele gebruikersbestand opgehaald).
En dat is nog maar een begin. Mensen hebben hier vast nog veel meer voorbeelden. Geen van deze zaken maken scrapen onmogelijk maar in combinatie maken ze het wel een stuk lastiger.
Dan heb je de huis-tuin-en-keuken scrapers te pakken. Hier bij Tweakers heb ik ook met dat probleem te maken, en heel vaak kan ik ze er wel uit halen en van de site weren, maar je ziet bij de professionele scrapers toch een verschuiving naar:
  • Residential proxies (dus 'echte' gebruikers die bijvoorbeeld een gratis vpn instaleren en de kleine letters niet lezen waardoor hun internet verbinding 'reverse' gebruikt kan worden voor scraping, of mensen die er zelfs geld voor krijgen maar geen idee hebben hoe onethisch ze bezig zijn)
  • Moderne roterende user-agents, het is tenslotte maar een textveld
  • Als je 1M verschillende nederlandse ip's kan gebruiken dan vallen 1M zoekopdrachten ook niet zo op
  • Content die voor gebruikers zichtbaar is is voor scrapers ook zichtbaar, en fake info filteren ze er gewoon uit
Het is gewoon een hele wapenwedloop. Als iemand die hier zeer regelmatig mee te maken heeft kan ik je echter wel vertellen dat het echt niet zo simpel is om scraping helemaal tegen te gaan. Het is nog wel mogelijk omdat de scrapers gelukkig vaak genoeg steekjes laten vallen maar als er eens een echt slim iemand ervoor gaat zitten dan kun je er bijzonder weinig tegen doen anders dan je website uit zetten.

[Reactie gewijzigd door Kees op 22 juli 2024 16:35]

Ja, wapenwedloop is inderdaad een toepasselijk woord. En zoals ik verderop al zei, als je de kant en klare scraping libraries ziet die je in Python kunt krijgen dan kan vrijwel iedere idioot nog best complexe operaties uitvoeren.

Je moet op een gegeven moment ook kijken of er niet een oplossing is op businessniveau in plaats van op technisch niveau. Soms helpt het om zaken niet als een technisch probleem te zien waar alleen een technische oplossing voor is.

Als jij bijvoorbeeld ontdekt dat een hoop scrapers op jouw site eigenlijk alleen uit zijn op jouw headlines om op hun eigen site te laten zien en jij biedt geen feed aan dan kun je overwegen je eigen Atom feed (geen RSS, die specificatie is ontworpen door dronken analfabeten en moet dood) aan te bieden waar 90% van waar ze naar op zoek zijn al in zit. Grote kans dat ze voor de 10% dan geen moeite doen om daar nog een scraper voor te bouwen.

Dat betekent dan ook dat je je aandacht kunt richten op de paar dingen die écht vervelend zijn. Zoals het scrapen van emailadressen van gebruikers bijvoorbeeld.
ip block,
request blocks
max-request per sec
mar request per ip per sec
etc etc
Op zich wel, maar daar is vaak wel omheen te werken met verschillende ip-adressen etc. Hoewel dat met zulke aantallen wel een aardig lastig klusje wordt, als er redelijke limiet worden gesteld (1000 queries per ip per uur is geen rare grens lijkt me, hoewel je met proxies dan weer problemen kan krijgen)

[Reactie gewijzigd door 418O2 op 22 juli 2024 16:35]

Helaas zijn dat allemaal kleine pleisters waar omheen te werken is. En wie ga je dan wel en wie ga je niet blokkeren? In principe doen een Google, Bing, DuckDuck enz namelijk niet veel anders.
Ik heb vroeger wel eens voor mijn werk scrapers gemaakt.
En al die suggesties van je werken niet.
Daar is zo makkelijk om heen te werken, natuurlijk lastig als je 0,0 resources hebt, maar dit zijn meestal mensen die voldoende resources hebben. Je heb maar 1 iemand nodig met de juiste resources om alles te kunnen scrapen.
Tja, je hoeft het niet eens zelf te doen. Als je de kant en klare scraping libraries ziet die je voor Python of Django kunt krijgen dan hoef je niet eens veel zelf te kunnen. Al het zware denk- en code werk is al voor je gedaan.
Ja dit ga je nu krijgen nu dat een mail adres, voor en achternaam zo waardevol is vandaag de dag.

Ik zou het liefst zeggen tegen iedereen, ga van dit soort platformen af. Het slurpt je tijd op en je bent niet meer met de echte wereld bezig. Ik weet alleen dat veel mensen dit enorm lastig vinden of dat het zakelijk gezien niet makkelijk kan. Tegen die mensen wil ik zeggen.
  • Gebruik online als achternaam enkel je initialen
  • Gebruik op zijn minst een email adres waar niet je voor en achternaam naam in staat.
  • Zet dit soort informatie niet openbaar, maar alleen zichtbaar voor vrienden en familie.

[Reactie gewijzigd door Wachten... op 22 juli 2024 16:35]

Social networks zijn toch onderdeel van de ‘echte wereld’? En wat doe je dan op Tweakers? O-)
Ik kijk er zo echt niet naar....

Tweakers is voor mij een nieuws site, en waar ik informatie vandaan haal en dingen leer op het forum.

Als je Facebook Linked-in Instagram etc gaat vergelijken met Tweakers dan sla je in mijn ogen de plank wel mis. Er zitten hier maar een handjevol mensen die elkaar echt kennen, en er zijn al helemaal weinig mensen die met hun echt voor en achternaam hier op het forum zitten.
Dan moet je LinkedIn en de anderen ook niet op één hoop gooien. Ik ken verschillende mensen die hun halve omzet uit LinkedIn halen. Dat is echt een ander soort platform met ander soort info dan Facebook en Instagram.
Dan heb je het over een totaal andere insteek en gebruik van een platform. Dan maak je er zo bewust zakelijk gebruik van, en ben je waarschijnlijk ook meer bewust bezig met dit soort platformen.

Ik had er even bij kunnen vermelden, maar ik praat hier over het gemiddelde wat op deze platformen zit. Het is ook helemaal geen aanval. Ik geef een persoonlijke ervaring omdat ik deze stap ook heb gezet. En ook ik heb een bedrijf die hier gebruik van maakte.

Ik heb mijn post overigens iets aangepast om verwarring tegen te gaan. En nogmaals het blijft mijn mening en ervaring.

[Reactie gewijzigd door Wachten... op 22 juli 2024 16:35]

Mensen vergeten hoeveel data ze online staan hebben publiekelijk , er is dikwijls geen hacking meer nodig om veel over iemand te weten te komen.
Dat al vaker op Tweakers.net laten zien, dat als zelfs de persoonlijke informatie niet zichtbaar is, ze in reacties/discussies zelf vaak voldoende informatie droppen om echt een heel eind te komen. Het is anders met een account van een paar of zelfs tientallen reacties, maar met bijna 10k reacties op Tweakers.net ga je ergens wat heb laten vallenhebben, wat weer te koppelen aan iets anders wat gevallen is, etc.
tja dat is het risico van openbaar spreken, als iemand op een zeepkist op de dam gaat staan met een zak over zijn hoofd, volledig onherkenbaar uiterlijk, en doet dat iedere week, dan zijn er genoeg mensen, bekenden en onbekenden, die deze persoon kunnen koppelen/herkennen aan de hand van zijn spreken.

Al sinds we met elkaar communiceren, dus niks nieuws eigenlijk

[Reactie gewijzigd door dakka op 22 juli 2024 16:35]

Klopt, het leuke is dat mensen boos worden. Als je deze openbare data tegen ze gebruikt.
Dat gegevens openbaar lijken te staan wil niet zeggen dat de persoon die bedoeling had. Ook niet bij een bedrijf als linkedin. Dat mensen boos worden dat je hun persoonsgegevens gebruikt wil dus misschien ook zeggen dat je te ver gaat door zelf maar voor iets te kiezen wat jou het beste uit komt, bijvoorbeeld omdat het kan vanuit een mening die mogelijk niet redelijk of zelfs misplaatst is. Een bedrijf als Linkedin heeft bijvoorbeeld gebruiksvoorwaarden waaronder je hun dienst mag gebruiken. Er is ook wetgeving dat verwerken niet zomaar is toegestaan.
Dit is niet te vergelijken met het 'lek' van facebook.
Je kan ook gewoon iemand zijn naam googelen en zo al die info vinden.
Maar ik begrijp dat ze er door die commotie nu geld uit proberen slaan...
...
Of LinkedIn gebruikers actief gaat waarschuwen is niet duidelijk; Facebook zei eerder deze week bij een vergelijkbare dataset dit niet te doen.
...
De dataset van Facebook en LinkedIn zijn niet vergelijkbaar. Bij LinkedIn gaat het om gegevens welke gewoon openbaar beschikbaar zijn. Bij Facebook gaat het om gegevens welke niet altijd publiek beschikbaar waren. Daarbij ging het bij Facebook ook om een oudere dataset waardoor er ook gegevens in staan van voormalige Facebook gebruikers.
Op zich inderdaad geen lek. Ik snap alleen niet dat zo'n groot bedrijf niet gewoon een throttle heeft op het aantal requests per bijv. IP per uur. Al is het maar om hun kostbare data uit eigenbelang te beschermen. Tenslotte kost hun duurste premium account 780 dollar(!) per maand.
Het kan best zijn dat ze veel doen tegen scraping, maar dat is een wapenwedloop. Er is geen volledige bescherming hiertegen. Alles op basis van IP-adres is beperkt; een botnet heeft duizenden of miljoenen IP-adressen bijvoorbeeld. En hele strenge restricties gaan ook echte gebruikers en zoekmachines in de weg zitten. Dit probleem kan volgens mij alleen wat beperkt worden, maar niet voorkomen.

Het is ook gewoon publieke data, dus ergens is het zelfs tegenstrijdig om dit te willen beperken. Natuurlijk vinden we het vervelend als veel data wordt verzameld op één plek, en efficiënt gebruikt kan worden voor minder fijne doelen. Dan voelt het anders dan de losse profielinformatie uit je eigen account. Maar ja, tegelijk wél gevonden willen worden voor een nieuwe baan, met behoorlijk wat persoonlijke info, en dan ook verwachten dat die info nooit misbruikt kan worden, is niet reëel.

Als dit echt een kwestie is van publiek scrapen zoals LinkedIn zegt, dan is de enige praktische verbetering volgens mij dat individuen beter nadenken over wat ze online zetten. Want scrapen grondig of volledig stoppen, daar zie ik geen opties voor.

[Reactie gewijzigd door geert1 op 22 juli 2024 16:35]

Op dit item kan niet meer gereageerd worden.