GPD publiceert per abuis nummers bekende Nederlanders - update

De GPD, de persdienst van de Nederlandse regionale kranten, heeft via Google abusievelijk de telefoonnummers van vele bekende Nederlanders gepubliceerd. In de database staan onder meer Geert Wilders, Mart Smeets en Gerard Spong.

Een GPD-webserver die voor een intranet bedoeld is maar toch via het internet bereikbaar blijkt te zijn, biedt toegang tot een database met duizenden telefoonnummers van bekende en minder bekende Nederlanders. De journalisten van de GPD - de dienst die voor veel Nederlandse regionale kranten nieuws en achtergrondverhalen maakt - maken gebruik van de database om telefoonnummers van contactpersonen te zoeken en op te slaan.

De GPD-database omvat duizenden telefoonnummers en andere privé-gegevens van politici, journalisten, presentatoren en andere bekende Nederlanders. Zo zijn er de actuele telefoonnummers van onder meer Geert Wilders, Jort Kelder, Frits Wester, Mart Smeets, Felix Meurders en Gerard Spong in te vinden. De meeste van hen reageerden verbaasd dat hun telefoonnummer zomaar vindbaar is. Veel entry's zijn echter verouderd, zoals die van premier Jan-Peter Balkenende en Marco Borsato.

Het vinden van de database is niet moeilijk: het uitvoeren van een Google-zoekopdracht met 'site:' en het ip-adres van een GPD-site is afdoende om een lijst met telefoonnummers te krijgen. De site is weliswaar via een login afgeschermd, maar in de tekst van de zoekresultaten en via de Google-cache zijn vrijwel alle gegevens zichtbaar. Normaal wordt een dergelijke database afgeschermd door via een whitelist alleen bepaalde ip-adressen toegang te geven en worden spiders van zoekmachines als Google geweerd met het gebruik van een robots.txt-bestand.

De GPD is verbaasd over het lek dat Tweakers.net ontdekte. "Het is natuurlijk niet de bedoeling dat mensen zomaar in onze database van contactpersonen kunnen kijken", aldus een woordvoerster van het persbureau. "Een extern bureau onderhoudt de webserver voor ons." Inmiddels is het intranet op de webserver niet meer bereikbaar, de zoekresultaten en de pagina's in cache zijn nog altijd zichtbaar.

Database GPD: entry Frits WesterGPD-lek: Gerard Spong

Update, 20.45 uur, de cache van Google lijkt inmiddels geleegd

Door Arnoud Wokke

Redacteur Tweakers

12-08-2009 • 15:41

176

Reacties (176)

176
149
60
3
0
0
Wijzig sortering
En de grote vraag is of deze database überhaupt aan de Wet Bescherming Persoonsgegevens (Wbp) voldoet.

Deze wet houd namelijk onder andere in dat de mensen die er zijn opgevoerd expliciet toestemming hebben gegeven om opgenomen te worden in de database.

Dit hangt sterk samen met de methode van de invoer. Stel dat een journalist een interview heeft met Dhr. G. Wilders en hierbij zijn 06-nummer voor heeft gekregen en daarna het opvoert in de database, dan was er duidelijk geen toestemming voor...

Edit: ik kan niet terug vinden in het register van het CBP dat de Geassocieerde Pers Diensten (GPD) de database heeft aangemeld.

[Reactie gewijzigd door Motrax op 22 juli 2024 22:11]

Voor mijn gevoel is dit meer een soort bedrijfs-telefoonboek. Het is geen publiekelijk beschikbaar gegevensbestand.

Of, iig, dat was het wel, maar dat was niet de bedoeling dus :P
Anoniem: 126717 12 augustus 2009 16:11
Het zou wellicht netter zijn geweest als Tweakers dit had gepubliceerd nadat de GPD actie had genomen? Zoals ook met hacks en zo gedaan wordt?
Dat hebben we ook gedaan: we hebben dit even onder de pet gehouden en gelijk contact opgenomen met GPD, die gistermiddag heeft toegezegd het snel te fixen. Sindsdien is er actie ondernomen: eerst stond bij elke pagina 'niet gemachtigd', nu is het gewoon offline.
Omdat het nog vindbaar is via Google, hebben we het ip-adres niet vermeld (en ook in reacties wordt het weggehaald): het ip-adres staat er niet bij en de mobiele nummers zijn weggekrast uit de plaatjes.

[Reactie gewijzigd door arnoudwokke op 22 juli 2024 22:11]

Ik zou het gewoon direct publiceren en hun eventueel op de hoogte stellen. Als de telegraaf hoogte krijgt van iets sappigs in nieuws/celeb land dan gaan ze ook niet eerst lief vragen of diegene daar op wil reageren of er wat aan wil doen o.i.d.

Dit maakt de GPD (die schijnbaar al vaker zulke 'foutjes' gemaakt heeft) veel beter duidelijk hoe 'gevaarlijk' zoiets is.
Tja hier wel maar een bepaalde andere site waar ik de naam vast ook niet van mag noemen heeft het wel gepubliceerd.
Geenstijl en Nu.nl bedoel je? Of Fokzine? Is zo'n beetje overal bekend...
GPD heeft al actie ondernemen. Alleen Google cache duurt allemaal een stuk langer.
Het zou dan ook netter geweest zijn om te wachten totdat google op het (ongetwijfeld reeds gedane) verzoek tot verwijdering van gpd gehoor heeft gegeven.

Vraag me zelfs af of je niet in de aansprakelijkheidszone komt zo.
Dan was het bericht een stuk minder interessant geweest. Bovendien, als Tweakers.net het niet oppikt doet een andere site het ongetwijfeld wel.
je bedoelt wachten tot google z'n cache opruimt?
Dat bedoel ik ja...
Nu zullen er vele nummers gewijzigd moeten worden. Dus kosten voor het wijzigen, visitekaartjes en ander drukwerk, het doorsturen van de nieuwe nummers, ga zo maar door.
Wie z'n billen brandt moet op de blaren zitten. Juist als de fout meer impact heeft zullen meer mensen zich realiseren dat het beveiligen van persoonsgegevens verdomd belangrijk is. En de gedupeerden moeten de kosten gewoon verhalen op GPD
"De site is weliswaar via een login afgeschermd, maar in de tekst van de zoekresultaten en via de Google-cache zijn vrijwel alle gegevens zichtbaar."

Hoe kan een Google spider nou ergens komen wat voor bezoekers dmv login is afgeschermd?
Anoniem: 247379 @Berdyon12 augustus 2009 15:52
Dat vroeg ik me ook of. Robots.txt is leuk, maar als die pagina's niet zonder login kunnen worden opgevraagd dan kan de google spider er ook niet bij, dus dan zou robots.txt niet eens nodig zijn.

Edit @kokx: waarom zouden ze de googlebot useragent expliciet toegang geven tot afgeschermde gegevens?

[Reactie gewijzigd door Anoniem: 247379 op 22 juli 2024 22:11]

Beetje offtopic,

Maar robots.txt vind ik persoonlijk een behoorlijk potentieel beveiligingsprobleem. Omdat robots.txt file een textbestand is kan iedereen de file gewoon in een browser downloaden. Als je gedetailleerd gaat opgeven welke mappen een gebruiker wel of niet mag bezoeken heeft iemand met potentieel slechte bedoelingen als een idee naar en in welke mappen hij of zij moet zoeken. Daarnaast kan een spider robots.txt gewoon negeren. Ik vind gebruik van robots.txt not done.
Maar robots.txt vind ik persoonlijk een behoorlijk potentieel beveiligingsprobleem.
Dan ga je voorbij aan het doel van robots.txt: het sturen van zoekmachines die voldoen aan die richtlijn. Het is nooit bedoeld geweest en is nog steeds niet bedoeld om er iets mee te beveiligen!
Omdat robots.txt file een textbestand is kan iedereen de file gewoon in een browser downloaden. Als je gedetailleerd gaat opgeven welke mappen een gebruiker wel of niet mag bezoeken heeft iemand met potentieel slechte bedoelingen als een idee naar en in welke mappen hij of zij moet zoeken.
Dat is maar gedeeltelijk waar. Ten eerste geef je een soort lijst van matches waar URLs aan moeten voldoen om ze te weren uit de index. Dat kan dus bijvoorbeeld door '/forum/profile-' op te geven, waardoor gebruikersprofielen niet worden geïndexeerd. Nogmaals, je beveiligt er niks mee, maar je voorkomt gewoon in dit voorbeeld dat de profielen van gebruikers op het forum minder makkelijk vindbaar zijn met de meeste zoekmachines.
Daarnaast kan een spider robots.txt gewoon negeren. Ik vind gebruik van robots.txt not done.
Tuurlijk kan een zoekmachine dat, maar ondertussen doen wel alle grote spelers mee in die richtlijnen en heb je als webmaster wel redelijk invloed op wat er wordt geïndexeerd.
OA nieuws-sites en dergelijke doen dat nog wel eens. Wel indexeren in Google, maar "echte" gebruikers andere content voorschotelen.

Kan ze op een behoorlijke penalty van Google komen te staan overigens.
Anoniem: 247379 @thegve12 augustus 2009 16:21
Daar is het natuurlijk wel logisch, je wil dat niet-leden je nieuws kunnen vinden, maar niet dat ze het kunnen lezen zonder in te loggen (lees: te betalen). Uiteraard laat je het dan wel (gedeeltelijk) indexeren.

Maar een database met contactgegevens? Waarom zou je die expliciet open zetten voor de googlebot user agent?
Omdat deze mischien intern the google search appliance gebruiken.

zie hier : http://www.google.com/enterprise/search/gsa.html


Deze gebruiken ze dan waarschijnlijk intern en omdat je alles wilt doorzoeken hebben ze het met een user agent 'beveiligd'. Beter hadden ze dit op IP nivo kunnen doen, maar ja.... iedereen denkt tegenwoordig dat ze systeembeheerder zijn en dan worden deze domme fouten gemaakt.

Ries
die mooie pagina's worden toch vanuit een database gevuld lijkt me. dan kan je net zo makkelijk een pagina maken waar je de query kan aanpassen, oftewel je eigen zoekmachine bouwen die binnen de database zoekt. ik ben benieuwd of ze nou echt zo stom zijn of dat er wat anders (opzet) in het spel is.
Z'n GSA unit wordt geïnstalleert in het lokale netwerk (een los stuk hardware dus) bij een bedrijf zelf. Gebruikers (klanten/medewerkers) kunnen vervolgens via een website of andere methodes zoekopdrachten sturen om vervolgens antwoord te krijgen van de GSA.

Dit heeft alleen weinig te maken met toegang van buitenaf omdat de indexering van de website gebeurt door een machiene die in de lokale omgeving van een bedrijf draait en dus niet door de "algemene" googlebot voor je normale google.com zoekopdrachten.

Zie ook http://www.google.com/enterprise/search/gsa_website.html.
(En nee, ze hangen geen Goudse kaas in je rack :+)
expert exchange doet dat ook, erg irritant!
ja, dat is inderdaad een verneukeratieve site. Maar via de Google cache vind je altijd het antwoord, koekje van eigen deeg :)
Gewoon helemaal omlaag scrollen voldoet ook?
Ja, gelukkig wel.
Maar omdat je eerst nog een hele rij referrers krijgt, denken mensen al gauw dat zo op het eind van de pagina zijn. En melden zich aan.
Je moet echt heel lang naar beneden scrollen wil je de resultaten krijgen.

Ik dacht ook een hele lange tijd dat het een ***** site was die de content afschermde. Nu weet ik gelukkig beter en scroll gelijk helemaal naar beneden :)
doorgaans helpt het door helemaal naar onder te scrollen :-)
(of hev ik toch een hack actief?)
Een tijd geleden heeft Google geklaagd dat ze de zoekrobot andere content voorschotelen dan de gebruiker.
Om in de zoekresultaten te blijven, heeft EE de content alsnog zichtbaar moeten maken voor de gebruiker. Echter zijn ze niet zo dom, en hebben ze de antwoorden helemaal onderaan gezet.
en daarnaast werkt dit alleen als je rechtstreeks bij google vandaan komt. een link naar een ander topic op EE vanuit EE werkt niet op deze manier.
Kan ze op een behoorlijke penalty van Google komen te staan overigens.
Dat zou ik toch graag wat uitgelegd willen hebben. Google die straf uitdeelt?
Als Google ongevraagd informatie van mijn site indexeert, dan moet men toch niet gaan klagen dat ze de verkeerde informatie vergaren?
Straffen kan ook in de vorm van een lagere index score geven. En als een site merkt dat zijn bezoekers via google spontaan met 40% afnemen (of misschien wel meer) dan zullen er snel genoeg achter komen dat ze lager staan en als ze dan verhaal gaan halen weten ze waarom.
Ik denk dat het met die penalty best meevalt. Als ik resultaten van een forum krijg die alleen voor Google leesbaar zijn, zit er vaak ook geen cache knopje op Google. Dat lijkt me niet per ongeluk.
Nieuw sites doen dat inderdaad vaker. Thegve geeft aan dat ze aan de "echte" gebruikers andere content geevn. Google vindt dat inderdaad niet leuk en zal maatregelen nemen als men dit doet om een hogere ranking te krijgen. Wat men wel vaak doet en wat Google ook toestaat is de Googlebot toegang geven tot een afgeschermd stuk, waar de normale gebruikers voor moeten betalen. De google bot kan dan indexeren en als gebruikers op de link klikken wordt hen gevraagd eerst te registreren of te betalen. Het doel is om Google wel te laten weten dat je bepaalde informatie op jouw betaal / afgeschermde site hebt staan.
Anoniem: 247379 @feuniks12 augustus 2009 16:33
Nieuwssites wel ja, maar waarom zou een site als die van de GPD dat doen?
Je hebt een google search engine kastje voor intranet sites. Je eigen google server zeg maar. Wellicht gebruikt de gpd zo'n search engine kastje, en is de search engine/bot op dat kastje hetzelfde als de Google bot die wij allemaal wel kennen. Zo zou het in principe kunnen dat de publieke Google bot via robots.txt toegang krijgt.
Edit: dat kastje heet de Google Search Appliance

[Reactie gewijzigd door Anoniem: 201824 op 22 juli 2024 22:11]

Doordat de spider er wel toegang tot heeft, omdat de googlebot useragent waarschijnlijk wel toegestaan word. Dit gebeurt bij een aantal websites onterecht, een uurtje surfen met de googlebot useragent maakt dit al snel duidelijk ;).
@Berdyon als de pagina met betreffende gegevens dus niet beveiligd zijn.

Er hoeft maar iemand een link ergens in te zetten naar een niet gepubliceerd deel van de site en er is een ingang.
Dus de website is niet met een login beveiligd in tegenstelling tot wat in het bericht staat? Of je moet wel eerst inloggen maar de achterliggende pagina's zijn weer niet beveiligd waardoor inderdaad zo'n directe link wel werkt?
Anoniem: 119722 12 augustus 2009 18:45
De GPD is verbaasd over het lek dat Tweakers.net ontdekte. "Het is natuurlijk niet de bedoeling dat mensen zomaar in onze database van contactpersonen kunnen kijken", aldus een woordvoerster van het persbureau.
Hoe kun je nu verbaasd zijn als je database zo lek als een mandje is :? Moet je je zaakjes beter beveiligen. Nu was het tweakers maar. De volgende keer kan het iemand zijn met kwade bedoelingen. Dan heeft de GPD een groter probleem!
De volgende keer kan het iemand zijn met kwade bedoelingen.
Hoeveel kwaad kun je met een telefoonnummer?
Aanmelden bij Jamba of soortgelijke oplichters?
Niet, die moeten tegenwoordig een sms''je sturen, en pas als je daarop antwoord ben je aangemeld!

Dus dat is niet regelen, wel kun je informatie aanvragen en aanmelden voor allerlei reclame zooi, zelfs dingen die geld kosten om te ontvangen kun je krijgen, maar abbonementen niet meer ;)
Normaal wordt een dergelijke database afgeschermd door via een whitelist alleen bepaalde ip-adressen toegang te geven en worden spiders van zoekmachines als Google geweerd met het gebruik van een robots.txt-bestand.
IP-adressen zijn oke, maar een robots.txt om te zorgen dat gevoelige informatie niet in een zoekmachine terecht komt? Betekent dus dat die informatie voor iedereen wel gewoon te zien is. Zoekmachines die geen gehoor geven aan robots.txt indexeren het dus gewoon. Gewoon niet online beschikbaar maken dit soort dingen, klaar. En moeten mensen er toch vanaf een externe locatie bij, dan hebben we daar VPN voor uitgevonden. Kan ook nog eens mooi versleuteld worden.

[Reactie gewijzigd door Mafkees op 22 juli 2024 22:11]

Anoniem: 285604 12 augustus 2009 15:47
Het is toch altijd hetzelfde verhaal? Door automatisering maken we gegevens toegankelijker, maar niet altijd op de manier die we bedoelden...
Denk ook aan de RFID-chips: makkelijk want geen direct contact meer nodig tussen kaart en lezer! Ondertussen heb ik van het bedrijf waar ik voor werk, wel een anti-skimpashouder gekregen. :)
Ben ik wel benieuwd hoe t.net dit ontdekt heeft. Lijkt me niet dat ze elk ip-adres (dat zijn er met ipv4 best een boel, met ipv6 net nog wat meer) in google gaan typen om te kijken of er interessante resultaten tussen zitten :D
Blah wat een houterige fout weer... nomaal doe ie dat nooit hoor.

Nou dus weer zo'n voorbeeldje wat er mis kan gaan als men steeds meer data opspaart in databases, men bergrijpt nog steeds niet goed hoe kritiek dit soort data kan zijn.

De overheid begrijpt ook al niet dat hoe meer privacy data hoe moeilijker het is om het te beschermen en met 1 enkel foutje kan soms alles gecompromitteerd worden. Ik hoop dat de nederlandse regering aan de hand van dit voorbeeldje nu ook wakker wordt.
Leuk spelen daarmee... Klaas Wilting (1002), Wouter Bos (2154) of Erica Terpstra (1005), Ruud de Wild (3372). Of Gordon (2749)? Lijkt me dat handige scriptkids even snel de cache leeghalen en half BN-Nederland kan een nieuw nummer aanvragen... :/

[Reactie gewijzigd door tweaktubbie op 22 juli 2024 22:11]

Op dit item kan niet meer gereageerd worden.