De GPD, de persdienst van de Nederlandse regionale kranten, heeft via Google abusievelijk de telefoonnummers van vele bekende Nederlanders gepubliceerd. In de database staan onder meer Geert Wilders, Mart Smeets en Gerard Spong.
Een GPD-webserver die voor een intranet bedoeld is maar toch via het internet bereikbaar blijkt te zijn, biedt toegang tot een database met duizenden telefoonnummers van bekende en minder bekende Nederlanders. De journalisten van de GPD - de dienst die voor veel Nederlandse regionale kranten nieuws en achtergrondverhalen maakt - maken gebruik van de database om telefoonnummers van contactpersonen te zoeken en op te slaan.
De GPD-database omvat duizenden telefoonnummers en andere privé-gegevens van politici, journalisten, presentatoren en andere bekende Nederlanders. Zo zijn er de actuele telefoonnummers van onder meer Geert Wilders, Jort Kelder, Frits Wester, Mart Smeets, Felix Meurders en Gerard Spong in te vinden. De meeste van hen reageerden verbaasd dat hun telefoonnummer zomaar vindbaar is. Veel entry's zijn echter verouderd, zoals die van premier Jan-Peter Balkenende en Marco Borsato.
Het vinden van de database is niet moeilijk: het uitvoeren van een Google-zoekopdracht met 'site:' en het ip-adres van een GPD-site is afdoende om een lijst met telefoonnummers te krijgen. De site is weliswaar via een login afgeschermd, maar in de tekst van de zoekresultaten en via de Google-cache zijn vrijwel alle gegevens zichtbaar. Normaal wordt een dergelijke database afgeschermd door via een whitelist alleen bepaalde ip-adressen toegang te geven en worden spiders van zoekmachines als Google geweerd met het gebruik van een robots.txt-bestand.
De GPD is verbaasd over het lek dat Tweakers.net ontdekte. "Het is natuurlijk niet de bedoeling dat mensen zomaar in onze database van contactpersonen kunnen kijken", aldus een woordvoerster van het persbureau. "Een extern bureau onderhoudt de webserver voor ons." Inmiddels is het intranet op de webserver niet meer bereikbaar, de zoekresultaten en de pagina's in cache zijn nog altijd zichtbaar.


Update, 20.45 uur, de cache van Google lijkt inmiddels geleegd
[Reactie gewijzigd door Cloud op woensdag 12 augustus 2009 16:49]
[Reactie gewijzigd door r-vos op woensdag 12 augustus 2009 16:19]
ProficiatVeel entry's zijn echter verouderd, zoals die van premier Jan-Peter Balkenende en Marco Borsato.
[Reactie gewijzigd door r-vos op woensdag 12 augustus 2009 16:30]
IP-adressen zijn oke, maar een robots.txt om te zorgen dat gevoelige informatie niet in een zoekmachine terecht komt? Betekent dus dat die informatie voor iedereen wel gewoon te zien is. Zoekmachines die geen gehoor geven aan robots.txt indexeren het dus gewoon. Gewoon niet online beschikbaar maken dit soort dingen, klaar. En moeten mensen er toch vanaf een externe locatie bij, dan hebben we daar VPN voor uitgevonden. Kan ook nog eens mooi versleuteld worden.Normaal wordt een dergelijke database afgeschermd door via een whitelist alleen bepaalde ip-adressen toegang te geven en worden spiders van zoekmachines als Google geweerd met het gebruik van een robots.txt-bestand.
[Reactie gewijzigd door Mafkees op woensdag 12 augustus 2009 16:42]
[Reactie gewijzigd door Edmond Dantes op woensdag 12 augustus 2009 15:52]
Dat zou ik toch graag wat uitgelegd willen hebben. Google die straf uitdeelt?Kan ze op een behoorlijke penalty van Google komen te staan overigens.
Dan ga je voorbij aan het doel van robots.txt: het sturen van zoekmachines die voldoen aan die richtlijn. Het is nooit bedoeld geweest en is nog steeds niet bedoeld om er iets mee te beveiligen!Maar robots.txt vind ik persoonlijk een behoorlijk potentieel beveiligingsprobleem.
Dat is maar gedeeltelijk waar. Ten eerste geef je een soort lijst van matches waar URLs aan moeten voldoen om ze te weren uit de index. Dat kan dus bijvoorbeeld door '/forum/profile-' op te geven, waardoor gebruikersprofielen niet worden geïndexeerd. Nogmaals, je beveiligt er niks mee, maar je voorkomt gewoon in dit voorbeeld dat de profielen van gebruikers op het forum minder makkelijk vindbaar zijn met de meeste zoekmachines.Omdat robots.txt file een textbestand is kan iedereen de file gewoon in een browser downloaden. Als je gedetailleerd gaat opgeven welke mappen een gebruiker wel of niet mag bezoeken heeft iemand met potentieel slechte bedoelingen als een idee naar en in welke mappen hij of zij moet zoeken.
Tuurlijk kan een zoekmachine dat, maar ondertussen doen wel alle grote spelers mee in die richtlijnen en heb je als webmaster wel redelijk invloed op wat er wordt geïndexeerd.Daarnaast kan een spider robots.txt gewoon negeren. Ik vind gebruik van robots.txt not done.
[Reactie gewijzigd door Grrmbl op woensdag 12 augustus 2009 21:21]
[Reactie gewijzigd door cumulus007 op woensdag 12 augustus 2009 16:08]
Op dit item kan niet meer gereageerd worden.
Populair: Android Tablets Samsung Websites en communities Mobiele telefoons Google Sony Microsoft Games Politiek en recht
© 1998 - 2013 Tweakers.net B.V. Contact Over Tweakers Jouw privacy Algemene voorwaarden Cookies
Tweakers wordt uitgegeven door De Persgroep en wordt gehost door True