School vraagt Google persoonsgegevens te verwijderen

Het schoolbestuur van de Catawba County Schools in de staat North Carolina heeft Google succesvol gevraagd om bepaalde geïndexeerde en gecachte informatie van de schoolwebsite te verwijderen. Volgens het bestuur hadden de Google-spiders informatie gevonden op een plaats waar deze datavinders niet mochten komen. Het resultaat was dat tijdelijk de namen van 619 studenten op straat lagen, inclusief bepaalde schoolresultaten en de Amerikaanse variant van het burgerservicenummer . Deze informatie was opgeslagen op een zogenaamde DocuShare-server van Xerox, die via een gebruikersnaam en wachtwoord benaderbaar is. Volgens de schoolleiding was Google de naam van een van de studenten tegenkomen op het internet, waarna er automatisch verder gezocht werd naar informatie over die persoon. Daarbij zouden de zoekspiders de beveiliging van DocuShare gepasseerd zijn en direct het document uit 2002 met de persoonsgegevens geïndexeerd hebben.

Nadat het bestuur op het vrijkomen van de informatie gewezen was, heeft het direct het gewraakte bestand van de server verwijderd. Ook is er gekeken of er nog meer informatie aanwezig was op de centrale opslagplaats met persoonsgegevens van de studenten. Daarnaast is Google direct gevraagd om links naar het bestand en de gecachte versie te verwijderen. Het zoekbedrijf heeft vrijdagavond voldaan aan de vraag, alhoewel Google-woordvoerder Barry Schnitt claimt niet verantwoordelijk te zijn voor hetgeen er gebeurd is: 'Als er een wachtwoord nodig is, dan kunnen we de website niet benaderen of cachen.' Het is daarom onbekend hoe de informatie alsnog de servers van Google heeft kunnen bereiken. De ouders van de studenten waren in ieder geval niet gelukkig met de gelekte gegevens. Meer dan vijftig van hen hebben contact opgenomen om verhaal te halen. Het bestuur heeft inmiddels alle ouders van de 619 studenten in kwestie per brief opheldering over de zaak gegeven.

IT-banen

Reacties (56)

Luuk1983

26 juni 2006 13:06

Zowieso kan Google toch niet zomaar overal bijkomen met searchspiders? Er moet dan toch echt iets mis zijn met de beveiliging van dat docushare gebeuren!

TRON

@Luuk1983 • 26 juni 2006 16:38

Dat is niet helemaal waar natuurlijk. Als ik hier op Tweakers.net mijn sessie_id post, dan kan daar ook misbruik van gemaakt worden.

Stel Google volgt mijn link van http://gathering.tweakers...=xxxxxxxxxxxxxxxxxxxxxxxx

Dan is Google onder mijn account ingelogd en kan dus veel meer informatie vinden.

arjankoole

Bedrijfsnieuws

@TRON • 27 juni 2006 07:48

Dan is Google onder mijn account ingelogd en kan dus veel meer informatie vinden.

een sessie is veel meer dan alleen een variable, een beetje sessie-management systeem checked niet alleen op variable, maar ook op cookie, het IP waarvan het systeem bij die cookie / sessie id hoort, en waarschijnlijk heel wat meer zaken nog.

TRON

@arjankoole • 27 juni 2006 12:27

Arjan, lees het forum er maar op na. Er zijn al verscheidene keren misbruik gemaakt van een account omdat men per ongeluk het ReactID meeposte.

Voorbeeld:
- forum: ReactID misbruik en de gevolgen

Natuurlijk kan je de sessie ook aan een IP-adres koppelen. Dat versterkt de beveiliging enorm namelijk.

Verwijderd @arjankoole • 27 juni 2006 13:31

Probleem met koppelen aan IP adres is als er via een proxy-farm gebruik gemaakt wordt van de dienst. Dan heb je voor ieder request (met wat pech) een apart IP adres, en zou je dus niet meer in kunnen loggen.

GoBieN-Be @TRON • 26 juni 2006 16:44

Tegen de tijd dat google de linkt opneemt en spidert, is de sessie al lang verlopen hoor

Overigens, hebben de meeste grote fora, een speciaal stukje code zitten in de sessie handler, om het surfen voor spiders gebruiksvriendelijker te maken, namelijk, de sessie id's weglaten.

Verwijderd @GoBieN-Be • 26 juni 2006 17:25

Tegen de tijd dat google de linkt opneemt en spidert, is de sessie al lang verlopen hoor

Tenzij er toch iets mis is met de beveiliging. Bovendien moet je bij beveiliging altijd uitgaan van een worst-case scenario.

TRON

@GoBieN-Be • 26 juni 2006 18:39

Je hebt sessies die langer dan 24 uur open kunnen staan. Er zijn sessies die je niet hoeft te laten verlopen. 'k Heb zo te zien nog een sessie op GoT openstaan van
29-03-2006 00:40

Dus het IS mogelijk

Remus @Luuk1983 • 26 juni 2006 16:45

Wat nog weleens voorkomt is dat sites die een wachtwoord vragen voor content, een zoekrobot zonder controle laat passeren zodat de site wel geïndexeerd kan worden. Ik denk dat dat hier ook het geval is.

Verwijderd @Luuk1983 • 26 juni 2006 13:07

Ja idd een beetje zwak, toch ben ik wel geinteresseerd hoe zo'n txt bestandje precies werkt Luuk, zit daar gewoon een html code in ?

Muthas @Verwijderd • 26 juni 2006 13:10

Zoals hierboven aangegeven, met een robot.txt kan je aangeven of zoekmachines er wel of niet mogen komen.

Edit: Hiermee bedoelde ik dus de post van hAl, nu ziet het er een beetje dom uit

.

Maar dit ligt niet aan DocuShare, maar aan degene die het bij die school heeft ingesteld.

Verwijderd @Muthas • 26 juni 2006 13:12

Ik zou maar niet te veel vertrouwen op robots.txt. Een spider kan zoiets gewoon negeren. Google houdt zich er misschien aan, maar zo zijn er 10 anderen die zich er niet aan houden.

borkhuis @Muthas • 26 juni 2006 13:36

Of ze gebruiken deze omgekeerd: er staat in de robots.txt dat ik daar niet mag komen, dus zal de informatie wel interesant zijn. Robots.txt is erg leuk voor goede webspiders, maar deze bevat ook informatie voor "spiders" die niet zo netjes zijn.

MaxxBass @Muthas • 26 juni 2006 14:10

Via bovenstaande link wordt ook uitgelegd hoe je je server zo kunt inrichten dat ze het niet kunnen scannen... dus..

Olaf van der Spek @Verwijderd • 26 juni 2006 13:09

http://www.google.nl/search?q=robots.txt

Guru Evi @Luuk1983 • 26 juni 2006 19:45

Er zijn ook wel mensen die ergens een linkje bookmarken of doorgeven die wel publiek is. Zoiets als: http://guruevi:passwoord@server.school.com/ of http://server.school.com/...guruevi&password=password

StiGMaTa @Guru Evi • 27 juni 2006 08:57

Daarmee dat je niet naar get-data kijkt, maar naar post-data.

ram.con 26 juni 2006 13:23

Hmm, dat mogen ze bij ons op school ook wel doen. Onze roosters staan on-line, en zogenaamd afgeschermd (dwz: de pagina met de link naar de roosterprogramma-dumps is afgeschermd, de dumps zelfs zijn via een directe URL zo te verkijgen, en dat weet iedereen, want iedereen zet die dingen in zijn bladwijzers.) Ik heb ze laatst een mailtje gestuurd: "Zeg, kennen jullie ook zoiets als robots.txt. Zou ik wel prettig vinden. Nu is de tweede hit op Google een pagina die aangeeft waar ik elke dag ben. Niet zo prettig." (maar dan netter). Niets op teruggehoord.

Oftewel: laksheid. Maar goed, BSnummers en resultaten zijn nog ietsje erger.
En: ik weet zeker dat dit in Nederland veel en veel vaker gebeurd, want alle middelbare scholen gebruiken ongeveer dezelfde programma's.

Edit: @Parabellum: er zijn dus weldegelijk log-ins, maar die zijn niet doorgevoerd tot in de dumps, dus in feite heeft het geen zin. Als je echter via de website van mijn school (dankje DeKaluh

...als ik dit echt vreselijk vond zou ik het niet gepost hebben...maar een directe link lijkt mij niet nodig. Tenzij mijn school een beetje de stats bekijkt, dan komen ze hopelijk nog op een idee de boel te beveiligen.) naar de roosters zoekt moet je wel inloggen, ken je de directe link, of gebruik je google, dan maalt hij nergens om.

Verwijderd @ram.con • 26 juni 2006 13:51

Handiger zou zijn als scholen met logins werken voor de leerlingen, lijkt me niet zo heel moeilijk of vervelend. En idd, ook al is men niet direct naar je op zoek, het laat wel weten waar je bent op welk tijdstip. Lijkt me ongewenst.

praseodymium @Verwijderd • 26 juni 2006 15:07

Bij onze school was dit tot vorig schooljaar ook het geval. We hebben nu een Drupal-site met een hoop zelfgemaakte modules voor bv. de roosters, en iedereen heeft een eigen loginnaam. Denk dat veel scholen (en leerlingen) hiervan alleen kunnen dromen...

jasperwillem @praseodymium • 26 juni 2006 16:21

Op HBO's en MBO's ken ik het niet anders, bij Basisonderwijs ken ik de situatie niet, voorgezet onderwijs was voor elke pc een tijdelijke logincode, maar dat is al weer even geleden.

Verwijderd @ram.con • 26 juni 2006 14:08

Tjsa, ik heb er niks aan, maar wel leuk om te weten waar je zit ;-)

EDIT: @ram.con: Graag gedaan

(ik heb het linkje weer weggehaald, zoals je ziet, want als ik hem kan vinden via Google, kan iedereen dat hier

Bamieater @ram.con • 27 juni 2006 07:58

@robots.txt - Dat vind ik geen goede manier om je directory te beveiligen. En zeker al niet als het om persoonsgegevens gaat, zorg dan ervoor dat je een goede http auth hebt oid.

Kijk maar op deze Google search hoe men eventueel robots.txt kan misbruiken om "beveiligde" directories te vinden: http://www.google.nl/sear...t&btnG=Google+zoeken&meta=

frickY 26 juni 2006 13:10

Google kan alleen komen waar elke internet gebruiker kan komen. Dit is gewoon een fout van de school. Die documenten zouden afgeschermt moeten zijn.

Applaus voor Google dat zij de resultaten desondanks hebben verwijderd. Normaliter zouden ze zeggen; Kwak er een 403 header op en binnen een paar weken val je vanzelf weer uit de index.

Crazz @frickY • 26 juni 2006 14:03

Niet mee eens: de informatie is niet van Google, dus eigenlijk moeten ze het eerst even netjes vragen. De school kiest er immers bewust niet voor om alles direct integraal zelf op het internet te publiceren, aangezien het achter een inlognaam en password verscholen is (alleen niet zo goed blijkbaar.)

Als ik mijn fiets niet op slot zet midden op straat, moet iedereen er ook vanaf blijven (ook al wordt zo'n gedachtengang niet geaccepteerd in onze samenleving.)

Mickman @Crazz • 26 juni 2006 15:31

Als dit zo zou werken, zou elke zoekmachine op elk ingevoerd trefwoord een blanco pagina teruggeven!

ILUsion @Crazz • 27 juni 2006 16:03

Fietsen zijn niet te vergelijken met informatie. Een fiets is materiaal, informatie is een abstract begrip. Je kan zo geen informatie stelen, je zou enkel de informatiedrager kunnen stelen (en zo de informatie bemachtigen). In dit geval: door het indexeren van die site, is de school geen informatie kwijt, het is enkel makkelijker geworden om aan die informatie te komen.

Echter kan je op internet niet duidelijk maken aan een zoekmachine dat een bepaalde pagina niet voor het grote publiek bestemd is, behalve via robots.txt of via een wachtwoord. Het is niet stom dat zo'n maatregels nodig zijn, want anders heb je ook mensen die per ongeluk aan deze gegevens geraken, die ze in feite niet mogen inkijken. Als jij niet wilt dat je kinderen met vuur spelen, dan moet je ook geen lucifers op tafel laten liggen, waar je kinderen ermee kunnen spelen, maar je legt ze beter op/in een kast waar ze er niet bij kunnen. Net zoals zovele dingen waarop "buiten het bereik van kinderen houden" staat. Er zijn nu eenmaal zaken waarvoor enkel bepaalde personen bevoegdheden hebben, en die bevoegdheden worden afgedwongen via kunstmatige barrieres (de kast, een wachtwoord, robots.txt, ...).

Als het wachtwoord op de site door Google gepasseerd kan worden, was het geen goede beveiliging. Als ik hier nu zou schrijven dat je niet verder naar beneden mag scrollen, mag je er zeker van zijn dat 99,99% dat toch doet. Een spider is een automatisch programma, dat maakt geen afweging: zou deze informatie publiek zijn? Het feit dat de spider aan de data geraakt, betekent juist dat de informatie publiek beschikbaar is. Google zal heus geen exploits gebruiken om aan de data te geraken, het is enkel een nalatigheid van die school of van Xerox

Damic @frickY • 26 juni 2006 16:53

Half mee eens, ligt meer in de beveiliging van de DocuShare-server van Xerox

RedLizard @frickY • 27 juni 2006 13:02

Google heeft toch ergens een knopje 'ga svp site X zo snel mogelijk herindexeren', precies voor deze doeleinden? Zodra je data verwijderd is kan google dan zijn cache clearen.

Verwijderd 26 juni 2006 13:16

Nou wat een nieuws.
Je kan ook gewoon dit formuliertje invullen om je site asap te verwijderen.

En meer info hoe je (delen van) je site van google verwijderd: http://www.google.com/sup...y?answer=35301&topic=8459

The Zep Man

Bedrijfsnieuws

@Verwijderd • 26 juni 2006 14:20

* The Zep Man klikt op 'dit formuliertje'...

Access to this system requires that you allow cookies to be set on your computer. Please enable cookies in your browser and hit reload twice. You may find your cookie settings under "Tools -> Internet Options" for Internet Explorer and "Edit -> Preferences" for Netscape.";

Natuurlijk verwijderen ze de site en waarborgen ze je privacy... na het installeren van een cookie met een unique ID.

knirfie244 26 juni 2006 14:15

Ik snap sowieso niet dat één student bij al deze gegevens zou kunnen, waarom moet deze student toegang hebben tot de gegevens van andere studenten?

Verwijderd 26 juni 2006 14:57

Dit is werkelijk het grootste onnieuws dat mogelijk is.

Gebruik http://services.google.com:8882/urlconsole/controller om URL's te verwijderen.

Kostte me net ca. 2 minuten om het op de site van google te vinden.

Romio 26 juni 2006 13:30

Site met wachtwoord beveiligd kunnen ze niet bij?
Hoe komt het dan dat ik via de cache soms pagina's kan open op forum's die beveiligd zijn met een wachtwoord? Komt het dan omdat ze zo'n robots.txt of iets soortgelijks niet hebben gebruikt?

Verwijderd @Romio • 26 juni 2006 13:40

Cache > omdat sites met beveiligde content dit vaak wel zonder wachtwoord beschikbaar maken voor zoekmachine spiders, zodat ze beter gevonden worden. Een gebruiker die dan in google klikt krijgt dan wel de registratie pagina voor z'n neus...

frickY @Verwijderd • 26 juni 2006 14:12

webmasterworld.com doet dit ja.
In je google hits zie je een teaser van het topic met het antwoord dat je zoekt, maar als je klikt mag je eerst even betalen. De cache is natuurlijk ook uitgeschakelt.

Dergelijke resultaten zijn vokonmen nutteloos. Heb ze dan ook al als abuse gemeld

Maar wat dat met deze nieuwspost te maken heeft

Dergelijke gegevens zouden gewoon niet online voor Jan en alleman beschikbaar moeten zijn, en al helemaal niet voor zoekspiders.

borkhuis @Romio • 26 juni 2006 13:39

Dat komt omdat sommige programma's Googlebot toelaten, om alle informatie to indexeren. Deze wordt dan wel in de cache opgenomen (wat je overigens ook kunt voorkomen via bepaalde META-tags volgens mij) maar je kunt er toch niet bij komen, tenzij je je voor gaat doen als Googlebit ipv IE of Firefox.

YaPP @Romio • 26 juni 2006 14:17

Bijvoorbeeld een client-side wachtwoord dat met JavaScript werkt. En als er een directe link beschikbaar is naar de inhoud, zal iedere spider deze opvragen. Die zou je dan zelf ook kunnen openen vanuit de favorites.

Maak dus ook nooit links als www.mijnsite.nl/index.php?action=deleteall aangezien de spider deze pagina gewoon zal opvragen. Daar zijn wachtwoord beveiligingen of formulieren voor uitgevonden. Die kan de zoekmachine niet doorlopen.

Snake 26 juni 2006 13:12

Waarschijnlijk was het script een script dat checkte of de bezoeker een googlebot was, en dan toegang verschafte ( gelijk bepaalde sites, om hun dingen te promoten, maar dan moet je betalen ).

Eigen schuld dikke bult, nu moeten ze niet afkomen!

Thrillseeka @dj.verhulst • 26 juni 2006 13:10

wat ik me af vraag he

waarom moeten mensen dingen doen om de bots weg te houden en niet andersom, jij wil geindexeerd worden geef het aan.

Imho is dit net als met spam liever een opt-in dan een opt-out.

crazyx @Thrillseeka • 26 juni 2006 13:13

Omdat je dingen publiek op internet zet. Als je niet wil dat het grote publiek er aan kan, dan moet je er een wachtwoord voor zetten.

Verwijderd @Thrillseeka • 26 juni 2006 13:14

@lordspacie:
Vind ik niet. Een spider is net zoals een menselijke surfer gewoon bezig met browsen van link naar link. Er wordt gewoon naar publieke informatie gekeken. Je kan daar geen juridische beperkingen op leggen, tenzij zo'n spider enorme load veroorzaakt bijvoorbeeld.

Olaf van der Spek @dj.verhulst • 26 juni 2006 13:07

als je bv google.txt plaatst dat de bot gewoon overslaat.

Dat is een 'oplossing' die onder de noemer "lekker brak netwerk." valt.

Verwijderd @dj.verhulst • 26 juni 2006 13:08

is een robots.txt niet iets handiger

Verwijderd @dj.verhulst • 26 juni 2006 13:08

Tja, dat soort fouten worden constant gemaakt. Ik vind het dus ook prettig om te weten dat Google er niet moeilijk over doet gevoelige persoonlijke informatie te verwijderen op verzoek.

Je kan een share overigens beter beveiligen door een ssl login te vereisen. Google komt daar niet doorheen.

Verwijderd 26 juni 2006 13:11

Zo'n generator is een eitje voor wie dan ook, foutje bedankt !

BTW, tnx voor de info .. kan ik die fout iig niet meer maken

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (56)

Sorteer op:

Weergave: