Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 56 reacties
Bron: Winston-Salem Journal

Het schoolbestuur van de Catawba County Schools in de staat North Carolina heeft Google succesvol gevraagd om bepaalde geÔndexeerde en gecachte informatie van de schoolwebsite te verwijderen. Volgens het bestuur hadden de Google-spiders informatie gevonden op een plaats waar deze datavinders niet mochten komen. Het resultaat was dat tijdelijk de namen van 619 studenten op straat lagen, inclusief bepaalde schoolresultaten en de Amerikaanse variant van het burgerservicenummer . Deze informatie was opgeslagen op een zogenaamde DocuShare-server van Xerox, die via een gebruikersnaam en wachtwoord benaderbaar is. Volgens de schoolleiding was Google de naam van een van de studenten tegenkomen op het internet, waarna er automatisch verder gezocht werd naar informatie over die persoon. Daarbij zouden de zoekspiders de beveiliging van DocuShare gepasseerd zijn en direct het document uit 2002 met de persoonsgegevens geÔndexeerd hebben.

Nadat het bestuur op het vrijkomen van de informatie gewezen was, heeft het direct het gewraakte bestand van de server verwijderd. Ook is er gekeken of er nog meer informatie aanwezig was op de centrale opslagplaats met persoonsgegevens van de studenten. Daarnaast is Google direct gevraagd om links naar het bestand en de gecachte versie te verwijderen. Het zoekbedrijf heeft vrijdagavond voldaan aan de vraag, alhoewel Google-woordvoerder Barry Schnitt claimt niet verantwoordelijk te zijn voor hetgeen er gebeurd is: 'Als er een wachtwoord nodig is, dan kunnen we de website niet benaderen of cachen.' Het is daarom onbekend hoe de informatie alsnog de servers van Google heeft kunnen bereiken. De ouders van de studenten waren in ieder geval niet gelukkig met de gelekte gegevens. Meer dan vijftig van hen hebben contact opgenomen om verhaal te halen. Het bestuur heeft inmiddels alle ouders van de 619 studenten in kwestie per brief opheldering over de zaak gegeven.

Moderatie-faq Wijzig weergave

Reacties (56)

Zowieso kan Google toch niet zomaar overal bijkomen met searchspiders? Er moet dan toch echt iets mis zijn met de beveiliging van dat docushare gebeuren!
Dat is niet helemaal waar natuurlijk. Als ik hier op Tweakers.net mijn sessie_id post, dan kan daar ook misbruik van gemaakt worden.

Stel Google volgt mijn link van http://gathering.tweakers...=xxxxxxxxxxxxxxxxxxxxxxxx

Dan is Google onder mijn account ingelogd en kan dus veel meer informatie vinden.
Tegen de tijd dat google de linkt opneemt en spidert, is de sessie al lang verlopen hoor :Z

Overigens, hebben de meeste grote fora, een speciaal stukje code zitten in de sessie handler, om het surfen voor spiders gebruiksvriendelijker te maken, namelijk, de sessie id's weglaten.
Tegen de tijd dat google de linkt opneemt en spidert, is de sessie al lang verlopen hoor
Tenzij er toch iets mis is met de beveiliging. Bovendien moet je bij beveiliging altijd uitgaan van een worst-case scenario.
Je hebt sessies die langer dan 24 uur open kunnen staan. Er zijn sessies die je niet hoeft te laten verlopen. 'k Heb zo te zien nog een sessie op GoT openstaan van
29-03-2006 00:40

Dus het IS mogelijk ;)
Dan is Google onder mijn account ingelogd en kan dus veel meer informatie vinden.
een sessie is veel meer dan alleen een variable, een beetje sessie-management systeem checked niet alleen op variable, maar ook op cookie, het IP waarvan het systeem bij die cookie / sessie id hoort, en waarschijnlijk heel wat meer zaken nog.
Arjan, lees het forum er maar op na. Er zijn al verscheidene keren misbruik gemaakt van een account omdat men per ongeluk het ReactID meeposte.

Voorbeeld:
- forum: ReactID misbruik en de gevolgen


Natuurlijk kan je de sessie ook aan een IP-adres koppelen. Dat versterkt de beveiliging enorm namelijk.
Probleem met koppelen aan IP adres is als er via een proxy-farm gebruik gemaakt wordt van de dienst. Dan heb je voor ieder request (met wat pech) een apart IP adres, en zou je dus niet meer in kunnen loggen.
Er zijn ook wel mensen die ergens een linkje bookmarken of doorgeven die wel publiek is. Zoiets als: http://guruevi:passwoord@server.school.com/ of http://server.school.com/...guruevi&password=password
Daarmee dat je niet naar get-data kijkt, maar naar post-data. :+
Wat nog weleens voorkomt is dat sites die een wachtwoord vragen voor content, een zoekrobot zonder controle laat passeren zodat de site wel geÔndexeerd kan worden. Ik denk dat dat hier ook het geval is.
Ja idd een beetje zwak, toch ben ik wel geinteresseerd hoe zo'n txt bestandje precies werkt Luuk, zit daar gewoon een html code in ?
Zoals hierboven aangegeven, met een robot.txt kan je aangeven of zoekmachines er wel of niet mogen komen.

Edit: Hiermee bedoelde ik dus de post van hAl, nu ziet het er een beetje dom uit :+ .

Maar dit ligt niet aan DocuShare, maar aan degene die het bij die school heeft ingesteld.
Ik zou maar niet te veel vertrouwen op robots.txt. Een spider kan zoiets gewoon negeren. Google houdt zich er misschien aan, maar zo zijn er 10 anderen die zich er niet aan houden.
Of ze gebruiken deze omgekeerd: er staat in de robots.txt dat ik daar niet mag komen, dus zal de informatie wel interesant zijn. Robots.txt is erg leuk voor goede webspiders, maar deze bevat ook informatie voor "spiders" die niet zo netjes zijn.
Via bovenstaande link wordt ook uitgelegd hoe je je server zo kunt inrichten dat ze het niet kunnen scannen... dus..
Hmm, dat mogen ze bij ons op school ook wel doen. Onze roosters staan on-line, en zogenaamd afgeschermd (dwz: de pagina met de link naar de roosterprogramma-dumps is afgeschermd, de dumps zelfs zijn via een directe URL zo te verkijgen, en dat weet iedereen, want iedereen zet die dingen in zijn bladwijzers.) Ik heb ze laatst een mailtje gestuurd: "Zeg, kennen jullie ook zoiets als robots.txt. Zou ik wel prettig vinden. Nu is de tweede hit op Google een pagina die aangeeft waar ik elke dag ben. Niet zo prettig." (maar dan netter). Niets op teruggehoord.

Oftewel: laksheid. Maar goed, BSnummers en resultaten zijn nog ietsje erger.
En: ik weet zeker dat dit in Nederland veel en veel vaker gebeurd, want alle middelbare scholen gebruiken ongeveer dezelfde programma's.

Edit: @Parabellum: er zijn dus weldegelijk log-ins, maar die zijn niet doorgevoerd tot in de dumps, dus in feite heeft het geen zin. Als je echter via de website van mijn school (dankje DeKaluh :Y) ...als ik dit echt vreselijk vond zou ik het niet gepost hebben...maar een directe link lijkt mij niet nodig. Tenzij mijn school een beetje de stats bekijkt, dan komen ze hopelijk nog op een idee de boel te beveiligen.) naar de roosters zoekt moet je wel inloggen, ken je de directe link, of gebruik je google, dan maalt hij nergens om. |:(
Handiger zou zijn als scholen met logins werken voor de leerlingen, lijkt me niet zo heel moeilijk of vervelend. En idd, ook al is men niet direct naar je op zoek, het laat wel weten waar je bent op welk tijdstip. Lijkt me ongewenst.
Bij onze school was dit tot vorig schooljaar ook het geval. We hebben nu een Drupal-site met een hoop zelfgemaakte modules voor bv. de roosters, en iedereen heeft een eigen loginnaam. Denk dat veel scholen (en leerlingen) hiervan alleen kunnen dromen...
Op HBO's en MBO's ken ik het niet anders, bij Basisonderwijs ken ik de situatie niet, voorgezet onderwijs was voor elke pc een tijdelijke logincode, maar dat is al weer even geleden.
Tjsa, ik heb er niks aan, maar wel leuk om te weten waar je zit ;-)


EDIT: @ram.con: Graag gedaan :D (ik heb het linkje weer weggehaald, zoals je ziet, want als ik hem kan vinden via Google, kan iedereen dat hier :) ).
@robots.txt - Dat vind ik geen goede manier om je directory te beveiligen. En zeker al niet als het om persoonsgegevens gaat, zorg dan ervoor dat je een goede http auth hebt oid.

Kijk maar op deze Google search hoe men eventueel robots.txt kan misbruiken om "beveiligde" directories te vinden: http://www.google.nl/sear...t&btnG=Google+zoeken&meta=
Google kan alleen komen waar elke internet gebruiker kan komen. Dit is gewoon een fout van de school. Die documenten zouden afgeschermt moeten zijn.

Applaus voor Google dat zij de resultaten desondanks hebben verwijderd. Normaliter zouden ze zeggen; Kwak er een 403 header op en binnen een paar weken val je vanzelf weer uit de index.
Google heeft toch ergens een knopje 'ga svp site X zo snel mogelijk herindexeren', precies voor deze doeleinden? Zodra je data verwijderd is kan google dan zijn cache clearen.
Niet mee eens: de informatie is niet van Google, dus eigenlijk moeten ze het eerst even netjes vragen. De school kiest er immers bewust niet voor om alles direct integraal zelf op het internet te publiceren, aangezien het achter een inlognaam en password verscholen is (alleen niet zo goed blijkbaar.)

Als ik mijn fiets niet op slot zet midden op straat, moet iedereen er ook vanaf blijven (ook al wordt zo'n gedachtengang niet geaccepteerd in onze samenleving.)
Als dit zo zou werken, zou elke zoekmachine op elk ingevoerd trefwoord een blanco pagina teruggeven!
Fietsen zijn niet te vergelijken met informatie. Een fiets is materiaal, informatie is een abstract begrip. Je kan zo geen informatie stelen, je zou enkel de informatiedrager kunnen stelen (en zo de informatie bemachtigen). In dit geval: door het indexeren van die site, is de school geen informatie kwijt, het is enkel makkelijker geworden om aan die informatie te komen.

Echter kan je op internet niet duidelijk maken aan een zoekmachine dat een bepaalde pagina niet voor het grote publiek bestemd is, behalve via robots.txt of via een wachtwoord. Het is niet stom dat zo'n maatregels nodig zijn, want anders heb je ook mensen die per ongeluk aan deze gegevens geraken, die ze in feite niet mogen inkijken. Als jij niet wilt dat je kinderen met vuur spelen, dan moet je ook geen lucifers op tafel laten liggen, waar je kinderen ermee kunnen spelen, maar je legt ze beter op/in een kast waar ze er niet bij kunnen. Net zoals zovele dingen waarop "buiten het bereik van kinderen houden" staat. Er zijn nu eenmaal zaken waarvoor enkel bepaalde personen bevoegdheden hebben, en die bevoegdheden worden afgedwongen via kunstmatige barrieres (de kast, een wachtwoord, robots.txt, ...).

Als het wachtwoord op de site door Google gepasseerd kan worden, was het geen goede beveiliging. Als ik hier nu zou schrijven dat je niet verder naar beneden mag scrollen, mag je er zeker van zijn dat 99,99% dat toch doet. Een spider is een automatisch programma, dat maakt geen afweging: zou deze informatie publiek zijn? Het feit dat de spider aan de data geraakt, betekent juist dat de informatie publiek beschikbaar is. Google zal heus geen exploits gebruiken om aan de data te geraken, het is enkel een nalatigheid van die school of van Xerox
Half mee eens, ligt meer in de beveiliging van de DocuShare-server van Xerox
Nou wat een nieuws.
Je kan ook gewoon dit formuliertje invullen om je site asap te verwijderen.

En meer info hoe je (delen van) je site van google verwijderd: http://www.google.com/sup...y?answer=35301&topic=8459
* Zepman klikt op 'dit formuliertje'...
Access to this system requires that you allow cookies to be set on your computer. Please enable cookies in your browser and hit reload twice. You may find your cookie settings under "Tools -> Internet Options" for Internet Explorer and "Edit -> Preferences" for Netscape.";
Natuurlijk verwijderen ze de site en waarborgen ze je privacy... na het installeren van een cookie met een unique ID. ;)
Ik snap sowieso niet dat ťťn student bij al deze gegevens zou kunnen, waarom moet deze student toegang hebben tot de gegevens van andere studenten? |:(
Dit is werkelijk het grootste onnieuws dat mogelijk is.

Gebruik http://services.google.com:8882/urlconsole/controller om URL's te verwijderen.

Kostte me net ca. 2 minuten om het op de site van google te vinden.
Site met wachtwoord beveiligd kunnen ze niet bij?
Hoe komt het dan dat ik via de cache soms pagina's kan open op forum's die beveiligd zijn met een wachtwoord? Komt het dan omdat ze zo'n robots.txt of iets soortgelijks niet hebben gebruikt?
Cache > omdat sites met beveiligde content dit vaak wel zonder wachtwoord beschikbaar maken voor zoekmachine spiders, zodat ze beter gevonden worden. Een gebruiker die dan in google klikt krijgt dan wel de registratie pagina voor z'n neus...
webmasterworld.com doet dit ja.
In je google hits zie je een teaser van het topic met het antwoord dat je zoekt, maar als je klikt mag je eerst even betalen. De cache is natuurlijk ook uitgeschakelt.

Dergelijke resultaten zijn vokonmen nutteloos. Heb ze dan ook al als abuse gemeld

Maar wat dat met deze nieuwspost te maken heeft :?
Dergelijke gegevens zouden gewoon niet online voor Jan en alleman beschikbaar moeten zijn, en al helemaal niet voor zoekspiders.
Dat komt omdat sommige programma's Googlebot toelaten, om alle informatie to indexeren. Deze wordt dan wel in de cache opgenomen (wat je overigens ook kunt voorkomen via bepaalde META-tags volgens mij) maar je kunt er toch niet bij komen, tenzij je je voor gaat doen als Googlebit ipv IE of Firefox.
Bijvoorbeeld een client-side wachtwoord dat met JavaScript werkt. En als er een directe link beschikbaar is naar de inhoud, zal iedere spider deze opvragen. Die zou je dan zelf ook kunnen openen vanuit de favorites.

Maak dus ook nooit links als www.mijnsite.nl/index.php?action=deleteall aangezien de spider deze pagina gewoon zal opvragen. Daar zijn wachtwoord beveiligingen of formulieren voor uitgevonden. Die kan de zoekmachine niet doorlopen.
Waarschijnlijk was het script een script dat checkte of de bezoeker een googlebot was, en dan toegang verschafte ( gelijk bepaalde sites, om hun dingen te promoten, maar dan moet je betalen ).

Eigen schuld dikke bult, nu moeten ze niet afkomen!
Ik vind het vreemd, ik denk dat de school heel goed weet dat de beveiliging niet deugd, aangezien het voorval in Amerika plaats heeft gevonden, was google anders wel aangeklaagd voor het een of het ander omtrent hacken en/of privacy onzin... Als de school dat niet had gedaan, dan hadden (een van de) ouders het wel gedaan... Denk dat Google hierin de onschuldige is...
als je bv google.txt plaatst dat de bot gewoon overslaat.
Ben ik de enige die niet begrijpt wat je hiermee bedoelt?
Iedere searchrobot scant robots.txt om te kijken welke files ze mag scannen en welke niet!

www.google.be/robots.txt de dirs hier zijn diegene die niet gescant en gecached mogen worden door de robotten

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True