Reacties (73)
Je hoort gegevens die niet door iedereen bekeken dienen te worden gewoon met een login te beveiligen. Eventueel een .htpasswd idee, anders gewoon eentje scripten.
Wat natuurlijk helemaal raar is in dat geval is dat een intranetsite die via internet benaderd kan worden niet gewoon potdicht zit.
Overigens moet je een zoekmachine crawler niet aankijken in dit geval, een crawler volgt links, iets wat mensen ook zelf kunnen doen. Dat betekent dat een nieuwsgierig iemand dit document ook had kunnen vinden.
Ik kies voor: ik heb niks te verbergen, maar mijn gegevens hoeven helemaal niet via google vindbaar te zijn, dus ik heb mijn robots.txt in orde.
Vooral grote bedrijven met meerdere kantoren (wereldwijd) hebben vaak van deze intranets. Echter dat een 'intranet' via internet te benaderen is, wil nog niet zeggen dat alles dan ook maar direct ingezien kan worden. Vrijwel elke website heeft een online administratie gedeelte. In het geval van een e-commerce site kunnen ook klant en/of bestelgegevens ingezien worden..
Als je weet wie je bezoekers zijn, kun je bijvoorbeeld gaan werken met client certificaten. Als dit technisch minder gemakkelijk is, maak dan in elk geval van een goede inlog functionaliteit. Deze inlog heb je ook nog steeds nodig als je met client certificaten werkt. Immers wie garandeerd mij dat die laptop van een journalist niet is gestolen. Sessies dienen in dergelijke gevallen niet oneindig houdbaar te zijn. Op ons extranet verloopt een sessie/cookie na 48 uur.
Alleen is security (authenticatie, authorisatie, auditing, logging, etc) is zeer complex onderdeel. Bij een website zoals tweakers zal security minder aandacht krijgen dan bij online banking. Echter dient altijd vooraf een goede studie plaats te vinden welke bepaald welke mate van beveiliging is gewenst.
Zoals je zelf al hebt opgemerkt volgt een crawler links welke op jouw of een andere website staat. Dat betekend dus dat er ergens op internet een pagina is te vinden welke naar die bekende Nederlanders database verwijst. Dat kan natuurlijk altijd gebeuren. Veel dagbladen/tijdschriften werken met freelancers en hebben dus vaak op hun eigen intranet bookmarks naar belangrijke bronnen staan. Deze kan natuurlijk ook weleens online zijn gekomen.
als ik ze al zou posten zou dat in een database zijn waar enkel auth. users bij kunnen...
dat hele robots.txt heeft daar dus niets mee te maken... -
Helaas komt het wel eens voor dat Google Cache door bepaalde onderdelen toch doorkomt, waar je toch echt voor zou moeten inloggen met een account.
Wellicht zou Google dit toch moeten aanpassen, om de veiligheid van bepaalde websites te garanderen.
[Reactie gewijzigd door HollowGamer op 26 juli 2024 03:39]
volgens mij is dat echt onmogelijk hoor, tenzij de content ooit niet afgeschermd is geweest. Of er is gewoon iets mis met de beveiliging, bijv. dat er pas een linkje naar 'geheim.htm' verschijnt als je inlogt, terwijl 'geheim.htm' ook wel op te vragen is als je het in de adresbalk intiktHelaas komt het wel eens voor dat Google Cache door bepaalde onderdelen toch doorkomt, waar je toch echt voor zou moeten inloggen met een account.
Wellicht dat de beheerder van de website aan de slag moet? Antwoord: Ja, direct! Als het door Google gespiderd kan worden, dan kan en willekeurige cracker ook bij die dat komen - ook zonder Google's hulp.Helaas komt het wel eens voor dat Google Cache door bepaalde onderdelen toch doorkomt, waar je toch echt voor zou moeten inloggen met een account.
Wellicht zou Google dit toch moeten aanpassen, om de veiligheid van bepaalde websites te garanderen.
Het feit dat die data op Google staat, dat betekent dat de beveiliging niet op orde van die bestanden of iemand een link heeft waar z'n inloggegevens in verwerkt zijn - waarbij mijn mening weer is dat de site zelf weer de beveiliging niet op orde heeft overigens.
Als er ingelogd moet woorden, dan moet je van HTTP authenticatie gebruik maken of van een inlog waarbij de sessie alleen aangemaakt kan worden via een HTTP POST operatie....
[Reactie gewijzigd door Little Penguin op 26 juli 2024 03:39]
Als jij robots.txt gebruikt als beveiliging van je website vraag ik me af of jij het vak webdeveloper/designer wel waard bent.
In m'n .htaccess staat dan ook: 'deny from all' en 'allow from xxx.xxx.xxx.xxx (mezelf alleen dus).
Verder had men de boel sowieso achter een stuk authenticatie moeten gooien (bovenop jouw beveiliging dus) en als dat dan vervelend is: Jammer dan....
Een robots.txt heeft NIETS met beveiliging te maken.
Het is hooguit een vriendelijk verzoek aan nette zoekmachines om één en ander wel of niet te indexeren.
Ik stel het me voor als een architectuur tekening van je huis aan je voordeur spijkeren, waarbij je netjes aangeeft voor welke ramen en deuren iedereen naar binnen mag kijken en alles noteren, en bij welke ramen en deuren je dat liever niet hebt.
Nieuwsgierige aagjes maken daar graag gebruik van zo blijkt maar weer.
[Reactie gewijzigd door Barleone op 26 juli 2024 03:39]
Op sommige website kun je inloggen middels een link (get request). Op het moment dat een spider op zo'n link terecht komt krijgt hij informatie te zien die niet voor de zoekmachine bedoeld is. Daar kan een robots.txt tegen helpen.
Op het leden gedeelte van een website dit ik beheerde kun je alleen inloggen door het invullen van een formulier (post request) dan wel door een cookie op je pc. Dit voorkomt (afaik) dat een spider 'per ongeluk' op je website inlogt door een ergens rondslingerende link.
robots.txt heeft niets, noppes, nada, nothing, niente te maken met beveiling, in welke vorm dan ook.
Een zoekmachine middels robots.txt adviseren om niet naar de login pagina te gaan, is net zo min beveiliging als een briefje bij een openstaande voordeur hangen om de melkboer te adviseren de melk bij de deur te zetten en niet door te lopen naar de keuken: je huis wordt er geen meter veiliger door en een inbreker insluiper loopt gewoon naar binnen.
Overigens is elk login-mechanisme dat geen gebruik maakt van POST(*) over een geencrypte verbinding (HTTPS dus) sowieso de benaming 'beveiliging' niet waard.
(*) of certificaatuitwisseling, maar dat gebruikt echt bijna niemand
[Reactie gewijzigd door Herko_ter_Horst op 26 juli 2024 03:39]
Ik ben met Herko_ter_Horst.
Ik houdt mijn hart vast voor de data waar jij beheer over uitvoert. Je weet niet eens dat een robots.txt geen enkele beveiliging biedt.
[Reactie gewijzigd door Barleone op 26 juli 2024 03:39]
<!-- Let op, als je deze link bezoekt wordt je geblokkeerd en is er GEEN weg terug -->
<span class="robot"><a href="/fouteboel/">klik!</a></span>
Ik heb in robots.txt staan dat crawlers deze link NIET mogen bezoeken. Als een crawler vervolgens robots.txt negeert en toch deze link bezoekt, wordt het geblokkeerd op /etc/hosts niveau. Bye bye, zwaai zwaai zeg maar ;-).
Overigens kan je Project Honeypot of een eigen 'blackhole' gebruiken om robots op te vangen die zich niet houden aan robots.txt.
Dat zijn ook 'crawlers' en zullen zich ook aan robots.txt moeten houden!Hoe gaat het echter om met plugins die alle links al in de achtergrond laden of de hele pagina downloaden voor offline browsen? Ben je dan meteen je bezoeker kwijt?
Dit truukje werkt ook heel goed tegen spambots.
robots.txt is een open definitie die een voorkeur aangeeft naar webcrawlers of het indexeren en cachen van een pagina, en is dus helemaal geen beveiliging!
Het enige waar je nu tegen beveiligd bent is het zoekbaar zijn op zoekmahines, maar gebruikers zullen nog niet eens merken dat er een robots.txt aanwezig is.
Heb overigens ook die optie gekozen, alhoewel ik normaal de kriebels krijg bij de opmerking "ik heb niets te verbergen" als het om privacy gaat. Grootste reden is dat ik niks mijn webserver op knal wat ik zou willen verbergen, alles op het internet wat niet achter een wachtwoord zit is per definitie publieke informatie, of een zoekmachine er nou wel of niet bij kan/komt. Als google het niet vind doet een hacker het wel.
Ik snap je argument hoor, maar dit is nou juist een context waarin het wel is toe te passen.
De poll optie had beter kunnen zijn "Ik heb niets op mijn website staan waarvan ik niet wil dat iedereen het weet" of iets in die richting.
Je zou het allemaal op je laptop kunnen zetten als je het zo graag stoer met de PC wilt organizen. Maar waarom laat je die contact gegevens niet gewoon in je mobieltje.
Online gooien is gewoon on-ge-lo-ve-lijk STOM. Wachtwoord erop of niet, het falen of goedgaan van beveiliging op internet hangt af van het wakker zijn of niet van de sysadmin, distro's die exploitbare zaken in de updater gooien, etc.
De kans dat er op internet een keer iets mis gaat met beveiliging over een tijdsbestek van zeg 3 jaar, is vele malen groter dan dat mijn mobieltje in verkeerde handen komt.
Ook vraag ik me dus af wel doel het diende dat er een database met BN'ers hun contactgegevens bijgehouden werd.
[Reactie gewijzigd door SWINX op 26 juli 2024 03:39]
Op dit item kan niet meer gereageerd worden.