Robots.txt

Uit de GPD-blunder blijkt weer eens dat zoekmachines soms meer gegevens verzamelen en uitspuwen dan webmasters zouden willen. Heb jij je website wel voldoende beveiligd tegen nieuwsgierige zoekrobots?

Nee, ik heb niets te verbergen
27,1%
Ja, mijn robots.txt is in orde
23,6%
Geen idee, dit is een goede aanleiding om er eens naar te kijken
21,3%
Anders, nl...
18,5%
Ja, ik heb mijn website beveiligd met een wachtwoord
9,4%

Aantal stemmen: 9.765. Deelname gesloten op 03-09-2009 15:56. Stemmen is niet meer mogelijk.

Reacties (73)

73
69
56
2
0
0
Wijzig sortering
Robots.txt is inderdaad geen enkele beveiliging, het is simpelweg een service die de meeste zoekmachines aanbieden om je data met rust te laten, er hoeft maar een simpele crawler te zijn die zich aan deze ethische regel houdt en je wordt alsnog geindexeerd.
Je hoort gegevens die niet door iedereen bekeken dienen te worden gewoon met een login te beveiligen. Eventueel een .htpasswd idee, anders gewoon eentje scripten.
Wat natuurlijk helemaal raar is in dat geval is dat een intranetsite die via internet benaderd kan worden niet gewoon potdicht zit.

Overigens moet je een zoekmachine crawler niet aankijken in dit geval, een crawler volgt links, iets wat mensen ook zelf kunnen doen. Dat betekent dat een nieuwsgierig iemand dit document ook had kunnen vinden.

Ik kies voor: ik heb niks te verbergen, maar mijn gegevens hoeven helemaal niet via google vindbaar te zijn, dus ik heb mijn robots.txt in orde.
Het idee dat een intranet via internet te benaderen is, is helemaal niet zo raar als je zou denken. Alleen noemen we dat geen intranet meer, maar een extranet.

Vooral grote bedrijven met meerdere kantoren (wereldwijd) hebben vaak van deze intranets. Echter dat een 'intranet' via internet te benaderen is, wil nog niet zeggen dat alles dan ook maar direct ingezien kan worden. Vrijwel elke website heeft een online administratie gedeelte. In het geval van een e-commerce site kunnen ook klant en/of bestelgegevens ingezien worden..

Als je weet wie je bezoekers zijn, kun je bijvoorbeeld gaan werken met client certificaten. Als dit technisch minder gemakkelijk is, maak dan in elk geval van een goede inlog functionaliteit. Deze inlog heb je ook nog steeds nodig als je met client certificaten werkt. Immers wie garandeerd mij dat die laptop van een journalist niet is gestolen. Sessies dienen in dergelijke gevallen niet oneindig houdbaar te zijn. Op ons extranet verloopt een sessie/cookie na 48 uur.

Alleen is security (authenticatie, authorisatie, auditing, logging, etc) is zeer complex onderdeel. Bij een website zoals tweakers zal security minder aandacht krijgen dan bij online banking. Echter dient altijd vooraf een goede studie plaats te vinden welke bepaald welke mate van beveiliging is gewenst.

Zoals je zelf al hebt opgemerkt volgt een crawler links welke op jouw of een andere website staat. Dat betekend dus dat er ergens op internet een pagina is te vinden welke naar die bekende Nederlanders database verwijst. Dat kan natuurlijk altijd gebeuren. Veel dagbladen/tijdschriften werken met freelancers en hebben dus vaak op hun eigen intranet bookmarks naar belangrijke bronnen staan. Deze kan natuurlijk ook weleens online zijn gekomen.
zaken als telefoon nr's etc horen als ze al online staan, niet in plain text beschikbaar te zijn..
als ik ze al zou posten zou dat in een database zijn waar enkel auth. users bij kunnen...

dat hele robots.txt heeft daar dus niets mee te maken... -
Dat hele robots.txt heeft zelfs niets met beveiliging te maken. Het dwingt niets af, je kan er hooguit in aangeven wat je liever hebt dat niet geïndexeerd wordt of door wie, maar als een crawler zich hier niets van aantrekt zal je content alsnog geïndexeerd worden.
Een robots.txt bestand moet niet nodig zijn, om je bepaalde onderdelen van je website te 'beveiligen'.

Helaas komt het wel eens voor dat Google Cache door bepaalde onderdelen toch doorkomt, waar je toch echt voor zou moeten inloggen met een account.

Wellicht zou Google dit toch moeten aanpassen, om de veiligheid van bepaalde websites te garanderen.

[Reactie gewijzigd door HollowGamer op 26 juli 2024 03:39]

Helaas komt het wel eens voor dat Google Cache door bepaalde onderdelen toch doorkomt, waar je toch echt voor zou moeten inloggen met een account.
volgens mij is dat echt onmogelijk hoor, tenzij de content ooit niet afgeschermd is geweest. Of er is gewoon iets mis met de beveiliging, bijv. dat er pas een linkje naar 'geheim.htm' verschijnt als je inlogt, terwijl 'geheim.htm' ook wel op te vragen is als je het in de adresbalk intikt ;)
Helaas komt het wel eens voor dat Google Cache door bepaalde onderdelen toch doorkomt, waar je toch echt voor zou moeten inloggen met een account.

Wellicht zou Google dit toch moeten aanpassen, om de veiligheid van bepaalde websites te garanderen.
Wellicht dat de beheerder van de website aan de slag moet? Antwoord: Ja, direct! Als het door Google gespiderd kan worden, dan kan en willekeurige cracker ook bij die dat komen - ook zonder Google's hulp.

Het feit dat die data op Google staat, dat betekent dat de beveiliging niet op orde van die bestanden of iemand een link heeft waar z'n inloggegevens in verwerkt zijn - waarbij mijn mening weer is dat de site zelf weer de beveiliging niet op orde heeft overigens.

Als er ingelogd moet woorden, dan moet je van HTTP authenticatie gebruik maken of van een inlog waarbij de sessie alleen aangemaakt kan worden via een HTTP POST operatie....

[Reactie gewijzigd door Little Penguin op 26 juli 2024 03:39]

als dat mogelijk is kan iedereen bij die data komen. Als je website goed is beveiligd kan google er niet bij, net als andere users. Als google erbij kan kan iemand anders er ook bij. robots.txt moet zeker geen onderdeel zijn van beveiliging van je website.

Als jij robots.txt gebruikt als beveiliging van je website vraag ik me af of jij het vak webdeveloper/designer wel waard bent.
Ik wil niemand op m'n site.
In m'n .htaccess staat dan ook: 'deny from all' en 'allow from xxx.xxx.xxx.xxx (mezelf alleen dus). 8-)
Jij weet hoe dat moet, maar blijkbaar hebben er die de GPD een stel prutsers die server opgetuigd en niet iemand die weet wat de mogelijke gevaren zijn...

Verder had men de boel sowieso achter een stuk authenticatie moeten gooien (bovenop jouw beveiliging dus) en als dat dan vervelend is: Jammer dan....
Ik draai gewoon geen webserver en heb poort 80 dicht staan. Denk je dat ze dan nog iets indexeren?
ja, daarvoor installeren ze spyware op je pc als je op hun website komt ;)
Ik hoop dat je er rekening mee houd dat ip addressen te spoofen zijn (over het internet wat moeilijker je moet namelijk controle hebben over routers maar het kan zeker).
Wie heeft deze blunder-poll gepost?
Een robots.txt heeft NIETS met beveiliging te maken.

Het is hooguit een vriendelijk verzoek aan nette zoekmachines om één en ander wel of niet te indexeren.

Ik stel het me voor als een architectuur tekening van je huis aan je voordeur spijkeren, waarbij je netjes aangeeft voor welke ramen en deuren iedereen naar binnen mag kijken en alles noteren, en bij welke ramen en deuren je dat liever niet hebt.
Nieuwsgierige aagjes maken daar graag gebruik van zo blijkt maar weer.

[Reactie gewijzigd door Barleone op 26 juli 2024 03:39]

Het heeft wel iets met beveiliging te maken.

Op sommige website kun je inloggen middels een link (get request). Op het moment dat een spider op zo'n link terecht komt krijgt hij informatie te zien die niet voor de zoekmachine bedoeld is. Daar kan een robots.txt tegen helpen.

Op het leden gedeelte van een website dit ik beheerde kun je alleen inloggen door het invullen van een formulier (post request) dan wel door een cookie op je pc. Dit voorkomt (afaik) dat een spider 'per ongeluk' op je website inlogt door een ergens rondslingerende link.
Je reinste flauwekul.

robots.txt heeft niets, noppes, nada, nothing, niente te maken met beveiling, in welke vorm dan ook.

Een zoekmachine middels robots.txt adviseren om niet naar de login pagina te gaan, is net zo min beveiliging als een briefje bij een openstaande voordeur hangen om de melkboer te adviseren de melk bij de deur te zetten en niet door te lopen naar de keuken: je huis wordt er geen meter veiliger door en een inbreker insluiper loopt gewoon naar binnen.

Overigens is elk login-mechanisme dat geen gebruik maakt van POST(*) over een geencrypte verbinding (HTTPS dus) sowieso de benaming 'beveiliging' niet waard.

(*) of certificaatuitwisseling, maar dat gebruikt echt bijna niemand

[Reactie gewijzigd door Herko_ter_Horst op 26 juli 2024 03:39]

@pietje63:
Ik ben met Herko_ter_Horst.
Ik houdt mijn hart vast voor de data waar jij beheer over uitvoert. Je weet niet eens dat een robots.txt geen enkele beveiliging biedt.

[Reactie gewijzigd door Barleone op 26 juli 2024 03:39]

Dat het niets met beveiliging te maken heeft, maakt het niet meteen een blunder-poll. Het geeft juist extra informatie over hoe goed mensen denken dat hun site beveiligd is. En blijkbaar zijn er toch nog aardig wat mensen die denken dat robots.txt (voldoende) bescherming biedt.
Ik heb een robots.txt en een onzichtbare link in m'n html-bestanden. Zo'n idee:

<!-- Let op, als je deze link bezoekt wordt je geblokkeerd en is er GEEN weg terug -->
<span class="robot"><a href="/fouteboel/">klik!</a></span>

Ik heb in robots.txt staan dat crawlers deze link NIET mogen bezoeken. Als een crawler vervolgens robots.txt negeert en toch deze link bezoekt, wordt het geblokkeerd op /etc/hosts niveau. Bye bye, zwaai zwaai zeg maar ;-).
Die link is helemaal niet onzichtbaar in je html bestand, je bedoelt waarschijnlijk dat je hem niet kan zien als je de pagina opent in een browser. Hoe gaat het echter om met plugins die alle links al in de achtergrond laden of de hele pagina downloaden voor offline browsen? Ben je dan meteen je bezoeker kwijt?
Wie gebruik maakt van robots.txt voor het afschermen van bestanden, is fout bezig en heeft de onjuiste instelling. Dit houdt het volgende in: Security through obscurity. Deze manier van beveiligen vindt je onder andere in Windows en MacOs (en andere closed source software). Het is een goedekope manier van beveiligen, die alleen tijd nodig heeft om het te kunnen kraken.

Overigens kan je Project Honeypot of een eigen 'blackhole' gebruiken om robots op te vangen die zich niet houden aan robots.txt.
Hoe gaat het echter om met plugins die alle links al in de achtergrond laden of de hele pagina downloaden voor offline browsen? Ben je dan meteen je bezoeker kwijt?
Dat zijn ook 'crawlers' en zullen zich ook aan robots.txt moeten houden!
Ik gebruik het ook zeker niet als beveiliging! Het gaat erom dat ik mijn website (delen daarvan) gewoon niet doorzoekbaar wil hebben.

Dit truukje werkt ook heel goed tegen spambots.
Weet je wel zeker dat al dit soort plugins/programmas zich wel houden aan de robots.txt en moet je er van uit gaan dat elke gebruiker van zo een programma weet wat een robots.txt is? Om vervolgens gebruikers te weren is wellicht een beetje radicaal?
Dat is niet waar. Security through obscurity gaat er vanuit dat de aanvaller niet weet hoe de encryptie werkt, maar zou hij het wel weten het feitelijk geen encryptie meer is.
robots.txt is een open definitie die een voorkeur aangeeft naar webcrawlers of het indexeren en cachen van een pagina, en is dus helemaal geen beveiliging!
Het enige waar je nu tegen beveiligd bent is het zoekbaar zijn op zoekmahines, maar gebruikers zullen nog niet eens merken dat er een robots.txt aanwezig is.
Anders, ik heb of beheer namelijk geen website(s).
Zou dat niet het zelfde zijn als: Ik heb niets te verbergen?
Waarom zou dat hetzelfde zijn? Het lijkt me niet zo raar dat iemand geen websites beheert maar wel iets te verbergen heeft :+

Heb overigens ook die optie gekozen, alhoewel ik normaal de kriebels krijg bij de opmerking "ik heb niets te verbergen" als het om privacy gaat. Grootste reden is dat ik niks mijn webserver op knal wat ik zou willen verbergen, alles op het internet wat niet achter een wachtwoord zit is per definitie publieke informatie, of een zoekmachine er nou wel of niet bij kan/komt. Als google het niet vind doet een hacker het wel.
Ik zorg er wel voor dat mijn website dicht is zover mogelijk. Vele tussenliggende controles en nette OOP structuur zorgen voor een goede veilige website.
Ik zie niet in hoe een nette OOP structuur voor een veilige website zorgt? :?
OOP is inderdaad geen beveiligingsmaatregel op zich. Het kan wel een middel zijn om het overzicht te behouden en zo makkelijker de juiste plaats te vinden om beveiliging in te bouwen.
Ik snap eigenlijk niet waarom er zo vaak wordt wordt gezegd"Ik heb niets te verbergen"ik heb ook niets te verbergen over mijn sexleven; Dit is fantastische maar ik ga het niet op straat staan schreeuwen.
Als er geen persoonlijke content op internet staat die voor mij nadelig zou kunnen zijn dan heb je toch niets te verbergen?
Ik snap je argument hoor, maar dit is nou juist een context waarin het wel is toe te passen.
Onder de aannamen dat jij wel dingen te verbergen hebt, weet jij die dingen blijkbaar dus goed te verbergen, ze zijn immers niet te vinden.

De poll optie had beter kunnen zijn "Ik heb niets op mijn website staan waarvan ik niet wil dat iedereen het weet" of iets in die richting.
Volgens mij is dat gewoon een smoesje van mensen die hun eigen naam niet meer uit de Google results weten te krijgen :+
Dan is het: Ik heb niets MEER te verbergen ;)
Wel nut dient het om al je gegevens online te gooien? :)

Je zou het allemaal op je laptop kunnen zetten als je het zo graag stoer met de PC wilt organizen. Maar waarom laat je die contact gegevens niet gewoon in je mobieltje.

Online gooien is gewoon on-ge-lo-ve-lijk STOM. Wachtwoord erop of niet, het falen of goedgaan van beveiliging op internet hangt af van het wakker zijn of niet van de sysadmin, distro's die exploitbare zaken in de updater gooien, etc.

De kans dat er op internet een keer iets mis gaat met beveiliging over een tijdsbestek van zeg 3 jaar, is vele malen groter dan dat mijn mobieltje in verkeerde handen komt.

Ook vraag ik me dus af wel doel het diende dat er een database met BN'ers hun contactgegevens bijgehouden werd.
Het hoeft natuurlijk niet altijd om persoonlijke of geheime data te gaan, ik heb een testmap van mijn website ook verboden voor de robots, gewoon omdat het geen toegevoegde waarde heeft om daarin rond te snuffelen, echt geheim is het verder niet, maar het zou alleen maar vervuiling van de zoekmachine zijn.

[Reactie gewijzigd door SWINX op 26 juli 2024 03:39]

Dat kan inderdaad, deze poll gaan alleen over het beschermen van gevoelige gegevens met robots.txt.

Op dit item kan niet meer gereageerd worden.