Hoofdcategorieën
Device Settings

Poll

Robots.txt

Uit de GPD-blunder blijkt weer eens dat zoekmachines soms meer gegevens verzamelen en uitspuwen dan webmasters zouden willen. Heb jij je website wel voldoende beveiligd tegen nieuwsgierige zoekrobots?

Nee, ik heb niets te verbergen
27,1%
Ja, mijn robots.txt is in orde
23,6%
Geen idee, dit is een goede aanleiding om er eens naar te kijken
21,3%
Anders, nl...
18,5%
Ja, ik heb mijn website beveiligd met een wachtwoord
9,4%

Aantal stemmen: 9.765. Deelname gesloten op 03-09-2009 15:56. Stemmen is niet meer mogelijk.


Reacties

«  1  2  3  4  »

Anders, nl...
Websites horen gelukkig niet bij mijn takenpakket als sysadmin. Netjes afgeschoven op een collega die fijn HTML uitleg geeft aan mensen die er wat op willen zetten :X .

[Reactie gewijzigd door My-life op vrijdag 14 augustus 2009 21:52]


zaken als telefoon nr's etc horen als ze al online staan, niet in plain text beschikbaar te zijn..
als ik ze al zou posten zou dat in een database zijn waar enkel auth. users bij kunnen...

dat hele robots.txt heeft daar dus niets mee te maken... -

Dat hele robots.txt heeft zelfs niets met beveiliging te maken. Het dwingt niets af, je kan er hooguit in aangeven wat je liever hebt dat niet geïndexeerd wordt of door wie, maar als een crawler zich hier niets van aantrekt zal je content alsnog geïndexeerd worden.

Goh, eindelijk eens een goede toepassing van "ik heb niets te verbergen". Dacht niet dat het zou bestaan ;)

Anders, ik heb of beheer namelijk geen website(s).

Zou dat niet het zelfde zijn als: Ik heb niets te verbergen?

Waarom zou dat hetzelfde zijn? Het lijkt me niet zo raar dat iemand geen websites beheert maar wel iets te verbergen heeft :+

Heb overigens ook die optie gekozen, alhoewel ik normaal de kriebels krijg bij de opmerking "ik heb niets te verbergen" als het om privacy gaat. Grootste reden is dat ik niks mijn webserver op knal wat ik zou willen verbergen, alles op het internet wat niet achter een wachtwoord zit is per definitie publieke informatie, of een zoekmachine er nou wel of niet bij kan/komt. Als google het niet vind doet een hacker het wel.

Ik vraag mij af waarom deze poll ervan uit gaat dat iedereen een website beheert. :/

[Reactie gewijzigd door Mike-RaWare op donderdag 13 augustus 2009 17:17]


Numb-nuts, je hoeft niet te reageren op en poll als deze geen betrekking op je heeft. Met andere woorden je hoeft niet overal op te klikken... ;-)

onzin natuurlijk, dit is een poll die betrekking heeft op het publiek van tweakers.net en gathering. Dus het is wel fijn als die optie erin staat. Waarom? Omdat je dan weet wat er onder het publiek leeft.

Ik snap wel waarom je dit zegt. Maar de kracht achter een community lijkt me te zitten in elk individu die zijn stem kan laten horen. Juist door een optie weg te gehouden zoals "ik beheer geen website/robots.txt" gaan mensen die invullen op "anders, nl" en dan krijg je in de reacties een stortvloed aan non-informatie. Terwijl juist die optie gebruikt moet worden voor mensen die wel actief bezig zijn met de gestelde vraag.

en sowieso, ik mag een stem uitbrengen, dus waarom mijn stem niet gebruiken als ik iets mag?

daarom; anders nl. ik ben niet in het beheer van een website.

niet nodig ik heb geen website

Robots.txt is niet genoeg. Er zijn ook search engine spiders die niet naar de robots.txt kijken en gewoon heel je site indexeren. Als je iets niet zichtbaar wilt maken voor anderen, dan zet je het niet op een online server, zelfs al staat daar een robots.txt op met:
User-Agent: *
Disallow: /

Er zijn echter ook genoeg .htaccess bestanden beschikbaar die dit soort spiders blokkeren, het nadeel daarvan is alleen dat een nieuwe spider niet geblokkeerd word omdat het niet bekend is dat er een spider werkt vanaf dat IP adres. :P

Een robots.txt bestand moet niet nodig zijn, om je bepaalde onderdelen van je website te 'beveiligen'.

Helaas komt het wel eens voor dat Google Cache door bepaalde onderdelen toch doorkomt, waar je toch echt voor zou moeten inloggen met een account.

Wellicht zou Google dit toch moeten aanpassen, om de veiligheid van bepaalde websites te garanderen.

[Reactie gewijzigd door beta990 op donderdag 13 augustus 2009 17:16]


Helaas komt het wel eens voor dat Google Cache door bepaalde onderdelen toch doorkomt, waar je toch echt voor zou moeten inloggen met een account.
volgens mij is dat echt onmogelijk hoor, tenzij de content ooit niet afgeschermd is geweest. Of er is gewoon iets mis met de beveiliging, bijv. dat er pas een linkje naar 'geheim.htm' verschijnt als je inlogt, terwijl 'geheim.htm' ook wel op te vragen is als je het in de adresbalk intikt ;)

Helaas komt het wel eens voor dat Google Cache door bepaalde onderdelen toch doorkomt, waar je toch echt voor zou moeten inloggen met een account.

Wellicht zou Google dit toch moeten aanpassen, om de veiligheid van bepaalde websites te garanderen.
Wellicht dat de beheerder van de website aan de slag moet? Antwoord: Ja, direct! Als het door Google gespiderd kan worden, dan kan en willekeurige cracker ook bij die dat komen - ook zonder Google's hulp.

Het feit dat die data op Google staat, dat betekent dat de beveiliging niet op orde van die bestanden of iemand een link heeft waar z'n inloggegevens in verwerkt zijn - waarbij mijn mening weer is dat de site zelf weer de beveiliging niet op orde heeft overigens.

Als er ingelogd moet woorden, dan moet je van HTTP authenticatie gebruik maken of van een inlog waarbij de sessie alleen aangemaakt kan worden via een HTTP POST operatie....

[Reactie gewijzigd door Little Penguin op donderdag 13 augustus 2009 18:51]


als dat mogelijk is kan iedereen bij die data komen. Als je website goed is beveiligd kan google er niet bij, net als andere users. Als google erbij kan kan iemand anders er ook bij. robots.txt moet zeker geen onderdeel zijn van beveiliging van je website.

Als jij robots.txt gebruikt als beveiliging van je website vraag ik me af of jij het vak webdeveloper/designer wel waard bent.

M'n thuisserver gebruik ik hoofdzakelijk om plaatjes op te hosten. Daar valt dus niet aan te crawlen. En de paar pagina's die wel bestaan zitten in submappen, die nergens vandaan gelinkt worden en je sowieso al logingegevens voor nodig hebt om die te bekijken. Laat die robots maar zoeken. :)

Veel zoek robots crawlen al niet meer alleen door links, ze durven ook gewoon random aanvragen te sturen naar de server om zo bepaalde data te proberen op te vissen. En images worden wel mee genomen door spiders in de hoop dat ze daar nuttige info uit kunnen halen.
«  1  2  3  4  »

Op dit item kan niet meer gereageerd worden.

VNU Media logo Hosted by True

© 1998 - 2012 Tweakers.net B.V. - Alle rechten voorbehouden - Contact - Jouw privacy - Algemene Voorwaarden

Uitgever van:

Website van het jaar 2011