Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Internet Archive wil robots.txt negeren om accurater beeld te krijgen

Door , 196 reacties, submitter: Wilbert de Vries

Het Internet Archive heeft bekendgemaakt dat het in de toekomst vaker het robotsbestand van een website wil negeren om deze beter te kunnen archiveren. De organisatie doet dit al bij Amerikaanse overheidswebsites en wil de praktijk nu breder toepassen.

Het Internet Archive noemt niet specifiek in welke gevallen het robotsbestand wordt genegeerd, alleen dat het gaat om bestanden die specifiek zijn gericht op zoekmachines. Het zegt verder dat het negeren van het bestand bij de overheidswebsites 'niet voor problemen heeft gezorgd' en dat het 'de praktijk nu vaker wil toepassen'. De organisatie stelt dat het respecteren van het bestand ertoe leidt dat het vaak niet mogelijk is om een website in zijn geheel te archiveren. Dat zou juist het doel zijn van het Internet Archive.

Bovendien zouden websites het bestandje steeds vaker gebruiken voor seo-doeleinden en voor het verbergen van volledige domeinen, bijvoorbeeld als een bepaald domein niet meer in gebruik is. Daardoor was het in het verleden zo dat dit domein ook uit het internetarchief verdween. De organisatie zegt dat daarover bijna dagelijks klachten binnenkomen. Met de verandering in beleid wil het Internet Archive 'een accurater beeld van het internet vanuit het perspectief van de gebruiker bieden'.

Het robotstekstbestand bestaat sinds de jaren negentig en dient ertoe om bepaalde delen van een website af te sluiten van internetbots, zoals webcrawlers. Op die manier kunnen bijvoorbeeld loginpagina's verborgen worden, al is het ook een manier om ze te vinden. Daarbij is het mogelijk om een bepaalde user agent te blokkeren, bijvoorbeeld die van het Internet Archive zelf. Sommige organisaties, waaronder Google, respecteren een dergelijk bestand. Andere doen dit niet.

Het Internet Archive is een non-profitorganisatie die bestaat sinds 1996 en zich tot doel stelt om toegang te bieden tot gedigitaliseerd materiaal, waaronder webpagina's, games en films. De totale grootte van de collectie bedraagt inmiddels meer dan 15 petabyte. In 2012 was dat nog 10 petabyte. Het webarchief van de organisatie staat bekend als de Wayback Machine.

Reacties (196)

Wijzig sortering
Hele slechte ontwikkeling dit, ik mag toch zelf bepalen of ik mijn site toegevoegd wil zien aan het Internet Archive?
Enigste optie zal dan een volledige blokkade op IP/Subnet niveau worden.
Het robots.txt bestandje is dan ook meer een onderlinge afspraak dan een echte beveiliging. Het is vooral bedoeld om zaken af te schermen waar een zoekmachine toch niets te zoeken heeft. Zoiets als een beveiligd deel van een website. Het heeft weinig nut om tientallen login-schermen te gaan indexeren.
Als je echt niet wilt dat je website door bepaalde diensten gecrawld wordt zul je toch echt andere maatregelen moeten nemen. We kunnen niet doen alsof het internet van en voor iedereen is en ondertussen bepaalde delen willen afschermen omdat je bang bent voor kopieŽn.
We kunnen niet doen alsof het internet van en voor iedereen is en ondertussen bepaalde delen willen afschermen omdat je bang bent voor kopieŽn.
Bijna elke website eigenaar wilt niet dat iedereen klakkeloos een website gaat kopieren. Daarvoor bestaat ook het auteursrecht.

Robots.txt hoor je gewoon te respecteren. Zelfs Wget doet het.
[...]
Bijna elke website eigenaar wilt niet dat iedereen klakkeloos een website gaat kopieren. Daarvoor bestaat ook het auteursrecht.
Nee, dat is toch echt 3 slagen te simpel.

Het auteursrecht beperkt het recht om vermenigvuldigingen te maken van beschermde data. Dat betekent bijvoorbeeld dat je niet zomaar een hele website mag kopieren en online zetten.

Maar een website werkt fundamenteel door een kopie te verzenden van de server naar de client, als de client daar om vraagt. Dit is volkomen legaal: de client vraagt om 1 kopie, en de server heeft toestemming van de rechthebbende om 1 kopie per keer uit te delen.

Nu heeft het Internet Archive niet alleen tot doel om een erchief van het Internet te maken, maar dat archief ook publiek te maken. Dat tweede deel is dus potentieel in strijd met het auteursrecht, maar het enkele archiveren is dat niet.
Met kopieren bedoelde in niet zozeer downloaden, maar kopieren van een website naar een ander domein. Maar ik begrijp je punt.
Daar hebben we HTTP 401 voor toch? Geen robots.txt nodig..
Dan moet je user-agents gaan checken alvorens een statuscode terug te geven, dat is wat meer werk dan gewoon een lijst opgeven "dit hoef je niet te indexeren".
Maar het kan dus wel. Robots.txt is ook een redelijk losse en simpele conventie, maar met een 401 weet je 100% zeker dat je website niet geÔndexeerd wordt.
Behalve als The Internet Archive besluit zijn useragent aan te passen, dan kunnen ze er ineens weer bij. IP blocking werkt ook totdat ze een nieuw IP hebben daar.

Dan kan je gaan whitelisten, maar dan moet je ook IP's gaan bijhouden.

Het is dus wel mogelijk ja, maar geen oplossing die zonder 'onderhoud' werkt.
Nee, daar heb je gelijk. Maar een robots.txt is makkelijk te omzeilen door iedereen. Ik probeer maar aan te geven dat robots.txt helemaal geen robuuste oplossing is als je delen van je website wilt afschermen voor archivering/crawling.
Je kan natuurlijk ook een honeypot pagina opzetten in je robots.txt. Dan blokeer je all ips die op die pagina komen.
Dat is zeker waar. :)
Dan moet je user-agents gaan checken
Hmm, is er nog steeds geen HTTP status code voor cookie/form-based auth?
Klopt. Het is niet eens vastgelegd in een standaard: http://www.robotstxt.org/orig.html
It is not an official standard backed by a standards body, or owned by any commercial organisation. It is not enforced by anybody, and there no guarantee that all current and future robots will use it. Consider it a common facility the majority of robot authors offer the WWW community to protect WWW server against unwanted accesses by their robots.
Anderzijds dateert de afspraak al van 1994. Waarom deze dan zomaar verbreken? Een site zoals het Internet Archive moet net respect hebben voor het oude Internet.
Anderzijds dateert de afspraak al van 1994. Waarom deze dan zomaar verbreken?
Zoals ook al in het artikel gesuggereerd; wanneer een domein een nieuwe eigenaar krijgt, blokkeert deze regelmatig alles, en verdwijnen er hele sites uit de Wayback Machine. Dit heeft niets met de intenties van de originele webmaster te maken, en is een onbedoeld 'side effect' dat in 1994 nog niet bestond.

Bovendien is het bij veel webmasters onduidelijk dat de crawler van de Wayback Machine uberhaupt bestaat, en blokkeren ze zelf grote delen van hun website (om SEO-redenen), zich niet realiserend dat ze hiermee ook de Wayback-crawler buitensluiten.

Mijns inziens is het negeren van robots.txt de juiste stap om te nemen. Als iemand echt niet wil dat hun content gearchiveerd wordt (wat ik nogal vreemd vind op een medium dat 'by design' constant alles kopieert, maar goed), kunnen ze gewoon zoals vanouds contact opnemen met het Internet Archive, en op die manier uit de Wayback gehaald worden.

Tegenwoordig creeert het volgen van robots.txt simpelweg meer onbedoelde effecten dan bedoelde effecten; dan is het niet meer dan logisch dat de aanpak gewijzigd wordt naar iets anders, om zo de onbedoelde effecten terug te brengen.
Mee eens. Als een schaap over de dam is dan volgen er meer.
Het is de doodsteek voor (het respecteren van) een robots-bestand.
Het enige wat het bestand doet is "he crawler, je kan deze pagina's beter skippen wat je hebt er toch niets aan", meer niet en meer zou het ook niet moeten doen. Het is aan Archive om hier iets mee te doen of niet. Als het negeren ervan een beter en vollediger archief oplevert, is dat alleen maar goed. Veranderd niets aan de waarde of functie van robots.txt

Het is aan de crawler om het te honereren, maar het garandeert absoluut niets. Dat google enzo het netjes doet wil niet betekenen dat je site niet gecrawled wordt.
Internet Archive archiveert publiekelijke websites... Totaal niet te vergelijken met het aftappen van je privť berichten.
Maar nog steeds is het een behoorlijk bedenkele actie als website eigenaren aangeven(robot.txt) liever niet in het archief te komen. Dit gewoon maar negeren en alles binnenslurpen voor hun eigen gewin vind ik nou niet echt netjes.
En welk gewin is dat? IA is een non-profit organisatie die er alleen maar opgespitst is om informatie beschikbaar te houden.
Een non-profit organisatie krijgt oa bijdragen van derden en subsidies. Naast dat er natuurlijk allerlei non-profit organisaties zijn die ideeel zuiver zijn, stikt het ook van non-profit organisaties die teren op subsidies en dubieuze giften. Met het verleggen van activiteiten zoals archiveren van websites die aangegeven hebben niet gearchiveerd te willen worden zou dus wellicht ook een ander (misschien dubieus) doel kunnen worden gediend. Alvorens ik me hier echter over uitspreek denk ik dat meer info gewenst is.
Dat is behoorlijk anders, NSA loopt rond te snuffelen op plekken waar ze (normaliter) niet mogen komen.

Wat is er mis mee met raadplegen / archiveren van zaken die zijn gepubliceerd? Want Archive crawled alleen publiekelijk bezoekbare pagina's. Robots.txt voegt daar niet aan toe of veranderd daar niets aan.

Dat een hoop mensen robots.txt zijn gaan gebruiken om hun site af te schermen, is hun fout, daar is het nooit voor bedoelt.
Ze zullen hoogstwaarschijnlijk een filter over de file heengooien zodat ze geen login schermen en dergelijke indexeren.
Wat als ik je vertel dat er schapen zijn die al aan de andere staan O-)


Maak niet de vergissing dat Google de norm is, sterker nog, Google is op verschillende vlakken een waardeloze search-engine.

Het idee al dat je verschillende resultaten kunt vertonen voor dezelfde opdracht...

Bing is ook redelijk strikt met robots, maar resultaten verschillen onderling is al wat minder.
google probeert de voor jouw meest relevante resultaten te vinden.. dat is wat anders dan "random" resultaten geven zoals nu voorspiegeld.
Het idee al dat je verschillende resultaten kunt vertonen voor dezelfde opdracht...
Natuurlijk kan dat. Sterker nog, je zal wel moeten. Enig idee hoeveel resultaten een gemiddelde zoekopdracht op het internet geeft? Dat gaat dusdanig nergens over dat je anders door de bomen het bos niet meer ziet. Natuurlijk zijn de resultaten voor Ingrid uit Klazienaveen anders dan die van Henk uit Sneek. Regio gebonden resultaten zullen altijd verschillend zijn, maar ook gebaseerd op woordkeuze kun je al verschillende resultaten krijgen voor dezelfde opdracht. Puur omdat Ingrid misschien net iets anders bedoelt dan Jan wat te bepalen is door eerder ingevoerde termen en de clicks die daaruit voortgekomen zijn.
Net als streetview, wil jij er niet op, dan heb je simpel gezegd gewoon pech. Je weet dat het WWW een openbaar netwerk is toch?

Ik ben wel benieuwd wat voor reden je zou kunnen hebben om niet geindexeerd te willen worden
Auteursrechten op teksten op m'n site.
Ik wil niet dat deze zonder mijn toestemming vermenigvuldigd en vertoond worden.
Google mag ook geen complete nieuwsartikelen kopieŽren van nieuwssites en op hun eigen site zetten waarom zou the Internet Archive het dan wel mogen?

[Reactie gewijzigd door Goldwing1973 op 24 april 2017 13:04]

Daar heb je dan ook gewoon DMCA requests voor.
De Digital Milennium Copyright Act is een Amerikaanse wet waar je als Nederlander zijnde geen aanspraak op kan maken.
Nou je kan alsnog gewoon een notice sturen. Daarbij gaan ze er niet eens over nadenken. En anders noem je het gewoon een take-down notice. Ik bedoel Nintendo Japan strooit ook graag met DMCA notices en die zijn ook nog niet aangeklaagd door de overheid van de US, dus ik denk dat je het wel overleeft.
Wat dacht je van advertentie inkomsten die je mist wanneer je content alternatief wordt aangeboden. Dan moet alles straks achter een paywall.
1) Advertenties zijn ook gewoon zichtbaar in de Wayback Machine. Voeg de URL toe als geoorloofd (tenminste bij Google Adsense kan dit) en de views en inkomsten tellen gewoon mee.

2) De laatste keer dat mijn site geÔndexeerd is, was november 2016. Dus dan moeten mensen wel veel geduld opbrengen om je content te volgen.
Dus heb je er een wachtwoord voor gezet neem ik aan. Anders heeft het geen zin om het online te zetten. WWW = openbaar. En het doel van the internet archive is niet financieel van aard, maar historisch. Nogal een verschil dus met het doel wat Google heeft met de newsfeed.
Ik weet uit ervaring dat als je ze een mailtje stuurt met de vraag om jouw domein te verwijderen dan doen ze dat. Vaak nog redelijk snel ook. Ben het wel eens dat het negeren van robots.txt niet kan. Als straks robots.txt niets meer waard is zullen er vast en zeker modules komen voor Apache, nginx en anderen om gewoon alle zoekmachines te blokkeren.
En dan ben je straks alleen maar aan het mailtjes sturen om je verwijderd te krijgen bij alle bedrijven die de robots.txt negeren.
Het moet een opt-in zijn, niet opt-out, zij willen je graag archiveren, laat ze het dan ook maar netjes vragen, of de robots.txt respecteren.
Aan de andere kant ben jij toch degene die je website online zet. Als je niet wilt dat er kopieŽn worden gemaakt moet je gewoon geen data online zetten. Daar heeft de robots.txt verder niet mee van doen. Het internet is opt-in. Je zet je website online, of niet.
De bibliotheek is openbaar, iedereen mag daar boeken inkijken.
Volgens jouw redenering mag ik dus ook alles wat ik wil kopieŽren en beschikbaar maken voor anderen om in te zien.
En raad eens? Dat mag ook! Ze hebben zelfs kopieerapparaten in de bieb daarvoor. Je mag rustig een aantal pagina's van een boek kopiŽren en verspreiden. Je mag alleen niet het hele boek kopiŽren en verspreiden. Maar dat doet de Internet Archive ook niet.
KopieŽren mag voor eigen gebruik.
Verspreiden valt onder publicatie en is nŪet toegestaan.
Tenzij het onder Fair Use is natuurlijk.
Iets her-publiceren voor een paar miljard mensen (zoals the Internet Archive doet) lijkt me niet onder fair use vallen.
Om de vergelijking kloppend te maken moet je het vergelijken met een openbare bibliotheek die de kopie maakt en het per post naar je opstuurt. Het kopie is al gemaakt door de "eigenaar". Dus waarom zou je niet het recht hebben om dat kopie te houden (en te herdistribueren) als de eigenaar het aan iedereen weg geeft.
De kopie wordt misschien gemaakt door de eigenaar (van de website) maar (i) opgeslagen en (ii) opnieuw gedistribueerd door the Internet Archive.

[Reactie gewijzigd door pietje63 op 24 april 2017 13:44]

Nee dat is de omgekeerde wereld. Als ik een site host dan is het de bedoeling dat andere deze bekijken. En niet dat bedrijven het gewoon maar kopieeren om er zelf beter van te worden.
Goede vraag, ik weet eigenlijk niet of dat zo is. Je website is immers publiek toegankelijk. Net zo iets als een foto van een gebouw archiveren dat publiek te bezichtigen is.

Ik denk dat het een mooi juridisch vraagstuk is.
Genoeg gebouwen waar je geen foto van mag maken/publiceren zonder toestemming hoor.
En ja, ook toeristische trekpleisters (dus duidelijk publiek te bezichtigen) waar je een selfie maakt met het gebouw op de achtergrond mag je niet in je online archief plaatsen of je wordt er voor aangeklaagd.
zie bijvoorbeeld http://atomium.be/AuthorsRights.aspx?lang=nl
Vind ik wel erg trouwens, dat ding is een uitvergroting van een ijzeratoom, iets wat al miljarden jaren bestaat, maar toch 'beschermd'.
Maar daar voor heb je dus vrijheid van panorama en die is in NL vrij breed opgezet.

En wat beschermt word is uiteraard niet de afbeelding van een ijzer atoom maar die specifieke instantie die daar staat. Dat is min of meer het zelfde als een appel met een hap er uit claimen als eigendom terwijl daar toch duidelijk sprake is van prior art.
Het punt was dat ze copyright gaan eisen (en afdwingen) voor foto's van publiek toegankelijke (zelfs toeristische, waar dus mensen naartoe gelokt worden) locaties.

Dat het bewuste ontwerp dan gebaseerd is op iets dat gewoon al lang bestaat komt er dan nog bovenop maar is naast de kwestie.

Van belang is dat jou juridisch vraagstuk dus helemaal geen vraagstuk is maar gewoon gebeurd, de straat waarlangs deze gebouwen staan, en dikwijls de gebouwen zelf, zijn publiek toegankelijk, toch mag je er niet zomaar fotos van publiceren (lees: op je blog/facebook zetten, het gaat hier niet eens om commercieel gebruik ofzo)
Ik ken mensen die als hobby fotografie doen die al meerdere keren werden aangesproken door een agent bij het nemen van fotos, op de openbare weg, van gebouwen waar rechten op zitten (die uberhaupt op google streetview niet geblurred zijn), de agent laat ze dan wel doen als ze uitleggen dat het voor de hobby is, en niet voor publicatie, maar ik vind het erg dat een agent zich hier mee moet bezig houden, die ie beter wat zakkenrollers pakt, maar dat is wederom naast de kwestie.

De wet die je aanhaalt is minder dan een jaar oud (in Belgie), en regelt dat blijkbaar, zal het hem eens gaan zeggen dat ie nu ongestoord fotos mag maken dan :p
Of je zet het gewoon NIET op internet.
Wat is dat nu voor een redenering? Er is een afspraak om delen in de robots.txt te negeren/niet te indexeren.
Dat ze die afspraak nu gaan negeren los je niet op door de schuld bij de websites zelf te leggen.

Jij hebt mogelijk ook afspraken met je buren, als ze die niet naleven kunnen ze ook niet zeggen dat je daar dan niet had moeten wonen.
Sjah, zoals Google al zegt;
”You should not use robots.txt as a means to hide your web pages from Google Search results. This is because other pages might point to your page, and your page could get indexed that way, avoiding the robots.txt file.”
Robots.txt is trouwens ook niet bindend, het is geen afspraak, het is niet veel meer dan "gebruikelijk" om de opgegeven regels in het bestandje te honoreren...maar je hoeft niet te "luisteren" naar die robots rules.
Dat het een minder optimale manier is en geen wet gebeiteld in steen, doet niet af aan het feit dat de afspraak blijft je eraan te houden, wat nu dus moedwillig geschonden wordt.
Natuurlijk zijn er betere manieren en ondervang je meteen deze schending, maar daar gaat het niet om in deze.
Robots is meer een gentlemen's agreement en zou dus ook niet gebruikt moeten worden als middel voor verbergen bestanden.
tja, ik vind robots.txt meer een inhoudsopgave van het interessante deel van een site. Als je iets niet geindexeerd wilt hebben blokkeer je dat in je webserverU bijvoorbeeld met directory whitelists...
Hoe heeft iets blokkeren in een browser invloed op wat er geÔndexeerd wordt door de Internet Archive?
fout, nog niet wakker. Bedoel uiteraard de webserver (zij het apache, nginx, of een ander minder bekende
Ja maar dan kan niemand er nog bij. Het is niet zo dat als iemand jou site ongevraagd indexeert dat jij en je bezoekers dan maar de sjaak moeten zijn... Omgekeerde wereld.
Er is een principe akkoord. Dit heeft niets te maken met een bindende afspraak en is voornamelijk ontstaan omdat te voorkomen dat je allerlei dynamische content gaat indexeren wat geen zin heeft. Robots.txt is geen vervanger voor een beveiligde website. Als iemand met een browser langskomt wordt robots.txt ook niet gewogen in de beslissing om te pagina te tonen. En de gebruiker kan ook gewoon 'save as' doen om de pagina op te slaan.
afspraak? wie heeft die afspraak gemaakt? "ik" niet, dus waarom zou ik een robots.txt honoreren? Er is geen wet die zegt dat je de robots.txt moet honoreren. Dat jij vindt dat het gehonoreerd moet worden is een andere zaak..
Je kunt er ook voor kiezen om je website zo in te richten dat het niet mogelijk is voor anderen om meer te zien dat jij toe wilt staan.
Dat is wel heel extreem. Maar er is gewoon content waarvan je niet wilt dag het gearchiveerd wordt.

Wanneer er content vanaf mijn site in archief komt heb ik daar geen moeite mee mits iedere view gewoon mee gaat tellen in mijn advertentie inkomsten. Zolang dat niet gebeurd wil ik niet gearchiveerd worden.
Eh, Ja. Jammer voor jou dan, maar zo werkt het niet. Je hebt je content al voor je huiskamer ramen geplakt met de ads in de hoeken van die ramen. Nou moet je niet raar opkijken als men zich pas in het midden van het raam omdraait om de content te bekijken.

Als je er per se centjes voor wilt vangen dan zou je het achter een paywall systeem of een systeem waarbij het noodzakelijk is om in te loggen (registreren kan, maar tegenwoordig kan men zich met diensten als FB, Google, etc zich ook authentificeren) om de content te zien.
Eh, Ja. Jammer voor jou dan, maar zo werkt het niet. Je hebt je content al voor je huiskamer ramen geplakt met de ads in de hoeken van die ramen. Nou moet je niet raar opkijken als men zich pas in het midden van het raam omdraait om de content te bekijken.

Als je er per se centjes voor wilt vangen dan zou je het achter een paywall systeem of een systeem waarbij het noodzakelijk is om in te loggen (registreren kan, maar tegenwoordig kan men zich met diensten als FB, Google, etc zich ook authentificeren) om de content te zien.
Oplossing is eenvoudig. .htaccess en hun crawler blocken :-)
Het internet archief heeft vele klanten die wel hun site gearchiveerd zien. Ze bieden dit als dienst aan. Ik ga er nu even van uit dat dit vooral voor die dergelijke klanten geldt. Is het wel voor alles van toepassing dan ben je alsnog vrij om een takedown request in te sturen. Het weerhoudt niemand ervan om alsnog robots.txt te negeren en vervolgens een backup/mirror van je site in het archief of een andere site te zetten.

[Reactie gewijzigd door Katsumii op 24 april 2017 11:58]

Als je niet wilt dat je site waar dan ook verschijnt moet je hem niet openbaar toegankelijk maken.
Daar vinden zo ook ook oplossingen voor. zo hebben ze hele gezamelijke acties opgezet en complete oorlogen gevoerd met ip/datalimiet/etc blokkades tegen ze

als het beschikbaar is en ze willen het ...
Als dat waar is, dan is de organasatie achter the Internet Archive vreselijk asociaal.
Alles op alles zetten omdat zij zichzelf "the greater good" vinden, ik mag het niet hopen.
Sorry, maar als je (als crawler) een netjes verzoek om niet mij te crawlen/te archiveren/te mirroren negeert, dan kom je er gewoon op IP-niveau niet meer in.
Dit is expres zo gemaakt zodat mensen zelf kunnen bepalen dat ze niet in een publieke lijst willen staan. Ik was al van plan om dit te doen, nu ga ik dat ook echt doorzetten.
Ik wil niet dat een site ongevraagd wordt gearchiveerd, al helemaal niet als je er moeilijk uit kan komen (ik weet niet hoe dit bij het internet archiveren zit)
Wat jij op je webserver zet, is een publicatie. Als een bezoeker het mag zien, dan mag en crawler dat ook. Hoeft niemand toestemming voor te vragen, als je het niet wilt dat het niet gearchiveerd wordt, moet je het in eerste instantie niet op het internet publiceren.

Net zoiets als een kunstwerk op straat zetten en dan gaan verbieden dat mensen er foto's van mogen maken, slaat nergens op.

Zo hoort het te werken, dat je het niet mee eens ben, is je goedrecht. Maar succes met alles te gaan blocken ...
Er is nogal een verschil tussen een normale bezoeker, en een bedrijf dat complete website riped en vervolgens zelf gaat publiceren.
Internet Archive is een non-profit die als doel heeft een historisch overzicht van het internet te maken. Zoals jij het schrijft is het een commercieel monster die middels datamining gaat proberen er geld uit te extraheren. Nogal een verschil. Dit is vergelijkbaar met 'the Library of Congress' in de USA of de Koninklijke Bibliotheek in Nederland: een kopie van alles wat uitgegeven is vastleggen voor het nageslacht. Ik kan dan naar de KB toe om het boek in te zien zonder dat jij (de auteur) hiervan hoort.
Maar er is toch een groot verschil tussen een website bezoeken en een kopie ervan op je eigen servers bewaren en deze vervolgens in je eigen dienst aan te bieden.
Takedown notice per email sturen, wordt binnen enkele dagen verwerkt.
8)7 :X Wat een stuk onbeschoftheid is dat stukje tekst. Niet te geloven hoe arrogant die gasten zijn.

We hoeven dus niet meer naar WikiLeaks, omdat alles bij hun op het netwerk staat. Hoezo Websites lekken informatie. Zij trekken de boel wel leeg. :+
Niet echt onbeschoft, robots moet niet gebruikt worden voor scheinveiligheid. Zijn genoeg sites die in de robots zetten DENY /private/passwords.etc .. en denken dat dit niet leesbaar is..

Rechten op wat een spider/bezoeker mag zien moet serverside afgevangen worden, niet door een text file.
Sterker nog, zo'n deny rule vertelt je precies waar je de wachtwoorden kan vinden :p (heb je dat wel eens gezien op die manier? is wel heeul erg fout hoor)
Paar keer - 'neefje van de baas' websites die herschreven moesten worden. Het vinden is erg, reacties die je soms krijgt op het vinden zijn net zo min erg (van neutraal tot 'ach, ons hacken ze toch niet'.

In ieder geval plenty of facepalms als ik ze tegenkom :)
Ze hebben anders wel gelijk. Dat google enzo zich er braaf aan houd wil absoluut niet betekenen dat je site niet gecrawled wordt. Kwaadwillende hebben sowieso lak aan zo'n bestand natuurlijk (sterker nog, ze gebruiken het bestand juist om de afgeschermde delen te vinden).

Het is zeker wel erg arrogant geschreven, maar het is wel de werkelijkheid.
Ik heb het gelezen. Vanavond zoek ik hun user agent uit en gaat de crawler helemaal op zwart. Ga wel een 301 redirect naar google.com doen :-) in de .htaccess

[Reactie gewijzigd door Wim-Bart op 24 april 2017 12:55]

Zou ik niet aanraden. De archiveteam warrior is geen crawler; het is een stuk software dat sites archiveert als ze dreigen offline te gaan. Mijn bedoeling met het delen van deze opinie was omdat ik dacht dat mensen misschien dit interessant zouden vinden, niet om websites de archiveteam warrior te laten blokkeren omdat ze het er niet mee eens zijn. :'(
Volgens mij is juist de bedoeling om ROBOTS.txt delen van de website af te schermen van indexsatie. Ik zou als website eigenaar niet willen dat deze delen toch worden indexeerd/ of opgeslagen. Hoe kan je anders nog aangeven of je website wel of niet opgeslagen mag worden door de Internet Archive.
Heb dit in het verleden ook gehad met agressieve crawler bots die het leuk vonden een paar gigabyte per dag aan bandbrete verkeer te veroorzaken door automatisch alle download links met nieuwe content te gaan downloaden. Uiteindelijk heb ik dit redelijk agressief geblokkeerd via .htaccess regels. De exacte regels heb ik helaas niet bij de hand, het was in de richting dat de useragent indicatie moest bevatten dat er een grafische shell werd gebruikt.
het was in de richting dat de useragent indicatie moest bevatten dat er een grafische shell werd gebruikt.
Wat denk je dat agressieve bots in het vervolg gaan doen? ;)
Zo lang ik een van de weinigen ben die het toe past niet veel gelukkig :).
Op termijn zal het niet een houdbare oplossing zijn, inmiddels is die download pagina al uitgefaseerd.
robots.txt is meer een gentlemen's agreement dan echt een keiharde afspraak hoor. Als je ťcht niet wil dat iets geÔndexeerd word zijn daar andere manieren voor (login, .htaccess e.d)
Ik gebruik robots.txt om crawlers weg te houden van pagina's waar ze een "authorization required" header terug krijgen.
Beetje nutteloos om die pagina's proberen te indexeren.
Een beetje crawler negeert je pagina dan ook netjes met een 401 header (iig iets anders dan 200 OK of 404 NOT FOUND)
I know, het is ook meer een service naar de bot toe van probeer het al niet eens.
Als ze het toch doen care, dan krijgen ze een 401 header terug.
Hoe kan je anders nog aangeven of je website wel of niet opgeslagen mag worden door de Internet Archive.
Door het in de eerste plaats niet online te zetten.
Hoezo is dit niet gewoon diefstal van data?
Diefstal van data? Serieus? Je zet iets publiekelijk op internet en plaatst daarbij het verzoek om het niet te indexeren in crawlers. Zelfs al wordt het wel gecrawled, dan is er nog niets gestolen...
Diefstal inderdaad lijkt me niet, maar als je hebt ook nog autheursrecht. zomaar kopieren mag lijkt mij ook niet.
Precies. Als partij A iets publiceert op het internet, geeft dat partij B niet automatisch het recht om dat ook te doen, hoe nobel het streven van partij B misschien ook is.
Echter heeft auteursrecht er 0,0 mee te maken, aangezien de orginele auteur duidelijk vermeld is aangezien je een 'snapshot' van de website op dat moment ziet. Dit is archivering, geen diefstal.

Vergelijk het met de Koninklijke Bibliotheek. Daar kan je ieder werk wat ze hebben zo inzien, zonder dat de auteur daarvan op de hoogte word gesteld. Moet dit dan ook maar ineens anders?
Vergeet je nu niet voor het gemak dat bibliotheken overeenkomsten hebben met de uitgevers die het de bibliotheken mogelijk maken om het werk op deze manier te ontsluiten? Je denkt toch niet dat een bibliotheek gewoon een boek of krant kan halen bij de boekwinkel om de hoek (of het centraal boekhuis) en het dan in de kast kan zetten om het uit te lenen?

Zoek maar eens op de term "leenrecht".
Leenrecht heeft geen plaats op het internet. Zodra jij iets post ga je ermee akkoord dat het geÔndexeerd wordt.
Maar robots.txt heeft vrij weinig met autheursrecht te maken. Als jij eigen tekst schrijft ligt beide keren het recht bij jou.
AFAIK is robots.txt geen "wet" of garantie dat je site wel of niet geindexeerd wordt.
Hoe zou jij het vinden als ik al je fotos van Facebook rip en ga publiceren op een dedicated website? De meeste mensen zullen dat beschouwen als diefstal.
Dat mogen ze dan wel zo zien, maar ze zetten zelf hun data publiekelijk.

Feitelijk is het geen diefstal tenzij er auteursrechten en dingen aan vast zitten.
Feitelijk is het geen diefstal tenzij er auteursrechten en dingen aan vast zitten.
Archive kan ook welke websites controleren op auteursrecht door op de webpagina's te zoeken naar teksten als "© 1998 - 2017 de Persgroep Online Services B.V." zoals onderin op Tweakers, en vervolgens proberen dit op slimme wijze juist proberen te interpreteren. En hetzelfde te doen op elke afbeelding van een webpagina. Gemakkelijker is het als website eigenaren gewoon zelf aangeven waar ze wel/niet willen waar een bot komt. En dat is precies waar robots.txt voor is.
Ik begrijp de werking van robot.txt heel goed :)

Maar:
the robots.txt is more what you'd call "guidelines" than actual rules.
- Captain Barbossa
Als ze het echt niet willen is daat een betere standaart voor, namelijk 401

[Reactie gewijzigd door odiw op 24 april 2017 13:37]

Eens. Maar waarom zou je hele eenvoudige wensen/guidelines (gespecificeerd in robots.txt) van publicers niet willen respecteren en het leven van anderen complexer willen maken?
Zoals met alles wat niet expliciet is verboden; voor eigen gewin.

Zie advertenties bijvoobeeld.
Maar dat zit er juist wel aan vast!
Copyright is a form of legal protection that is automatically assigned to content creators at the moment of creation. In other words, the moment you take a photograph, you own the copyright to it. You don’t have to register it with a special organisation, you don’t have to fill in a form or add a legal notice to the image. The rights to use, amend or sell that image are yours and yours alone.

You are also allowed to give away or sell those rights, if you wish - and that’s how many professional photographers make money; by selling rights to their work. That also means that no one else is allowed to use your work without your permission.

Many people assume that if content is online that it is "public domain" and that it's not copyrighted. That’s just a myth.

Content that’s published online is still protected by copyright law.
Bron

En Facebook heeft expliciet in haar overeenkomst staan dat jij toestemming geeft om de foto's te publiceren (en meer...).
For content that is covered by intellectual property rights, like photos and videos (IP content), you specifically give us the following permission, subject to your privacy and application settings: you grant us a non-exclusive, transferable, sub-licensable, royalty-free, worldwide license to use any IP content that you post on or in connection with Facebook (IP License). This IP License ends when you delete your IP content or your account unless your content has been shared with others, and they have not deleted it.
Bron

[Reactie gewijzigd door twiFight op 24 april 2017 13:37]

Ten eerste is het geen diefstal omdat er niets weggenomen wordt.
Ten tweede is robots.txt een verzoek, geen wet.
Klopt, doch tegen kopieren is wel een wet.
robots.txt was ook eigenlijk bedoelt voor indexers. Archiveren is een andere tak van sport.
Kopieren mag alleen niet als het niet eerder al geopenbaard is (en dat is het door het op internet te zetten).
Dat zou wat zijn, dan is iedere internetter strafbaar.

Als je een site bezoekt, kopieer je alle assets (html, javascript, css, afbeeldingen, videostream etc) allemaal naar je computer, alvorens de browser het weergeeft.
Dus nee, dat gaat niet op. Als je het op een webserver zet, dan publiceer jet het met de intentie dat anderen het kunnen repliceren (anders kan het niet getoond worden in een browser).
Maar jouw webbrowser publiceerd de gerepliceerde data niet. De website archive.org dus wel.
Klopt, dat is juridisch geregeld. Herpubliceren van content voor archief doeleinden is wel toegestaan (jij blijft uiteraard de auteur en copyrighthouder), maar hoe dat precies zit zou je even zelf op moeten googlen.

Hoe dan ook, is er niets vreemds aan en is het iets waar je akkoord mee gaat alvorens je deelneemt aan het internet.
exact, ik heb me ook altijd stevige vragen gesteld bij de het werken van internet archive, aan de andere kant vind ik het wel een handige service.

Als blogger creŽer je content die auteursrechtelijk beschermd is, the internet archive copy'd die gewoon en verdeelt deze.

Het zou net zoals een film kijken zijn deze opnemen en verspreiden via het internet .. Maar bon, het is voornamelijk handig voor sites die dood zijn, en die je via the internet archive dus nog kunt raadplegen..
Zo ver ik weet is dat enigzins internationaal juridisch geregeld in copyright wetgevingen dat herpubliceren van content in z'n ongewijzigde vorm toegestaan is voor archiefdoeleinden.
Zij publiceren wel met de expliciete melding dat de data niet van hun is, en dat je feitelijk naar een 'foto' van die website op datum XX-XX-XXXX zit te kijken.
Ja, die redenering klopt niet. Voor diefstal op het web hoeft echt geen materie weggenomen worden ergens. Kijk maar naar illegaal downloaden van films en muziek.
Dat is niet helemaal correct. Ondanks dat er genoeg partijen zijn die illegaal downloaden 'diefstal' noemen, is dit eigenlijk niet de correcte term. Piraterij, of nog vollediger 'schending van intellectuele eigendomsrechten' sluit beter aan.
Dat is dus geen diefstal, maar auteursrechteninbreuk. Laat je niet hersenspoelen door Brein.
Waarom wel? Het staat al open en bloot op het internet, alleen kunnen de zoekrobots het niet vinden.
Niet al het materiaal op het internet mag vrij gekopieerd worden, je hebt nog steeds met auteursrechten en copyrights te maken. Niet dat robots.txt daar iets aan zal veranderen aangezien je veel dingen waar rechten op zitten wel vindbaar wilt hebben via zoekmachines, maar Internet Archive is wel een massale schender van auteursrechten en copyrights.

Het is eigenlijk belachelijk dat het een opt-out is in plaats van een opt-in.
Hoezo schenden ze auteursrecht? Ze herpubliceren niet jouw content onder hun naam, zo van 'Ik heb dit geschreven' terwijl het van 'Jantje' is ofzo. Er is een keurige vermelding van bron bij en alles. Dit valt dus gewoon onder 'fair use'.
Hoe is een zoekmachine dat niet?
Omdat een zoekmachine als Google niet een kopie van je site bewaard. Zij crawlen een site om zo voor hun een beeld te vormen waar die over gaat en of deze pagina interessant is voor de zoekopdrachten van hun gebruikers.

Dat is er zo anders aan het internet archief, die maken een kopie van je werk. Of je dat nu wil of niet.
Google bewaart wel degelijk een kopie van je site, als dat je letterlijke issue is. Het is niet zo dat als iemand "Appeltaart" intikt, dat Google zoiets heeft van: "Hmmm ik heb ooit deze sites over appeltaarten gezien. Ik geloof dat dit de URL was! Ik haal alvast een preview voor je op". Google heeft een complete kopie van je site om de content te kunnen doorzoeken en een preview te kunnen tonen
Goed zo. Dit maakt het internet meer transparant en maakt ook geschiedvervalsing minder makkelijk.

Archive.is doet het al, maar daar moet je handmatig per pagina archiveren.
Wayback Machine gooit er gelijk een crawler overheen.
archive.is heeft ook een crawler?
Ik heb onlangs 100eur uitgegeven om een domein 'terug' te kopen waarop vroeger de site stond van een vriend van me die gestorven is aan een hersentumor puur zodat ik de 'wayback machine' terug kon 'openzetten' zodat men opnieuw zijn (letterlijk) levenswerk (de site zelf) kon bezichtigen.

De nieuwe eigenaar (van het domein, puur een 'domein doorverkoper') had er een robots.txt op gezet die ook effect had op OUDE pagina's waarmee de nieuwe eigenaar niets te maken had.

Dus ja, ik ben 1 van die 'klagers'...
Recht niet nee, maar als je pretendeert het internetarchief te zijn, mag je wel proberen om volledig te zijn.
Dan word ik een bedrijf dat huizen, tuinen en auto's ga archiveren. Je kan wel aangeven dat je dat niet wilt maar daar hou ik geen rekening mee en dus kom ik dagelijks jouw huis, tuin en auto fotograferen voor mijn archief. Kwestie van volledig te zijn.

Kortom: hij verwoordt het verkeerd maar dat maakt niet dat ik zomaar mijn zin kan doen. No offence naar jou toe, maar je snapt wel waar ik naartoe wil. Ik kan claimen wie ik ben en waar ik voor sta, dat maakt niet dat ik zomaar ongevraagde dingen kan doen.

Ik snap dat dit het internet is waar iedereen aan kan, ook al kan ik me niet direct voorbeelden voor de geest halen, er zijn mogelijk wel dingen waar je niet wil dat er een archief van bijgehouden wordt. Als ik een archief wil, kan ik dat zelf bepalen en eventueel inbouwen.

Ik snap dus beide kanten wel, zeker omdat het om publiek internet gaat, maar van de andere kant heeft een ander niets te willen als ik het al expliciet heb aangegeven (robots.txt) dit te weigeren.

[Reactie gewijzigd door MrAndy9797 op 24 april 2017 12:07]

Alleen vergeet je een groot verschil, alles wat je op bereikbare webserver zet, is een publicatie. Je publiceert je spulletje op het internet, dus dat geeft Archive automatisch het rechts om het te indexeren. Het is nog steeds mogelijk zaken af te schermen, je zal dat serverside moeten oplossen. Niet lokaal met een simpel bestandje dat iedere kwaadwillende toch zal negeren.

Als je niet wilt dat het in een archief gaat, moet je het niet op het internet zetten. Simpel als dat (een hoop facebookers en instagrammers die heel hun leven erop knallen vergeten dit nog wel eens).

Er van uit gaan dat andere partijen lokaal geschreven restricties zullen opvolgen is uitermate naÔef en geeft alleen maar een vals gevoel van veiligheid (security through obscurity enzo).
+1 :)

Je kan inderdaad alles nog serversided afsluiten. Het bestandje is inderdaad makkelijk te negeren. Maar wat als je iets hebt 'gepubliceerd' en je wilt het er toch terug afhalen. Dan is het geÔndexeerd en moet je nog zelf gaan vragen of zij het ook willen verwijderen van hun archief.

Dan gaat het om iets dat je publiek beschikbaar wou hebben, maar na een tijd toch (om een of andere reden) terug weg wilt hebben. Echter ga je dit nog een tijdje terugvinden in zoekmachines, maar zij hebben jouw website volledig opgenomen terwijl je dat liever niet wou, achteraf gezien. Moet ik dan speciaal aan hun gaan vragen om dat ook te verwijderen?

Heb geen echt voorbeeld, maar dit is een soort situatie (zonder specifiek in te vullen).
Als een krant iets niet had willen publiceren, denk je dan dat ze alle bibliotheken wereldwijd gaan aanschrijven om een artikel uit de bewuste uitgave te gaan scheuren? En nog belangrijker: denk je dat bibliotheken daar gehoor aan zouden geven?
Dat is slechts 1 voorbeeld waarin het inderdaad 'eigen schuld' is. Echter appels en peren.

Zo heb je ook voorbeelden die net het tegenovergestelde kunnen voorhebben. Verder is journalistiek vrij en kan je dit dus echt niet vergelijken met een ander voorbeeld.

Voor het kopiŽren van mijn publicatie moet je het me vragen en zal ik wel zelf oordelen. Dit moet niet een of andere instantie eventjes zelf beslissen omdat zij, oh, het internetarchief zijn. Dan richt ik ook wel even een instantie op als ik zoveel rechten plots krijg. Snap je? Je kan niet alles doen wat je wil, zeker niet met andermans publicaties of dergelijke.
Natuurlijk kun je niet alles doen wat je wilt. Maar waar je makkelijk overheen kijkt is dat je te weinig juridische know-how hebt om hierover te oordelen.

Je laat bijvoorbeeld fair use buiten beschouwing, wat in de Verenigde Staten veel omvangrijker is dan het Nederlandse citaatrecht. Fair use staat toe dat materiaal gebruikt wordt waar auteursrecht op rust. En nee, daarvoor is jouw toestemming niet vereist. Het is dus echt niet zo zwart-wit als jij stelt.
Inderdaad, op die manier niet. Ergens is het goed dat het internet open is, al lokt het inderdaad veel onenigheid en ongecontroleerdheid uit. Blijkbaar kan en mag er veel omdat er geen regels rond zijn, of dat de bestaande regels zo breed gaan.
Goed beschouwd wel, het is jou fout in dat geval dat je iets gepubliceerd hebt (wat een stuk lulliger wordt als je data gestolen en gepubliceerd wordt, natuurlijk). Het 100% wegkrijgen van het internet kan je dan toch al vergeten.

Je kan de grote boeren zoals google en archive aanschrijven in de hoop dat ze er naar luisteren. Hoe dan ook, robots.txt is hier niet de oplossing voor (ook nooit zo bedoelt).

Ja sure, kan handig zijn om een regeltje toe te voegen aan je robots en het verdwijnt vervolgens van archive, lekker makkelijk. Maar daarmee is het echt nog niet helemaal weg van het internet, het garandeert echt niks.

Dus goed beschouwd veranderd er eigenlijk helemaal niks. Het is mensen hun eigen fout dat ze robots.txt zijn gaan gebruiken voor doeleinden waar het niet voor bedoelt is.
Akkoord dat het bestandje niet helpt. Maar is het daarom per direct fout om iets te publiceren (omdat zij hun zin doen)? Ik heb bewust geen specifiek voorbeeld gebruikt omdat dit zo ruim in te vullen is en verschillende redenen kunnen zijn om iets ongedaan te maken.

Even los van het feit dat je zelf verantwoordelijk bent voor publicatie, het robotx.txt-bestand en zoekmachines: Keur jij het zomaar goed dat het archief het recht heeft om jouw historie die je ooit op een domein hebt gezet zonder enige toestemming te kopiŽren. Nu je er niet meer door wilt achtervolgt worden, nu je er niets meer mee wilt te maken hebben, om welke reden dan ook (geen verantwoording)?

Mijn mening is mijn mening en jouw mening is jouw mening, daar heb ik alle respect en begrip voor, maar ik kan het niet zomaar even goedkeuren, ook al is het publiek beschikbaar, dat iemand er even een kopietje van maakt om te bewaren zodat anderen het ook kunnen blijven bekijken zodat jij moet gaan bedelen als je het echt weg wilt hebben.

Ik weet dat het een beetje dubbel is omdat het publiek beschikbaar is, maar van de andere kant klopt het ook gewoon niet voor mij.
Meningen even terzijde, dit heeft namelijk niks met mijn mening te maken, maar met regels en wetjes.

Het alternatief is namelijk niet te handhaven. Zou iedereen altijd het recht moeten hebben om anderen te verplichten spullen te verwijderen die jij ooit gepubliceerd heb? Nee. Zoiets moet via een verzoek gaan. Soms juridisch ondersteund (als je image schade oploopt enzo).

Maar zelfs dan heb je 0 garantie dat het ook echt van het internet weg is. Je kan dan gaan schoppen en schelden tegen de grote boeren zoals Google enzo. Maar wat dacht je van al die buitenlandse partijen? Spammers/scammers etc, hoe ga je ooit voor elkaar krijgen dat het daar ook weg is? Zoals ik al zei: Niet te handhaven.

Daarom moet je zo voorzichtig zijn met wat je publiceert, zo veel mensen zijn daar echt veel ste makkelijk in.
In dat opzicht komen we op een ander punt: hoe komen de instanties bij mijn publicatie? De zoekmachines indexeren zodat ik gevonden kan worden, top. Als een bepaalde publicatie verdwijnt, zal deze ook uiteindelijk uit de zoekmachine verdwijnen. Daar is het nut duidelijk: ik wil gevonden worden. Je hebt er zelf ook baat bij om hieraan deel te nemen.

Maar een internetachrief, begrip voor wat ze willen bereiken, maar welke baat heb ik daarbij? Wie zegt dat ik daaraan wil deelnemen? Mogen zijn dan zomaar mijn publicaties even kopieren voor eigen doeleinden: een archief maken waar ik eigenlijk niet om heb gevraagd.

Ter vergelijking (in de mate van het mogelijke): het is niet omdat ik voor een advertentie in een krant mijn gegevens heb gezet zodat geÔnteresseerden mij kunnen contacteren, dat anderen deze zomaar mogen verspreiden omdat zij een of ander archief willen maken of gegevens verzamelen van mensen. Dat is niet de bedoeling.

Ik snap uiteraard jouw punt ook wel, maar ik slik niet wat anderen willen. Zij hebben niet mijn publicaties (indien ik die zou hebben, ik spreek wel algemeen) zomaar even te kopieren voor hun eigen doeleinden zonder mijn toestemming, of ze nu publiek zijn of niet.
Je denkt verkeerd. Je ziet zoekmachines die een dienst aan jou als publiceerder iets leveren. Dat is verkeerd om, het is gericht op de bezoekers.

Als ik nu iets intik in google, en ik vind daar een resultaat op. En 10 jaar later doe ik hetzelfde, en ik krijg hetzelfde (en / of meer) dan functioneren dit soort diensten naar behoren (en daarmee dus het internet als een geheel). Ik hoor in dit geval niet afhankelijk te zijn van het het feit dat jij in de tussentijd een website offline hebt gehaald of niet.

Dus je moet vanuit de gebruiker redeneren, niet vanuit de aanbieder.

Zo is het internet ergens in de jaren 60 verzonnen. Het is een vrij en open "web". Kijk dus dan ook erg uit wat je er op gooit. Als je het niet eens bent met deze gedachtengang, dan heb je dus niks te zoeken op het internet.

Herpublicatie mag dan ook niet zo maar, maar ik geloof dat voor archieven ed. een uitzondering gemaakt wordt, zolang de content maar ongewijzigd zonder winst oogmerk gepubliceerd wordt (ofzoiets, dit is niet mijn sterkste punt, maar weet wel dat het juridisch verantwoord is).

Maar nogmaals: Kwaadwillenden doen dit sowieso. Dus als je je zorgen maakt over dit soort regeltjes, dan heb je serieus echt wel grotere problemen dan alleen Archive.

[Reactie gewijzigd door Zoop op 24 april 2017 13:18]

Ah ik denk verkeerd? :) Het is hoe jij het interpreteert. Het is niet zo dat ik een zoekmachine zie als een dienst voor mij. Echter gebruik ik het wel onder andere op die manier omdat het ook gewoon extra bezoekers levert en dat het op die manier wordt aangeboden. Ik lever content voor de zoekmachine zodat die gebruiker dat kan vinden.

Als ik ondertussen iets verwijder, betekent dat bijvoorbeeld dat de relevantie ervan niet meer ertoe doet. (opnieuw, slechts 1 voorbeeld van de X)

Het heeft een reden waarom er iets verwijderd is. Dan wil ik bijvoorbeeld ook dat het niet opnieuw gevonden kan worden. Misschien is dat een fout op het moment van publicatie, maar misschien wist je toen nog niet dat ... en zo begint het verhaal weer helemaal aan het begin van deze reacties. Verder zijn er altijd mensen die je de grond in kunnen boren op basis van iets kleins. Dan zijn ze plots machtig en jij heel klein. Heb je niet om gevraagd. Ze maken je kapot terwijl jij iets onschuldigs gedaan hebt. :) Je kan niet weten wat er in de toekomst gaat afspelen. (opnieuw, slechts 1 voorbeeld van de X)

Er is geen mening goed of fout, dus ook niet die van jou of mij. Er denkt niemand verkeerd, ieder heeft gewoon zijn eigen visie op bepaalde zaken en de ene heeft een andere ervaring dan de andere.

Ik heb dus begrip voor jouw mening en die zal dus altijd verschillen van die van mij :)
Nouja, je denkt dus wel verkeerd dat de zoekmachine er is om jouw website beter vindbaar te maken. Die zoekmachine is er om gebruikers van informatie te voorzien.

Daarom is SEO in 99% van de gevallen pure onzin. Je optimaliseert niet voor zoekmachines, maar voor je bezoekers. Als je puur alleen truken uithaalt specifiek voor zoekmachines, ben je verkeerd bezig (en wordt je in veel gevallen zelfs lager geranked, in ieder geval, Google doet dat).

Hoe dan ook, technisch gezien begrijp je hopelijk toch ook wel dat het praktisch onmogelijk is om iets compleet van het internet af te krijgen. Hoe lullig de consequenties daarvan ook kunnen zijn, zo werkt het internet nou eenmaal.
Ik denk niet verkeerd. Misschien voor jou even duidelijk maken:
Een zoek-machine: een machine voor gebruikers om dingen op het web op te zoeken. Ik ben mee ;)

Echter is het wel belangrijk dat je vindbaar bent in de zoekmachine. Bijvoorbeeld een mobiele site kan invloed hebben. Maar dat is een ander verhaal, over zoekmachines.

Jij legt woorden in mijn mond die ik niet gezegd hebt maar die jij veronderstelt dat ik bedoel. Iets helemaal anders...

En dat begrijp ik inderdaad, maar acties van internetarchief helpen daar niets aan. Het is de manier waarop. Het is niet omdat zijn een archief zijn, dat zij daarom het recht hebben om zomaar dingen te doen zonder toestemming. Die mindset is verkeerd, maar wie zijn wij om daar iets van te mogen zeggen? Gewoon meelopen zeker? :)
Punt is, als jij een mobiele site maakt, puur alleen omdat je dan beter vindbaar bent, ben je verkeerd bezig. Die mobiele site moet je voor je gebruikers maken en dat zou dan als het goed is positief moeten uitkomen voor je zoekvindbaarheid. Andersom denken dus. (ik zeg niet dat jij dit doet hoor, maar iets te veel mensen staren zich blind op een google ranking. Proberen een baggersite op plek 1 te krijgen ... je moet aan de gebruikerservaring werken, en niks anders, zoekmachines moet je vergeten, dat komt als het goed is van zelf wel).
Het is niet omdat zijn een archief zijn, dat zij daarom het recht hebben om zomaar dingen te doen zonder toestemming.
En daar zit je dus wel degelijk mis, dat recht hebben ze exact OMDAT ze een archief zijn, er worden uitzonderingen gemaakt voor herpubliceren van data voor archief doeleinden.

Ik wou dat ik even een goede source van kon vinden .... Maar het is zeker wel juridisch onderbouwd.

[Reactie gewijzigd door Zoop op 24 april 2017 14:03]

Punt is, als jij een mobiele site maakt, puur alleen omdat je dan beter vindbaar bent, ben je verkeerd bezig. Die mobiele site moet je voor je gebruikers maken en dat zou dan als het goed is positief moeten uitkomen voor je zoekvindbaarheid. Andersom denken dus.

En daar zit je dus wel degelijk mis, dat recht hebben ze exact OMDAT ze een archief zijn, er worden uitzonderingen gemaakt voor herpubliceren van data voor archief doeleinden.

Ik wou dat ik even een goede source van kon vinden .... Maar het is zeker wel juridisch onderbouwd.
Je pikt continu in op ťťn ding dat ik gezegd heb, je voegt er irrelevante dingen aan toe en je vergeet de waar deze hele discussie over gaat. Heb ik ergens gezegd dat ik enkel voor de zoekmachines een mobiele site maak? Neen. Maar het is wel ťťn van de dingen waar een zoekmachine rekening mee houdt, wil je dat je site gevonden wordt. Dat terzijde (herhaling)

Je behandelt me alsof ik achterlijk ben. Opnieuw heb je woorden in mijn mond gelegd die ik helemaal niet gezegd heb. Deze discussie heeft geen zin, je brengt ook geen begrip en respect op voor een ander zijn mening, dan stopt het hier.
Sorry, dan moet jij je gewoon beter verwoorden.

Ik zeg net dat je een site niet voor een zoekmachine moet bouwen, en jij geeft als reactie dat het bouwen van een mobiele versie invloed heeft op je indexering. Terwijl ik daarvoor net zeg dat dit de verkeerde manier van denken is. Dis precies de reden waarom er nu zo'n achterlijk robots.txt-systeem bestaat, dat verkeerd om denken.

Ik reageer puur op wat jij zegt, als je dat dan niet bedoelt, moet je niet van die stomme voorbeelden erbij halen, of het beter verwoorden. In al je voorbeelden denk je vanuit een publiceerder, niet een gebruiker. En je blijft voorbeelden aanhalen die dat aandikken. Niet mijn fout hoor.

[Reactie gewijzigd door Zoop op 24 april 2017 14:13]

Je robots.txt is een gentleman's agreement. Zoals gezegd, is het publiek domein. Wil je niet dat je site gearchiveerd wordt, zet je het achter een login systeem / blokkeer je crawlers op ip niveau.
Interessante opmerking en daarop volgende discussie. Ik zal 'm niet nog eens overdoen, maar ik snap je punt heel goed. Het zou ergens een keuze moeten zijn of je er wel of niet instaat, in dat archief.
Als je niet wilt dat iets in de toekomst bereikbaar blijft, kun je er ook een login achter zetten of beslissen dat het niet gepubliceerd wordt.
robots.txt is alleen handig als je een specifieke pagina uit de zoekresultaten wilt houden. :)
Als ze maar wel de ia_archiver repsecteren. Heb een domein waar vroeger adult content op stond, en die associatie hoeft voor mij niet...
Daarbij is het mogelijk om een bepaalde user agent te blokkeren, bijvoorbeeld die van het Internet Archive zelf.
User agents kun je zelf opgeven, ik gebruik een plugin in mijn browser waarmee ik dat ding kan faken. Die crawler kan dat natuurlijk ook.

Op dit item kan niet meer gereageerd worden.


Nintendo Switch Google Pixel XL 2 LG W7 Samsung Galaxy S8 Google Pixel 2 Sony Bravia A1 OLED Microsoft Xbox One X Apple iPhone 8

© 1998 - 2017 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Hardware.Info de Persgroep Online Services B.V. Hosting door True

*