Hoofdcategorieën
Device Settings

Google webcache zorgt voor copyrightproblemen

Door Wouter Tinus, vrijdag 11 juli 2003 10:09
Bron: ZDNet, submitter: Rafe, views: 1.057

Juridische experts verwachten dat Google vroeg of laat in de problemen zal komen dankzij zijn webcache. Deze in 1997 geïntroduceerde feature stelt mensen in staat om informatie terug te vinden die op de originele site niet meer beschikbaar is. Dit om de teleurstelling van een dode link te verminderen, en op die manier dus weer een iets betere service aan te bieden. Hoewel het vrij eenvoudig is om als website aan te geven dat je niet in het cache opgenomen wenst te worden, denken experts dat Google zich op glad ijs begeeft door het standaard wel te doen. Zo bleek de betaalde content van de New York Times bijvoorbeeld terug te vinden te zijn. In dat geval werd het probleem in samenwerking opgelost, maar een volgend 'slachtoffer' zou voor een minder vreedzame oplossing kunnen kiezen. Een ander voorbeeld van een situatie die in praktijk is voorgekomen is dat gevoelige informatie van het Pentagon, die de regering zo snel mogelijk offline wilde hebben, dagen later nog steeds makkelijk terug te vinden was via Google.

Tegenstanders van het cache dragen verschillende argumenten aan. Het zou bezoekers van de originele site kunnen weglokken, en mogelijk zelfs onder copyrightschending vallen. De DMCA laat wel ruimte vrij voor een cache, maar de beschrijving van zo'n systeem is vrij specifiek. Het is dus maar de vraag of hetgeen Google doet door de Amerikaanse wet wordt goedgekeurd. Het bedrijf zelf denkt dat het allemaal wel meevalt, en beweert dat het volkomen legaal bezig is. Toch verwacht men dat Google deze claim in de toekomst nog vaak zal moeten verdedigen, simpelweg omdat het internet - en Google als meest populaire searchengine - steeds meer aandacht trekken

Google (links) Legally, what could differentiate Google from other archival sites that record pages is that it is a commercial site and that it has enormous scope and influence on the Web.

[...] "Most people agree that the caching exception in the DMCA is obsolete," Lohman said. "I don't think it would cover Google's cache. Google is not waiting for users to request the page. It spiders the page before anyone asks for it."
Volgende 10:56 Nieuwe geruchten omtrent toekomstige ATi-videokaarten
Vorige 09:17 SiS demonsteert quad channel RDRAM-chipset
Advertentie

Reacties

«  1  2  3  »

Ik vraag me af of je met een gemiddelde proxy server ook niet eenzelfde problematiek hebt. Deze houd toch ook een cache bij.

Het verschil is dat je niet naar een proxyserver toe kunt gaan en kunt gaan kijken welke pagina's hij allemaal in z'n cache heeft staan. Bovendien cached een proxy pas als iemand iets opvraagt en doet Google het automatisch. Google is een van de belangrijkste sites op het web, proxies zijn vaak niet eens openbaar. Het is gewoon een kwestie van hoge bomen vangen veel wind.

Het verschil is dat je niet naar een proxyserver toe kunt gaan en kunt gaan kijken welke pagina's hij allemaal in z'n cache heeft staan.
Daar komt nog bij, dat een normale proxy niet alleen pagina's opslaat, maar ook controleert of deze nog up-to-date zijn op het moment dat een gebruiker deze opvraagt. Zo niet, dan wordt de cache ververst, terwijl de opslag van Google dat dus juist niet doet.

In feite heeft google twee functies gecombineerd in een. Het heeft en een webcache en een zoekmachine. Die zoekmachine indexeerd pagina's die bereikbaar zijn. Deze pagina's worden geheel geautomatiseerd gevonden. Dit betekend dat die pagina's openbaar waren op het moment van bezoek van de zoekmachine.

Daarnaast heeft google een webcache. Die webcache kan voor een bepaalde url benaderd worden door die url aan te geven. De google zoekmachine geeft automatisch een url die dit kan. Dit zou perfect kunnen met een webcache van een derde.

Het is dan de vraag of het beschikbaar stellen van gearchiveerd materiaal gezien kan worden als reproductie in de zin van de auteurswet. En, indien dat het geval is, in hoeverre dat een onrechtmatige handeling is.

Proxyservers zijn een specifieke uitzondering op het auteursrecht en worden gelijkgesteld met computergeheugen, wat immers ook een kopie maakt. Als dat niet meer zou mogen, heeft de computerindustrie een groter probleem ;-)

Mensen moeten zich eens minder zorgen maken over deze nutteloze dingen...Zoals je ziet heeft Google in samenwerking met NY Times een fatsoenlijke oplossing gevonden.

Wanneer een site zich kan 'beveiliging' tegen deze cache, moeten ze dat maar doen. Ik vind het een beetje triest om te eisen dat google voorkomt dat copyrighted stuff in de cache komt terwijl de sitemakers die gewoon kunnen voorkomen.

Wanneer een site zich kan 'beveiliging' tegen deze cache, moeten ze dat maar doen. Ik vind het een beetje triest om te eisen dat google voorkomt dat copyrighted stuff in de cache komt terwijl de sitemakers die gewoon kunnen voorkomen.
Die redenatie kun je niet consequent hanteren. Spammen is illegaal, ook al kun gewoon spamfilters gebruiken. Hacken is illegaal, ook al kun je een firewall neerzetten. Mensen neerschieten is illegaal, ook al kun je een kogelvrij vest dragen. Mogelijk is cachen dus ook niet altijd legaal, ook al kun je het voorkomen.

T'ja en dan kunnen we beter meteen google afschaffen toch? idiot...

de webcache van google zorgt er voor dat jou content geserved kan worden zonder dat je server erbij betrokken wordt. Dat is alleen maar voordelig, zeker als jij je traffic moet betalen, dan is zon googlecache geweldig. En dat er wat blijft zitten nadat je server veranderd is, t'ja, je zou kunnen zeggen dat eens uitgegeven altijd uitgegeven. Zelf beschouw ik het als hetzelfde met boeken. Ik mag een boek niet zomaar kopieren maar als ie buiten druk is dan mag het wel. Als de content van een site verandered is of weg is dan zou je kunnen zeggen dat het kopieren wel mag.

Voor je gaat lopen flamen zou ik eerst maar een lezen wat ik zeg. Ik zeg alleen dat die redenatie niet klopt (een misdaad die je kunt voorkomen is nog steeds een misdaad), niet dat ik het niet eens ben met de conclusie.

@wouter_tinus
Hacken mag default niet, Spammen mag bij default niet. Cachen mag bij default wel, dat is het grote verschil. Bij de eerste twee hoef je niet aan te geven dat je het niet wil, beide het cachen dus wel.

Een firewall, een spamfilter is niet vragen, dat is maatregelen nemen. Bij het cachen vraag je het netjes. Ik ben het dus met Abom eens.
edit:
wouter_tinus:
Hoe is bepaald dat hacken niet mag? In de rechtszaal. Hoe is bepaald dat spammen niet mag? In de rechtszaal. Waarom mag deze manier van cache aanbieden wel? Niet omdat in de rechtszaal bewezen is dat het legaal is, alleen maar omdat het NOG niet echt is aangekaart.
hmm, good point. Maar toch, dat cachen zullen ze niet kunnen verbieden. Iedereen cached op zijn eigen pc. Waar ze google wel op zouden kunnen pakken is het feit dat zij een cache openbaar maken voor het gehele www. Als ze daar voor gaan, dan hebben ze mischien wel een goede zaak.

Metafoor: een cd voor eigen gebruik 'cachen' mag wel, deze cache daarna openbaar maken is verboden.

Hacken mag default niet, Spammen mag bij default niet. Cachen mag bij default wel, dat is het grote verschil.
Hoe is bepaald dat hacken niet mag? In de rechtszaal. Hoe is bepaald dat spammen niet mag? In de rechtszaal. Waarom mag deze manier van cache aanbieden wel? Niet omdat in de rechtszaal bewezen is dat het legaal is, alleen maar omdat het NOG niet echt is aangekaart. Men verwacht dus dat in de toekomst nog zal blijken of het echt mag volgens de wet. Aangezien de DMCA vrij paranoïde is denk ik dat dat best nog een probleem kan worden in Amerika, mocht iemand er serieus werk van willen maken.

Is het niet zo dat het DMCA cachen (vaag) toestaat?

Ik ben het natuurlijk wel met je eens dat het een grijs gebied is, maar ik zie het cache niet als misdrijf en ik ga er ook vanuit dat er meer activiteiten op het web plaats vinden die ook ergens in een grijs gebied vallen. Helaas is het zo dat er bedrijven zijn die dit soort gevallen misbruiken.

In de huidige economische situatie, zie ik er een aantal bedrijven wel voor aan om google aan te klagen om even snel geld uit deze vage situatie te slaan. Doet mij een beetje denken aan het SCO vs Linux geval :/

Het cachen is niet illegaal, het aanbieden van je cache op het internet zou eventueel illegaal kunnen zijn.
Maar ik snap de commotie niet echt, die cache kan sommige sites zelfs helpen, en als je er tegen bent dan moet je het maar aangeven. Dat het Pentagon niet goed haar site beveiligd heeft is natuurlijk hun eigen fout, behalve Google zullen er misschien veel minder bekende sites de boel cachen, en die bieden die info misschien gewoon lekker illegaal aan derden. }>

Mensen moeten zich eens minder zorgen maken over deze nutteloze dingen...
Het gaat niet om zorgen maken, het gaat uitsluitend om nieuwe manieren om geld te verdienen, anders niks B-).
Het is vaak een juridisch steekspelletje waarmee geprobeerd word om de wetgeving (feitelijk oneigen) in te zetten om ergens een voet achter de deur te krijgen en er zodoende een slaatje uit te slaan.

Reactie op: Abom:
Is het niet zo dat het DMCA cachen (vaag) toestaat?
De DMCA zegt hierover het volgende.

Ten eerste, mag Google een Cache maken met de webpage's van de New York Times. Alleen Google moet er voor zorg dragen dat deze, in de cache geplaatste webpage's, enkel en alleen toegankelijk zijn voor de personen die toegang hebben tot de oorspronkelijke webpage, hier de betaalde content page's van de New York Times.
Section 512 a
Any intermediate copies must not ordinarily be accessible to anyone other than anticipated recipients, and must not be retained for longer than reasonably necessary.
[..]
Section 512 b
The provider must limit users’ access to the material in accordance with conditions on access (e.g., password protection) imposed by the person who posted the material.
Ten tweede, moet de New York Times, een in de webpage's door middel van een standaard technische maatregelen aangeven dat de op deze content webpage's draait om copyrighted materiaal.
Section 512 i
[..]
and (2) it must accommodate and not interfere with “standard technical measures.”
“Standard technical measures” are defined as measures that copyright owners use to identify or protect copyrighted works, that have been developed pursuant to a broad consensus of copyright owners and service providers in an open, fair and voluntary multi-industry process, are available to anyone on reasonable nondiscriminatory terms, and do not impose substantial costs or burdens on service providers.
Imho, heeft Google doormiddel van het aanbieden megatabs aan de "standard technical measure" ruimschoots voldaan. :)
Echter vodoet de Google Cache nog niet aan de onder Section 512 a & b genoemde punt van de toegangsbeveiliging.
Bron: THE DIGITAL MILLENNIUM COPYRIGHT ACT OF 1998

De vraag is of het juist is of je je site maar moet beschermen als je niet wil dat copyrighted materiaal bij derden terechtkomt en daar gratis wordt aangeboden.
Aan de ene kant zeg ik ja. Websites zet men bewust gekoppeld aan het openbare internet en als je via browsen van bestaande links bij informatie terecht kan komen dan is die informatie publiekelijk toegankelijk en kan het bij iedereen terecht komen. Heel veel beschermde en copyrighted gegevens worden ook opgeslagen in een normale proxy of bv de cache van een gebruiker. Als je copyrighted materiaal dan niet bij derden terug wil vinden moet je het zo beschermen dat je van alle kanten tegen een beveiliging oploopt.
Aan de andere kant bestaat er zeer veel copyrighted materiaal dat wel vrij toegankelijk is maar je ook niet zomaar mag overnemen omdat dit bv duidelijk in een copyright notice staat. Alleen proxys en caches zijn niet zo slim om zich daar wat van te kunnen aantrekken.
Wie moeten we dus de schuld geven als copyrighted materiaal via andere organisaties via het www beschikbaar wordt gesteld?
Ik zeg zowel de gebruiker als de copyrighthouder.
Het internet is een openbaar informatie medium waar je groot risico loopt dat informatie via caches bij gebruikers terecht komt. Als je je daar niet tegen beschermt is het grotendeels je eigen verantwoordelijkheid als copyrighthouder.
De gebruikers van de site hebben een verantwoordelijkheid goed in de gaten te houden wat copyrighted materiaal is en wat ze ermee doen. Een bedrijf als google gebruikt copyrighted materiaal van derden nu zonder toestemming om diensten te leveren. En dat is heel wat anders dan een prive cache met copyright gegevens.
Ik ben dus bang dat google inderdaad te ver gaat met de huidige toepassing van cached materiaal.Ze verdienen geld met het beschikbaar stellen van informatie waar ze geen toestemming voor hebben om het daarvoor te gebruiken. Dat mag gewoon niet anders kunnen we alle copyright wel over boord gaan gooien, ook wat betreft muziek, software enz.

Dan zetten ze een robots.txt neer dat google ze niet indexeert, hup, probleem weg. Wat een gezeur mensen.. als je iets online zet dan maak je het beschikbaar en dan moet je later niet gaan zeuren

Het kan natuurlijk zijn dat je wel geindexeerd wilt worden, maar niet gecached. Zelfs dat kan, de googlebot heeft er speciale metatags voor.

Onzin dit dus, als je niet wil dat je gecachet wordt zet je robots.txt / metatag die googlebot herkent neer. Dat is duidelijk genoeg op de google website aangegeven, dus die "experts" weten niet waarover ze het hebben.

Opzich heb je gelijk, aan de andere kant weer niet.

Aan de ene kant is de google cache handig, en maak ik er zelf ook zo nu en dan wel gebruik van, maar aan de andere kant is het toch belachelijk?

Waarom zou iemand die niet wil dat zn site gecached word er ietrs aan meoten doen dat ie neit gecached word? Het zou toch juist zo meoten zijn dat als je wel wilt dat je gecached word je de bot dat moet laten weten?

Stel er komen nog 20 van dit soort cache services bij, allen met hun eigen bot, eigenschappen etc. Moet je dan 20 meta tags in je site knallen? Moet je dan 20 varianten van bot.txt aanmaken?

Opzich een beetje belachelijk.

1 robots.txt is genoeg om alle bots van je site te weren, als je dat instelt.
Waarom zou iemand die niet wil dat zn site gecached word er ietrs aan meoten doen dat ie neit gecached word? Het zou toch juist zo meoten zijn dat als je wel wilt dat je gecached word je de bot dat moet laten weten?
De meerderheid wil wel gecached worden, er is een klein aantal mensen dat moeilijk doet en daarom moeten we maar niets meer cachen? Zou wel het veiligst zijn voor google, maar voor het publiek niets. Ze bieden de mogelijkheid, dus je kunt zelf beslissen.

Kijk, je stelt iets (als er 20 van deze cache bots bijkomen)maaaarr, ze zijn er nog niet. En dus vind ik ook niet dat je dat als argument kunt gebruiken. En bovendien zal het logisch zijn dat er dan gewoon een standaard voor deze cache bots komt (als deze er al niet is).
Nee, ik vind dat google gewoon door mag gaan met het cachen van websites. En als je dat niet wilt, dan kan je dat met een simpele tag voorkomen. Makkelijk toch??

Hoe weet je dat er niet meer bots zijn? Dat is nou juist het probleem. De google-methode houdt in dat je als webmaster niet kunt weten wat voor tags er allemaal nodig zouden kunnen zijn om te voorkomen dat je pagina's gecached worden.

Robots.txt werkt overigens ook niet altijd. Alleen "nette" robots maken er gebruik van. Je kunt echter zonder problemen een robot bouwen die wél alles indexeert.

Dan zijn die indexing-services toch illegaal bezig?
Google biedt mensen heel makkelijk een opt-out aan.
In dit geval speelt technische kennis ook een rol.
Als je van jantje-met-zijn-website gaat verwachten dat hij een robots.txt neerzet met daarin het verzoek of google het wil cachen, gaat het niet werken. Als je gevoelige informatie of copyrighted informatie gaat aanbieden op het internet, dan wordt er ook wat technische kennis van je verwacht.

Nee.

Als ik een week geleden iets foutief gepubliceerd heb, wat mezelf schade kan berokkenen, en ik heb het inmiddels al verbeterd, wil ik niet dat dit toch nog in één of andere cache is terug te vinden.

Ze zouden alles standaard uit moeten zetten, zodat je het zelf met de metatags aan kan zetten.

Lekker brutaal, als er elke week een nieuwe tag bij komt, en je bent tevreden met je website, kan je steeds je site weer aan gaan passen, blijf je bezig :r

Ik kan ook zelf website offline beschikbaar maken, dat komt op hetzelfde neer, alleen doet google het nu gelijk eventjes voor iedereen, aardig toch?

Ik vind het cache juist hartstikke handig als een website het niet doet, traag is of een PDF of MS Wod doc is kun je hem toch nog snel openen met de woorden die je zocht gehighlight. Als je niet wilt dat een pagina wordt gecached of geindexeerd heb je daar slechts 1 metatag op je pagina voor nodig.

Iedere zoekmachine gebruikt voor de weergave van een samenvatting bij de zoekresultaten de tekst van de pagina, dan is dat de volgende stap.

Als je niet wilt dan anderen iets weten, zet het dan niet op internet: sim-pel.

Van mij mogen ze het in Amerika verbieden, mits andere delen in de wereld er geen last van hebben.

Google doet niets anders dan registreren wat ooit op het web geweest is. Misschien is het beter als ze bij het bij het opvragen van een pagina melden dat ie gecached is + de datum.

Of zijn mijn 'Offline beschikbaar gemaakte pagina's' ook illegaal? :?
edit:
Te langzaam ;(

uhm.. dat er gemeldt wordt dat het gecached is is al zo
This is G o o g l e's cache of http://www.tweakers.net/.
G o o g l e's cache is the snapshot that we took of the page as we crawled the web.
The page may have changed since that time. Click here for the current page without highlighting.
Alleen een datum erbij zetten is op zich niet moeilijk als het al in de database staat, zo niet dan is het alleen gezien de grootte van de google database al een stuk lastiger.

Op zich is dit niet zo problematisch,
Als je als sitebouwer aanmeld om opgenomen te worden bij de search van Google dan zou je eventueel een formuliertje in kunnen vullen online over hoe je jou site opgenomen wil worden in de search engine van google,
dus ik bedoel dat er een aantal features zijn zoals bijvoorbeeld "in de cache" opgenomen worden. Dan kun je als sitebouwer zelf bepalen of je dat wilt of niet. En dat voorbeeld van Pentagon in het stukje slaat ook nergens op, ze willen dat "gevoelige" informatie zo snel mogelijk offline gehaadl wordt..... hoe is het dan in de eerste plaats online gekomen.... door het Pentagon zelf neem ik aan :?
Waarschijnlijk is het dan de informatie toch al 10x de wereld rond gegaan op het net.

Daar gaan we weer... is er een goed idee, helpt de auteurswet het weer om zeep.

Geen enkele rechthebbende zal zich druk maken om een cache, maar er zal wel een of andere mafia achtige organisatie als de RIAA weer bovenop duiken.

Die cache is een machtige feature. Als je een 404 krijgt als je op je zoekresultaten klikt, dan kijk je ff in de cache. Heeft mij afgelopen tijd een paar keer goed geholpen. Laat dit niet het zoveelste slachtoffer worden van de doorgeslagen auteurswetten.

Precies helemaal mee eens. Die cache is verdomd makkelijk. Is de pagina weg, die cache kan hem nog vinden.
Verder wil je niet in google dan geef je dat aan zoals boven gesteld. Maar ja, als je momenteel niet in google staat ben je onvindbaar en dat willen ze ook weer niet. Wellicht tijd voor al die lieden die betaalde content bieden met een eigen searchengine te komen die alleen op sites zoekt met betaalde content, duidelijk geen succes gegarandderd lijkt me.

Tja typisch... Er wordt gewoon naar gezocht. Maar goed we krijgen steeds vaker Amerikaanse taverelen waarbij iedereen alles en iedereen aanklaagt.

Cache is gewoon een handige optie en degene die hier tegen zijn kunnen hun site gewoon gemakkelijk uit deze cache halen.. Dus het enige waar ze google voor zouden aanklagen zou dan zijn om het aanklagen.

Het lijkt me best wel een moeilijk probleem (juridisch gezien). Ik mag toch wel met mijn printertje een afdrukje maken van een web-pagina en bewaren (eigenlijk ook een soort cache)? Maar google zou dat niet mogen (google doet het natuurlijk wel electronisch en op veeeeel grotere schaal)

Ik denk dat het uiteindelijk neerkomt op het feit dat Google helpt met verspreiden van copyrighted materiaal zonder toestemming van de copyright-houder. Of de eigenaar van het materiaal nu wel of geen middelen heeft om dat te voorkomen (robots.txt / meta tags) doet niet terzake, Google zou het niet mogen verspreiden.
«  1  2  3  »

Op dit item kan niet meer gereageerd worden.

Volgende 10:56 Nieuwe geruchten omtrent toekomstige ATi-videokaarten
Vorige 09:17 SiS demonsteert quad channel RDRAM-chipset
VNU Media logo Hosted by True

© 1998 - 2012 Tweakers.net B.V. - Alle rechten voorbehouden - Contact - Jouw privacy - Algemene Voorwaarden

Uitgever van:

Website van het jaar 2011