Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Je kunt ook een cookievrije versie van de website bezoeken met minder functionaliteit. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , reacties: 71, views: 23.507 •
Submitter: Denhomer

In een reactie op de eis van de rechtbank, heeft Google de links naar een aantal sites van Belgische kranten en dagbladen uit zijn index verwijderd. Diverse Frans- en Duitstalige magazines hadden zich bij de rechter erover beklaagd dat artikelen van hun site via de zoekmachine volledig te raadplegen waren, terwijl dit op de site zelf voorbehouden was aan betalende klanten van het dagblad. Het ging daarbij overigens niet uitsluitend om vermeldingen op Google News, maar ook om zoekresultaten op de gewone Google-pagina's. Naast het verwijderen van de gecachete pagina's moest Google ook het vonnis op zijn website publiceren. Een zoektocht naar artikelen van de Franstalige krant Le Soir levert dan ook een link naar dit vonnis op.

Aangezien het vonnis in Brussel door een Belgische rechtbank uitgesproken werd, zijn de internationale versies van de zoekmachine vooralsnog ongewijzigd te raadplegen. Bovendien gaat Google met de actie verder dan de eis die door de rechter gesteld werd. Het bedrijf werd immers slechts verplicht de gecachete pagina's niet langer raadpleegbaar te maken, maar Google besloot Le Soir geheel uit zijn Belgische index te verwijderen. Het lijkt dan ook aannemelijk Google hiermee een wraakactie wil ondernemen, gezien websites over het algemeen net hun best doen om zo hoog mogelijk in de zoekresultaten te verschijnen.

Google - Le Soir

Reacties (71)

Vraagje... maar hoe komt content waar normaal voor betaald moet worden... in vredesnaam terecht in een google search machine?? Dat kan toch niet, sinds de google robot verbindt naar dezelfde pagines (die dus beveiligdt zijn) etc??
Over het algemeen is online nieuws de eerste paar dagen gratis te lezen. Daarna gaat het in een archief waar voor betaald of lid moet zijn.
Er zijn HTTP headers om de geldigheid van een pagina aan te geven. En volgens mij houd Google daar ook rekening mee.
slecht beveiliging waarschijnlijk.
waarschijnlijk kan je er zelf ook zo komen door even in de mappen structuur van de site te kijken bijvoorbeeld.

ook kan je de google bot (en elke andere zoek machine bot) heel goed vertellen waar hij wel en niet mag komen)
ik zou tegen die sites zeggen eigen schuld dikke bult als ik die rechter was geweest
ook kan je de google bot (en elke andere zoek machine bot) heel goed vertellen waar hij wel en niet mag komen)
Mits die bot zich aan jouw instructies houdt, anders maakt het nog niets uit.

Maar over het algemeen heb je wel gewoon gelijk. :)
als hij dat niet deed, DAN zouden ze inderdaad een gegronde reden hebben om te klagen.
Als het goed beveiligd is, kan je de content alleen bekijken indien je bent ingelogd. Zolang je niet bent ingelogd bestaat er geen sessie/cookie en wordt je geredirect naar een pagina dat je niet ingelogd bent. Hierop zal elke bot ook uitkomen...

Gewoon slecht en onveilig opgebouwd. Net goed dat ze er door hun gezeur nu helemaal niet meer op Google voorkomen.
Neen hoor, veel nieuwssites laten met plezier alles indexeren door search engines, en geven deze dan ook volledige toegang tot hun site (op basis van user agent, eventueel ook ip range). Wanneer je dan als gewone gebruiker op een link in google klikt die naar zo'n pagina verwijst kom je op een login pagina terecht.
twee mogelijkheden:
De bot kan langs de beveiliging (gebeurd wel vaker)
De pagina's waren tijdelijk open en komen zo in de cache terecht.
Dat is nou juist het leuke. Google leeft de robots.txt na echter de kranten zijn niet in staat om dit na behoren te te configureren. Google kan beveiligde websites cachen omdat deze zich voordoet als een spider en dat spiders.txt dit ook toelaat. Neem bv Firefox kun je je voordoen adhv je config als een spider en kun je behoorlijk wat websites benaderen zonder dat je ervoor betaald.
Volgens mij is niet zo zeer dat google spiders.txt niet naleeft echter in hoeverre google 'quote' in de zin van hoeveel wordt op hun website afgebeeld. Naar mijn idee te weinig om eigenlijk een nieuws bericht fatsoenlijk te begrijpen echter inhalige kranten denken hier schijnbaar anders over. De kwestie is dan ook eerder dat de kranten geld willen zien omdat google quote, nu zullen ze zien in hoeverre het quoten geld waard was en of de kranten eigenlijk niet google zouden moeten betalen voor wat google levert.
Hm, dat verklaart:

http://www.lesoir.be/robots.txt

Volgens mij zijn de een "/" vergeten op de 2de regel :)
Volgens http://en.wikipedia.org/wiki/Robots.txt is dat idd om het juist wel toe te laten. Zo'n klein foutje is snel gemaakt. Maar misschien hebben ze dit bestandje alleen maar gemaakt om minder 404 errors in de logs te krijgen. Het is iig wel een karig bestandje.
De kranten bieden het nieuws eerst een aantal dagen open en bloot aan en verplaatsen het vervolgens naar een afgesloten deel dat alleen toegankelijk is voor abonnees. De betreffende pagina's bleven echter - zeer tegen de wens van de kranten - beschikbaar.
Als het zo ongewest is waarom hebben ze dat dat niet zo gemaakt dat meer zichtbaar is na een paar dagen.
Dat is allemaal in te stellen.
Want niet alleen Google heeft die pagina's maar andere zoekmachines ook.
Ik kom heel vaak op betaalpagina's van forums terecht de laatste tijd via google. Je zoekt iets, vindt het, klikt erop: betalen voor registratie en dan mag je het lezen.

Met andere woorden: ze zetten het open voor google om mensen te lokken, ze zetten het dicht voor de bezoeker om inkomsten te krijgen. Smerige methode, en blijkbaar is het dan verboden als google ineens de content die gespiderd is gecached wordt.
Nu kan ik me vergissen. Maar is daar niet het robots.txt mechanisme voor uitgevonden?

Ik meen zelfs dat er een apart meta statement bestaat waardoor Google de pagina niet opneemt in haar cache.
Ik gebruik die anti chache meta tag altijd..
Ik snap nooit wat nou het voordeel van die cache moet zijn.. Laat de mensen maar gewoon naar de site gaan dan heb ik controlle over de inhoud.
Volgens mij heeft dit tot gevolg dat een browser altijd een verse versie van de pagina ophaalt en niet uit z'n eigen cache haalt! Dat heeft niets te maken met de page-caching van bijvoorbeeld google, die een van alle stijl geripte weergave is van de content!

http://www.designerwiz.co...s/meta_tag_anti_cache.htm
KMK bedoelt een andere tag. Uit mijn eigen website:

<meta name="robots" content="index,follow,noarchive" />

index - mag geïndexeerd worden
follow - hyperlinks mogen gevolgd worden
noarchive - cache de pagina niet
Het gebeurt maar al te vaak dat ik niet op een site kan komen omdat hij weer eens kapot/down is. Dan is de google cache een prima backup om alsnog even te kijken of er wat nuttigs op de site staat!
Goede zet van de oude media. Zo weten ze zeker dat ze over tien jaar niet meer gelezen worden.
Jemig wat een gezeur weer toch?

Als ze niet willen dat google daar komt, maak een robot.txt of beveilig het beter.

of zie ik het verkeerd?

Maarja goede zet van Google, gewoon hupaaaa helemaal deleten uit Google dan :P
Prima zet.
Dan worden namelijk de zoekresultaten van andere zoekmachines relatief beter. Heel slim !! }>
leg mij is uit waarom je voor zoek machines speciaal moet aangeven dat je het niet wil

terwijl je voor spam email er nu een wet is gemaakt dat het niet mag dat je eerst moet aanmelden enzo :S

imho is wat google met zijn bots doet een soort van spam alleen dan op website niveau en vind ik dat de website bouwer/beheerder ervoor meot kiezen om wel of niet opgenomen te worden.
als mensen een website maken en die voor de hele wereld beschikbaar maken, hebben ze die keuze al gemaakt.
Het idee achter websites was toch vooral dat het openlijk toegankelijk is.
Is dit nu zo'n typische beroemde Belgische actie, 'we willen meer bezoekers op onze pagina dus laten we een zoekmachine aanklagen om onze site uit hun index te laten verwijderen' ? :P
Of het typisch Belgisch is daar laat ik me niet over uit, maar het is wel opvallend dat bijv. de Nederlandstalige versie van de Belgische Google News voornamelijk gevuld is met links naar Nederlandse sites. Het lijkt erop dat men in Belgie buitengewoon moeilijk doet over over het toegankelijk maken van nieuwssites via zoekmachines.
Ze willen slechts dat google de pagina's waarvoor ze willen dat er betaald wordt onbereikbaar zijn voor mensen die niet betalen. En dat is eigenlijk zaak van de krant zelf om dat in hun broncode te verwerken. Nu willen ze hun probleem een probleem van google maken. Dus dan zou google allemaal extra werk moeten verrichten omdat die krant zijn site niet in orde heeft. Omgekeerde wereld.

De krant snijdt zichzelf nu in de vingers. (papercut :-P) Chapeau google.
Aangezien het vonnis in Brussel door een Belgische rechtbank uitgesproken werd, zijn de internationale versies van de zoekmachine vooralsnog ongewijzigd te raadplegen.
Verander .nl maar even in .be ;)
wel ik krijg geen directe links, maar in de beschrijvingen staat toch nog www.lesoir.be :)
Eerlijk gezegt begrijp ik het niet, normaal is het namelijk de user-agent van de googlebot, waardoor sommige site's de artikelen laten indexeren, zonder dat je hoeft in te loggen. Als je nou gewoon doet dat je wel moet inloggen, ook de googlebot, dan is het probleem toch opgelost?
Vreemd als ik de link in het artikel volg dan krijg ik gewoon alle links naar Le Soir.
Word het alleen geblokt als je in Belgie op de Belgieshe Google News zoekt of zo?
Ja idd google.be levert niets op google.nl wel. Ik had het zelf niet door gezien ik een nederlanse versie van firefox heb staan en die klaarblijk zoekt via google.nl.
Vind het wel een goede actie. Zoals eerder gezegd kunnen die kranten ook gewoon een robots.txt maken en configureren. Google gaat nou eenmaal voor informatievrijheid. En de informatie heeft blijkbaar toch ooit online gestaan, dus of Google het nu indexeerd of dat ik alles overschrijf }:O

Voor als een redacteur van die belgische kranten hier toevallig komt:
http://www.robotstxt.org/
http://en.wikipedia.org/wiki/Robots.txt

Lees en leer ;)

Op dit item kan niet meer gereageerd worden.



Populair:Apple iPhone 6Samsung Galaxy Note 4Apple iPad Air 2FIFA 15Motorola Nexus 6Call of Duty: Advanced WarfareApple WatchWorld of Warcraft: Warlords of Draenor, PC (Windows)Microsoft Xbox One 500GBSalaris

© 1998 - 2014 Tweakers.net B.V. Tweakers is onderdeel van De Persgroep en partner van Computable, Autotrack en Carsom.nl Hosting door True

Beste website van het jaar 2014