HTML-attribuut in strijd tegen zoekresultaatvervuiling

Verschillende grote zoekmachines hebben aangekondigd een bepaalde value van een HTML-attribuut te gaan gebruiken om te voorkomen dat spam in reacties op grote weblogs invloed heeft op de ranking van bepaalde websites, zo lezen we bij eWeek. Google, Microsoft, Yahoo en weblogdienst Six Apart hopen de spam die sommige weblogs verkreupelt aan te pakken door het niet meer lonend te maken. Het reeds bestaande nofollow-attribuut zal voortaan kunnen voorkomen dat zoekmachines geplaatste links in reacties volgen. Op dit moment loont het voor websites om, al dan niet geautomatiseerd, in de reacties van weblogs de eigen link te plaatsen om zo de populariteit van de site op te krikken.

Google logoHet aantal maal dat er naar een pagina verwezen wordt, is namelijk een belangrijke factor voor het bepalen van de rangschikking door zoekmachines. De oplossing, voorgesteld aan de andere bedrijven door Google, pakt meteen de kern van het probleem aan. Als eigenaren van weblogs het attribuut toevoegen aan reacties is het direct nutteloos om nog te spammen; zoekmachines verwerken het toch niet. Veel aanbieders van weblogdiensten hebben reeds laten weten de techniek toe te gaan passen.

Door Willem Kerstholt

19-01-2005 • 11:31

47 Linkedin

Bron: eWeek

Reacties (47)

47
47
36
11
2
7
Wijzig sortering
Het is geen tag, maar een attribuut. Eindelijk eens een idee wat wel werkt, maar zullen spammers er minder door gaan spammen? Want ze hebben da nog steeds een link op je website geplaatst die je bezoekers kunnen zien...
Een spammer zal er echt niet minder door gaan spammen, maar je zoekresultaten worden in ieder geval niet meer vervuild en DAAR gaat het de zoekmachines om.
Het motief van spammers door het plaatsen van die links is het verhogen van de ranking in zoekmachines, niet hopen dat iemand op die link klikt. Aangezien dat niet meer werkt zullen ze liever hun tijd steken in het plaatsen van die links op plekken waar het nog wel werkt.

Het zal natuurlijk wel een tijdje duren voordat de spammers hun software hier op aanpassen. Maar het geeft in ieder geval de genoegdoening aan de beheerders van die sites, dat hun sites niet meer gebruikt worden voor het verhogen van rankings.
dan is het wel nog steeds wacheten op de implementatie van die tag in allerlei sites...
De luiheid en/of onkunde van veel beheerders kennende, zal het nog wel even duren voor dit systeem echt begint te werken :z
Daar heb je natuurlijk wel gedeeltelijk gelijk in, maar, als ik het goed lees, stelt het niet zo veel voor om die tag in je broncode op te nemen.
Voor de meeste professionale sites zal het dus niet lang duren voordat deze erin zit.
Met Google en SixApart heb je de echt grote jongens al te pakken. En die zijn ook het meest aantrekkelijk voor spammers.
Juist die luiheid zou er voor moeten zorgen. Wat doe je liever? Iedere dag weer 20 spamlinks eraf halen of ff zorgen dat die links een nieuw tagje krijgen?
dan is het wel nog steeds wacheten op de implementatie van die tag in allerlei sites...
De luiheid en/of onkunde van veel beheerders kennende, zal het nog wel even duren voor dit systeem echt begint te werken
Uit het artikel:
Veel aanbieders van weblogdiensten hebben reeds laten weten de techniek toe te gaan passen.
:Z Zucht... lezen is ook een vak
</nofollow>www.spamlekkertoch.nl<follow> ?


edit: Sorry, het was nog vroeg.
Ik denk niet dat het een rel="nofollow" in de anchor tag wordt. Dat betekent dat
1. alle links door de weblog software geparsed moet worden, en spammers gebruik gaan maken van bugs/loopholes om toch hun links buiten die tags te krijgen.

2. het betekent dat zoekmachines bij elke link moeten gaan kijken

Makkelijker zou zijn om de reacties in containers (body, div, span) de [ref=]nofollow op te nemen, en alle links buiten beschouwing te laten. Zoekmachines kunnen dan het hele blok buiten beschouwing laten (scheelt scannen) en wat een spammer ook met z'n postje uithaalt, het wordt nooit meer meegenomen.

Dit lost ook het probleem van persberichten/product loaners op: goede blog software gebruikt niet de body tag, maar een container op een lager niveau.

Edit: dat wordt dus wel bedoeld. Helaas, als er iets verder was doorgedacht was het probleem beter aan te pakken geweest.
Men bedoeld gewoon deze bestaande html tag die in de header (!) van het document moet worden geplaatst:

<meta name="ROBOTS" content="INDEX,NOFOLLOW">
Die is niet nieuw, maar bestaat al weer een tijd. Dat is dus niet wat ze bedoelen: het is niet fijnmazig genoeg.
1. Dat is erg simpel en gebeurt nu ook al. Soms wordt er bijvoorbeeld al een target blank toegevoegd.
2. Dat moet de spider sowieso al doen. Ze moeten immers de link volgen dus sowieso al parsen.

Deze oplossing is zo enorm simpel in idee en implementatie en toch zo effectief. Sowieso zitten dit soort links al in een template of ubb parser waardoor de aanpassing zo klaar is.
Ik ben het er niet helemaal mee eens dat het effectief is. Voor een deel zul je namelijk ook het kind met 't waswater weggooien, omdat weblogs soms juist hele boeiende (content-gerelateerde) links bevatten. Dat is opzich een beheerdersprobleem, maar ik vraag me af of beheerders die "redactionele" functie op zich willen nemen (als ze de techniek uberhaupt al toepassen ;))
Anoniem: 103648
@drm19 januari 2005 17:46
omdat weblogs soms juist hele boeiende (content-gerelateerde) links bevatten
juist ja, soms.
en die links zijn boeiend voor de mensen die het blog lezen, niet voor de zoekmachines, omdat de verhouding waardevolle/spam links op blogs meestal helemaal scheef is.

aan de andere kant, grappige google-bombs als deze zal je dan ook niet meer zo snel kunnen realiseren, das dan wel weer jammer
juist ja, soms.
en die links zijn boeiend voor de mensen die het blog lezen, niet voor de zoekmachines
Dat is natuurlijk onzin. De zoekmachine moet voor mij het domme werk doen, namelijk: net zo lang doorklikken totdat je relevante informatie hebt. Als er dus waardevolle links genegeerd worden, is de zoekmachine niet effectief, daar gaat het mij even om. Dat is de downside van dit systeem.
Ik denk niet dat het een rel="nofollow" in de anchor tag wordt. Dat betekent dat
1. alle links door de weblog software geparsed moet worden, en spammers gebruik gaan maken van bugs/loopholes om toch hun links buiten die tags te krijgen.
Dus?
Dat gebeurd al. Je staat bezoekers toch niet toe zelf HTML code te posten?

2. het betekent dat zoekmachines bij elke link moeten gaan kijken
Dus?
Dat doen ze al.
De reeds bestaande nofollow-tag zal voortaan kunnen voorkomen dat zoekmachines geplaatste links in reacties volgen.
Die bestaat (eigenlijk) niet: http://www.w3.org/TR/html4/types.html#type-links (althans die heeft geen gedefinieerde betekenis in de standard, maar volgens de standard mag je wel je eigen types definieren)

Maar validators vinden dat niet erg:
http://validator.w3.org/check?verbose=1&uri=http%3A//el-muerte.student .utwente.nl/junk/nofollow.html
In de DTD zijn zelfs de wel gedefinieerde types niet terug te vinden: http://www.w3.org/TR/html4/sgml/dtd.html#LinkTypes is gewoon CDATA.

Ik dacht eigenlijk sowieso dat het gewoon een vrij veld was wat user agents naar eigen goeddunken mogen behandelen op hun manier, met een paar handreikingen van W3C als illustratie.
Kijk eens aan! Fantastisch!

Ik dacht even "Oh neen, als dit maar door de W3C standaard wordt ondersteund" Blijkbaar dus wel. De enige vraag die je je kan stellen is of dit ook semantisch correct gebruik is van het attribuut in kwestie. * 786562 Netsensei
Het loont hoe dan ook de moeite om een goeie spamfilter op je blog te plaatsen. Ik gebruik voor wordpress en MT respectievelijk spamkarma en Jay Allen's MT Blacklist. Ik moet zeggen dat ik van beide tevreden ben.
Opzich valt het misbruik nog best mee, het had veel extremer gekunt. Ze hadden ook een compleet nieuwe tag in kunnen voeren om maar een voorbeeld te noemen. "shortcut icon" is ook zo'n ingevoerde rel-attribuutwaarde welke zo langzamerhand redelijk geaccepteerd is.
De rel waarden zijn sowieso eigenlijk met opzet niet extreem gedetaileerd uitgewerkt (wat wel mede een reden is dat er relatief veel verwarring rond het gebruik van dit attribute heerst). In principe zal er aan dit gedeelte van de specs geen aandacht meer besteed worden. Hiervoor heeft het zogenaamde x-links gebeuren te veel priotiteit en zal deze de boel gedeeltelijk of in z'n geheel gaan vervangen.
Dit maakt het dat het invoeren van een dergelijke attribuutwaarde in de toekomst eigenlijk ook niet problemen op gaat veroorzaken.
Hoezo standaard? Alles wat W3C zo een beetje publiceert zijn RECOMMENDATIONS, kortom het is niet zo dat je het letterlijk dient over te nemen, men geeft ruimte om zaken naar eigen gelang aan te passen.
Hoe we dit ook gaan keren, het valt of staat bij de medewerking van de sites om dit toe te gaan passen. Het initiatief is goed, maar bijna niemand past deze tag toe en daarmee is het effect vrijwel te verwaarlozen. Er zal dus heel wat moeten gebeuren om te zorgen dat het een succes wordt. Hoe krijgen ze iedereen zo ver dat dit vrijwillig toegepast gaat worden???
Diensten zoals Blogger en LiveJournal kunnen volgens mij zoiets afdwingen van hun gebruikers.

Gebruikers van CMS'en zoals MT, WP, Nucleus,... zijn daar echter vrij in.
Ter info:

Movable Type heeft reeds een plugin zodat MT users snel en eenvoudig dit kunnen implementeren.

http://www.movabletype.org/news/2005/01/movable_type_nofollow_p.shtml
Als het idd de klassieke head tag is, zijn links in artikelen dus ook in één klap waardeloos en is het voor websites ook niet interessant om met behulp van persberichten/product loaners op blogs te komen staan waardoor bepaalde blogs minder voer zullen krijgen. Ook denk ik dat er een wildgroei zal ontstaan door webmasters die het wel toelaten en op die manier het verkeerde publiek gaan trekken.

Het idee is dus goed, maar het zou leuker zijn geweest als je dat op link basis toe kan passen. Op die manier kunnen webmasters de boel zo scripten dat het alleen van toepassing is op reacties.
Het staat onduidelijk in het stukje hier, maar in de bron kun je zien dat het een attribuut is voor links. Het attribuut "rel", welteverstaan eentje die al lang bestaat. Echter door de waarde "nofollow" op te geven zullen zoekmachines die specifieke link niet volgen.

Zo dus:

<a href="http://spam.com" rel="nofollow">link</a>
Eigenijk wel waardeloos, want het is wel misbruik van het attribuut.

Wel goed dat ze er eindeljk eens iets aan gaan doen, alhoewel het al heel makkelijk was om dit soort dingen te voorkomen. Waarom gewoon niet voor elke externe link een lokale redirect maken (link is interne link die doorverwijst naar buiten) en de lokale link mbv. robots.txt afschermen?
Omdat dit gewoon nog weer een factor 10 makkelijker is?
Ja, maar je bent minder flexibel. Ik denk dat weblog admins de tag niet zullen gebruiken omdat dit mogelijk voorkomt dat hun eigen weblog minder hoog op de ranglijst komt te staan door interne links. Wat Johnny5 voorstelt kun je beter configureren.
dat zal wel een hoop nieuw index werk worden voor google.
als (en ik hoop van wel) de tag populair wordt zullen iig de blogs opnieuw geindexed moeten worden.
Indexen is niet iets wat een keer in de zoveel tijd gebeurd, maar is een doorlopend proces. Denk niet dat google er meer werk aan heeft.
Als je gewoon toch de volgende input
[ url=http://www.spam.nl[ /url]klik hier[ /url]
laat omzetten naar
< A href='http://www.spam.nl' nofollow>klik hier< /A>
Dan moet dit toch voldoende zijn
Het idee is dat de gebruikers er niets van merken, het blijft ook wel mogelijk om links te gebruiken in reacties.
De zoekmachine is de enige die naar dit attribuut kijkt en dan de tag negeert, dit is om te zorgen dat spam links in de reacties niet tot hogere zoekresultaten leiden voor de spamsites

Op dit item kan niet meer gereageerd worden.

Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee