Hoofdcategorieën
Device Settings

Uitvinding kan einde van dode links betekenen

Door Mark Timmer, vrijdag 24 september 2004 19:55
Bron: BBC, views: 24.371

De BBC schrijft over een nieuwe technologie, die het einde van dode links moet gaan betekenen. De tool - Peridot genaamd - is ontwikkeld door studenten die bij IBM een interne opleiding volgen. Het systeem houdt de links van een website in de gaten, waarbij niet alleen gekeken wordt naar het verdwijnen van de gerefereerde pagina, maar ook naar de verandering ervan. Door een soort vingerafdruk van de doorgelinkte websites bij te houden, kan de webmaster automatisch op de hoogte worden gesteld van substantiële veranderingen. Deze kan als gevolg daarvan de link direct aanpassen, zodat er nooit lang naar een onrelevante site gelinkt wordt.

IBM logoHet niveau van zelfstandigheid kan ingesteld worden, om elk gewenst niveau van nauwkeurigheid te bereiken. Op dit moment is Peridot getest op ongeveer honderdduizend pagina's. De resultaten waren naar wens, maar er zal nog wel wat fijnafstelling plaats moeten vinden, aldus een van de betrokken studenten.

Volgende 20:23 90nm-versie van Athlon 64 3500+ getest
Vorige 17:16 ATi Catalyst A.I. biedt gebruiker keuze voor optimalisaties
Advertentie

Reacties

«  1  2  »

Bij een goed CMS zal dit in princiepe ook niet voor kunnen komen.

Ik dacht dat het over de nep-links op GoT ging ;)

Mwoah, de meeste CMS'en checken de externe links niet hoor :)

Dat is niet waar. Een link kan namelijk bestaan als gedefinieerd als tag, maar ook als variabele in javascript.

Een link integrity laag harvest de links in een document, maar voor javascript niet. Het is praktisch onmogelijk om deze te harvesten omdat ze 9 van de 10 keer afhankelijk zijn van logica en een combinatie van factoren.

Externe link checkers zijn ook lastig te implementeren, je kunt wel een link pingen maar dat wil niet zeggen dat de response daarvan een geldige pagina oplevert. Je moet zowiezo de headers ophalen om adhv response codes te controleren of de link daadwerkelijk leeft.

Ik ben zelf de bouwer van een ecms systeem en je kunt interne links zoveel mogelijk harvesten, maar referentionele integriteit kun je, zeker als je gebruik maakt van de altijd gewenste wysiwyg mogelijkheden, niet afdwingen, op zijn hoogst benaderen.

Mogelijkheden zijn bijvoorbeeld lis (link integrity system aangeven of er afhankelijk referenties bestaan bij bijvoorbeeld het verwijderen van een object) of aim (active integrity management) afdwingen van de relaties totdat de referentie op het laagste niveau wordt verwijderd).

Een link integrity laag harvest de links in een document, maar voor javascript niet. Het is praktisch onmogelijk om deze te harvesten omdat ze 9 van de 10 keer afhankelijk zijn van logica en een combinatie van factoren.
Dat is dan weer op te lossen met een webspider die javascript snapt. Teleport bijvoorbeeld ;)

Misschien offtopic, maar is het niet veel netter om helemaal geen links in javascript te laten opbouwen?

Nog verder offtopic, word nogal eens gedaan om een link in een nieuw venster te laten openen..
w3 wil immers niet dat je target= gebruikt.

Enorm ver off-topic:
Je kan dan alsnog een normale <a> gebruiken met een rel='' attribute en op basis daarvan een javascript maken dat de target set van elke link, dat is zelfs de door het w3c aangeraden manier om het te doen: http://luijten.org/external.js

Ik weet niet precies hoe dit werkt, maar als die met een soort md5 hash werkt dan is het best wel waardeloos.

want stel dat je naar een site linkt waar een teller ofzo op staat.. dan is deze al direct weer ongeldig.
ook sites waar regelmatig iets veranderd zoals tweakers is het niet toepasbaar voor.

en volgens mij zijn veel webmasters ook best wel lui :)

@nightlight:

ik zou me zo in kunnen denken dat je een soort dev maakt van een site en als er 10% veranderd is dat het dan "is veranderd" maar bij een fora of een nieuws site werkt dat dus niet.. maar er zijn natuurlijk sites dit deze veranderingen niet hebben

en wie zegt dat als de webmaster een mailtje krijgt dat er iets is veranderd.. dat hij het ook echt gaat veranderen.

Ik denk dat er bij die 100.000 sites waarbij het getest is vast wel ééntje zat waar een teller of iets dergelijks zat, dus waarschijnlijk hebben ze daar wel rekening mee gehouden.

Het veranderen van sites intern nog niet eens, als je naar nieuws item 1, 2 of 3 gaat dan bestaat die nog steeds, de links naar externe sites misschien niet meer, dat is dan wel overbodig voor zulke oude nieuwsartikelen om een bericht naar de webmaster te sturen.

kan de webmaster automatisch op de hoogte worden gesteld van substantiële veranderingen
substantiëel betekent hier dus geen MD5 type alghoritme wat bij elk miniscule verandering al sirenes af laat gaan.
en volgens mij zijn veel webmasters ook best wel lui
Precies. Daar is deze tool juist voor: om ze wakker te maken.

Zoals Lao Tsu.zegt "A journey of a thousand miles must begin with a single step."

Dit lijkt mij in ieder geval een goeie stap in de richting of het nou wel of niet rekening houdt met dynamic content.

Lao Tsu was een Chinees, die leefde rond 500 voor het begin van onze jaartelling.

Het lijkt mij sterk, dat hij nog steeds iets "zegt", laat staan in het Engels. ;)
Over dode links gesproken...

Zoals Toff al zegt, jou link is best wel letterlijk 'outdated' ;)

Het is dus niet het einde van dode links. Dit systeem zorgt er alleen maar voor dat dode links sneller aangepast kunnen worden. Mij lijkt het een beter systeem als de link ook nog vanzelf aangepast word met" - dead" zodat gebruikers meteen kunnen zien dat de link niet werkt.

Op zich geen slecht idee. Maar heb je al eens gedacht hoeveel meer werk dit wel niet oplevert voor een webserver?

Als je bijvoorbeeld neemt dat er 20 links op een gemiddelde webpagina staan, en dat er om die link te checken 1 seconde nodig is (wat niet veel is imo,als je traffic meetelt).

Dan heeft je server het behoorlijk wat drukker als er zoveel requests zijn als hier op tweakers.

En van DoS is tegenwoordig zoveel sprake, dat het nog niet voor morgen is. De software zal kunnen volgen maar hardware nog niet volgens mij.

Je gaat ook niet bij elke hit kijken of de link dood is of niet. Maar eens in de 6 uur. Lijkt me meer dan voldoende.

Ten eerste hoeft het idd niet bij elke klik, maar je moet niet vergeten dat die check helemaal niet door de webserver gedaan hoeft te worden. Het kan best een apart kastje zijn die van al je webservers eens in de zoveel uur alles doorstruint...

Nee, daar worden je webservers waar je naar linkt blij van. Bovendien doet het dan nog steeds niets tegen dode links.

Tsja..
Ga jij zorgen dan, dat jij toegang hebt tot alle webservers op de hele wereld, om al hun pagina's te mogen aanpassen, wanneer er een dode link in staat?

jojo..

Herman van Veen zat ook in het voetbal..

Zij hebben het op zo veel pagina's getest en vinden de resultaten naar wens; dan denk ik niet dat wij daar negatief over kunnen oordelen als we er geen fluit van weten.

"Naar wens" van een testprogramma wil natuurlijk nog niet zeggen dat het echt gaat werken, maar dat in ieder geval delen van dat testprogramma het naar behoren doen.

"Fijnafstemming" kan ook gewoon zijn dat hij (vooralsnog) te snel gaat mekkeren dat er iets veranderd is.

en wat als er wat mis gaat waarop bekijkt zo'n prog of een verwijzing niet actief is..... lullig voor iemand die erg lang met zijn sitje bezig is maar niemand die er op komt omdat hij niet presies zijn website ingericht heeft zoals de makers van dit tooltje eisen

He Sorry, maar dit heeft mijn Mozilla Firebird allang hoor! Bookmarkmanager > properties > tab "Notify" > Nofity when site changes. :?

ik beheer http://breedband.pagina.nl en daarbij maken we gebruik van linkchecker die dit automatisch controleerd en rapporten uitbrengt. Dit gebruik ik al sinds begin 2000, niks nieuws onder de zon dus! :9

Hoezo uitvinding? Dit draai ik al ongeveer een jaar op mn eigen domein.
Mn 404-pagina is een PHPtje welke in een database bijhoud welke pagina niet kon worden gevonden, wat de refering page is, en wanneer deze refering page voor het laatst is aangepast.
Bij het genereren van de overizichten laat hij alleen de 'missing pages' zien welke op dat moment nog steeds niet bestaan, en waarvan wel nog een verwijzing in de 'refering pages' staat.

Of intrepreteer ik deze Amazing Discovery nu verkeerd?

Ja, je interprettert deze discovery verkeert, je php pagina wordt nl niet aangeroepen als een van jouw paginas linkt naar een niet bestaande externe pagina.
slechts wanneer je linkt naar een pagina op je eigen domein / iemand linkt naar jouw domein / een gebruiker een bookmark gebruikt naar jouw domein of een tikfout maakt bij het intikken van een pagina op jouw domein wordt je pagina aangeroepen en je database bijgewerkt.

Ja. want waarom zou ik me druk maken over dode links op de site van een ander :*)
Maar mocht ik willen weten of de externe links op mijn site wel of niet dood zijn, is dat ook heel makkelijk op te lossen...

Maja.. het zal wel iets goeds zijn, anders stond het hier niet :)

Huh? Is dit nieuw? Ik heb wel vaker een scriptje gebakken dat eens per dag vanuit de crontab gewoon alle links op een site even naloopt en bij verandering of 404 de webmaster even inlicht. Stelt weinig voor. Kan elke PHP/Perl/awk bakker zo kneden.

Daarom zijn het ook IBM-studenten. :Y)

Het gaat niet alleen om de link, maar ook om de vorm en content van de betreffende gelinkte pagina. Daarnaast wordt de link eventueel vervangen door een "betere" link. Dit is dus iets anders dan een scrippie dat op 404's checkt... :Z

Ja, ik snap ook niet helemaal hoe dit een uitvinding is. Ik heb het ook al meerdere keren 'uitgevonden' voor een portal. Het kon verplaatste pagina's tot op zekere hoogte herkennen (automatische doorlinkers en moved tekst), bij 404 werd meerdere keren gecheckt en daarna automatisch verwijderd en als de tekst in de pagina op een gegeven moment meer dan 35% verschilde van de oorspronkelijke pagina werd deze ook verwijderd. Het produceerde ook nog een mooi overzichtje voor de webmaster. Met wat verstand van reguliere expressies en string vergelijkingen is dit voor de meeste php programmeurs geen probleem (wel veel werk).
«  1  2  »

Op dit item kan niet meer gereageerd worden.

Volgende 20:23 90nm-versie van Athlon 64 3500+ getest
Vorige 17:16 ATi Catalyst A.I. biedt gebruiker keuze voor optimalisaties
VNU Media logo Hosted by True

© 1998 - 2012 Tweakers.net B.V. - Alle rechten voorbehouden - Contact - Jouw privacy - Algemene Voorwaarden

Uitgever van:

Website van het jaar 2011