Uitvinding kan einde van dode links betekenen

De BBC schrijft over een nieuwe technologie, die het einde van dode links moet gaan betekenen. De tool - Peridot genaamd - is ontwikkeld door studenten die bij IBM een interne opleiding volgen. Het systeem houdt de links van een website in de gaten, waarbij niet alleen gekeken wordt naar het verdwijnen van de gerefereerde pagina, maar ook naar de verandering ervan. Door een soort vingerafdruk van de doorgelinkte websites bij te houden, kan de webmaster automatisch op de hoogte worden gesteld van substantiële veranderingen. Deze kan als gevolg daarvan de link direct aanpassen, zodat er nooit lang naar een onrelevante site gelinkt wordt.

IBM logoHet niveau van zelfstandigheid kan ingesteld worden, om elk gewenst niveau van nauwkeurigheid te bereiken. Op dit moment is Peridot getest op ongeveer honderdduizend pagina's. De resultaten waren naar wens, maar er zal nog wel wat fijnafstelling plaats moeten vinden, aldus een van de betrokken studenten.

Door Mark Timmer

24-09-2004 • 19:55

33

Bron: BBC

Reacties (33)

33
33
27
7
3
1
Wijzig sortering
Het is dus niet het einde van dode links. Dit systeem zorgt er alleen maar voor dat dode links sneller aangepast kunnen worden. Mij lijkt het een beter systeem als de link ook nog vanzelf aangepast word met" - dead" zodat gebruikers meteen kunnen zien dat de link niet werkt.
Anoniem: 115240 @EJP24 september 2004 20:21
Op zich geen slecht idee. Maar heb je al eens gedacht hoeveel meer werk dit wel niet oplevert voor een webserver?

Als je bijvoorbeeld neemt dat er 20 links op een gemiddelde webpagina staan, en dat er om die link te checken 1 seconde nodig is (wat niet veel is imo,als je traffic meetelt).

Dan heeft je server het behoorlijk wat drukker als er zoveel requests zijn als hier op tweakers.

En van DoS is tegenwoordig zoveel sprake, dat het nog niet voor morgen is. De software zal kunnen volgen maar hardware nog niet volgens mij.
Je gaat ook niet bij elke hit kijken of de link dood is of niet. Maar eens in de 6 uur. Lijkt me meer dan voldoende.
Ten eerste hoeft het idd niet bij elke klik, maar je moet niet vergeten dat die check helemaal niet door de webserver gedaan hoeft te worden. Het kan best een apart kastje zijn die van al je webservers eens in de zoveel uur alles doorstruint...
Nee, daar worden je webservers waar je naar linkt blij van. Bovendien doet het dan nog steeds niets tegen dode links.
Anoniem: 72316 @EJP25 september 2004 02:35
Tsja..
Ga jij zorgen dan, dat jij toegang hebt tot alle webservers op de hele wereld, om al hun pagina's te mogen aanpassen, wanneer er een dode link in staat?

jojo..

Herman van Veen zat ook in het voetbal..
Ik weet niet precies hoe dit werkt, maar als die met een soort md5 hash werkt dan is het best wel waardeloos.

want stel dat je naar een site linkt waar een teller ofzo op staat.. dan is deze al direct weer ongeldig.
ook sites waar regelmatig iets veranderd zoals tweakers is het niet toepasbaar voor.

en volgens mij zijn veel webmasters ook best wel lui :)

@nightlight:

ik zou me zo in kunnen denken dat je een soort dev maakt van een site en als er 10% veranderd is dat het dan "is veranderd" maar bij een fora of een nieuws site werkt dat dus niet.. maar er zijn natuurlijk sites dit deze veranderingen niet hebben

en wie zegt dat als de webmaster een mailtje krijgt dat er iets is veranderd.. dat hij het ook echt gaat veranderen.
Ik denk dat er bij die 100.000 sites waarbij het getest is vast wel ééntje zat waar een teller of iets dergelijks zat, dus waarschijnlijk hebben ze daar wel rekening mee gehouden.

Het veranderen van sites intern nog niet eens, als je naar nieuws item 1, 2 of 3 gaat dan bestaat die nog steeds, de links naar externe sites misschien niet meer, dat is dan wel overbodig voor zulke oude nieuwsartikelen om een bericht naar de webmaster te sturen.
kan de webmaster automatisch op de hoogte worden gesteld van substantiële veranderingen
substantiëel betekent hier dus geen MD5 type alghoritme wat bij elk miniscule verandering al sirenes af laat gaan.
en volgens mij zijn veel webmasters ook best wel lui
Precies. Daar is deze tool juist voor: om ze wakker te maken.
Simpele contructie. Heb hier al een script lopen wat op de volgende manier werkt:

- WebPagina de gechecked moet worden in DB (http//:.....index.php)
- Regelnummers + wat er op die regels moet staan in DB
- Als het uur 6 nummers verschilt met het uur wat in de DB staat dan wordt het script gedraaid (zit nl in php gebakken)
Als meer dan 30% niet klopt tov alle opgegeven regels, dan wordt de site offline weergegeven....

Moet zeggen: werkt erg goed


*dit werkt alleen op DB gegeven links. Je kan het ook aanpassen voor elke link op een pagina. Het is echter vrij traag.
Bij een goed CMS zal dit in princiepe ook niet voor kunnen komen.

Ik dacht dat het over de nep-links op GoT ging ;)
Dat is niet waar. Een link kan namelijk bestaan als gedefinieerd als tag, maar ook als variabele in javascript.

Een link integrity laag harvest de links in een document, maar voor javascript niet. Het is praktisch onmogelijk om deze te harvesten omdat ze 9 van de 10 keer afhankelijk zijn van logica en een combinatie van factoren.

Externe link checkers zijn ook lastig te implementeren, je kunt wel een link pingen maar dat wil niet zeggen dat de response daarvan een geldige pagina oplevert. Je moet zowiezo de headers ophalen om adhv response codes te controleren of de link daadwerkelijk leeft.

Ik ben zelf de bouwer van een ecms systeem en je kunt interne links zoveel mogelijk harvesten, maar referentionele integriteit kun je, zeker als je gebruik maakt van de altijd gewenste wysiwyg mogelijkheden, niet afdwingen, op zijn hoogst benaderen.

Mogelijkheden zijn bijvoorbeeld lis (link integrity system aangeven of er afhankelijk referenties bestaan bij bijvoorbeeld het verwijderen van een object) of aim (active integrity management) afdwingen van de relaties totdat de referentie op het laagste niveau wordt verwijderd).
Misschien offtopic, maar is het niet veel netter om helemaal geen links in javascript te laten opbouwen?
Nog verder offtopic, word nogal eens gedaan om een link in een nieuw venster te laten openen..
w3 wil immers niet dat je target= gebruikt.
Enorm ver off-topic:
Je kan dan alsnog een normale <a> gebruiken met een rel='' attribute en op basis daarvan een javascript maken dat de target set van elke link, dat is zelfs de door het w3c aangeraden manier om het te doen: http://luijten.org/external.js
Een link integrity laag harvest de links in een document, maar voor javascript niet. Het is praktisch onmogelijk om deze te harvesten omdat ze 9 van de 10 keer afhankelijk zijn van logica en een combinatie van factoren.
Dat is dan weer op te lossen met een webspider die javascript snapt. Teleport bijvoorbeeld ;)
Mwoah, de meeste CMS'en checken de externe links niet hoor :)
Zij hebben het op zo veel pagina's getest en vinden de resultaten naar wens; dan denk ik niet dat wij daar negatief over kunnen oordelen als we er geen fluit van weten.
"Naar wens" van een testprogramma wil natuurlijk nog niet zeggen dat het echt gaat werken, maar dat in ieder geval delen van dat testprogramma het naar behoren doen.

"Fijnafstemming" kan ook gewoon zijn dat hij (vooralsnog) te snel gaat mekkeren dat er iets veranderd is.
Hoezo uitvinding? Dit draai ik al ongeveer een jaar op mn eigen domein.
Mn 404-pagina is een PHPtje welke in een database bijhoud welke pagina niet kon worden gevonden, wat de refering page is, en wanneer deze refering page voor het laatst is aangepast.
Bij het genereren van de overizichten laat hij alleen de 'missing pages' zien welke op dat moment nog steeds niet bestaan, en waarvan wel nog een verwijzing in de 'refering pages' staat.

Of intrepreteer ik deze Amazing Discovery nu verkeerd?
Ja, je interprettert deze discovery verkeert, je php pagina wordt nl niet aangeroepen als een van jouw paginas linkt naar een niet bestaande externe pagina.
slechts wanneer je linkt naar een pagina op je eigen domein / iemand linkt naar jouw domein / een gebruiker een bookmark gebruikt naar jouw domein of een tikfout maakt bij het intikken van een pagina op jouw domein wordt je pagina aangeroepen en je database bijgewerkt.
Ja. want waarom zou ik me druk maken over dode links op de site van een ander :*)
Maar mocht ik willen weten of de externe links op mijn site wel of niet dood zijn, is dat ook heel makkelijk op te lossen...

Maja.. het zal wel iets goeds zijn, anders stond het hier niet :)
Huh? Is dit nieuw? Ik heb wel vaker een scriptje gebakken dat eens per dag vanuit de crontab gewoon alle links op een site even naloopt en bij verandering of 404 de webmaster even inlicht. Stelt weinig voor. Kan elke PHP/Perl/awk bakker zo kneden.
Ja, ik snap ook niet helemaal hoe dit een uitvinding is. Ik heb het ook al meerdere keren 'uitgevonden' voor een portal. Het kon verplaatste pagina's tot op zekere hoogte herkennen (automatische doorlinkers en moved tekst), bij 404 werd meerdere keren gecheckt en daarna automatisch verwijderd en als de tekst in de pagina op een gegeven moment meer dan 35% verschilde van de oorspronkelijke pagina werd deze ook verwijderd. Het produceerde ook nog een mooi overzichtje voor de webmaster. Met wat verstand van reguliere expressies en string vergelijkingen is dit voor de meeste php programmeurs geen probleem (wel veel werk).
Daarom zijn het ook IBM-studenten. :Y)
Het gaat niet alleen om de link, maar ook om de vorm en content van de betreffende gelinkte pagina. Daarnaast wordt de link eventueel vervangen door een "betere" link. Dit is dus iets anders dan een scrippie dat op 404's checkt... :Z
Zoals Lao Tsu.zegt "A journey of a thousand miles must begin with a single step."

Dit lijkt mij in ieder geval een goeie stap in de richting of het nou wel of niet rekening houdt met dynamic content.
Lao Tsu was een Chinees, die leefde rond 500 voor het begin van onze jaartelling.

Het lijkt mij sterk, dat hij nog steeds iets "zegt", laat staan in het Engels. ;)
Over dode links gesproken...
Zoals Toff al zegt, jou link is best wel letterlijk 'outdated' ;)
en wat als er wat mis gaat waarop bekijkt zo'n prog of een verwijzing niet actief is..... lullig voor iemand die erg lang met zijn sitje bezig is maar niemand die er op komt omdat hij niet presies zijn website ingericht heeft zoals de makers van dit tooltje eisen
Bij de titel dacht ik dat het iets was wat de links checkt, dan ziet dat de pagina 'permanently moved' is naar een andere URL, en dan automatisch de link in de source-website aanpast.

Het tool draait dan op de achtergrond, en de webmaster kan aangeven hoevaak links gecheckt moeten worden. Op de gemiddelde website is het namelijk niet nodig vaker dan 1x per week te controleren...

Het zien van 'substantiele veranderingen' is dan nog steeds erg nuttig, omdat je zo na kan gaan dat men niet ineens van een goede link een banner-pagina maakt (als men ophoudt met de site en die niet verwijdert...) - dat gedeelte van de ontwikkeling lijkt mij dan ook het belangrijkste punt: een goed algoritme om te bepalen of een pagina (te) veel veranderd is.

Op dit item kan niet meer gereageerd worden.