Cloudflare gaat voor Always Online-dienst archief van Wayback Machine gebruiken

Cloudflare gaat voor de Always Online-dienst gebruik maken van het archief van de Wayback Machine. Wanneer de originele host van een site offline is en Cloudflare zelf geen gecachte pagina heeft, kan de dienst de meest recent gearchiveerde pagina van Wayback Machine pakken.

Met de Always Online-dienst archiveert Cloudflare zelf een statische versie van een website. Deze versie kan door Cloudflare aan gebruikers worden voorgeschoteld als de originele host van een website om wat voor reden dan ook niet kan worden benaderd. Mocht Cloudflare geen gearchiveerde versie van een pagina hebben, dan kan de Always Online-dienst vanaf nu het archief van de Wayback Machine raadplegen.

Deze nieuwe Always Online-versie is vooralsnog in bèta, maar Cloudflare-klanten kunnen er voor kiezen om nu over te stappen naar de nieuwe versie. Cloudflare wil 'binnenkort' volledig overstappen naar de versie met de Wayback Machine-integratie. Wanneer gebruikers een gecachte of gearchiveerde pagina voorgeschoteld krijgen, krijgen zij een banner te zien waarin staat dat de originele host offline is. Diensten waarvoor contact met de originele server noodzakelijk is - zoals online shoppen - zijn met de Always Online-dienst niet mogelijk.

Cloudflare en Wayback Machine-beheerder Internet Archive maken daarnaast bekend dat de Wayback Machine automatisch websites met Always Online gaat archiveren. Ook hiervoor moeten websites gebruik maken van de bètaversie van Always Online. Wanneer hosts dit activeren, stuurt Cloudflare bepaalde informatie - waaronder de hostname en populaire URL's - naar Internet Archive. Met die informatie kan de Wayback Machine een website 'regelmatig' crawlen en archiveren. Met deze nieuwe functie worden volgens Cloudflare meer URL's gearchiveerd 'die anders misschien niet door de Internet Archive waren gevonden'.

Door Hayte Hugo

Redacteur

18-09-2020 • 10:05

22

Submitter: Luca

Reacties (22)

22
22
19
0
0
1
Wijzig sortering
Ik vraag me af hoeveel dit uiteindelijk gaat toevoegen. Echte functionaliteit kan zo niet overgenomen worden, slechts content zoals teksten en afbeeldingen. Er zijn tegenwoordig weinig websites die alleen deze content aanbieden en geen enkele functionaliteit toevoegen.
Een positieve ding lijkt me is dat het archive hiervoor gebruikt wordt en ze er waarschijnlijk wat geld voor vangen.
Hoop dan alleen wel dat Cloudflare ze ook helpt (financieel en/of hosting) om de boel flink te versnellen. Het is een mooie gratis dienst (dus iets met paard, bek en kijken) maar het vaak wel heel erg traag om iets op te zoeken of te browsen.
Het zal niet voor niets zijn neem ik aan. :)
Daar hoop ik ook op. Ik vind niets dat er meteen op duidt, maar het zou wel de crawler van het internet archive wel assisteren!
An additional source of URLs we will preserve now originates from customers of Cloudflare’s Always Online service. As new URLs are added to sites that use that service they are submitted for archiving to the Wayback Machine. In some cases this will be the first time a URL will be seen by our system and result in a “First Archive” event.
Van http://blog.archive.org/2...more-useful-and-reliable/
Ik vraag me af hoeveel dit uiteindelijk gaat toevoegen. Echte functionaliteit kan zo niet overgenomen worden, slechts content zoals teksten en afbeeldingen. Er zijn tegenwoordig weinig websites die alleen deze content aanbieden en geen enkele functionaliteit toevoegen.
Er is wel degelijk functionaliteit beschikbaar. Onderliggende pagina's als een Contact pagina worden vaak ook geindexeerd door de Wayback Machine. Lijkt me uitermate handig dat dit in de lucht blijft.
De meeste websites hebben geen dagelijkse nieuwe items dus dan kan de core business gewoon door draaien.
Contact pagina's hebben geen zin als de webserver down is, tenzij alles cliënt side gescript is ;)
Je mag dan ook aannemen dat @tweaker2010 zaken zoals telefoonnummers en emailadressen bedoelt die niet vastzitten aan formulieren.
Klopt. E-mailadressen zijn zichtbaar aangezien het meestal HTML is wat getoond wordt. Daarnaast worden dit soort gegevens vaak ook als plain text in de footer van de website weergegeven.
En ook al zou de webserver in die tussentijd weer beschikbaar komen, als de security op orde is zou het nog niet mogen werken (CSRF tokens).
Ik kan mij enkel nieuwssites en overheidspaginas voorstellen die gehackt zijn of down zijn door een ddos aanval. In alle andere gevallen is t meer luxe dan een strict noodzakelijk motief dat een website bereikbaar is.
Oh, er zijn genoeg corporate sites die getroffen worden door een DDOS en er om die reden (langdurig) uitliggen. Ik zou dan ook wel een soort van placeholder willen zien in plaats van een foutmelding.
lijkt mij handig voor nieuws websites.
Internet Archive is mooie oplossing alleen is het wel heel traag. Vraag me af hoe men dat gaat oplossen als een beetje site down is en er ineens heel veel bezoekers komen.
Ik denk dat CF het eenmalig opvraagt en vervolgens vanuit hun cache serveert.
Dus zij hosten dan content die van andere sites afkomstig is.
Hoe doen ze dat met copyright? Of betalen ze al die sites een fee?
Ze verzorgen een realtime back-up dienst. Deels gratis, deels betaald. Dit heeft verder eigenlijk niets met copyright te maken.

Voor de dienst van Cloudflare, moet de betreffende site zich trouwens eerst aanmelden met een account.

[Reactie gewijzigd door Boekenkaft op 23 juli 2024 11:23]

Dit is zeker een interessante oplossing voor de internet gemeenschap. Hoewel de Nederlandse Rijksoverheid verplicht is websites (vanaf volgend jaar) te archiveren is dit zeker geen gemeengoed. Hoe vaak kom je niet een leuk artikel tegen met een link buiten het domein, wat vervolgens resulteert in ‘not found’. Zorgpunt, vanuit een zakelijk en juridisch perspectief, is alleen wel het hergebruik vanuit het archief. Door vanuit het archief de content weer te geven (=hergebruik) kunnen contractuele problemen ontstaan mbt intellectueel eigendom/ auteursrecht. Teksten en foto’s worden veelal afgenomen op basis van gebruik op de live website, waarbij geen rekening is/ wordt gehouden met het (eeuwig) hergebruik vanuit het webarchief.
Voor statische pagina's is dit best haalbaar maar met alle SPAs tegenwoordig die vol met javascript zitten en zaken dynamisch laden lijkt me dit geen eenvoudige opgave...
Krijg ik dan wel een melding dat de live website offline is en dit een oude versie is? Anders is het nogal verwarrend...
Citaat uit artikel: "Wanneer gebruikers een gecachte of gearchiveerde pagina voorgeschoteld krijgen, krijgen zij een banner te zien waarin staat dat de originele host offline is."
Ik zal geen namen noemen maar ik ken in ieder geval één goed voorbeeld waarin de Wayback Machine beheerders van een prominente .nl website hebben gered van de totale ondergang. Typisch gevalletje van het ontdekken van een haperende backup nadat er rook uit de server kwam.

Op dit item kan niet meer gereageerd worden.