Cloudflare gaat voor Always Online-dienst archief van Wayback Machine gebruiken

Cloudflare gaat voor de Always Online-dienst gebruik maken van het archief van de Wayback Machine. Wanneer de originele host van een site offline is en Cloudflare zelf geen gecachte pagina heeft, kan de dienst de meest recent gearchiveerde pagina van Wayback Machine pakken.

Met de Always Online-dienst archiveert Cloudflare zelf een statische versie van een website. Deze versie kan door Cloudflare aan gebruikers worden voorgeschoteld als de originele host van een website om wat voor reden dan ook niet kan worden benaderd. Mocht Cloudflare geen gearchiveerde versie van een pagina hebben, dan kan de Always Online-dienst vanaf nu het archief van de Wayback Machine raadplegen.

Deze nieuwe Always Online-versie is vooralsnog in bèta, maar Cloudflare-klanten kunnen er voor kiezen om nu over te stappen naar de nieuwe versie. Cloudflare wil 'binnenkort' volledig overstappen naar de versie met de Wayback Machine-integratie. Wanneer gebruikers een gecachte of gearchiveerde pagina voorgeschoteld krijgen, krijgen zij een banner te zien waarin staat dat de originele host offline is. Diensten waarvoor contact met de originele server noodzakelijk is - zoals online shoppen - zijn met de Always Online-dienst niet mogelijk.

Cloudflare en Wayback Machine-beheerder Internet Archive maken daarnaast bekend dat de Wayback Machine automatisch websites met Always Online gaat archiveren. Ook hiervoor moeten websites gebruik maken van de bètaversie van Always Online. Wanneer hosts dit activeren, stuurt Cloudflare bepaalde informatie - waaronder de hostname en populaire URL's - naar Internet Archive. Met die informatie kan de Wayback Machine een website 'regelmatig' crawlen en archiveren. Met deze nieuwe functie worden volgens Cloudflare meer URL's gearchiveerd 'die anders misschien niet door de Internet Archive waren gevonden'.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Hayte Hugo

Redacteur

Feedback • 18-09-2020 10:05
22 • submitter: Luca

18-09-2020 • 10:05

Submitter: Luca

Lees meer

Wayback Machine introduceert satirische Wayforward Machine .Geek van 8 oktober 2021

Cloudflare komt met S3-concurrent R2 Storage zonder egress fees Nieuws van 30 september 2021

Internet Archive gaat factcheckmeldingen toevoegen aan Wayback Machine Nieuws van 2 november 2020

CloudFlare introduceert 'privacyvriendelijke' Web Analytics Nieuws van 30 september 2020

Brave-browser stuurt desktopgebruikers bij 404-melding naar Wayback Machine Nieuws van 26 februari 2020

Google is begonnen met wissen inhoud Google+ Nieuws van 2 april 2019

Internet Archive gaat publieke Google+-posts opslaan Nieuws van 18 maart 2019

Internet Archive wil robots.txt negeren om accurater beeld te krijgen Nieuws van 24 april 2017

Internet Archive wil mirror in Canada uit angst voor Amerikaanse censuur Nieuws van 30 november 2016

Wikipedia werkt samen met het Internet Archive om bronnen in stand te houden Nieuws van 28 oktober 2016

Mozilla experimenteert met vervangen 404-pagina's door Wayback Machine-varianten Nieuws van 5 augustus 2016

Meer producten en artikelen

Websites en community's Cache Cloudflare

IT-banen

Meer vacatures

Reacties (22)

-Moderatie-faq

Wijzig sortering

MorbidKetchup98 18 september 2020 10:08

Ik vraag me af hoeveel dit uiteindelijk gaat toevoegen. Echte functionaliteit kan zo niet overgenomen worden, slechts content zoals teksten en afbeeldingen. Er zijn tegenwoordig weinig websites die alleen deze content aanbieden en geen enkele functionaliteit toevoegen.

MatthiasL @MorbidKetchup98 • 18 september 2020 10:22

Een positieve ding lijkt me is dat het archive hiervoor gebruikt wordt en ze er waarschijnlijk wat geld voor vangen.

naaitsab @MatthiasL • 18 september 2020 11:31

Hoop dan alleen wel dat Cloudflare ze ook helpt (financieel en/of hosting) om de boel flink te versnellen. Het is een mooie gratis dienst (dus iets met paard, bek en kijken) maar het vaak wel heel erg traag om iets op te zoeken of te browsen.

dakathefox @naaitsab • 18 september 2020 11:37

Het zal niet voor niets zijn neem ik aan.

Arrigi @MatthiasL • 18 september 2020 11:32

Daar hoop ik ook op. Ik vind niets dat er meteen op duidt, maar het zou wel de crawler van het internet archive wel assisteren!

An additional source of URLs we will preserve now originates from customers of Cloudflare’s Always Online service. As new URLs are added to sites that use that service they are submitted for archiving to the Wayback Machine. In some cases this will be the first time a URL will be seen by our system and result in a “First Archive” event.

Van http://blog.archive.org/2...more-useful-and-reliable/

tweaker2010 @MorbidKetchup98 • 18 september 2020 10:44

Ik vraag me af hoeveel dit uiteindelijk gaat toevoegen. Echte functionaliteit kan zo niet overgenomen worden, slechts content zoals teksten en afbeeldingen. Er zijn tegenwoordig weinig websites die alleen deze content aanbieden en geen enkele functionaliteit toevoegen.

Er is wel degelijk functionaliteit beschikbaar. Onderliggende pagina's als een Contact pagina worden vaak ook geindexeerd door de Wayback Machine. Lijkt me uitermate handig dat dit in de lucht blijft.
De meeste websites hebben geen dagelijkse nieuwe items dus dan kan de core business gewoon door draaien.

Johan9711 @tweaker2010 • 18 september 2020 11:01

Contact pagina's hebben geen zin als de webserver down is, tenzij alles cliënt side gescript is

Tukurai @Johan9711 • 18 september 2020 11:22

Je mag dan ook aannemen dat @tweaker2010 zaken zoals telefoonnummers en emailadressen bedoelt die niet vastzitten aan formulieren.

tweaker2010 @Tukurai • 18 september 2020 12:03

Klopt. E-mailadressen zijn zichtbaar aangezien het meestal HTML is wat getoond wordt. Daarnaast worden dit soort gegevens vaak ook als plain text in de footer van de website weergegeven.

gbspeel

@Johan9711 • 18 september 2020 11:46

En ook al zou de webserver in die tussentijd weer beschikbaar komen, als de security op orde is zou het nog niet mogen werken (CSRF tokens).

Brilsmurfffje

@MorbidKetchup98 • 18 september 2020 10:10

Ik kan mij enkel nieuwssites en overheidspaginas voorstellen die gehackt zijn of down zijn door een ddos aanval. In alle andere gevallen is t meer luxe dan een strict noodzakelijk motief dat een website bereikbaar is.

dakathefox @Brilsmurfffje • 18 september 2020 11:35

Oh, er zijn genoeg corporate sites die getroffen worden door een DDOS en er om die reden (langdurig) uitliggen. Ik zou dan ook wel een soort van placeholder willen zien in plaats van een foutmelding.

erwinwernars @MorbidKetchup98 • 18 september 2020 12:52

lijkt mij handig voor nieuws websites.

bbob 18 september 2020 10:22

Internet Archive is mooie oplossing alleen is het wel heel traag. Vraag me af hoe men dat gaat oplossen als een beetje site down is en er ineens heel veel bezoekers komen.

wica @bbob • 18 september 2020 10:25

Ik denk dat CF het eenmalig opvraagt en vervolgens vanuit hun cache serveert.

Verwijderd 18 september 2020 10:46

Dus zij hosten dan content die van andere sites afkomstig is.
Hoe doen ze dat met copyright? Of betalen ze al die sites een fee?

Boekenkaft @Verwijderd • 18 september 2020 11:58

Ze verzorgen een realtime back-up dienst. Deels gratis, deels betaald. Dit heeft verder eigenlijk niets met copyright te maken.

Voor de dienst van Cloudflare, moet de betreffende site zich trouwens eerst aanmelden met een account.

[Reactie gewijzigd door Boekenkaft op 23 juli 2024 11:23]

q2no 18 september 2020 10:34

Dit is zeker een interessante oplossing voor de internet gemeenschap. Hoewel de Nederlandse Rijksoverheid verplicht is websites (vanaf volgend jaar) te archiveren is dit zeker geen gemeengoed. Hoe vaak kom je niet een leuk artikel tegen met een link buiten het domein, wat vervolgens resulteert in ‘not found’. Zorgpunt, vanuit een zakelijk en juridisch perspectief, is alleen wel het hergebruik vanuit het archief. Door vanuit het archief de content weer te geven (=hergebruik) kunnen contractuele problemen ontstaan mbt intellectueel eigendom/ auteursrecht. Teksten en foto’s worden veelal afgenomen op basis van gebruik op de live website, waarbij geen rekening is/ wordt gehouden met het (eeuwig) hergebruik vanuit het webarchief.

breezie 18 september 2020 11:15

Voor statische pagina's is dit best haalbaar maar met alle SPAs tegenwoordig die vol met javascript zitten en zaken dynamisch laden lijkt me dit geen eenvoudige opgave...

Bensimpel 18 september 2020 11:07

Krijg ik dan wel een melding dat de live website offline is en dit een oude versie is? Anders is het nogal verwarrend...

Boekenkaft @Bensimpel • 18 september 2020 11:26

Citaat uit artikel: "Wanneer gebruikers een gecachte of gearchiveerde pagina voorgeschoteld krijgen, krijgen zij een banner te zien waarin staat dat de originele host offline is."

SqyD

18 september 2020 11:56

Ik zal geen namen noemen maar ik ken in ieder geval één goed voorbeeld waarin de Wayback Machine beheerders van een prominente .nl website hebben gered van de totale ondergang. Typisch gevalletje van het ontdekken van een haperende backup nadat er rook uit de server kwam.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (22)

Sorteer op:

Weergave: