De grote storing bij Cloudflare dinsdagochtend werd veroorzaakt door een fout van de dienstverlener zelf. Het bedrijf geeft daarover een uitgebreide technische uitleg. Er werden 19 datacenters door getroffen, wat invloed had op de helft van al het verkeer van Cloudflare.
Volgens Cloudflare werd de storing veroorzaakt door een aanpassing die onderdeel was van een project om juist de veerkracht op de drukste locaties te verhogen. De 19 locaties waar de storing plaatsvond, vormen slechts 4 procent van het Cloudflare-netwerk, maar doordat het grote en drukke locaties zijn, had de storing invloed op 50 procent van het totale aantal verzoeken.
In de afgelopen 18 maanden heeft Cloudflare 19 van zijn datacenters overgezet naar een nieuwe architectuur, die het bedrijf Multi-Colo PoP noemt, ofwel MCP. Ook het Cloudflare-datacenter in Amsterdam is daar onderdeel van. Deze architectuur is opgezet als een Clos-netwerk en volgens Cloudflare heeft dat flinke verbeteringen opgeleverd wat betrouwbaarheid betreft. Ook zou het makkelijker zijn om onderhoud te plegen zonder het verkeer te verstoren. Dinsdagochtend ging dat echter mis.
Om 5.56 uur Nederlandse tijd begon Cloudflare met het uitrollen van een geplande aanpassing aan de netwerkconfiguratie. Dat verliep zonder problemen, omdat dit eerst gebeurde bij de locaties gebaseerd op de oudere architectuur. Om 8.27 uur begon de uitrol bij de 19 locaties waar MCP is toegepast. Daar ging het mis en de locaties gingen direct offline, wat grote problemen opleverde voor de bereikbaarheid van veel websites en diensten. Gebruikers kregen een 500 Internal Server Error te zien.
Om de hoofdoorzaak te verifiëren, voerde Cloudflare om 8.51 uur de eerste routerwijziging door. Acht minuten later was de oorzaak 'gevonden en begrepen'. Vervolgens begon het werk om de verandering terug te draaien. Tussen 8.58 en 9.42 uur zijn de herstelwerkzaamheden uitgevoerd. De laatste aanpassing werd wat vertraagd, doordat netwerkbeheerders elkaars aanpassingen ongedaan maakten, waardoor het probleem sporadisch weer opdook. Om 11.00 uur heeft Cloudflare het incident definitief afgesloten.
Volgens Cloudflare was de aanpassing vooraf getest en doken daarbij geen problemen op. In de toekomst wil het bedrijf aanpassingen beter testen door ook specifiek te kijken wat er gebeurt bij de locaties met de nieuwe MCP-architectuur. Het bedrijf spreekt over een 'zeer pijnlijk incident' en belooft aanpassingen door te voeren die ervoor zouden moeten zorgen dat dit niet meer kan gebeuren.