Een grote storing bij de Amerikaanse provider CenturyLink/Level(3) veroorzaakte zondag wereldwijd internetproblemen. Volgens Cloudflare daalde dit verkeer met 3,5 procent. De oorzaak is te herleiden tot het border gateway protocol.

Zondag viel het verkeer van de grote Amerikaanse provider CenturyLink/Level(3) vrijwel stil door een storing. De gevolgen daarvan waren wereldwijd merkbaar en internationale websites en diensten waren tijdelijk niet beschikbaar. CenturyLink levert netwerkdiensten aan enterpriseklanten wereldwijd. Het bedrijf heeft zelf nog geen gedetailleerde uitleg gegeven over de storing, maar Cloudflare beschrijft al wel wat er gebeurde en hoe de storing zijn klanten beïnvloedde.

Zondagochtend kreeg Cloudflare een groot aantal '522 errors' binnen, als teken dat er een probleem was met de verbinding van zijn netwerk naar plekken waar klanten hun data hosten. De systemen van Cloudflare begonnen vervolgens met het omleiden van verkeer van CenturyLink/Level(3), de bron van de problemen, naar alternatieve netwerkproviders zoals Cogent, NTT, GTT, Telia en Tata. Op een grafiek van op Cloudflare aangesloten tier-1-netwerken is te zien hoe het verkeer van Centurylink, in het rood weergegeven, vrijwel tot stilstand kwam.

Voor een deel van de Cloudflare-klanten duurde het even voordat de verbinding weer tot stand kwam, omdat de systemen bij het omleiden rekening moeten houden met de capaciteit van de netwerken. Bovendien bleek een deel van de klanten alleen via CenturyLink met internet verbonden te zijn en honoreerde die provider een deel van de omleidingen niet.

De oorzaak van de storing lag bij instabiliteit van border gateway protocol-routes in de CenturyLink-backbone en dan met name bij een flowspec-update, blijkt uit een mededeling van CenturyLink. Het border gateway protocol is het routeringsprotocol dat het verkeer tussen providers regelt en flowspec is een extensie hierop waarmee firewallregels binnen netwerken te verspreiden zijn. Nog niet bekend is wat er misging met de flowspecupdate en waarom het relatief lang duurde voordat het probleem werd verholpen.