Cloudflare: internetverkeer daalde met 3,5 procent door CenturyLink-storing

Een grote storing bij de Amerikaanse provider CenturyLink/Level(3) veroorzaakte zondag wereldwijd internetproblemen. Volgens Cloudflare daalde dit verkeer met 3,5 procent. De oorzaak is te herleiden tot het border gateway protocol.

Zondag viel het verkeer van de grote Amerikaanse provider CenturyLink/Level(3) vrijwel stil door een storing. De gevolgen daarvan waren wereldwijd merkbaar en internationale websites en diensten waren tijdelijk niet beschikbaar. CenturyLink levert netwerkdiensten aan enterpriseklanten wereldwijd. Het bedrijf heeft zelf nog geen gedetailleerde uitleg gegeven over de storing, maar Cloudflare beschrijft al wel wat er gebeurde en hoe de storing zijn klanten beïnvloedde.

Zondagochtend kreeg Cloudflare een groot aantal '522 errors' binnen, als teken dat er een probleem was met de verbinding van zijn netwerk naar plekken waar klanten hun data hosten. De systemen van Cloudflare begonnen vervolgens met het omleiden van verkeer van CenturyLink/Level(3), de bron van de problemen, naar alternatieve netwerkproviders zoals Cogent, NTT, GTT, Telia en Tata. Op een grafiek van op Cloudflare aangesloten tier-1-netwerken is te zien hoe het verkeer van Centurylink, in het rood weergegeven, vrijwel tot stilstand kwam.

Cloudflare CenturyLink 30-08-2020

Voor een deel van de Cloudflare-klanten duurde het even voordat de verbinding weer tot stand kwam, omdat de systemen bij het omleiden rekening moeten houden met de capaciteit van de netwerken. Bovendien bleek een deel van de klanten alleen via CenturyLink met internet verbonden te zijn en honoreerde die provider een deel van de omleidingen niet.

De oorzaak van de storing lag bij instabiliteit van border gateway protocol-routes in de CenturyLink-backbone en dan met name bij een flowspec-update, blijkt uit een mededeling van CenturyLink. Het border gateway protocol is het routeringsprotocol dat het verkeer tussen providers regelt en flowspec is een extensie hierop waarmee firewallregels binnen netwerken te verspreiden zijn. Nog niet bekend is wat er misging met de flowspecupdate en waarom het relatief lang duurde voordat het probleem werd verholpen.

Door Olaf van Miltenburg

Nieuwscoördinator

31-08-2020 • 07:54

67

Submitter: Verwijderd

Reacties (67)

Sorteer op:

Weergave:

Ik zou het wel interessant vinden als hier een keer wat dieper op wordt ingegaan. De werking van het 'macro'-internet als ik het zo kan noemen, wellicht daarbij de plaatsing van de BeNe-ISP's nader aangeduid.
Cloudfare heeft in 2003 2013 dit interessante en toegankelijke artikel geschreven over de rol van Tier 1-3 providers op het Internet:

https://blog.cloudflare.c...lmost-broke-the-internet/

Wat ik wel interrssant vind is dat LibertyGlobal als een van de weinig ISPs wereldwijd een eigen Tier1 netwerk heeft, maar blijkbaar ook stevig netwerkruimte leent van andere Tier1? (Tier1 kopen niet in maar “wisselen uit” bij elkaar)

[Reactie gewijzigd door Malarky op 22 juli 2024 21:57]

Er zijn niet veel partijen die puur op hun eigen netwerk teren, dat is niet te doen namelijk. De aanleg van een zeekabel kost honderden miljoenen en is een project van jaren, dat is niet interessant voor bedrijven als LibertyGlobal.

Edit: Ik weet blijkbaar inderdaad niet wie of wat Liberty Global is..

[Reactie gewijzigd door Pimorez op 22 juli 2024 21:57]

Jij hebt duidelijk geen idee wie of wat Liberty Global is...

Liberty Global is de grootste internationale kabelmaatschappij ter wereld. Ze hebben verschillende dochterondernemingen die volledig eigenaar zijn van zeekabels, oa C&W Networks, welke alleen al 50.000km aan fiber heeft liggen op de zeebodem.
Je informatie was correct, maar is inmiddels verouderd. C&W is eigendom van Liberty Latin America. Dat is in januari 2018 afgesplitst van Liberty Global en nu een onafhankelijk bedrijf.
Afgesplitst maar nog steeds onderdeel van dezelfde groep. I.e. John Malone is nog steeds in charge.
Eigenaar van UPC-Ziggo dus.
Wat dan wel ironisch is dat de grootste kabelmaatschappij het niet voor elkaar krijgt om zijn klanten te voorzien van glasvezel over de last mile. Dat zou pas innovatie voor ze zijn.
Het gaat immers om het gehele netwerk niet 90%.
Super interessant dit. Beetje offtopic maar een van de aanvallers op Spamhaus (waar het cloudflare artikel over gaat) was een Nederlander. Onderstaand een tweakers linkje naar een artikel over de strafmaat die hem naar aanleiding daarvan is opgelegd:
nieuws: Nederlander achter Spamhaus-ddos krijgt voorwaardelijke celstraf - up...

240 dagen cel waarvan 185 voorwaardelijk voor 'als je het goed functioneren van het internet in gevaar bracht'. Aan die strafmaat mogen ze ook wel eens wat doen...

[Reactie gewijzigd door spoller op 22 juli 2024 21:57]

tnx.. erg interessant
Daar ben ik inderdaad ook wel heel benieuwd naar. Vooral ook omdat bijvoorbeeld Ziggo, en Telenet (Liberty Global) klanten er flink last van hadden maar KPN klanten blijkbaar niet of veel minder. Ook op Vodafone Mobile ging had ik er geen problemen mee.
Hoe kan het dat daar verschil in zit? Die achtergrond info lijkt me erg interessant.
Misschien erg specifiek; gisteren tijdens de Formule 1 van Spa viel F1TV steeds uit, zowel op de app als via de website. De F1 uitzendrechten worden door Liberty Global geregeld en hun eigen streams zullen daar dus ook op draaien.
Toen hoorde ik van iemand dat de race gisteren ook voor niet-Ziggo klanten, zoals ik, werd uitgezonden op het Ziggo-sport kanaal. Ik heb KPN TV dus daar kon ik dankbaar gebruik van maken.
Maar het is dus best maf dat Liberty Global en Ziggo moeite hadden om hun streams naar buiten te krijgen, en ik als KPN klant die een dienst van Ziggo afnam nergens last van had. Ben erg benieuwd hoe zoiets werkt idd.
ISPs kopen hun verkeer ook in bij transit providers, maar niet elke provider gebruikt dezelfde Tier1 netwerken.

Een KPN gebruiker zal bijvoorbeeld via een mix van NTT, Telia en Zayo gaan terwijl Ziggo gebruikers via DTAG, CenturyLink/Level3 en Telia gaan. Dit is slechts een voorbeeld, ik heb niet gekeken welke netwerken er precies gebruikt worden door deze ISPs.

Bovendien kan het zijn dat KPN eerder workarounds hebben ingesteld dan de andere genoemde partijen.

[Reactie gewijzigd door Pimorez op 22 juli 2024 21:57]

Ik merkte dat ik problemen had in te loggen op backend van mijn shop, frontend geen probleem maar backend met recaptcha waar ik steeds timeout op kreeg. Nu vanmorgen geen probleem en zal dus wel te maken hebben gehad met de storing.
Heb via vpn verschillende zaken geprobeert maar probleem leek dus specifiek ik recaptcha te zitten.
Dit is nog steeds een uitstekende uitleg: https://arstechnica.com/f...8/09/peering-and-transit/

Een update over de afgelopen tien jaar voor dat verhaal zou de opkomst van CDN's en de grote cloudproviders in het algemeen zijn, waardoor content steeds meer gecreëerd wordt in grote datacenters niet ver van de eindgebruiker en er dus relatief steeds minder wereldwijde IP-transit nodig is.
Centurylink is geen kleine jongen (moederbedrijf van Level3) en beheert groot deel van het Amerikaanse en Europese netwerk. Op basis van deze kaart kun je zien hoe de kabels lopen. http://www.level3.com/~/m...-level-3-network-map.ashx Cloudflare is een grote jongen, maar er zijn meer partijen die dit soort diensten aanbieden. De impact was uiteindelijk veel groter. Meerdere CDN partijen gaven aan dat ze ook storing hadden. Websites konden hierdoor gedeeltelijk geladen worden of zelfs helemaal niet.

[Reactie gewijzigd door Xieoxer op 22 juli 2024 21:57]

Hier heb je leuk overzichtje per provider welke kabels ze bezitten
https://personalpages.man...esis/Appendix%20Three.pdf
zo op hawai is goed internet te krijgen voor een eiland, 8 dikke trans atlantische kabels :)
Als je toch de oceaan over steekt kan je even goed in Hawaï stoppen. Kan je verkeer herrouteren tussen de kabels als het moet, iets wat zeker bij storingen handig kan zijn.
Nouja, trans-pacific dan ;)
Nogal logisch als je bedenkt, dat de NSA daar één van z'n grootste knooppunten heeft ;)
Cloudflare krijgt geen 522 error binnen maar die geven ze zelf af naar hun eind klanten. HTTP Status 522 hebben ze zelf zelf bedacht en is geen officiële status code net zoals 520 t/m 527 & 530 zijn deze bedacht door CloudFlare

https://en.wikipedia.org/...P_status_codes#Cloudflare
522 Connection Timed Out
Cloudflare could not negotiate a TCP handshake with the origin server.

[Reactie gewijzigd door GrooV op 22 juli 2024 21:57]

Hmm. Het blijft een lastig stukje techniek voor dit bedrijf (of in het algemeen) vorige keer dat ze het nieuws haalden was in 2013 toen een BGP herroutering niet gehonoreerd werd en een reboot van de edge routers niet werkte zoals zou moeten. Ik vraag me af hoe lang we dit overigens nog vol kunnen houden met BGP. Zeker qua security is dat nou niet het best beveiligde protocol ooit (als in niet).
Als het bij eens in de zeven jaar een storing van een uur of vier blijft, zullen ze dat wel volhouden.
Ik kan me niet van de indruk ontdoen dat de laatste tijd bijna elke grote storing aan BGP te linken was, noem het maar gerust de zwakste schakel, omdat een fout bij 1 provider keer op keer wereldwijd voor problemen zorgt
In de meeste gevallen maakt het niet uit welk protocol gebruik zou worden. Wel/niet encrypted.
Als een netwerkprovider een config fout maakt, die deze provider ook zou mogen maken gaat het fout.
En helaas dat is in de meeste gevallen het probleem. Slechts zelden dat een netwerkprovider een netwerk "adverteert" dat deze profider helemaal niet bezit. En dat dit dan ook wordt overgenomen door de rest van de netwerkproviders.
Er zal altijd een manier moeten zijn om de netwerk apparatuur te vertellen waar welk netwerk te vinden is. En welke netwerken als eerste gekozen dienen te worden (snelste/goedkoopste/eigen).
Het is tevens het enige protocol dat wereldwijd netwerken aan elkaar koppelt. Dan is het dus ook lastig te vergelijken. Er is bovendien geen alternatief.
Inderdaad, maar je zou toch denken dat op dit niveau veel meer monitoring en een snellere fallback zou staan dan wat we nu gezien hebben. Zonder overdrijven heeft dit probleem wereldwijd miljarden gekost (al dan niet omzetverlies)
Maar hoe wil je dat vervangen, en waarmee? Net zoals email. Daar blijven we ook maar patch na patch op kleven om het te rekken omdat email 2.0 niet bestaat daar je niet heel de wereld snel kunt overzetten.
Dat er nu nog geen alternatief is betekent natuurlijk niet dat we het dan maar moeten laten zitten.

Er moet ooit met een nieuwe versie begonnen worden om hier orde op zaken in te krijgen uiteraard.

Het grote probleem is dat vrijwel iedere grote wereldwijde internetstoring terug te linken is aan BGP. Dankzij fout ingezette blokkeringen van Turkse Regimes of een her-routering die niet goed doorgevoerd wordt bij een grote link. BGP is gewoon een hele zwakke schakel in het internet waarmee kwaadwillenden heel snel wereldwijd de boel om kunnen trekken.
Maar wat had je dan in gedachten? Het protocol is namelijk niet het probleem. Ook in dit geval niet.
In dit geval zijn het de peer afspraken tussen de netwerkproviders en contentproviders. Het protocol heeft exact gewerkt zoals het moet. Netwerk 1 ligt er uit. Verkeer eromheen routeren. En ja dat duurt even. Dit is om te voorkomen dat bij een kortere hapering om het verkeer anders gerouteerd, en dus hogere kosten en hogere netwerkbelasting. Dat er contentproviders slechts via 1 netwerkprovider te benaderen zijn en daardoor er uit liggen heeft helemaal niets met BGP te maken.
Grappig om te zien dat een (flinke) verstoring ook de routing in Europa verstoorde
Mijn VPS in Duitsland was erg onstabiel in de verbinding, terwijl het device op zich geen probleem gaf.

Cloudflare is ondertussen ook aan het uitgroeien naar 'te groot'
Geeft een beetje een fout beeld. Cloudflare weghalen betekent niet dat al die partijen die nu afhankelijk zijn van hun per definitie niet zouden geimpacteerd geweest zijn.

Het zouden er misschien wat minder geweest zijn maar zelfs dat is niet met zekerheid te stellen.
Het probleem zit inderdaad dieper.
Bij een verkeerd ingestelde BGP worden heel veel adressen naar de verkeerde kant gestuurd
https://en.wikipedia.org/wiki/BGP_hijacking

Dit kan zowel per ongeluk, als met opzet gedaan worden
Cloudflare is ondertussen ook aan het uitgroeien naar 'te groot'
Niet echt relevant hier, gezien Cloudflare niet het probleem veroorzaakte. Net omgekeerd, Cloudflare was een van de grotere slachtoffers van issues bij Centurylink/Level3.
[...]


Niet echt relevant hier, gezien Cloudflare niet het probleem veroorzaakte. Net omgekeerd, Cloudflare was een van de grotere slachtoffers van issues bij Centurylink/Level3.
Je creert een kip-ei stelling nu
Cloudflare als slachtoffer, omdat ze hun services goedkoop aanbieden en derhalve een fors klantenbestand heeft.

Bij meer spreiding, had het ook minder impact gehad
Sorry, maar ik denk dat je het probleem niet echt snapt.

Cloudflare is hier enkel een meldende partij. Alle problemen die we gemerkt hebben, gingen we ook gemerkt hebben als cloudflare hier niet tussen zat.

Alle andere CDN's naast cloudflare hebben dezelfde issues voorgehad, bvb Akamai en Fastly, net als een aantal internet providers, oa Liberty Global's Ziggo en Telenet, die gebruik maken van Level3 voor de internationale backbone.

De problemen traden op bij alle partijen die gebruik maken van CenturyLink/Level3 als primaire ISP, of als peering partner. Het probleem werd veroorzaakt intern in hun netwerk, wat een impact had op het volledige internet.

Even ter info hierbij: Centurylink / Level3 zijn niet enkel Amerikaans. Ze zijn wereldwijd een Tier1 provider waarbij heel wat ISPs gebruikmaken van hun backbone

[Reactie gewijzigd door psycho202 op 22 juli 2024 21:57]

Hier in Zweden merkte ik ook wat problemen gisteren. Behoorlijk wat websites die niet laadden, Formule 1 TV waarvan de website wel maar de stream niet werkte en Twitter dat problemen had.

Zou interessant zijn om wat meer achtergrond te krijgen over de wereldwijde impact van zo'n grote storing. En wat is er nodig om het weer op te lossen? Ik neem aan dat de standaardoplossing "even uit en weer aanzetten" niet genoeg is :P
Dat is het wel, maar het Level3/centurylink heeft nog een ander probleem dat deze storing veel vervelender maakte dan normaliter het geval zou moeten zijn.

CenturyLink heeft een issue in haar netwerk dat BGP announcements blijven bestaan, ook al is de partij die het betreffende IP-blok announced naar CL toe allang gedepeered (waarmee de announcements zouden moeten verdwijnen).

Zie het alsof RWS een snelweg afzet maar nog wel met borden aangeeft dat je de snelweg op moet.

Normaliter zouden die announcements binnen enkele minuten moeten verdwijnen, waardoor IP-verkeer vanzelf een andere route opzoekt. Door het blijven bestaan van de announcements gebeurde dat niet, waardoor IP-verkeer in niemandsland uit kwam. Hierdoor had de storing veel meer impact dan normaal het geval zou zijn als er 'slechts' een storing bij CL was.
inderdaad net aan het begin van de race begon de ellende, wel irritant de start ect gemist.
inderdaad net aan het begin van de race begon de ellende, wel irritant de start ect gemist.
Nu is dat bij elke race wel het geval, zeker op de populaire circuits.

Elk jaar al slechte streams gehad op Silverstone en Spa ... ( wss ook te maken met het goede weer, meer mobiele kijkers )
Vorig jaar tijdens Spa waren we op het strand, en was de verbinding om te huilen.
Tot 60 sec NA de start :+ toen 75% van de 'fans' weer verder gingen met hun dag :+
het artikel van Cloudflare dat in het artikel genoemd wordt geeft een aardig inzicht in de impact. Doordat veel netwerken via verschillende knooppunten te bereiken zijn, is de impact beperkt als dit op tijd opgemerkt wordt; het verkeer kan dan via andere knooppunten lopen.

Vervelender is het wanneer een netwerk alleen via een specifiek knooppunt loopt, en deze uitvalt. Er is dan simpelweg geen verkeer mogelijk van en naar dat netwerk. Een goede reden dus om verbindingen redundant uit te voeren, zodat mocht de ene uitvallen, het verkeer via het andere knooppunt kan lopen.
Het probleem was alleen dat het verkeer wat de omleiding volgde weer teruggestuurd werd doordat er nog oude BGP announcements bleven hangen. De omleiding werkte daardoor niet. Anders was de impact namelijk 0 geweest.
Sinds gisteren last van F1 TV(pro) zeer onstabiel, Speedtest (Ookla) slecht bereikbaar maar andere websites zoals tweakers ect deden het wel prima.
Verder merkte ik ook dat de snelheid flink omlaag is gegaan (t-mobile glasvezel) toeval?

De timing was in ieder geval slecht, net voor de start van de Formule 1, uiteindelijk via de computer gekeken via de app was het niet meer te doen liep elke keer vast op de computer ook maar ging het weer verder na een refresh.
Nou die race heb je niet veel aan gemist. De laatste 2 races is echt een ramp. MB is veel te sterk. Totaal geen competitie meer. Zelf Max vond er niks aan.
Ja dat is wel (weer) jammer inderdaad, ik hoop dat het beter wordt...
Ligt ook voor een deel aan de banden maar anderzijds is dit nu wel erg offtopic nietwaar ;)
Ik had gisteren ook problemen, maar vooral omdat ik de cloudflare DNS servers (over TLS) gebruik, die gaven geen kik meer, daarom dacht ik dat het een probleem bij Cloudflare zelf was. Zou inderdaad leuk zijn zoals Giku suggereert om eens een gedetailleerder artikel te lezen over hoe onze BE/NL ISP's in het wereldwijde plaatje passen.

[Reactie gewijzigd door NinjaRider op 22 juli 2024 21:57]

Ik had gisteren ook veel netwerk problemen.
Uiteindelijk de DNS forwarding omgezet naar OpenDNS en toen was alles weer stabiel.
Ik blijf rare dingen zien, bepaalde sites die slecht bereikbaar zijn, zo kom ik nu niet bij Instagram.

- Tweakers werkt nu prima, dus ik ga ervan uit dat het niet bij mij/Ziggo ligt.
- Is dit vanwege de voortdurende DDOS in de Benelux?
- Heeft Centurylink nog/weer issues?
- Speelt er nu opeens iets anders?
Jammer hoe 1 foutje vandaag de dag nog voor zoveel problemen kan zorgen.

Tevens, voor degene die het originele artikel willen lezen: https://blog.cloudflare.c...nturylink-level-3-outage/

Op dit item kan niet meer gereageerd worden.