AMS-IX heeft weer storing - update

Internetknooppunt AMS-IX heeft weer een storing. Dat was woensdagavond ook al het geval. Het is onbekend hoe dat kan.

AMS-IX zegt dat het probleem om 9.40 uur de kop opstak en dat is ook te zien in de statistieken. Er was woensdagavond ook een storing en die duurde van ongeveer 19.00 uur tot 23.00 uur. Dat lag volgens het internetknooppunt aan verkeer voor het Resource Reservation Protocol, dat invloed had op het beheer van de Extreme-switch. De oplossing woensdagavond was de plaatsing van een rate limiter tussen de Extreme-switch en PE-switch. AMS-IX zegt niets over de oorzaak van de huidige storing of hoe lang het gaat duren. Ook nu is het verkeer op het knooppunt ongeveer een kwart van normaal. Waar dat normaal rond de 8Tbit/s is, is dat nu 2Tbit/s.

Update, 13.37 uur: De storing lijkt voorbij.

AMS-IX tweede storing in twee dagen tijd, november 2023
AMS-IX heeft tweede storing in twee dagen tijd (november 2023).

Door Arnoud Wokke

Redacteur Tweakers

23-11-2023 • 10:55

52

Submitter: chickpoint

Reacties (52)

52
47
23
3
0
5
Wijzig sortering
"We have identified what seems to be the sequence of events. We are currently working on confirming the hypothesis in the lab, while the platform is stabilised, before we proceed to any further changes/actions.
We have confirmed that Juniper propagated LACP packets from a customer to the rest of the platform. Of course, this shouldn't happen which points to a bug. This causes customer LACP LAGs to be torn down and, potential, pseudowires to get destroyed and rebuild.
In consequence, this leads to full buffers and resource starvation which leads to RSVP messages timeout/errors. Then, RSVP PathError messages are sent (aggressively) and trigger another Juniper bug, which sends PathError messages to both the head-end PEs and new RSVP Path messages to the tail-end PEs, without any back-off timeouts.
As a cascade effect, this causes issues to SLXes as well."


Update 15:20:

We have finished the call with our vendor and we can confirm that the root cause is indeed triggered by (wrong) propagation of LACP packets from Juniper PE equipment.

As a mitigation solution, we will be deploying ACL entries to filter out LACP packets on all non-LACP interfaces on Juniper boxes.
At the same time, we will reboot Juniper core-glo-205, to refresh its runtime state and proceed will load balancing all traffic to both cores.

Please note that the platform is currently stable and we are working on installing the failsafes to avoid any reoccurrence.

[Reactie gewijzigd door Pinkman op 22 juli 2024 22:08]

Je zal maar die klant wezen wiens lacp pakketjes AMS-IX neer legde :o
Moah, ja beetje lullig. Maar als door een foutje bij de klant heel amsix op de hobbel gaat, is het dan de verantwoordelijkheid van de klant?
Ik heb ook menig server of security issue veroorzaakt, maar nooit was het mijn verantwoordelijkheid. Ik bracht het simpelweg aan het licht door mijn out of the box handelen.
Moah, ja beetje lullig. Maar als door een foutje bij de klant heel amsix op de hobbel gaat, is het dan de verantwoordelijkheid van de klant?
Het is geen fout van de klant (overigens bij AMS-IX geen klanten maar leden). Het is een fout van de apparatuur van AMS-IX.
"customer"
"als"
Wat een nutteloze toevoeging.
Er zijn heel veel klanten die een LACP bond met de AMS-IX hebben. Het is een probleem dat - zoals beschreven - de nieuwe Juniper's deze paketten propageerde, want niet hoort. Het was letterlijk een Butterfly-Effect.
Drie bugs en een misconfiguratie samen (ik ga er vanuit dat alleen deze klant met LACP problemen gaf) die voor problemen zorgen.

Hier valt niet voor te testen, dit risico loop je altijd, helemaal in een multi vendor omgeving.
Een rate-limiter plaatsen klonk mij al als een tijdelijke ghetto fix. Gelukkig hebben wij onze port nog even uitgelaten..
10:30 CET Update
- The Juniper core has been taken out of route
- Traffic from One Comm was identified as suspicious, and their connection was isolated from the network.
- Traffic appears to have stabilized.
10:30 CET Update
- The Juniper core has been taken out of route
Oef... en dat nog geen week na het triomfantelijke persbericht dat de eerste lokatie om was naar Juniper en dat ze 2 jaar voorllepen op schema...
Oef... en dat nog geen week na het triomfantelijke persbericht dat de eerste lokatie om was naar Juniper
Maar, ik zag dat bericht op Tweakers.net al op 11 augustus, iets langer dan een week geleden...
nieuws: AMS-IX vervangt switches door Juniper en verlaagt energiegebruik met ...

Ik gok dat je deze bedoelt:
https://www.ams-ix.net/ams/news/first-core-node-migration
vs.
https://www.ams-ix.net/am...ult-in-85-power-reduction

Op 11 augustus hadden ze het over 'customer facing switches' (in AM5) en op 17 november over de 'core node'. Tweakers.net berichte niet over die Core node migration, dus voor de meeste van ons is de Juniper migratie die van augustus en dat maakt het een beetje onduidelijk.
Er staat in de melding ook duidelijk dat het om de core ging - en aangezien dezelfde terminologie gebruikt is in het persbericht van AMS-IX zelf...
Mjah, dat dus...

Neemt uiteraard niet weg dat dat bericht nog altijd was bedoeld om te laten zien hoe trots we zijn op de mensen achter de schermen en degene die verstopt zitten in het datacenter :)
Voorlopen op schema neem ik dezer dagen met een korrel zout, of het nu een it-bedrijf, autobouwer of spoorwegmaatschappij betreft.
Men heeft het Traffic from one of the connected networks was identified as suspicious, and their connection was isolated from the network. toch maar uit de 10:30 Update gehaald.
Dit klinkt als een harde ingreep, maar wel een ingreep die de situatie hopelijk stabiliseert.

Interoperabiliteits issues getriggerd door bepaald verkeer. Dat ontdek je niet.

Er wordt amper fuzzing gebruikt voor dit soort protocollen (helemaal niet met interop). Er is wat gedaan voor BGP door academici en Ben Cox maar verder ben ik niet bekend met fuzzing werk in deze hoek.
Sterker nog, het hele bericht is nu aangepast:

10:30 CET Update
  • We have applied some mitigation actions, including shutting down one customer port and isolating the Juniper core from the platform.
  • The platform is currently stable and we will continue to investigate further with our vendors Extreme and Juniper.
"- Traffic from one of the connected networks was identified as suspicious, and their connection was isolated from the network."

Nu al benieuwd naar de aftermath :P

[Reactie gewijzigd door lolsra op 22 juli 2024 22:08]

Aan het verkeer te zien zijn er meer die dat gedaan hebben.
Dat is ernstig lijkt me - zeker voor zo'n belangrijk punt als AMS-IX.
Het klinkt ernstig maar het valt wel mee, omdat de BGP en het Autonomous System de ruggengraat van het internet is, en het internet als het ware een web van een spin in met meerdere routes. Als er een verbinding onbereikbaar is, dan wordt er een andere route gekozen. Maar het kan voor overlast veroorzaken. Zeker als de andere peering minder capaciteit heeft, en de latency te hoog wordt.

[Reactie gewijzigd door AW_Bos op 22 juli 2024 22:08]

Het was anders goed te merken gisteravond en vanochtend.
Ja, voor videocalls, socketverbindingen en gamers is latency echt iets wat je niet wilt hebben. Maar voor normaal internetgebruik waar je lekker onder genot van een YouTube muziekje lekker wat lezend en chattend aan het surfen bent, maakt het weinig uit.
Het was dusdanig erg dat bepaalde sites het (even) niet deden. Was in mijn beleving dus wel even wat erger dan wat latency issues.
UPDATE

We have applied some mitigation actions, including shutting down one customer port and isolating the Juniper core from the platform.

From our observation, the platform is currently stable and we will continue with further joint investigation with both our vendor Extreme and Juniper.

[Reactie gewijzigd door nullr0ute op 22 juli 2024 22:08]

Zou hiermee ook iets te maken hebben dat ik NPO Start streams in het buitenland ineens niet meer kan zien? Via een Nederlandse VPN ging het wel. Erg handig met de verkiezingsavond. Gelukkig iemand zijn Ziggo account kunnen gebruiken om alsnog NPO1 te kunnen bekijken.

Lijkt dat het vanaf hetzelfde moment gebeurde, iets met de peering/transit routing van de NPO?
Hangt er een beetje vanaf, werkte het bijvoorbeeld gistermiddag of de dag ervoor wel? Want anders kan het ook komen door de redesigned app/backend komen en dat ze meer filteren op connecties van buiten NL (niet zeker of dit het geval is, maar klinkt aannemelijker).

Hoewel niet onmogelijk, lijkt het me vrij onwaarschijnlijk dat het daarom geheel niet meer werkte. Het is vrij onwaarschijnlijk dat de NPO een volledige onderbreking zou hebben hiervan, ze hebben ongetwijfeld nog transit providers die dit verder transporteren buiten hun AMS-IX verbindingen om. Daarnaast lijkt het me sterk dat je provider enkel van peering afhankelijk zou zijn, en die hebben over het algemeen ook ofwel meerdere IX'en, ofwel een eigen transit (meestal beide).

Dus tenzij je probleem ook specifiek gisteravond begonnen is, en de middag ervoor nog wel werkte denk ik niet dat het per se gerelateerd is.
Met NLziet gisterenavond geen enkel probleem gehad.
Jup, zeer zeker. Gisteren werkte Videoland überhaupt niet. NPO werkte als je geluk had maar bijvoorbeeld betalingen zijn nog steeds niet werkend.
Ziggo en Netflix waren de enige dingen die zover ik gebruik wel perfect werkten
Klinkt als een valide reden dat het daarom niet goed voor je werkte.
Nog steeds werken de streams vanuit hier niet. VPN wel.
Kan zijn dat de VPN provider zijn verkeer over een niet AMS-IX heen route, maar je eigen provider wel.
AMS-IX heeft weer storing

Hier op het kantoor is alles in de Cloudflare tunnel over de werkplekken heen..
Om eerlijk te zijn merk ik er niets van die ams-ix storing. Alle websites en diensten laden net zo snel als normaal.
Is dit nu ook de rede dat ik lag had op mijn xbox met games sinds gisteravond

[Reactie gewijzigd door maversne op 22 juli 2024 22:08]

Update, 13:37: De storing lijkt voorbij.

Tweakers LOL 1337
Zou het toeval zijn? Misschien was het op dat moment 13:36 en dan wachten ze gewoon een minuutje :P? Dat zie je ook vaak bij de Iteratie-berichten met siteupdates over Tweakers :+
leet update wel :+

Op dit item kan niet meer gereageerd worden.