AMS-IX heeft weer storing - update

Internetknooppunt AMS-IX heeft weer een storing. Dat was woensdagavond ook al het geval. Het is onbekend hoe dat kan.

AMS-IX zegt dat het probleem om 9.40 uur de kop opstak en dat is ook te zien in de statistieken. Er was woensdagavond ook een storing en die duurde van ongeveer 19.00 uur tot 23.00 uur. Dat lag volgens het internetknooppunt aan verkeer voor het Resource Reservation Protocol, dat invloed had op het beheer van de Extreme-switch. De oplossing woensdagavond was de plaatsing van een rate limiter tussen de Extreme-switch en PE-switch. AMS-IX zegt niets over de oorzaak van de huidige storing of hoe lang het gaat duren. Ook nu is het verkeer op het knooppunt ongeveer een kwart van normaal. Waar dat normaal rond de 8Tbit/s is, is dat nu 2Tbit/s.

Update, 13.37 uur: De storing lijkt voorbij.

AMS-IX tweede storing in twee dagen tijd, november 2023 — AMS-IX heeft tweede storing in twee dagen tijd (november 2023).

Vorig nieuwsartikel Volgend nieuwsartikel

Door Arnoud Wokke

Redacteur Tweakers

Feedback • 23-11-2023 10:55
52 • submitter: chickpoint

23-11-2023 • 10:55

Submitter: chickpoint

Lees meer

Internetknooppunt NL-ix doorbreekt grens van 10Tbit/s aan dataverkeer Nieuws van 4 november 2024

Storing Vattenfall zorgt voor inlogproblemen Mijn Vattenfall en Energie-app Nieuws van 2 januari 2024

Rabobank heeft te maken met storing bij verschillende diensten Nieuws van 5 december 2023

AMS-IX heeft storing en doet kwart van normaal verkeer - update Nieuws van 22 november 2023

AMS-IX vervangt switches door Juniper en verlaagt energiegebruik met 85 procent Nieuws van 11 augustus 2023

Meer producten en artikelen

Netwerk switches AMS-IX Nederland Storing

Reacties (52)

-Moderatie-faq

Wijzig sortering

forsen 23 november 2023 13:53

"We have identified what seems to be the sequence of events. We are currently working on confirming the hypothesis in the lab, while the platform is stabilised, before we proceed to any further changes/actions.
We have confirmed that Juniper propagated LACP packets from a customer to the rest of the platform. Of course, this shouldn't happen which points to a bug. This causes customer LACP LAGs to be torn down and, potential, pseudowires to get destroyed and rebuild.
In consequence, this leads to full buffers and resource starvation which leads to RSVP messages timeout/errors. Then, RSVP PathError messages are sent (aggressively) and trigger another Juniper bug, which sends PathError messages to both the head-end PEs and new RSVP Path messages to the tail-end PEs, without any back-off timeouts.
As a cascade effect, this causes issues to SLXes as well."

Update 15:20:

We have finished the call with our vendor and we can confirm that the root cause is indeed triggered by (wrong) propagation of LACP packets from Juniper PE equipment.

As a mitigation solution, we will be deploying ACL entries to filter out LACP packets on all non-LACP interfaces on Juniper boxes.
At the same time, we will reboot Juniper core-glo-205, to refresh its runtime state and proceed will load balancing all traffic to both cores.

Please note that the platform is currently stable and we are working on installing the failsafes to avoid any reoccurrence.

[Reactie gewijzigd door forsen op 22 juli 2024 22:08]

the_stickie @forsen • 23 november 2023 15:21

Je zal maar die klant wezen wiens lacp pakketjes AMS-IX neer legde

Schway @the_stickie • 23 november 2023 18:23

Moah, ja beetje lullig. Maar als door een foutje bij de klant heel amsix op de hobbel gaat, is het dan de verantwoordelijkheid van de klant?
Ik heb ook menig server of security issue veroorzaakt, maar nooit was het mijn verantwoordelijkheid. Ik bracht het simpelweg aan het licht door mijn out of the box handelen.

CyBeR @Schway • 23 november 2023 18:29

Moah, ja beetje lullig. Maar als door een foutje bij de klant heel amsix op de hobbel gaat, is het dan de verantwoordelijkheid van de klant?

Het is geen fout van de klant (overigens bij AMS-IX geen klanten maar leden). Het is een fout van de apparatuur van AMS-IX.

Schway @CyBeR • 23 november 2023 21:40

"customer"
"als"

D0phoofd @the_stickie • 23 november 2023 15:47

Wat een nutteloze toevoeging.
Er zijn heel veel klanten die een LACP bond met de AMS-IX hebben. Het is een probleem dat - zoals beschreven - de nieuwe Juniper's deze paketten propageerde, want niet hoort. Het was letterlijk een Butterfly-Effect.

ANdrode @D0phoofd • 24 november 2023 09:03

Drie bugs en een misconfiguratie samen (ik ga er vanuit dat alleen deze klant met LACP problemen gaf) die voor problemen zorgen.

Hier valt niet voor te testen, dit risico loop je altijd, helemaal in een multi vendor omgeving.

jordynegen11 23 november 2023 10:58

Een rate-limiter plaatsen klonk mij al als een tijdelijke ghetto fix. Gelukkig hebben wij onze port nog even uitgelaten..

chickpoint

@jordynegen11 • 23 november 2023 11:08

10:30 CET Update
- The Juniper core has been taken out of route
- Traffic from One Comm was identified as suspicious, and their connection was isolated from the network.
- Traffic appears to have stabilized.

Calypso @chickpoint • 23 november 2023 11:15

10:30 CET Update
- The Juniper core has been taken out of route

Oef... en dat nog geen week na het triomfantelijke persbericht dat de eerste lokatie om was naar Juniper en dat ze 2 jaar voorllepen op schema...

Cergorach

Storing

@Calypso • 23 november 2023 12:18

Oef... en dat nog geen week na het triomfantelijke persbericht dat de eerste lokatie om was naar Juniper

Maar, ik zag dat bericht op Tweakers.net al op 11 augustus, iets langer dan een week geleden...
nieuws: AMS-IX vervangt switches door Juniper en verlaagt energiegebruik met ...

Ik gok dat je deze bedoelt:
https://www.ams-ix.net/ams/news/first-core-node-migration
vs.
https://www.ams-ix.net/am...ult-in-85-power-reduction

Op 11 augustus hadden ze het over 'customer facing switches' (in AM5) en op 17 november over de 'core node'. Tweakers.net berichte niet over die Core node migration, dus voor de meeste van ons is de Juniper migratie die van augustus en dat maakt het een beetje onduidelijk.

Calypso @Cergorach • 23 november 2023 14:57

Er staat in de melding ook duidelijk dat het om de core ging - en aangezien dezelfde terminologie gebruikt is in het persbericht van AMS-IX zelf...

TimVriend @Calypso • 23 november 2023 12:05

Mjah, dat dus...

Neemt uiteraard niet weg dat dat bericht nog altijd was bedoeld om te laten zien hoe trots we zijn op de mensen achter de schermen en degene die verstopt zitten in het datacenter

TheVivaldi @Calypso • 23 november 2023 15:06

Voorlopen op schema neem ik dezer dagen met een korrel zout, of het nu een it-bedrijf, autobouwer of spoorwegmaatschappij betreft.

lolsra @chickpoint • 23 november 2023 11:55

Men heeft het Traffic from one of the connected networks was identified as suspicious, and their connection was isolated from the network. toch maar uit de 10:30 Update gehaald.

ANdrode @chickpoint • 23 november 2023 11:59

Dit klinkt als een harde ingreep, maar wel een ingreep die de situatie hopelijk stabiliseert.

Interoperabiliteits issues getriggerd door bepaald verkeer. Dat ontdek je niet.

Er wordt amper fuzzing gebruikt voor dit soort protocollen (helemaal niet met interop). Er is wat gedaan voor BGP door academici en Ben Cox maar verder ben ik niet bekend met fuzzing werk in deze hoek.

TweakOverflow @chickpoint • 23 november 2023 13:36

Sterker nog, het hele bericht is nu aangepast:

10:30 CET Update

We have applied some mitigation actions, including shutting down one customer port and isolating the Juniper core from the platform.
The platform is currently stable and we will continue to investigate further with our vendors Extreme and Juniper.

lolsra @chickpoint • 23 november 2023 11:13

"- Traffic from one of the connected networks was identified as suspicious, and their connection was isolated from the network."

Nu al benieuwd naar de aftermath

[Reactie gewijzigd door lolsra op 22 juli 2024 22:08]

locke960 @jordynegen11 • 23 november 2023 11:05

Aan het verkeer te zien zijn er meer die dat gedaan hebben.

mutley69 23 november 2023 11:19

Dat is ernstig lijkt me - zeker voor zo'n belangrijk punt als AMS-IX.

AW_Bos

@mutley69 • 23 november 2023 11:34

Het klinkt ernstig maar het valt wel mee, omdat de BGP en het Autonomous System de ruggengraat van het internet is, en het internet als het ware een web van een spin in met meerdere routes. Als er een verbinding onbereikbaar is, dan wordt er een andere route gekozen. Maar het kan voor overlast veroorzaken. Zeker als de andere peering minder capaciteit heeft, en de latency te hoog wordt.

[Reactie gewijzigd door AW_Bos op 22 juli 2024 22:08]

William_H @AW_Bos • 23 november 2023 16:18

Het was anders goed te merken gisteravond en vanochtend.

AW_Bos

@William_H • 23 november 2023 16:29

Ja, voor videocalls, socketverbindingen en gamers is latency echt iets wat je niet wilt hebben. Maar voor normaal internetgebruik waar je lekker onder genot van een YouTube muziekje lekker wat lezend en chattend aan het surfen bent, maakt het weinig uit.

William_H @AW_Bos • 24 november 2023 13:38

Het was dusdanig erg dat bepaalde sites het (even) niet deden. Was in mijn beleving dus wel even wat erger dan wat latency issues.

nullr0ute 23 november 2023 11:50

UPDATE

We have applied some mitigation actions, including shutting down one customer port and isolating the Juniper core from the platform.

From our observation, the platform is currently stable and we will continue with further joint investigation with both our vendor Extreme and Juniper.

[Reactie gewijzigd door nullr0ute op 22 juli 2024 22:08]

slijkie 23 november 2023 11:07

Zou hiermee ook iets te maken hebben dat ik NPO Start streams in het buitenland ineens niet meer kan zien? Via een Nederlandse VPN ging het wel. Erg handig met de verkiezingsavond. Gelukkig iemand zijn Ziggo account kunnen gebruiken om alsnog NPO1 te kunnen bekijken.

Lijkt dat het vanaf hetzelfde moment gebeurde, iets met de peering/transit routing van de NPO?

TheKmork @slijkie • 23 november 2023 11:31

Hangt er een beetje vanaf, werkte het bijvoorbeeld gistermiddag of de dag ervoor wel? Want anders kan het ook komen door de redesigned app/backend komen en dat ze meer filteren op connecties van buiten NL (niet zeker of dit het geval is, maar klinkt aannemelijker).

Hoewel niet onmogelijk, lijkt het me vrij onwaarschijnlijk dat het daarom geheel niet meer werkte. Het is vrij onwaarschijnlijk dat de NPO een volledige onderbreking zou hebben hiervan, ze hebben ongetwijfeld nog transit providers die dit verder transporteren buiten hun AMS-IX verbindingen om. Daarnaast lijkt het me sterk dat je provider enkel van peering afhankelijk zou zijn, en die hebben over het algemeen ook ofwel meerdere IX'en, ofwel een eigen transit (meestal beide).

Dus tenzij je probleem ook specifiek gisteravond begonnen is, en de middag ervoor nog wel werkte denk ik niet dat het per se gerelateerd is.

Backpacker @slijkie • 23 november 2023 11:37

Met NLziet gisterenavond geen enkel probleem gehad.

PaulHelper @slijkie • 23 november 2023 11:49

Jup, zeer zeker. Gisteren werkte Videoland überhaupt niet. NPO werkte als je geluk had maar bijvoorbeeld betalingen zijn nog steeds niet werkend.
Ziggo en Netflix waren de enige dingen die zover ik gebruik wel perfect werkten