Voor de mensen die geen Frans kunnen of het gewoon niet in Frans willen lezen, vertaald met DeepL:
Goedemorgen, Hallo,
Vanochtend hebben we een incident gehad op het optische netwerk dat onze Roubaix-site (RBX) verbindt met 6 van de 33 aanwezigheidspunten (POP' s) op ons netwerk: Parijs (TH2 en GSW), Frankfurt (FRA), Amsterdam (AMS), Londen (LDN), Brussel (BRU).
Deze 6 optische vezels zijn aangesloten op de optische knoopsystemen die 80 golflengtes van 100Gbps per glasvezelvezel mogelijk maken.
Voor elke 100G die op de routers is aangesloten, gebruiken we 2 optische paden die geografisch van elkaar gescheiden zijn. In het geval van een glasvezelknipsel, de beroemde "schep klap", het systeem herconfigureert zichzelf in 50ms en alle schakels blijven UP. Voor de aansluiting van RBX op POP's hebben we 4,4Tbps capaciteit, 44x100G: 12x100G naar Parijs, 8x100G naar Londen, 2x100G naar Brussel, 8x100G naar Amsterdam, 10x100G naar Frankfurt, 2x100G naar DC GRA en 2x100G naar DC SBG.
Om 8:01 uur zijn alle 100G links, de 44x100G, plotseling verloren gegaan. Gezien het redundantiesysteem dat we hebben opgezet, kan de oorzaak van het probleem niet de fysieke onderbreking van 6 optische vezels tegelijk zijn. We konden de diagnoses op het remote chassis niet maken omdat de managementinterfaces bevroren waren. We moesten direct ingrijpen in de routeringskamers, om de manipulaties op het chassis uit te voeren: de kabels loskoppelen tussen het chassis, het systeem opnieuw opstarten en uiteindelijk alleen de diagnose stellen bij de fabrikant van de apparatuur. Pogingen om het systeem opnieuw op te starten hebben lang geduurd, aangezien elk chassis 10 tot 12 minuten nodig heeft om te starten. Dit is de belangrijkste reden voor de duur van het incident.
Diagnose: Alle transponderkaarten die we gebruiken, ncs2k-400g-lk9, ncs2k-200g-cklc, bevinden zich in de stand-bystand. Een van de mogelijke oorzaken van een dergelijke toestand is het verlies van de configuratie. Dus we hebben de back-up opgehaald en de configuratie weer op zijn plaats gezet, zodat het systeem alle transponderkaarten opnieuw kon configureren. De 100G in de routers keerde natuurlijk terug en de verbinding van RBX met de 6 POP's werd om 10.34 uur hersteld.
Dit is duidelijk een softwarefout op optische apparatuur. De database met de configuratie wordt 3 keer opgeslagen en gekopieerd naar 2 monitoring boards. Ondanks al deze waarborgen is de basis verdwenen. We zullen samen met de OEM de bron van het probleem zoeken en helpen de bug te verhelpen. We trekken het vertrouwen met de OEM niet in twijfel, ook al is dit soort bug bijzonder kritisch. Uptime is een ontwerpprobleem dat rekening houdt met alle situaties, ook wanneer niets werkt. Paranoïde mode bij Ovh moet in al onze ontwerpen nog verder worden uitgewerkt.
Bug bugs kunnen bestaan, incidenten die onze klanten niet treffen. Er is duidelijk een fout gemaakt bij Ovh, want ondanks alle investeringen in het netwerk, in vezels, in technologie, hebben we net 2 uur stilstand gehad op al onze infrastructuren in Roubaix.
Eén oplossing is het creëren van 2 optische knoopsystemen in plaats van één. 2 systemen, dat wil zeggen 2 databanken en dus bij verlies van configuratie is slechts één systeem uitgeschakeld. Als 50% van de verbindingen via een van de systemen zouden we vandaag de dag 50% van de capaciteit verloren hebben, maar niet 100% van de verbindingen. Dit is een van de projecten die we een maand geleden begonnen zijn, het chassis is besteld en we zullen ze de komende dagen ontvangen. Binnen 2 weken kunnen we starten met configuratie- en migratiewerkzaamheden. Gezien het incident van vandaag wordt dit project een prioriteit voor al onze infrastructuren, alle cd's en POP' s.
In de cloud infrastructuur provider business, alleen paranoïde laatste laatste. De kwaliteit van de dienstverlening is een gevolg van 2 elementen. Alle voorziene incidenten "naar ontwerp". En de incidenten waar we geleerd hebben van onze fouten. Dit incident brengt ons ertoe om de lat nog hoger te leggen tot een nihil-risico.
Wij betreuren de 2H33 minuten stilstand op de RBX site oprecht. In de komende dagen zullen getroffen klanten een e-mail ontvangen om de toepassing van SLA-toezeggingen te activeren.
Met vriendelijke groeten
Octaaf
https://twitter.com/olesovhcom/status/928622841561604096
[Reactie gewijzigd door mmjjb op 23 juli 2024 21:21]