Microsoft: grote storing van deze week kwam door patch voor Wide Area Network

R2-D2 27 januari 2023 17:38

27 januari 2023 20:30

Het valt me wel op dat veel mensen hier het behoorlijk beter weten hoe je dit "simpel" kan voorkomen met wat backups hier en wat controles daar. Wat mensen hier vergeten is dat er werkelijk niemand is die dit zelf nog nooit heeft meegemaakt in hun eigen infra, die ze zelf hebben neergezet. Natuurlijk probeer je alles zo goed mogelijk neer te zetten, maar bij dergelijke complexe systemen en netwerk topologien kan er altijd iets mis gaan. Je leert van de fout en je zorgt ervoor dat het nooit meer gebeurd.

Daarnaast heb je natuurlijk een sla. Voor zover ik weet hebben ze de sla (nog) niet geschonden, maar dat maakt het niet minder vervelend.

balblas @david-v • 28 januari 2023 06:06

Helemaal eens. Daarnaast kan het merendeel niet goed lezen en begrijpt niet wat er daadwerkelijk mis ging en wat precies de impact was.

Het is echt niet zo dat heel Azure en M365 een paar uur helemaal plat lagen.

De netwerkproblemen waren na 2,5 uur helemaal opgelost, het grootste gedeelte al binnen 2 uur. De propagatie van routes en DNS changes wereldwijd duurt nou eenmaal even. Voor de slechte lezers: dat betekent dus niet dat alles 2 uur plat lag.

Verder hebben alleen klanten die pech hadden nog wat langer problemen ondervonden dan die 2,5 uur omdat een klein aantal monitoring systemen handmatig herstart moesten worden.

Zijn er geen failsafe servers of iets dergelijks? als er zo'n grote storing optreed dat het verkeer dan automatisch richting een andere server wordt geleid. Het is toch absurd dat het 5 uur en 40 minuten heeft geduurd..

Blokker_1999

Microsoft
Netwerk en systeembeheer

@R2-D2 • 27 januari 2023 19:41

Er zit reeds enorm veel redundantie in heel het Microsoft platform. Haal je 1 van hun datacentra offline ga je er zelfs niet al te veel van merken maar je kan nooit alles zo uitvoeren dat het onverwoestbaar is.

In dit geval is er een foutief commando gegeven op de kern van het netwerk. En dat zou op zich niet eens zo erg zijn, ware het niet dat deze output op zich ook weer een fout triggerd op andere delen in dat kern netwerk waardoor er uiteindelijk een cascade aan updates begint te ontstaan die niet voorzien zijn, die niet gepland zijn en waar je je niet zomaar tegen kunt wapenen. Deze updates leggen een groot deel van je kern netwerk stil. En dan is het gewoon gedaan. Dan moet je uitzoeken hoe je deze cascade kan stoppen en alles terug onder controle kunt krijgtn.

memphis 27 januari 2023 17:42

@R2-D2 • 27 januari 2023 17:48

Je kunt nu eenmaal niet alles 2x uit voeren. Wat stel je voor… de hele MSFT cloud twee keer bouwen? Enig idee van de kosten?
Bovendien zou deze fout dan ook naar die backup gepropageerd zijn. Genoeg voorbeelden gezien dat zo’n online continuity faciliteit dan ook onderuit gaat.

McBacon @ernstoud • 27 januari 2023 19:20

Enig idee van de kosten?

Is dan toch het probleem van Microsoft?

Zij proberen iedereen naar M365/Azure te krijgen (al dan niet helemaal op morele wijze) en sommige dingen draaien 100% in """de cloud""", mogen ze imo best zorgen dat er een betrouwbare failsafe is, in ieder geval toch zeker voor dingen waar je als klant/gebruiker geen controle over hebt. Kan redelijk simpel zijn, bijvoorbeeld het backupsysteem dat alleen na een expliciete handmatige actie de nieuwe config overneemt. Beetje wat je op Cisco-apparatuur hebt, pas als je zegt "save running config to startup" zijn de aanpassingen permanent. Pas je op systeem A de nieuwe config toe, maar gaat shit stuk dan laat je alles via B lopen terwijl je A terugzet. Je kan het op staging nog zo goed testen, productie kan toch net iets anders reageren.

Het ging in dit geval ook om wat problemen met/tussen routers, het is niet alsof je daarvoor meteen "de hele MSFT cloud twee keer [moet] bouwen".

Frame164 @R2-D2 • 27 januari 2023 17:42

Hoe zou jij het netwerk hebben gebouwd?

Ach ja, hier lag ook een deel van office plat waardoor mensen niet goed konden werken. Klein bedrijf dus ergens logisch om een deel van je IT zo uit handen te geven maar tegelijk ook slecht van Microsoft dat er geen backup is. Het is ook niet de 1e keer dat Office365 eruit ligt...

Marve79 @memphis • 27 januari 2023 18:10

Ik vind het wel handig. Nu zeg je gewoon het ligt aan de cloud en gebruikers lijken dat te accepteren. Bij een onprem storing doen ze dat minder of niet.

Polderviking

@Marve79 • 27 januari 2023 18:25

Bij een onprem storing doen ze dat minder of niet.

Nooit zo'n last van. Ligt er hier sowieso niet zo vaak uit maar meestal is wat ik of een collega roept wel gospel.
Afgelopen 15 jaar één keer iemand gehad die wel echt buitensporig veel bleef drammen.

Die gaf ik deze:
"Moet ik met jou praten of moet ik het probleem oplossen?"

Ik snap sowieso niet waar sommige medewerkers zo verhit van raken. Je krijgt gewoon betaald, ga koffie halen ofzo.

[Reactie gewijzigd door Polderviking op 22 juli 2024 13:17]

moonlander @Polderviking • 27 januari 2023 23:53

De kans dat je zonder internet zit is zo klein..en dna kun je altijd nog een hotspot maken en daarmee verbinden

@moonlander • 28 januari 2023 00:47

Mwah. Die kans is toch best wel groot.

De afgelopen twee/drie jaar heb ik dat meer dan eens gehad. Ik draai thuis veel 24/7 diensten (best effort basis) dus een daadwerkelijke netwerk storing haal ik er heel snel tussenuit. Wordt ook gewoon gelogd wanneer up en wanneer weer down.

Bij elkaar toch al gauw een uur of 30-40. Veelal wel ‘s nachts dus minder heftig mbt werk, maar wel vervelend voor mijn “klanten” in de VS die dan wel gewoon bezig zijn.

moonlander @supersnathan94 • 28 januari 2023 20:04

Je hebt het dan inderdaad over een huis en tuin internet verbinding zonder sla etc. Je mag daar conclusies uit trekken maar daar heb je dan niks aan.

nullbyte @Polderviking • 29 januari 2023 08:54

Ik snap sowieso niet waar sommige medewerkers zo verhit van raken. Je krijgt gewoon betaald, ga koffie halen ofzo.

Er zijn altijd lastige gebruikers. Verder kan iemand natuurlijk een deadline missen, moet daardoor vanavond doorwerken. Of mist een belangrijke afspraak met een klant enz enz.

Raymond Deen @Marve79 • 27 januari 2023 20:42

Ik zou dat soort applicaties sowieso nooit in de cloud willen draaien.
Zit je een keer ergens zonder internet met je laptop, dan ben je aangewezen op notepad en de rekenmachine, of zitten die tegenwoordig ook al in de cloud?

@Raymond Deen • 28 januari 2023 00:48

Nee maar de vraag is of je weet waar die staan. Kan best zijn dat microsoft de shortcut heeft verwijderd uit het startmenu of dat deze in het geheel niet meer werkt.

Guru Evi @Raymond Deen • 28 januari 2023 01:24

Nee, de applicatie wordt toegevoegd aan je O365 abonnement, waarbij 0.50 euro/maand/persoon bijkomt voor rekenmachine, 2 euro voor notepad, of je kunt ze combineren voor 5 euro met solitaire en mahjong.

Natuurlijk moet de licentie met de cloud verbinden en moet je eerst inloggen op Xbox Online (omdat het een game pakket is) met 2-factor authenticatie, opgepast dat je niet inlogt op je Azure login met hetzelfde e-mail adres, want dat is een ander account waar je persoonlijk Microsoft account aan verbonden is en als je inlogt via Outlook ga je eerst via GitHub moeten.

[Reactie gewijzigd door Guru Evi op 22 juli 2024 13:17]

nullbyte @Marve79 • 29 januari 2023 08:57

Nu is het overmacht, veroorzaakt door Microsoft. Als dat vaker gebeurt dan zullen ze dat ook minder gaan accepteren. De reden dat er zaken als service levels bestaan.

Ayporos @memphis • 27 januari 2023 19:09

Ja dat is het hele eieren eten natuurlijk.
Enerzijds is het goedkoper, beter en schaalbaarder als we met z'n allen dezelfde cloudboer gebruiken.. maar de keerzijde is wel weer dat je een stukje controle uit handen geeft.

Ik heb hier zelf altijd dubbele gevoelens over wanneer ik hoor dat de NS weer eens staakt of plat ligt vanwege blaadjes op het spoor of zo terwijl ik in de auto naar het werk onderweg ben.. dan moet ik altijd een beetje lachen om al dat gepredik dat we allemaal met het OV moeten en onze eigen auto weg moeten doen.

Lastige kwestie.. vooralsnog ben ik erg blij met mijn auto. Heeft me in meer dan een decennia nog nooit gefaald en staakt ook niet.

@Ayporos • 27 januari 2023 20:33

Lastige kwestie.. vooralsnog ben ik erg blij met mijn auto. Heeft me in meer dan een decennia nog nooit gefaald en staakt ook niet.

Dan woon je vast ergens in een hoekje van Nederland, want ik wil je wel in de spits zien rijden van Eindhoven naar Amsterdam en dan eerder aankomen dan iemand die met de trein gaat

@david-v • 28 januari 2023 00:50

Met de huidige tendens van stakingen in het OV is dat gemiddeld gezien niet zo moeilijk. Tis namelijk best een eind lopen.

avatars @supersnathan94 • 28 januari 2023 10:27

Gemiddeld gezien is het aantal dagen dat de NS niet rijdt vele malen kleiner dan het aantal dagen dat er geen files staan

Ayporos @david-v • 28 januari 2023 02:47

Ik woon niet ergens in een hoekje van Nederland.
Ik woon in een bescheiden stad, midden in het hart van Brabant, 10km van mijn werk, en mijn werktijden zijn buiten spitstijden dus ik sta nooit in de file.

Nee, iemand met het openbaar vervoer zou never nooit sneller van mijn huis naar mijn werk kunnen reizen.. en dit is op de meeste plekken in Nederland zo... buiten die ongezond grote en bebouwde steden.

nullbyte @Ayporos • 29 januari 2023 09:34

En nu net zoals de rest. Probeer die 10 KM even in de spits. Want op de meeste plekken in Nederland reizen de meeste mensen per auto in de spits. Zo'n beetje de definitie van het woord.

buiten die ongezond grote en bebouwde steden.

Dat zijn de meeste plekken in Nederland

Ayporos @nullbyte • 29 januari 2023 10:54

En nu net zoals de rest.

Nee bedankt. Dat jullie er voor kiezen elke dag in de sloot te springen moet je zelf weten. Ik heb betere dingen te doen dan elke dag uren van mijn kostbare tijd verspillen in een file.

Huby @david-v • 28 januari 2023 15:33

Rij jij ook in een Apple?

SPee @Ayporos • 27 januari 2023 22:13

Gelukkig draaien de NS kritieke systemen niet op Azure.

Een storing van 3 uur zorgde vorig jaar voor een dag zonder treinen. Deze storing bij Azure duurde 5 uur.

GeoBeo @SPee • 28 januari 2023 08:33

Vraag me serieus af hoe die keus tot stand komt.

Bestaan mensen die een veilige eigen server op kunnen zetten gewoon echt niet meer? Of is dat illusie?

MZONDERL @GeoBeo • 28 januari 2023 09:24

Ik denk niet dat het "opzetten" van een server alleen een probleem is, maar alle componenten in totaal, nu is het ook een WAN/Router configuratie bij Microsoft de oorzaak.

Dus ook eigen servers hebben netwerk componenten nodig, kan je een "veilige server opzetten", maar ook die netwerk componenten moeten in orde zijn.

Daarnaast kan je software in orde zijn, maar een hardware probleem kan altijd voorkomen, dus ook rekening houden met dubbel uitvoeren voor als 1 component uitvalt.

En eenmaal alles opgezet, moet het ook onderhouden worden en monitoren dat alles goed blijft draaien.

Dus ja, bestaan echt wel mensen die een "veilige server" kunnen opzetten, maar komt veel meer bij kijken dan alleen dat.

nullbyte @MZONDERL • 29 januari 2023 09:06

Azure AD is zowel een PaaS (Platform as a Service) als een SaaS (Software as a Service). Als daar een verstoring is waardoor de gehele dienstverlening niet meer beschikbaar is zoals een paar dagen terug dan is er waarschijnlijk meer aan de hand dan het niet meer "veilig kunnen opzetten van een servertje".

RAAF12 @Ayporos • 28 januari 2023 03:36

Een decennium is tien jaar.

@memphis • 27 januari 2023 18:01

Backup in de vorm van? De infrastructuur zelf is redundant, maar als je een configuratie fout maakt, gaat het vaak heel snel met de backup mogelijkheden.

Als je vroeger een SBS server had draaien, kon die server ook crashen waardoor je niet meer kon werken. Hoe zag je dan een eventuele backup als oplossing?

himlims_ @Rolfie • 27 januari 2023 18:15

Menig kmb hadden we een 1:1 bak erlangs staan, kabeltjes pluggen en gaan.
Grotere bedrijven een redundante oplossing al dan niet via co-locatie.

@himlims_ • 27 januari 2023 18:39

Netwerk routers? Complete servers? Vervangende netwerk switches?
Ik heb dit maar heel weinig bij kleine klanten gezien.

Ik heb heel wat hardware contracten gedaan, maar heel weinig MKB bedrijven hadden zo iets draaien.

Daarnaast is het vaak geen stekkertjes omwisselen. je zal ook de configuratie moeten overzetten, eventueel firmware upgrades uitvoeren.

nullbyte @Rolfie • 29 januari 2023 09:42

Inderdaad, de dienst die op die SMB server draait voor 99,9% redundant maken is vrijwel onmogelijk voor een MKB dit kost meer dan dat het op levert.

Ik heb meegemaakt dat er in een bedrijf met duizenden medewerkers er een exchange omgeving offline ging omdat er een vinkje (dns) door iemand werd uitgezet. Dan kan je nog zoveel redundante servers en infrastructuur hebben. Als een admin dit direct in een productie omgeving doet, dan ga je. En ook al is er een redelijke acceptatie omgeving, die heeft b.v. vaak niet de zelfde aantal clients waardoor de load anders is en realistisch testen niet altijd mogelijk is.

[Reactie gewijzigd door nullbyte op 22 juli 2024 13:17]

@nullbyte • 29 januari 2023 10:54

Redundantie maakt de infrastructuur ook meestal complexer, waarbij incidenten lastiger zijn en configuratie fouten ook sneller gemaakt zijn.

Het hangt er inderdaad vanaf wat je met redundantie wilt oplossen/voorkomen.

@Rolfie • 28 januari 2023 00:55

Daarnaast is het vaak geen stekkertjes omwisselen. je zal ook de configuratie moeten overzetten, eventueel firmware upgrades uitvoeren.

Active passive setup?

Switch 2 upgrade/config change doen, dan switchen van switch 1 naar twee, werkt dat niet dan kun je weer terug naar 1 en werkt het wel dan is switch 1 de volgende keer je upgrade target, waarbij switch 2 je fallback is.

Of denk ik nu te simpel?

Green blue deployments moet in hardwareland ook werken toch?

@supersnathan94 • 29 januari 2023 10:51

Active passive setup?

Bij een klein bedrijf?

Switch 2 upgrade/config change doen, dan switchen van switch 1 naar twee, werkt dat niet dan kun je weer terug naar 1 en werkt het wel dan is switch 1 de volgende keer je upgrade target, waarbij switch 2 je fallback is.

Kan Switch 2 nog steeds een fout genereren die eventuel je netwerk plat legt, tenzij je een complete aparte management infrastructuur hebt, wat een MKB eigenlijk nooit heeft.

Configuratie fout kan ook optreden tussen beide switches, wat ook weer incidenten kan geven.

En switch redundantie kan je uitvoeren bij servers of belangrijke netwerkapparatuur, maar bij werkstations is dit eigenlijk nooit het geval.

Of denk ik nu te simpel?

Hangt er vanaf wat je wilt opvangen aan fouten.

Green blue deployments moet in hardwareland ook werken toch?

Is mogelijk, maar dan vervang je ook fysiek de hardware, waarbij je kabels moet omwisselen, wat ook weer fouten kan geven.

Je moet per business case kijken wat je eigenlijk wilt bereiken.

[Reactie gewijzigd door Rolfie op 22 juli 2024 13:17]

@himlims_ • 27 januari 2023 19:12

En dan propageert een fout in je netwerkconfiguratie niet? Dus wel.
Leuke case is die van Danske Bank. Lang geleden maar een eye-opener voor iedereen die denkt dat redundantie een oplossing is voor continuïteit. Beschikbaarheid en continuïteit zijn verschillende begrippen.

https://danskebank.com/ne...-releases/2003/pr03042003

Ultiem voorbeeld van alles, letterlijk alles, dubbel uitvoeren en door een fout toch volledig plat gaan.

Bij mijn werk als Business Continuity consultant altijd leuk leesvoer voor de IT’ers die altijd roepen dat redundantie, clustering e.d. de oplossing is.

Terrestrial @ernstoud • 27 januari 2023 23:17

Mensen maken fouten ja maar dat wil niet zeggen dat je die redundantie niet alsnog nodig hebt. Dat is wel degelijk de oplossing. Want zonder die redundantie gaan er zeker dingen fout.

[Reactie gewijzigd door Terrestrial op 22 juli 2024 13:17]

@Terrestrial • 28 januari 2023 01:35

Redundantie is een deel van de oplossing maar business continuity vereist veel meer. Want wat doe je - zie de case van Danske Bank en de Microsoft case van deze week - als er een fout is die propageert? De fout zich dus ook verplaatst naar de systemen voor redundantie?

Ik heb meegemaakt dat een kleine fout van een beheerder in een productie omgeving zich tijdens een uitwijktest ook verplaatste naar het uitwijksysteem. Jammer, geen reparatie meer mogelijk.

Geloof me, 5 jaar gewerkt bij een uitwijkcentrum (CUC in Lelystad); redundantie is niet voor veel problemen de oplossing. En zeker niet voor menselijke fouten.

nullbyte @ernstoud • 29 januari 2023 09:48

Ik heb meegemaakt dat een kleine fout van een beheerder in een productie omgeving zich tijdens een uitwijktest ook verplaatste naar het uitwijksysteem. Jammer, geen reparatie meer mogelijk.

Daarom gaat les 1 ICT MBO ook over redundantie en backups.

@nullbyte • 29 januari 2023 12:07

De backup was dat uitwijksysteem. Dus aparte productie omgeving en een aparte uitwijk omgeving. Niet aan elkaar gekoppeld anders dan dat er een back up van productie naar uitwijk gemaakt werd elke dag.

En tijdens een uitwijktest werd een script gestart dat de uitwijk locatie onderuit haalde. Dus bij een daadwerkelijke calamiteit - productie kapot - zou dan ook uitwijk kapot gegaan zijn. Lees: grote ellende.

Dit dus als voorbeeld van het feit dat redundantie niet altijd zekerheid geeft.

En les 1 ICT MBO zou moeten gaan over restore, juist niet over back up. Teveel denken ICT’ers dat back up het probleem is. Dat is het niet. Je informatiehuishouding te allen tijde kunnen restoren, dat is je uitdaging. En denk je daarover na dan zijn geteste backups, maar ook policies, draaiboeken, kennis, de backup software, etc, ook delen van de oplossing.

Bij het uitwijkcentrum waar ik werkte kwamen ICT’ers vaak een test doen met backups die niet te restoren waren, zonder kennis hoe dat moest, etc. Erg leerzaam om te zien hoe onvolwassen dat denken soms is.

We moeten ophouden altijd te praten over backup. Dat is het probleem niet.

En backups testen. Als auditor zie ik dat dit gewoon geen aandacht krijgt. Een keer per jaar een VM terug zetten, dat is het vaak wel. Maar hoe restore je je hele omgeving?

[Reactie gewijzigd door ernstoud op 22 juli 2024 13:17]

Terrestrial @ernstoud • 28 januari 2023 10:11

Goede procedures opstellen en verzinnen wat er allemaal kan fout gaan als er mensenlijk falen optreed. Microsoft heeft niet voor niks z'n procedures aangepast, daar leer je van.. En soms is het juist weer met extra redundantie op te lossen, bijv. een offline omgeving of apparaat die je aanzet wanneer de online omgeving is verklooid. De betere vraag is, is het financieel lonend om overal rekening mee te houden en dan worden er vaak andere keuzes gemaakt.

[Reactie gewijzigd door Terrestrial op 22 juli 2024 13:17]

@Terrestrial • 28 januari 2023 12:15

Inderdaad, zo werkt het in de basis van BCM. En vooral transparantie naar je klanten.

PolarBear @ernstoud • 27 januari 2023 19:38

Ach ja hier op Tweakers lopen de beste stuurlui op wal. Nooit fouten, alles perfect redundant en nooit downtime. Ofzo.

@PolarBear • 27 januari 2023 19:53

Eerlijk gezegd heb ik genoeg cases gezien waar die zichzelf overschattende ICT’ers de grootste problemen veroorzaakten. Bij deze case dus ook weer.

@Hellboy! • 27 januari 2023 20:27

De case was in 2003. In die tijd draaide alles bij banken en verzekeraars op DB2.
En IBM slecht noemen? Tja. Ik begrijp dat soort uitspraken nooit zo. Komen bij mij als dominee versus priester over. Er is geen goed/slecht. Was de wereld maar zo lekker zwart/wit.

Op grote business critical applicaties zijn de Z/OS machines onverslaanbaar. Op de cliënt is Windows praktisch, op embedded en general purpose servers Linux of een ander Unix derivaat. Soms is een schroevendraaier de beste oplossing, soms een beitel.

IBM is slecht? Je trollt of je kent die wereld niet. Of beiden.

dasiro @ernstoud • 27 januari 2023 22:32

hij zal he waarschijnlijk over z'n 500€ lenovo laptop van de aldi hebben

nullbyte @ernstoud • 29 januari 2023 09:51

Nee joh, IBM heeft geen geld om kundig IT personeel in te huren. Da's per definitie slecht

@nullbyte • 29 januari 2023 12:10

Leg eens uit? Voorbeelden? Zoiets roeptoeteren is zinloos. Slaat discussie doet, voegt niets toe.

nullbyte @ernstoud • 29 januari 2023 18:54

Mijn excuses, er ontbreekt hier wat non verbale communicatie. Jij hebt helemaal gelijk.

bilkin2005 @Hellboy! • 28 januari 2023 00:36

Na 35 jaar werken op een AS/400 van IBM (of nieuwere versies) heb ik slechts één keer meegemaakt dat het systeem plat ging door IBM.

@bilkin2005 • 29 januari 2023 12:11

Mooie systemen, AS/400, RS/6000.

pa2ra @himlims_ • 29 januari 2023 12:33

bedoel je mkb (Nederlands) of kmo (vlaams)?

MaZo 27 januari 2023 19:32

@memphis • 27 januari 2023 17:49

Hoe stel je je zo’n backup voor? Het is gemakkelijk gezegd maar het kan niet.

Scriptkid @memphis • 27 januari 2023 20:19

Een veel gemaakte denkfout is natuur ook dat je 99.9% SLA hebt dus 43 minuten per maand of 8.6 uur per jaar mag de stekker er gewoon uit zonder issues.

En vergeet niet dat dat vaak vele malen hoger is dan dat menig bedrijf ook daadwerkelijk leverd inc maintenance onderhoud.

segil @memphis • 27 januari 2023 17:57

wanneer was volgens jou de vorige keer dat Office Microsoft 365 zo'n storing had?

nullbyte @memphis • 29 januari 2023 09:11

slecht van Microsoft dat er geen backup is.

Dan is de vraag, wat omvat dit WAN? Microsoft heeft vele datacenters waartussen data redundant is opgeslagen. Wellicht had deze change gefaseerd uitgevoerd moeten worden.

[Reactie gewijzigd door nullbyte op 22 juli 2024 13:17]

Single point of failure, anyone?

themadone @MaZo • 27 januari 2023 19:37

Yep, de beheerder met admin rechten, er is geen redundantie opgewassen tegen een "oeps" momentje natuurlijk.

klakkie.57th 27 januari 2023 18:32

Eigenlijk komen ze hier toch veel te makkelijk mee weg ...

Ik herrinner me nog alsof het gisteren was dat een directeur in mijn oor stond te roepen dat iedere minuut downtime hem 100.000BEF kostte.... en toch vind/vond ik dan veel leuker dat volledig afhankelijk te zijn van een derde partij ...

@klakkie.57th • 27 januari 2023 19:07

De vraag is altijd: kun je het zelf beter? Goedkoper? Bijblijven in de techniek, heb je daar de mensen voor? Of accepteer je 99,99% beschikbaarheid?

klakkie.57th @ernstoud • 27 januari 2023 19:09

Ze halen geen 99,99 , dat is nl maar 1uur per jaar.

Daily 9 seconds
Weekly 1 minute
Monthly 4 minutes 19 seconds
Yearly 52 minutes 34 seconds

[Reactie gewijzigd door klakkie.57th op 22 juli 2024 13:17]

Christoxz @klakkie.57th • 27 januari 2023 19:45

Dus kunnen bedrijven nu beroep doen op hun 25% 'Service Credit' volgens de SLA. (Althans Exchange Online)
((43200– 340)/43200) * 100 = 99.21% Uptime. (Exclusief eventuele andere storingen dze maand)

Het niet halen van 99,99% is ook niet persee 'slecht', dat is wat zij garanderen zonder 'aansprakelijk' te zijn.

Eigenlijk komen ze hier toch veel te makkelijk mee weg ...

Dus ze komen er niet 'makkelijk' mee weg, je kan nu gewoon beroep doen op de Service credit die zij beloven en waar bedrijven mee akkoord zijn gegaan.

@Christoxz • 27 januari 2023 20:18

Sla is ook 99.9% (three nines) dus ze kunnen nog een paar uur down

Christoxz @david-v • 27 januari 2023 22:50

Weet niet helemaal wat je punt is, aangezien de uptime met deze storing al 99.2% is.

Edit: ik zie al in je andere reacties hoe je hier op komt. Maar Microsoft SLA is per maand, niet per jaar.
Als 1 storing dus langer duurt dan 43 minuten, heb je recht op compensatie.
((43200– 43)/43200) * 100 = 99.9%

[Reactie gewijzigd door Christoxz op 22 juli 2024 13:17]

@Christoxz • 28 januari 2023 00:02

Je hebt gelijk, per maand, niet goed gelezen. Ik ben benieuwd hoe dat dan met de korting verwerkt wordt, gaat dat automatisch of moet je er achter aan?

@klakkie.57th • 27 januari 2023 19:16

Ok. 99,96 % dan. Wijsneus

klakkie.57th @ernstoud • 27 januari 2023 19:21

Heeft niks met wijsneus te maken, ze hebben gewoon hun vooropgestelde SLA’s van 99,99 niet gehaald

Blokker_1999

Microsoft
Netwerk en systeembeheer

@klakkie.57th • 27 januari 2023 19:50

En als je een SLA hebt afgesloten, dan zal je daar ook voor gecompenseerd worden.

@klakkie.57th • 27 januari 2023 20:19

Office 365 sla is dacht ik 99.9%, of kijk ik nou verkeerd?

Scriptkid @klakkie.57th • 27 januari 2023 20:23

Alleen is de SLA niet 99.99 maar 99.9 op M365,

Alleen bepaalde Azure componenten hebben hogere SLA

https://www.microsoft.com...s-SLA-for-Online-Services

Raymond Deen @klakkie.57th • 27 januari 2023 20:47

Voor de komende jaren meteen maar dan

Maar even een reality check: wie dat gelooft en er op rekent dat dat zou kloppen heeft boter op z’n hoofd, want dat is vrijwel onmiddellijk.

Triblade_8472 @klakkie.57th • 27 januari 2023 18:50

Makkelijk? Hoe vaak komt dit voor dan? En welke 'straf' had je in gedachte, met name eentje dit herhaling kan voorkomen?

Ik ben al zeer tevreden over het feit dat ze zulke openbaarheid geven over de toedracht. Dat zag je 10 jaar geleden niet hoor.

klakkie.57th @Triblade_8472 • 27 januari 2023 18:58

1 keer is gewoon 1 keer teveel.
Wat is hun high-availability/multi-region verhaaltje nog waard na dit soort incident.
Juist, helemaal niets, want dan hadden nooit alle regio’s geïmpacteerd kunnen zijn.
Waarom zou je nog betalen voor azure HA oplossingen als die het toch niet doen 🤷🏻‍♂️

En wat de openbaarheid betreft, moet je hun ook maar geloven op hun communiezieltje.

[Reactie gewijzigd door klakkie.57th op 22 juli 2024 13:17]

@klakkie.57th • 27 januari 2023 19:16

1 keer is gewoon 1 keer teveel

Ah, dus je wens is eigenlijk 100% uptime. Dat is best knap, aangezien werkelijk niemand in de hele wereld dat kan leveren.

klakkie.57th @david-v • 27 januari 2023 19:23

Ze claimen zelf 99,99 voor verschillende diensten, als ze het dan niet waarmaken mag je hier toch echt wel een punt van maken. Daarenboven 99,999 is niet ongebruikelijk.
Het gaat hem niet over “hoe vaak” , maar om “hoe lang”

[Reactie gewijzigd door klakkie.57th op 22 juli 2024 13:17]

@klakkie.57th • 27 januari 2023 20:17

Volgens mij heeft Office 365 een sla van 99.9% (iets meer dan 8 uur downtime, deze downtime was 5 uur en 40 minuten), haal je dat niet, krijg je 25% compensatie voor de maand waarop het gebeurt, 50% bij 99% of minder uptime, 100% bij 95% of minder uptime.

Daarenboven 99,999 is niet ongebruikelijk

er zijn hier en daar wat losse services die dat aanbieden, maar dit getal van uptime kom ik nauwelijks tegen in contracten.

klakkie.57th @david-v • 27 januari 2023 20:30

Er zijn wel andere dingen offline gegaan dan enkel o365.

@klakkie.57th • 27 januari 2023 20:35

Zeker, die hebben ook een sla en daar zal je als bedrijf ook naar moeten kijken, daar zijn nou slas voor.

klakkie.57th @david-v • 27 januari 2023 20:41

Microsoft claimed dat je diensten met een uptime van 99,99% aan mekaar knoopt over verschillende regio’s om ze een hogere uptime te bekomen, maar blijkbaar ondersteunt hun backbone deze situatie niet. Dan mag je wel gecompenseerd worden per individueel onderdeel, maar je nam deze HA setup net af om een betere overal SLA te bekomen.

scsirob 27 januari 2023 17:37

@klakkie.57th • 27 januari 2023 21:01

Ik ken alleen de office 365 sla van 99 9%. Ik kan nergens vinden dat je dat hoger kan krijgen

klakkie.57th @david-v • 27 januari 2023 21:06

De outage heeft zich toch niet beperkt tot enkel O365.

Between 07:05 UTC and 12:43 UTC on 25 January 2023, customers experienced issues with networking connectivity, manifesting as long network latency and/or timeouts when attempting to connect to resources hosted in Azure regions, as well as other Microsoft services including Microsoft 365 and Power Platform. While most regions and services had recovered by 09:00 UTC, intermittent packet loss issues were fully mitigated by 12:43 UTC. This incident also impacted Azure Government cloud services that were dependent on Azure public cloud.

Scriptkid @klakkie.57th • 27 januari 2023 20:26

Je mag er ook een punt van maken , Staat Nl gewoon in je SLA die je getekend hebt die overigens voor de meeste componenten 99.9 is en dus nog steeds gehaald is , maar als die overschreven word krijg je vanzelf compensatie zoals in SLA beschreven hoe je niet eens een klacht voor in te dienen.

https://www.microsoft.com...s-SLA-for-Online-Services

Bij overschrijding staat er gewoon een retour tarief waarmee je akkoord bent gegaan.

nullbyte @klakkie.57th • 29 januari 2023 09:25

Daarenboven 99,999 is niet ongebruikelijk.

Dat is wel ongebruikelijk. Elke 9 extra brengt enorme kosten met zich mee. Extra redundantie komt niet zomaar eventjes aanwaaien.

pa2ra @klakkie.57th • 29 januari 2023 12:36

waar kan ik 99,999% uptime krijgen? Vertel me dat alsjeblieft.

klakkie.57th @pa2ra • 29 januari 2023 13:46

Bij grote providers kan dit vaak wel.
Dat staat niet gewoon op hun website, maar hier gaan onderhandelingen aan vooraf waar dan ook een design wordt gemaakt.

In dit geval ging de storing over het backbone “Netwerk”, dan verwacht ik bij een bedrijf als microsoft dat, dit inderdaad een SLA heeft van 99,999, waar ik dan als klant van Microsoft van profiteer.

[Reactie gewijzigd door klakkie.57th op 22 juli 2024 13:17]

cricque @klakkie.57th • 27 januari 2023 20:52

Jij maakt dus nooit fouten ?

Ik heb jaren geleden gekozen om alles te draaien op Google Cloud, was goedkoper en is nog altijd goedkoper voor de meeste dingen. Ik heb dus letterlijk sinds 2015-2016 nog nooit geweten dat mijn applicaties niet beschikbaar waren. Zelfs niet bij database upgrades etc. Ben blij da ik toen tijd heb genomen om Azure/AWS/Google Cloud te vergelijken en dat ik toen denk ik toch wel de juiste keuze heb gemaakt.

Maar zoiets kan gebeuren, ik leg dat ook uit aan klanten. Er zijn problemen die ik kan verhelpen, maar als Google cloud eruit ligt, dan moet ik ook wachten. Zo simpel is dat. Enja ik heb ook een 2de server draaien en kan eigenlijk gewoon de routing aanpassen naar die 2de server, met een replica db etc. Maar effe routen naar server 2 kan ook effe duren. Zo werkt nu alles eenmaal.
En de meesten roepen moord en brand. Maar zoveel kritische applicaties zijn er nu ook niet weer. Iedereen zegt wel dat is kritisch, maar voor mij is kristisch "luchtverkeersleiding, hulpdiensten, politie, stroom/gas etc" de rest beschouw ik niet als kritisch. Is het leuk nee, maar er gaat niemand van sterven hoor.
En als je het zelf draait is het dan beter ? Je kan een server voorzien en een backup server en toevallig faalt er iets op de 1ne, dus effe naar server2 en daar faalt ook iets op. De baas zal eens lachen als jij zegt ik wil nog een 3de. Veel mensen moeten ook klaarblijkelijk niet zelf de factuur betalen van al het moois waar ze dagelijks mogen mee spelen.

klakkie.57th @cricque • 27 januari 2023 21:17

Het argument is steeds dat iemand als “ik” fouten maakt en daarom gaan we naar AZURE/AWS/whatever. In dit geval zou de “ik” in dat verhaal ontslagen worden … nu gaat men normaliseren omdat het Microsoft is

Triblade_8472 @klakkie.57th • 28 januari 2023 00:00

In 2018 is AWS meer dan 24 uur down geweest.
In 2019 is Google Cloud bijna 5 uur down geweest.
En nu Microsoft (Azure) met 5 uur en 40 minuten.

Deze dingen kon ik snel vinden. Er zullen vast meer voorbeelden zijn.

Ik denk dat jij nooit meer iets op internet kan of wil. Alles kan potentieel down gaan dus.

Dingen gaan nouweenmaal een keer down. Shit happens. Daarom kan niemand 100% garanderen.

emcore @Triblade_8472 • 27 januari 2023 19:43

Ik ben al zeer tevreden over het feit dat ze zulke openbaarheid geven over de toedracht. Dat zag je 10 jaar geleden niet hoor.

Toevallig met Azure juist wel, want bijna 11 jaar geleden ging Windows Azure, zoals het toen nog heette, plat door een schrikkeljaar bug. Daarover gaven ze veel duidelijkheid:
https://azure.microsoft.c...ruption-on-feb-29th-2012/
Sowieso een leuke post om terug te lezen, omdat ze behoorlijk in detail vertellen wat er toen mis ging.

Was voor mij een eye opener om te lezen dat dit soort foutjes dus ook in dergelijke grote organisaties gemaakt worden.

scsirob @klakkie.57th • 27 januari 2023 19:02

Tsja. Ik zou zeggen: lees de SLA van de dienst waarmee je akkoord gegaan bent. Als je kunt aantonen dat Microsoft zich niet aan de SLA gehouden heeft dan kan je hen aansprakelijk stellen. Anders zal je óf moeten accepteren dat de dienst er wel eens uit ligt, óf een andere oplossing moeten zoeken die wel aan je eisen voldoet.

MadMarky

27 januari 2023 18:02

Volgens Microsoft was de betreffende opdracht niet goed getest op de specifieke router waar die werd uitgevoerd. Het bedrijf erkent dat de opdracht verschillend kan reageren op specifieke hardware en dat het betreffende kwaliteitscontroleproces niet goed was doorlopen.

Zullen wel Cisco routers zijn waarbij de CLI commando's bij verschillende IOS software versies weer nét even anders geïnterpreteerd worden. Blij dat ik niet meer met dat spul hoef te werken.

Scriptkid @MadMarky • 27 januari 2023 20:29

Volgensmij als je de sessies van Mark russinovisch kijkt geven ze aan dat het linux machines zijn met een speciale eigen distro, Normale router hardware was nl te traag met update / downtime tijdens updates.

Zenix @Scriptkid • 28 januari 2023 00:27

Een Arista is ook gewoon Linux. Hyperscalers kopen vaak gewonr router/switch hardware (whitebox) of maken ze zelf met hun eigen software.

Bijzonder. Een WAN van deze omvang beheren zonder scheiding van management- en user traffic? Geen out-of-band management?