Microsoft: Azure-storing kwam door problematische upgrade in opslagplatform

De grootschalige storing woensdag op Microsofts Azure-platform zou te wijten zijn aan een poging het opslagplatform van de clouddienst een update te geven. Microsoft was genoodzaakt om de update aan de Azure Storage-service terug te draaien.

Klanten in Europa, de Verenigde Staten en een deel van Azië hadden woensdag last van een grote storing die ongeveer 11 uur duurde. Ook een aantal diensten van Microsoft zelf waren enige tijd slecht te bereiken waaronder Office 365 en Xbox Live.

In eerste instantie was de oorzaak van de storing niet geheel duidelijk maar inmiddels heeft Microsoft meer duidelijkheid gegeven. Het Azure-platform zou plat zijn gegaan door een 'performance update' aan de Azure Storage-service, zo laat de verantwoordelijke directeur Jason Zander weten. Doordat ook het Service Health Dashboard en het Azure Management Portal, beide afhankelijk van de Storage-service, plat gingen, werden de problemen voor klanten verergerd. Microsoft laat weten dat het updates voor Azure voortaan in kleinere stappen wil uitrollen en de recovery-procedures wil verbeteren om eventuele storingen zo kort mogelijk te laten duren.

Lees meer

Reacties (31)

Naj_Geetsrev 20 november 2014 16:35

11 uur is een hele poos. Je zal als bedrijf maar afhankelijk zijn van Azure (en de producten die er mee te maken hebben). Volgens mij geeft Microsoft een SLA af van 99,9%, 11 uur is dus te veel. Hoe gaat Microsoft hier mee om? Of zijn hier weer kleine lettertjes voor?

masterpoi

@Naj_Geetsrev • 20 november 2014 16:59

Bij een van de vorige grote storingen (29 feb 2012) deden ze dit:

Microsoft recognizes that this outage had a significant impact on many of our customers. We stand behind the quality of our service and our Service Level Agreement (SLA), and we remain committed to our customers. Due to the extraordinary nature of this event, we have decided to provide a 33% credit to all customers of Windows Azure Compute, Access Control, Service Bus and Caching for the entire affected billing month(s) for these services, regardless of whether their service was impacted. These credits will be applied proactively and will be reflected on a billing period subsequent to the affected billing period. Customers who have additional questions can contact support for more information.

http://azure.microsoft.co...ruption-on-feb-29th-2012/

Martinspire

Microsoft

@Naj_Geetsrev • 20 november 2014 17:51

Dat de storing 11 uur duurde, wil niet zeggen dat alle services er ook 11 uur uit waren. Alleen dat er 11 uur problemen waren in de gehele stack

CyBeR @Naj_Geetsrev • 20 november 2014 17:02

Een SLA is niet meer dan "we proberen zo hard als we kunnen om X voor elkaar te krijgen, en als dat niet lukt dan staat daar Y tegenover". En meestal is Y dan zoiets als een credit op je factuur.

Voor daadwerkelijke uptime heb je niks aan een SLA.

[Reactie gewijzigd door CyBeR op 23 juli 2024 21:26]

MSalters @CyBeR • 21 november 2014 00:58

Dat hangt er van af. De meeste SLA's zijn inderdaad niet veel meer dan dat, vooral bij goedkopere contracten (als je daar al een SLA krijgt). Maar als je iets meer betaalt, dan kun je zaken krijgen als failover naar een ander DC, en dat zorgt wel voor extra uptime.

geertdo @Naj_Geetsrev • 20 november 2014 17:04

Volgens mij is 11 uur de doorlooptijd geweest, niet de tijd dat er 'geen service' is. Bij mij in ieder geval 0 uur storing en status geeft niet aan dat er een serviceonderbreking is geweest.
Eindresultaat bij mij was in ieder geval:

Ons onderzoek is afgerond en we hebben vastgesteld dat de service goed werkt en dat er geen service-incident heeft plaatsgevonden

En 11 uur is: 99,87%

ArcticWolf @Naj_Geetsrev • 20 november 2014 21:10

Wij hebben al onze licentie servers op MS Azure draaien (Schiphol) en wij hebben geen last gehad van de storing...

Batje4 20 november 2014 16:42

Onderhoudswindows en consequenties van onderhoud worden nog wel eens uitgesloten van de beschikbaarheids meting. Dus die 99,9% geldt dan niet voor (problemen tijdens of als gevolg van werkzaamheden in) het servicewindow.
Heb dat soort contracten in de kast liggen. Geen probleem, zolang de risico's beperkt zijn.

Ik weet niet of Azure op zo'n contract is gebaseerd. Wil wel aangeven dat dat soort contracten bestaan.

Naj_Geetsrev @Batje4 • 20 november 2014 16:44

Ik ken dat soort contracten zeker. En heb er alle begrip voor. Alleen in dat soort contracten staat aangegeven dat alleen gepland onderhoud niet meetellen. Gepland onderhoud is in een bepaald gepland window. Overschrijdingen van dit window is in mijn ogen outage die onder de SLA uptime garantie valt.

lvmeijer @Batje4 • 20 november 2014 16:45

Mensen met een contract kunnen aanspraak maken op de SLA van Storage. Voor VM's is dat alleen als ze in een Availability Set van minimaal 2 waren geplaatst. Onderhoudswindows met impact worden van te voren per e-mail aangekondigd en dat was dit keer niet het geval.

Verwijderd 20 november 2014 16:09

De rollback was redelijk snel doorgevoerd, maar het herstarten van alle instances gaf veel problemen. Ik zag ook een aantal instances die bleven hangen tijdens het opstarten, waar uiteindelijk Microsoft aan te pas moest komen.

Verder wel vreemd dat Australië wel overeind bleef. Staat dat los van elkaar dan?

bop @Verwijderd • 20 november 2014 16:21

Ik las gisteren (even geen bron) dat met de instances opzich nooit iets mis is geweest maar dat met de harddisks waar de data van de instances op stond wel. Hierdoor konden ze dus niet geboot worden en heeft de rollback gewoon heel lang geduurd.

@freaky hieronder: Mijn punt was ook dat het feit dat de instances goed draaide niks te maken had met een goede rollback (wat @Juicyhill suggereerde) omdat de instances zelf nooit een probleem hebben gehad.

[Reactie gewijzigd door bop op 23 juli 2024 21:26]

freaky @bop • 20 november 2014 17:43

Dan bedoelen ze dat je CPU en mem het gewoon deden.

Maar daar heb je geen hol aan gezien je wel afhankelijk bent van die opslag om de VM te laten draaien

De meeste mensen, met name die met problemen, zullen je in deze dus geen gelijk geven. Geen storage is geen VM. Als je volledig uit RAM draait zal je weinig problemen hebben gehad inderdaad, maar dat gebeurt niet vaak.

CyBeR @Verwijderd • 20 november 2014 17:00

Verder wel vreemd dat Australië wel overeind bleef. Staat dat los van elkaar dan?

Australië is ver weg dus 't zou logisch zijn dat hun storage zich wat lokaler bevindt dan Europa.

To_Tall

@CyBeR • 20 november 2014 17:58

Elk datacenter heeft zijn eigen opslag.. als in AMS de upgrade wordt uitgevoerd.. dan deint dit door tot aan spanje

Gezien NL een groot azure datacenter heeft in de EU.. geloof 3 datacenters totaal.

Rudie_V 20 november 2014 16:56

11 hevige uurtjes voor de specialisten die aan het werk waren. Maarja, met zulke grote omgevingen kan ik begrijpen dat er wel eens wat mis gaat, het wordt allemaal zo groot en volgens de fabrikant kon je zonder problemen upgraden mits je de procedure volgt.. totdat... En een rollback in zoiets groots kan dan opeens lang duren.

ASS-Ware @Rudie_V • 20 november 2014 18:25

11 hevige uurtjes voor de specialisten die aan het werk waren. Maarja, met zulke grote omgevingen kan ik begrijpen dat er wel eens wat mis gaat, het wordt allemaal zo groot en volgens de fabrikant kon je zonder problemen upgraden mits je de procedure volgt.. totdat... En een rollback in zoiets groots kan dan opeens lang duren.

Jij begrijpt dat er wel eens wat mis gaat, ik begrijp niet dat niet.
Volgens mij is hier de DTAP straat voor verzonnen.
Eerst doe je Development en Test servers, dan Acceptatie en daarna pas Productie, je gaat niet alles in 1 keer uitrollen.

Rudie_V @ASS-Ware • 20 november 2014 19:25

Je heb blijkbaar geen ervaring in de IT, dat haal ik wel uit je antwoord en anders zou je het wel kunnen begrijpen uit eigen ervaring. Hoe vaak je iets ook test en scenario's doorneemt, er kan altijd wat fout gaan. Als je vaker op tweakers kom zal je regelmatig nieuws tegenkomen waarbij updates toch niet overal goed gaan.
En wij hadden OTAP omgevingen, ontwikkel, test, acceptatie en produktie.

ASS-Ware @Rudie_V • 20 november 2014 19:27

Je heb blijkbaar geen ervaring in de IT, dat haal ik wel uit je antwoord en anders zou je het wel kunnen begrijpen uit eigen ervaring.

Slechts 19 jaar IT-er bij een Nederlandse bank met DTAP straat, is dat genoeg?
Enne, mede verantwoordelijk voor de maandelijkse Windows patches op zo'n 3900 servers, zegt dat iets?

Als DT fout gaat, dan stop je.
Als DT goed gaat en A fout, dan stop je.
Als DT en A goed zijn gegaan, dan doe je P gefaseerd.
Zo voorkom je heel veel problemen.

[Reactie gewijzigd door ASS-Ware op 23 juli 2024 21:26]

Rudie_V @ASS-Ware • 20 november 2014 19:49

Voor iemand met zolang IT ervaring kan je je dan maar weinig inleven hoe iets tijdens een update proces toch nog fout kan gaan. Maar als je alleen maar ooit voor windows patches verantwoordelijk ben geweest, tsja, met alle respect, dan kan ik de onbegrip misschien wel begrijpen, want een windowspatch stelt maar weinig voor met updates voor een omgeving zoals het azure opslagplatform, dat is wel heel wat uitgebreider dan een windowspatchje installeren en kijken of alles nog werkt.

Maar al jullie updates in jullie complete IT organisatie zijn in jouw 19 jaar IT ervaring altijd 100% goed gegaan zonder maar 1 enkel probleem ooit?
Ik begrijp dat bij banken alles zeer goed getest wordt, maar ook daar zijn wel eens IT problemen met updates. Zo nu ook bij het azure platform en ze hebben gekozen voor een roll-back. Maar zoals je weet hoort een roll-back procedure ook gewoon in een update procedure thuis.

Lees de link in het artikel nog maar eens http://azure.microsoft.co...age-service-interruption/ . Het was een uitzonderlijk probleempje wat zich opeens voordeet, door blijkbaar bepaalde condities, die nog niet eerder waren voorgekomen.

[Reactie gewijzigd door Rudie_V op 23 juli 2024 21:26]

ASS-Ware @Rudie_V • 21 november 2014 00:02

Voor iemand met zolang IT ervaring kan je je dan maar weinig inleven hoe iets tijdens een update proces toch nog fout kan gaan.

Blijkbaar lees je niet goed, ik gaf namelijk aan dat als DT fout gaat, dat je stopt, als A fout gaat, dat je stopt, als er niets is fout gegaan, dan doe je P GEFASEERD.

Maar als je alleen maar ooit voor windows patches verantwoordelijk ben geweest,

En wederom lees je niet goed.
Ik typte: "Enne, mede verantwoordelijk voor", hetgeen niet betekent dat dat het enige is wat ik doe.

Maar al jullie updates in jullie complete IT organisatie zijn in jouw 19 jaar IT ervaring altijd 100% goed gegaan zonder maar 1 enkel probleem ooit?

Nee hoor, in DT zijn er wel eens issues geweest, dat was het moment om direct een rollback te doen en A en P niet te voorzien van die updates.
1 keer hebben we problemen gehad in P met een bepaalde applicatie via Citrix aangeboden, en dat was alleen maar omdat de gebruikers en applicatiebeheerders niet eerst hebben getest in DT en A.

[Reactie gewijzigd door ASS-Ware op 23 juli 2024 21:26]

Rudie_V @ASS-Ware • 21 november 2014 00:25

Toen ik je reactie las stond je edit er niet. Die zag ik pas later nadat ik gepost had en een refresh van de site had gedaan. Dus heel je stukje over hoe je je omgevingen update stond er niet!
Verder is het vrij logisch dat zodra in een omgeving problemen ontstaan met een update je natuurlijk niet verder gaat, maar bedankt dat je dat nog even voor ons uitlegt

Overigen kunnen op de OT omgevingen nog wel eens problemen ontstaan die zich op de AP niet voor hoeven te doen. De OT zijn voor de ontwikkelaars die nog wel eens zitten de klooien met van alles en nog wat, maar daar zijn ze ook voor.

Desalniettemin neemt het niet weg dat je voor iemand die in de IT werkt weinig begrip op kan maken voor problemen tijdens een upgrade waarvoor zelfs een roll-back gedaan moeten worden. Iedereen is anders en ik respecteer je antwoord, maar ik vind het erg vreemd dat je fouten in de business waarin je zelf ook werkt niet kan begrijpen. Maar nogmaals, een windows updaten is over het algemeen wat minder risicovol als de software die er bovenop draait.

Duh haha, ik snap heus wel dat je niet alleen maar windows patches installeren doet als werk. Maar wat ik er uit op maak is dat jij in je werk alleen maar je windows machines heb gepatched. Maar heb je bijvoorbeeld ook wel eens updates uitgevoerd voor de complete business applications die op je servers draaien? En update je ook exchange, sql, sharepoint, etc, dat soort software.

huntedjohan @ASS-Ware • 20 november 2014 19:49

Slechts 19 jaar IT-er bij een Nederlandse bank met DTAP straat, is dat genoeg?
Enne, mede verantwoordelijk voor de maandelijkse Windows patches op zo'n 3900 servers, zegt dat iets?

sorry dat ik het zeg maar als je niet kunt begrijpen dat er tijdens een upgrade een onvoorziene storing optreed is het in mijn ogen blijkbaar niet genoeg geweest. Of wou je nu werkelijk beweren dat jij 19 jaar de ITer ben bij de NL bank en dat er in die 19 jaar nooit iets fout is gegaan wat onder normale omstandigheden gewoon zou gaan werken?

Zo voorkom je heel veel problemen.

voorkom je veel problemen of voorkom je alle problemen? Ik hoor weinig klachten omtrent storingen binnen azure, dus volgens mij voorkomen ze VEEL problemen, maar ze kunnen niet alles voorkomen.

ASS-Ware @huntedjohan • 21 november 2014 00:06

Of wou je nu werkelijk beweren dat jij 19 jaar de ITer ben bij de NL bank

Ik zei: "Een Nederlandse bank", niet De Nederlandsche bank, dat is iets heel anders.

MaDMaRTiGaN648 @ASS-Ware • 20 november 2014 20:08

Ik ben wel erg benieuwd welke Nederlandse bank dat dan is. Vorig jaar nog was Nederland koploper met de meeste bankstoringen in Europa...

Freekers @ASS-Ware • 20 november 2014 23:10

Gezien de hoeveelheid storingen afgelopen jaar bij alle Nederlandse banken, valt ook daar nog genoeg winst te halen qua stabiliteit en betrouwbaarheid

SeelenSchmerz 20 november 2014 16:18

Hotmail gaf gisteren ook een tijdje problemen met verzenden en het opslaan van "Draft"e-mails.
Kan niet met zekerheid zeggen of het er los van staat of ook mee liftte met deze storing.

Canaria 20 november 2014 19:48

Ik heb een paar server-VM's in Azure draaien en daar kon ik vandaag niet meer op inloggen. Ook de PowerShell commandlet om het password te resetten werkte niet.
Toevallig had ik de laatste keer dat ik ingelogd was mijn password gewijzigd. Maar zowel mijn oude als mijn nieuwe werkte niet. Ik hoop dat het door de storing kwam.
Van storing in de mail van Office 365 E3 heb ik niets gemerkt. Ook mijn publieke website en teamsite op SharePoint Online zijn niet uit de lucht geweest.

Martinspire

Microsoft

@cappie • 20 november 2014 17:52

Je gebruikt ook geen apps, sites en andere media? Of bedrijven die daar wel iets op hebben? Direct misschien niet, maar indirect kan het wel degelijk.

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (31)

Sorteer op:

Weergave: