Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 32 reacties
Submitter: Tarabass

De grootschalige storing woensdag op Microsofts Azure-platform zou te wijten zijn aan een poging het opslagplatform van de clouddienst een update te geven. Microsoft was genoodzaakt om de update aan de Azure Storage-service terug te draaien.

Klanten in Europa, de Verenigde Staten en een deel van Azië hadden woensdag last van een grote storing die ongeveer 11 uur duurde. Ook een aantal diensten van Microsoft zelf waren enige tijd slecht te bereiken waaronder Office 365 en Xbox Live.

In eerste instantie was de oorzaak van de storing niet geheel duidelijk maar inmiddels heeft Microsoft meer duidelijkheid gegeven. Het Azure-platform zou plat zijn gegaan door een 'performance update' aan de Azure Storage-service, zo laat de verantwoordelijke directeur Jason Zander weten. Doordat ook het Service Health Dashboard en het Azure Management Portal, beide afhankelijk van de Storage-service, plat gingen, werden de problemen voor klanten verergerd. Microsoft laat weten dat het updates voor Azure voortaan in kleinere stappen wil uitrollen en de recovery-procedures wil verbeteren om eventuele storingen zo kort mogelijk te laten duren.

Moderatie-faq Wijzig weergave

Reacties (32)

11 uur is een hele poos. Je zal als bedrijf maar afhankelijk zijn van Azure (en de producten die er mee te maken hebben). Volgens mij geeft Microsoft een SLA af van 99,9%, 11 uur is dus te veel. Hoe gaat Microsoft hier mee om? Of zijn hier weer kleine lettertjes voor?
Bij een van de vorige grote storingen (29 feb 2012) deden ze dit:


Microsoft recognizes that this outage had a significant impact on many of our customers. We stand behind the quality of our service and our Service Level Agreement (SLA), and we remain committed to our customers. Due to the extraordinary nature of this event, we have decided to provide a 33% credit to all customers of Windows Azure Compute, Access Control, Service Bus and Caching for the entire affected billing month(s) for these services, regardless of whether their service was impacted. These credits will be applied proactively and will be reflected on a billing period subsequent to the affected billing period. Customers who have additional questions can contact support for more information.

http://azure.microsoft.co...ruption-on-feb-29th-2012/
Dat de storing 11 uur duurde, wil niet zeggen dat alle services er ook 11 uur uit waren. Alleen dat er 11 uur problemen waren in de gehele stack
Een SLA is niet meer dan "we proberen zo hard als we kunnen om X voor elkaar te krijgen, en als dat niet lukt dan staat daar Y tegenover". En meestal is Y dan zoiets als een credit op je factuur.

Voor daadwerkelijke uptime heb je niks aan een SLA.

[Reactie gewijzigd door CyBeR op 20 november 2014 17:02]

Dat hangt er van af. De meeste SLA's zijn inderdaad niet veel meer dan dat, vooral bij goedkopere contracten (als je daar al een SLA krijgt). Maar als je iets meer betaalt, dan kun je zaken krijgen als failover naar een ander DC, en dat zorgt wel voor extra uptime.
Volgens mij is 11 uur de doorlooptijd geweest, niet de tijd dat er 'geen service' is. Bij mij in ieder geval 0 uur storing en status geeft niet aan dat er een serviceonderbreking is geweest.
Eindresultaat bij mij was in ieder geval:
Ons onderzoek is afgerond en we hebben vastgesteld dat de service goed werkt en dat er geen service-incident heeft plaatsgevonden
En 11 uur is: 99,87% ;)
Wij hebben al onze licentie servers op MS Azure draaien (Schiphol) en wij hebben geen last gehad van de storing...
Onderhoudswindows en consequenties van onderhoud worden nog wel eens uitgesloten van de beschikbaarheids meting. Dus die 99,9% geldt dan niet voor (problemen tijdens of als gevolg van werkzaamheden in) het servicewindow.
Heb dat soort contracten in de kast liggen. Geen probleem, zolang de risico's beperkt zijn.

Ik weet niet of Azure op zo'n contract is gebaseerd. Wil wel aangeven dat dat soort contracten bestaan.
Ik ken dat soort contracten zeker. En heb er alle begrip voor. Alleen in dat soort contracten staat aangegeven dat alleen gepland onderhoud niet meetellen. Gepland onderhoud is in een bepaald gepland window. Overschrijdingen van dit window is in mijn ogen outage die onder de SLA uptime garantie valt.
Mensen met een contract kunnen aanspraak maken op de SLA van Storage. Voor VM's is dat alleen als ze in een Availability Set van minimaal 2 waren geplaatst. Onderhoudswindows met impact worden van te voren per e-mail aangekondigd en dat was dit keer niet het geval.
De rollback was redelijk snel doorgevoerd, maar het herstarten van alle instances gaf veel problemen. Ik zag ook een aantal instances die bleven hangen tijdens het opstarten, waar uiteindelijk Microsoft aan te pas moest komen.

Verder wel vreemd dat AustraliŽ wel overeind bleef. Staat dat los van elkaar dan?
Ik las gisteren (even geen bron) dat met de instances opzich nooit iets mis is geweest maar dat met de harddisks waar de data van de instances op stond wel. Hierdoor konden ze dus niet geboot worden en heeft de rollback gewoon heel lang geduurd.

@freaky hieronder: Mijn punt was ook dat het feit dat de instances goed draaide niks te maken had met een goede rollback (wat @Juicyhill suggereerde) omdat de instances zelf nooit een probleem hebben gehad.

[Reactie gewijzigd door bop op 20 november 2014 21:46]

Dan bedoelen ze dat je CPU en mem het gewoon deden.

Maar daar heb je geen hol aan gezien je wel afhankelijk bent van die opslag om de VM te laten draaien

De meeste mensen, met name die met problemen, zullen je in deze dus geen gelijk geven. Geen storage is geen VM. Als je volledig uit RAM draait zal je weinig problemen hebben gehad inderdaad, maar dat gebeurt niet vaak.
Verder wel vreemd dat AustraliŽ wel overeind bleef. Staat dat los van elkaar dan?
AustraliŽ is ver weg dus 't zou logisch zijn dat hun storage zich wat lokaler bevindt dan Europa.
Elk datacenter heeft zijn eigen opslag.. als in AMS de upgrade wordt uitgevoerd.. dan deint dit door tot aan spanje :)

Gezien NL een groot azure datacenter heeft in de EU.. geloof 3 datacenters totaal.
11 hevige uurtjes voor de specialisten die aan het werk waren. Maarja, met zulke grote omgevingen kan ik begrijpen dat er wel eens wat mis gaat, het wordt allemaal zo groot en volgens de fabrikant kon je zonder problemen upgraden mits je de procedure volgt.. totdat... En een rollback in zoiets groots kan dan opeens lang duren.
11 hevige uurtjes voor de specialisten die aan het werk waren. Maarja, met zulke grote omgevingen kan ik begrijpen dat er wel eens wat mis gaat, het wordt allemaal zo groot en volgens de fabrikant kon je zonder problemen upgraden mits je de procedure volgt.. totdat... En een rollback in zoiets groots kan dan opeens lang duren.
Jij begrijpt dat er wel eens wat mis gaat, ik begrijp niet dat niet.
Volgens mij is hier de DTAP straat voor verzonnen.
Eerst doe je Development en Test servers, dan Acceptatie en daarna pas Productie, je gaat niet alles in 1 keer uitrollen.
Je heb blijkbaar geen ervaring in de IT, dat haal ik wel uit je antwoord en anders zou je het wel kunnen begrijpen uit eigen ervaring. Hoe vaak je iets ook test en scenario's doorneemt, er kan altijd wat fout gaan. Als je vaker op tweakers kom zal je regelmatig nieuws tegenkomen waarbij updates toch niet overal goed gaan.
En wij hadden OTAP omgevingen, ontwikkel, test, acceptatie en produktie.
Je heb blijkbaar geen ervaring in de IT, dat haal ik wel uit je antwoord en anders zou je het wel kunnen begrijpen uit eigen ervaring.
Slechts 19 jaar IT-er bij een Nederlandse bank met DTAP straat, is dat genoeg?
Enne, mede verantwoordelijk voor de maandelijkse Windows patches op zo'n 3900 servers, zegt dat iets?

Als DT fout gaat, dan stop je.
Als DT goed gaat en A fout, dan stop je.
Als DT en A goed zijn gegaan, dan doe je P gefaseerd.
Zo voorkom je heel veel problemen.

[Reactie gewijzigd door ASS-Ware op 20 november 2014 19:28]

Voor iemand met zolang IT ervaring kan je je dan maar weinig inleven hoe iets tijdens een update proces toch nog fout kan gaan. Maar als je alleen maar ooit voor windows patches verantwoordelijk ben geweest, tsja, met alle respect, dan kan ik de onbegrip misschien wel begrijpen, want een windowspatch stelt maar weinig voor met updates voor een omgeving zoals het azure opslagplatform, dat is wel heel wat uitgebreider dan een windowspatchje installeren en kijken of alles nog werkt.

Maar al jullie updates in jullie complete IT organisatie zijn in jouw 19 jaar IT ervaring altijd 100% goed gegaan zonder maar 1 enkel probleem ooit?
Ik begrijp dat bij banken alles zeer goed getest wordt, maar ook daar zijn wel eens IT problemen met updates. Zo nu ook bij het azure platform en ze hebben gekozen voor een roll-back. Maar zoals je weet hoort een roll-back procedure ook gewoon in een update procedure thuis. :)

Lees de link in het artikel nog maar eens http://azure.microsoft.co...age-service-interruption/ . Het was een uitzonderlijk probleempje wat zich opeens voordeet, door blijkbaar bepaalde condities, die nog niet eerder waren voorgekomen.

[Reactie gewijzigd door Rudie_V op 20 november 2014 19:51]

Voor iemand met zolang IT ervaring kan je je dan maar weinig inleven hoe iets tijdens een update proces toch nog fout kan gaan.
Blijkbaar lees je niet goed, ik gaf namelijk aan dat als DT fout gaat, dat je stopt, als A fout gaat, dat je stopt, als er niets is fout gegaan, dan doe je P GEFASEERD.
Maar als je alleen maar ooit voor windows patches verantwoordelijk ben geweest,
En wederom lees je niet goed.
Ik typte: "Enne, mede verantwoordelijk voor", hetgeen niet betekent dat dat het enige is wat ik doe.
Maar al jullie updates in jullie complete IT organisatie zijn in jouw 19 jaar IT ervaring altijd 100% goed gegaan zonder maar 1 enkel probleem ooit?
Nee hoor, in DT zijn er wel eens issues geweest, dat was het moment om direct een rollback te doen en A en P niet te voorzien van die updates.
1 keer hebben we problemen gehad in P met een bepaalde applicatie via Citrix aangeboden, en dat was alleen maar omdat de gebruikers en applicatiebeheerders niet eerst hebben getest in DT en A.

[Reactie gewijzigd door ASS-Ware op 21 november 2014 00:04]

Toen ik je reactie las stond je edit er niet. Die zag ik pas later nadat ik gepost had en een refresh van de site had gedaan. Dus heel je stukje over hoe je je omgevingen update stond er niet!
Verder is het vrij logisch dat zodra in een omgeving problemen ontstaan met een update je natuurlijk niet verder gaat, maar bedankt dat je dat nog even voor ons uitlegt :P
Overigen kunnen op de OT omgevingen nog wel eens problemen ontstaan die zich op de AP niet voor hoeven te doen. De OT zijn voor de ontwikkelaars die nog wel eens zitten de klooien met van alles en nog wat, maar daar zijn ze ook voor.

Desalniettemin neemt het niet weg dat je voor iemand die in de IT werkt weinig begrip op kan maken voor problemen tijdens een upgrade waarvoor zelfs een roll-back gedaan moeten worden. Iedereen is anders en ik respecteer je antwoord, maar ik vind het erg vreemd dat je fouten in de business waarin je zelf ook werkt niet kan begrijpen. Maar nogmaals, een windows updaten is over het algemeen wat minder risicovol als de software die er bovenop draait.

Duh haha, ik snap heus wel dat je niet alleen maar windows patches installeren doet als werk. Maar wat ik er uit op maak is dat jij in je werk alleen maar je windows machines heb gepatched. Maar heb je bijvoorbeeld ook wel eens updates uitgevoerd voor de complete business applications die op je servers draaien? En update je ook exchange, sql, sharepoint, etc, dat soort software.
Slechts 19 jaar IT-er bij een Nederlandse bank met DTAP straat, is dat genoeg?
Enne, mede verantwoordelijk voor de maandelijkse Windows patches op zo'n 3900 servers, zegt dat iets?
sorry dat ik het zeg maar als je niet kunt begrijpen dat er tijdens een upgrade een onvoorziene storing optreed is het in mijn ogen blijkbaar niet genoeg geweest. Of wou je nu werkelijk beweren dat jij 19 jaar de ITer ben bij de NL bank en dat er in die 19 jaar nooit iets fout is gegaan wat onder normale omstandigheden gewoon zou gaan werken?
Zo voorkom je heel veel problemen.
voorkom je veel problemen of voorkom je alle problemen? Ik hoor weinig klachten omtrent storingen binnen azure, dus volgens mij voorkomen ze VEEL problemen, maar ze kunnen niet alles voorkomen.
Of wou je nu werkelijk beweren dat jij 19 jaar de ITer ben bij de NL bank
Ik zei: "Een Nederlandse bank", niet De Nederlandsche bank, dat is iets heel anders.
Ik ben wel erg benieuwd welke Nederlandse bank dat dan is. Vorig jaar nog was Nederland koploper met de meeste bankstoringen in Europa... :+
Gezien de hoeveelheid storingen afgelopen jaar bij alle Nederlandse banken, valt ook daar nog genoeg winst te halen qua stabiliteit en betrouwbaarheid ;)
Hotmail gaf gisteren ook een tijdje problemen met verzenden en het opslaan van "Draft"e-mails.
Kan niet met zekerheid zeggen of het er los van staat of ook mee liftte met deze storing.
Ik heb een paar server-VM's in Azure draaien en daar kon ik vandaag niet meer op inloggen. Ook de PowerShell commandlet om het password te resetten werkte niet.
Toevallig had ik de laatste keer dat ik ingelogd was mijn password gewijzigd. Maar zowel mijn oude als mijn nieuwe werkte niet. Ik hoop dat het door de storing kwam.
Van storing in de mail van Office 365 E3 heb ik niets gemerkt. Ook mijn publieke website en teamsite op SharePoint Online zijn niet uit de lucht geweest.
Azure is nt maar daar is alles ook wel mee gezegd. Is geen windows als os wat daar op draait. Tenzij je die er zelf host.
Daarnaast volgt microsoft het "eat your own dogfood" principe en draaien ze altijd zelf op hun meest recente releases.
Bing divisie draait meestal zelfs de beta's live.
Je gebruikt ook geen apps, sites en andere media? Of bedrijven die daar wel iets op hebben? Direct misschien niet, maar indirect kan het wel degelijk.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True