Amazon belooft aanpassingen na langdurige cloudstoring

Amazon heeft het boetekleed aangetrokken nadat vermoedelijk een menselijke fout een langdurige storing veroorzaakte. De cloudaanbieder belooft aanpassingen in zijn upgradesysteem door te voeren om de kans op dergelijke fouten te verkleinen.

Amazon Web Services Vorige week werden de clouddiensten van Amazon getroffen door een ernstige storing. Hierdoor waren een aantal grote websites dagenlang moeilijk of geheel niet bereikbaar. Amazon heeft inmiddels een post-mortem-rapportage vrijgegeven, waarin meer informatie wordt gegeven over de oorzaken van de grootschalige storing.

De problemen bij het Elastic Compute Cloud-platform van Amazon zouden zijn ontstaan door een foutieve upgrade-procedure, vermoedelijk het gevolg van een menselijke fout. Tijdens het uitvoeren van de upgrade werd het dataverkeer tijdelijk via een andere router gebruikt, maar deze bleek niet in staat om de datastroom af te handelen.

Nadat de router was gecrasht, raakten diverse onderdelen van het Elastic Block Store-opslagsysteem van slag. De instances probeerden steeds nieuwe spiegelbestanden aan te maken met een re-mirroring storm tot gevolg. EC2-systeembeheerders hadden vervolgens dagen nodig om de cloudsystemen weer onder controle te krijgen.

Amazon heeft zijn excuses aangeboden aan zijn klanten. Ook belooft het bedrijf dat klanten die door de storing zijn getroffen compensatie krijgen: zij kunnen tien dagen kosteloos gebruik maken van Amazons clouddiensten. Daarnaast stelt het bedrijf dat het zijn update-procedures verder zal automatiseren, waardoor de kans op menselijke fouten verkleind moet worden. Verder moet de EC2-infrastructuur beter bestand worden gemaakt tegen storingen.

De grootschalige storing bij Amazon laat volgens sommige analisten zien hoe kwetsbaar clouddiensten kunnen zijn. Toch zouden deels ook websitebeheerders fouten hebben gemaakt doordat een deel van hen geen draaiboeken hadden klaarliggen mocht hun cloudaanbieder in de problemen komen.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Dimitri Reijerman

Redacteur

Feedback • 01-05-2011 14:36 39

01-05-2011 • 14:36

Lees meer

Amazon kondigt dienst aan voor op afstand opendoen van voordeur Nieuws van 25 oktober 2017

Amazon verlaagt tarieven voor cloud-databases en memcached-servers Nieuws van 7 november 2012

Amazon laat Cloudfront dynamische content serveren Nieuws van 14 mei 2012

Amazon compenseert gedupeerde cloudklanten en belooft beterschap Nieuws van 14 augustus 2011

Nasleep Amazon-cloudstoring kan nog twee dagen duren Nieuws van 8 augustus 2011

Stroomstoring legt Europese hostingdiensten Amazon deels plat Nieuws van 8 augustus 2011

Grote storing Amazon-clouddiensten treft websites Nieuws van 22 april 2011

Amazon introduceert onlinemuziekdienst Cloud Player Nieuws van 29 maart 2011

Amazon wijst Wikileaks de deur Nieuws van 2 december 2010

Amazon maakt gpu-cluster onderdeel van clouddienst EC2 Nieuws van 15 november 2010

Amazon gaat ongebruikte rekenkracht van EC2-dienst veilen Nieuws van 15 december 2009

Amazons EC2 virtualiseert Windows-servers voor Europese markt Nieuws van 4 maart 2009

Amazon gaat Ubuntu Server aanbieden in clouddienst Nieuws van 17 december 2008

Amazon brengt EC2-webdienst naar Europa Nieuws van 11 december 2008

Amazon komt met statische ip-adressen voor zijn webdiensten Nieuws van 27 maart 2008

Meer producten en artikelen

Netwerk en systeembeheer Computers Serversoftware Software Internet Amazon Cloud computing Virtualisatie

IT-banen

Meer vacatures

Reacties (39)

-Moderatie-faq

Wijzig sortering

Sander 1 mei 2011 16:02

Blijkbaar hebben de mensen van tweakers en de meesten die hier reageren het gehele artikel niet gelezen, aangezien dit niet de kwetsbaarheid van de clouddiensten aantoont, maar het gebrekkige infrastructurele ontwerp van de klanten die plat gingen. Zoals in het artikel te lezen staat is de EU cloud van amazon niet down geweest, alleen moet je dan je applicatie wel zo inrichten dat hij van meerdere regions gebruik maakt. Iets dat wat extra denkwerk met zich meebrengt bij het inrichten van je applicatie, maar onmisbaar wanneer je 5 9's in je uptime percentage wil terug zien.

tomhagen @Sander • 1 mei 2011 17:16

aangezien dit niet de kwetsbaarheid van de clouddiensten aantoont, maar het gebrekkige infrastructurele ontwerp van de klanten die plat gingen. Zoals in het artikel te lezen staat is de EU cloud van amazon niet down geweest, alleen moet je dan je applicatie wel zo inrichten dat hij van meerdere regions gebruik maakt

Maar de hele hype achter het cloud-gedachtengoed was toch juist dat programmeurs hier niet meer over na hoefden te denken? Immers zou de cloud toch een abstracte blob zijn waar je simpelweg data naar toe gooide?

bobaas @tomhagen • 1 mei 2011 17:33

Nee. Het gaat veel meer om schaalbaarheid dan om redundancy.
"Cloud computing refers to the provision of computational resources on demand via a computer network, such as applications, databases, file services, email, etc"
Bron Wikipedia

latka @bobaas • 1 mei 2011 21:02

Nee het gaat om overtollige CPU cycles ten gelde te maken (iig bij partijen als Amazon). Dat was het begin van de cloud-hype: een logsche stap om overcapaciteit en virtualisatie te koppelen. Uiteraard onder de SOA hype gegoten et voila: een nieuwe melkkoe voor consultants (jaja, ben een tikje cynisch

)

klakkie.57th @Sander • 1 mei 2011 16:47

Ik geef toe ik ken niet de Cloud diensten van Amazon, maar als je 99,999 uptime nodig hebt doe je het toch gewoon lekker zelf want dan is geld volgens mij geen issue.

Nuja ik geef toe ik ben een gigantisch tegenstander van clouddiensten hosten bij een derde partij met niets meer dan een SLA die enkel op papier bestaat.

Wat je zelf doet, doe je beter en dat zou het motto van iedere sysAdmin moeten zijn.

ronn0 @klakkie.57th • 1 mei 2011 17:06

Ik geef toe ik ken niet de Cloud diensten van Amazon, maar als je 99,999 uptime nodig hebt doe je het toch gewoon lekker zelf want dan is geld volgens mij geen issue.

Er zijn vele situaties denkbaar waarbij de kosten juist aanzienlijk dalen. Daarnaast moet je niet vergissen dat in enkele situaties bedrijven niet zitten te wachten op aanschafkosten die niet misselijk zijn in een grote omgeving.

arjankoole

Cloud computing

@Sander • 1 mei 2011 16:56

Volgens mij kost dergelijke reduntie ook gewoon geld bij Amazon.

bobaas @Sander • 1 mei 2011 16:44

Amen.
Je zou van tweakers.net toch beter verwachten..

freedzed6 1 mei 2011 23:03

En iedereen was zo onwijs bezig om deze dienst de hemel in de prijzen ( lees paarse broeken wouden er een slaatje uit slaan).

hmz nu heeft een best grote speler een storing.

chronoz @freedzed6 • 2 mei 2011 03:16

Het feit dat 1 partij een menselijke fout maakt die voor hoge downtime zorgt, zegt toch niets over het product? Kijk naar high-availability omgevingen met VMWare, Xen. Daar zitten echt prachtige omgevingen tussen die het verschil maken in 99,9% en 99,99% uptime. Indien je een menselijke fout maakt, kun je nog steeds alles offline krijgen. Ik gebruik VMWare ESXi met alle plezier en het is heel goed mogelijk om een extreem high-uptime omgeving te creëren die vrijwel alleen nog afhankelijk is van de uptime van de netwerkprovider. In het geval van een kleine omgeving zijn fouten in design waardoor de infrastructuur kan vallen, natuurlijk veel makkelijker te herstellen.

Persoonlijk begrijp ik nog steeds uit dit bericht niet of afnemers er zelf voor hadden zorgen dat ze online gebleven waren. Elke hoster promoot tegenwoordig het afnemen van virtuele hosting of cloud-hosting, zodat zij de infastructuur kunnen inrichten en verantwoordelijk zijn voor het beheer, uptime hiervan. Dat lijkt me bij Amazon hetzelfde.
- Hoe kun je dan zeggen dat individuele klanten zelf schuldig zijn?
- Was het mogelijk om jezelf online te houden in de cloud
- Hoeveel % was nu down en hoe lang?
(Zal straks ook nog even op Google naar meer informatie zoeken)

De Amazon Cloud is de grootste cloud-service ter wereld. Ik vind deze storingen van enkele dagen toch enorm schokkend en ook hier zet je dan je vragen bij de fail-over van cloud-hosting. Indien deze reus van een provider die honderden miljoen kan investeren in zijn infrastructuur, blijkbaar toch niet in staat is om betrouwbare, effectieve, praktische redundancy in te bouwen in zijn omgeving, dan weet ik niet bij welke provider ik mijn cloud moet afnemen... de kleine hostertjes met 500 klanten en €10.000 jaar omzet? de reuzen als Amazon? het wordt wel lastig kiezen.

Jammer, ik had het gevoel dat ze een mooi product hadden en zou het graag uitgeprobeerd hebben, maar reserve-switches die moeite hebben met het overnemen van de capaciteit e.d.....

Floor @chronoz • 2 mei 2011 09:19

Ik ben geen specialist maar in bijna elke omgeving is een echte crash de enige keer dat back-up systemen getest kunnen worden. Ik situaties waarbij complete configuraties zijn getest en getest. Maar toch, op de dag van de waarheid blijkt een onvoorziene externe factor roet in het eten te gooien. Je kan testen wat je wilt maar de praktijk is altijd weerbarstiger.
De enige zekere conclusie is dat Amazon het geld heeft om deze fout grondig te analyseren en programmatuur maar vooral (bedrijfs)protocollen te verbeteren.
Dit zouden de klanten van Amazon ook moeten doen.

SL600 @Floor • 2 mei 2011 12:08

Heldere geesten als Murphy http://nl.wikipedia.org/wiki/Wet_van_Murphy hebben het geprobeerd om de wetmatigheid van falen zo simple mogelijk te formuleren opdat iedereen het makkelijk kan onthouden (en er rekening mee kan houden).

.. wake-up call guys!

Calavoow 1 mei 2011 14:41

De grootschalige storing bij Amazon laat volgens sommige analisten zien hoe kwetsbaar clouddiensten kunnen zijn.

Er zullen altijd critici zijn

Hoewel dit een voorbeeld is van de zwaktes van clouddiensten, betekent dit niet dat het ook in de toekomst hetzelfde zal zijn. Want zoals je ziet wordt er hard gewerkt aan verbeteringen aan de betrouwbaarheid van het platform.

FireDrunk

Virtualisatie

@Calavoow • 1 mei 2011 15:03

Alles is kwetsbaar maar ik denk juist dat de Cloud het minst kwetsbaar is.
Grootschalige uitwijk naar andere delen van de wereld is niet te betalen door iets anders dan een grote cloud aanbieder. Zij zijn de enige die dat level-of-safety aan kunnen bieden tegen een leuke prijs.

Dus ook al heb je een single-point-of-human-failure, "The benefits outway the riscs"

polthemol Moderator General Chat @FireDrunk • 1 mei 2011 22:00

maar als een cloudprovider iets fout doet is de impact vele male groter

Met een klein beetje pech trek ik mijn complete klantenbestand offline.

Ik vind het wel raar dat hun antwoord hierop is dat ze verder gaan automatiseren, of het kan zijn dat we niet alle informatie / hoe en waaroms hier lezen. Maar als je kijkt naar wat er precies gebeurt is: een menselijke fout (over de foute router omrouteren) wordt volledig geescaleerd door een automatisch proces (re-mirroring storm). Het is een beetje moeilijk oordelen natuurlijk als je niet weet hoe het ter plekke werkt, maar me dunkt dat je voor een dergelijke infrastructuur toch gewoon dedicated backup routers gebruikt en dat het je netwerkbeheerder is die die route gaat omzetten (die man die zijn eth infrastructuur kan dromen).

Tsurany @FireDrunk • 1 mei 2011 15:17

Een groot aantal websites waren dagenlang niet bereikbaar, dat noem ik toch behoorlijk kwetsbaar. Bovendien gaat het hier om vele websites die in de problemen kwamen. Het grote nadeel aan een cloud service is dat je alle controle uit handen geeft en je volledig overgeeft aan de cloud beheerder, als die het verprutsen heb je pech.

YopY @Tsurany • 1 mei 2011 15:55

Dat klopt, maar als je het alternatief neemt - het geheel in eigen hand nemen - heb je immers evenveel kans op menselijk falen en het daaruitvolgende niet beschikbaar zijn van je website. Dus wat is het alternatief? Er is niks of niemand die 100% uptime kan garanderen.

klakkie.57th @YopY • 1 mei 2011 16:42

Dagen downtime is wel erg veel hoor en er zijn een heleboel instanties die best 99,99% uptime vereisen.

Gewoon Epic Fail voor de Amazon Clouddiensten, ze kunnen net zo goed het bedrijf stopzetten want wie vertrouwd er nu nog een bedrijf dat dagen nodig heeft om zo een probleem op te lossen.

[Reactie gewijzigd door klakkie.57th op 25 juli 2024 17:57]

sumac @klakkie.57th • 1 mei 2011 18:38

Dagen downtime is veel, maar als je de boel goed inricht, met failover in andere regio's, dan was je website gewoon blijven werken. En als je het hebt over websites die 99,99% uptime vereisen, dan moet je die kosten ook maken en de moeite nemen. Zo niet, dan heb jij (als beheerder) gefaald, of als bedrijf de risico's genomen.

Wat deze storing liet zien, was juist dat je gewoon door kon draaien. Zie Netflix en het principe van de Chaos Monkey.

Rob @sumac • 1 mei 2011 19:10

die 99,99% verwacht je juist te krijgen als je 'in de cloud' host.
In de cloud hosten betekent niet dat je data op 1 plek staat, die kan op vele plekken staan. De cloud is gemaakt om nooit plat te gaan. Als je als beheerder dus in de cloud laat hosten (of als bedrijf deze keuze maakt) dan faal je niet als de cloud plat gaat, nee dan faalt de aanbieder van de cloud.

Tukkertje-RaH @Rob • 1 mei 2011 21:23

Kan - hoeft niet...

Er zijn veel IT oplossingen die vandaag de dag de term "cloud" dragen (het is een hype, dus wildgroei), en heel veel van die oplossingen komen gewoon neer op het virtualiseren van een server. Je krijgt een VMware-gehoste guest 'ergens' (het is cloud - dus je weet niet waar). Wat je verder met die guest doet, zal de hoster in principe de spreekwoordelijke worst zijn. Redundantie moet je veelal dan ook zelf regelen.

Uiteraard kan een cloud service ook veel meer zijn. De grote hosting providers bieden dan inderdaad redundantie aan in andere IDC's, het naadloos migreren van guests naar andere hosts, snapshots van je guests, etc. Alles tegen een prijs uiteraard.

Volgens mij valt de Amazon Cloud dienst meer in de goedkopere categorie dan in de dure. Een echte semi-consumenten dienst die je met een creditcard afsluit en binnen minuten aan de praat hebt. Wellicht met een goede uptime, maar zonder garanties.

PcDealer @Tukkertje-RaH • 2 mei 2011 08:43

@ Tukkertje-RaH:
Misschien als afnemer weet je niet waar, de beheerder weet uiteraard wel. En het is natuurlijk vast te leggen waar je service wordt gehost, in welke regio('s), stel dat je het niet in de VS region gehost wilt hebben.

Ik snap niet dat de services naar een andere region zijn overgegaan. Ze hebben er zes.

Zie hier ook het gevaar van een scenario die ik vorig jaar aan de hand heb gehad: prospect met twee locaties met daar tussen darkfiber, wilde van de tweede locatie gebruik gaan maken door de datacenter te verdelen over de twee locaties. In eerste instantie een active/active san aangeboden. Dus de data repliceerde continue tussen de twee locaties.

Echter de darkfiber ligt op publiek terrein. Dus als er iemand de glasvezels kapot graaft, krijgen de twee sites van elkaar geen status info en denken ze dat de ander down is en nemen dan de master status aan. In het geval van VMware FT (Fault Tolerance), zijn er dan verschillende vm's met daarop draaiende applicaties die dus op twee sites tegelijk draaien, maar dan met wijzigingen die gaan verschillen van de andere site. Bij VMware HA (High Availability) moet bij een host die down gaat de daarop draaiende HA vm over gaan (met Vmotion) naar een andere "up" zijn host. Vcenter kan in dit geval de andere host niet vinden en de applicatie valt uit.

We hebben er voor gekozen een primary san in te zetten en deze regelmatig te laten repliceren naar een secondary. Zo is het veel makkelijker in het geval van calamiteiten de omgeving te beheren en is het eventueel terugzetten van data makkelijker.

[Reactie gewijzigd door PcDealer op 25 juli 2024 17:57]

BadRespawn @FireDrunk • 1 mei 2011 17:34

Alles is kwetsbaar maar ik denk juist dat de Cloud het minst kwetsbaar is.

"De Cloud" bestaat niet, er bestaan alleen specifieke implementaties van cloud services, en deze van Amazon is duidelijk wel kwetsbaar.

PhoenixT @FireDrunk • 1 mei 2011 17:54

Nogal offtopic, maar het juiste woord is "outweigh"

latka @Calavoow • 1 mei 2011 21:00

Verbeteren ok, maar het probleem blijft dat je cloud een SPOF (single point of failure) is geworden als je geen draaiboeken klaar hebt liggen om snel om te schakelen als je cloudprovider problemen heeft. Is het geen menselijke fout (Amazon) dan is het wel een hacker (PSN) die voor problemen zorgt. M.a.w. leuk zo'n cloud maar voor bedrijfskritische zaken blijft het behelpen (wat als een aantal glasvezels naar de US eruit knallen en al het verkeer over Japan gerouteerd moet worden: ja het werkt, maar is traag als dikke str*nt en voor je klanten onacceptabel).

Liquid_Bisquit 1 mei 2011 14:43

En hier zien we plotseling de grote zwakte van clouddiensten... Ik blijf altijd fysieke dragers behouden die bij mij thuis liggen.

Storingen, hacks e.d. moet ik niet met m'n persoonlijke data

Verwijderd @Liquid_Bisquit • 1 mei 2011 14:50

Sure; storingen en hacks kan je niet bij je eigen pc'tje hebben... droom maar lekker verder.

Vrijwel alle data is bovendien bewaard gebleven; je enige probleem is dus dat je er even niet bij kan... voor particulieren is dat meestal niet zo'n ramp.

OT; jammer dat het nou net bij een van de grootste is gebeurd. Amazon geeft meestal namelijk gewoon een prachtige service, en ik ben er nooit echte problemen tegengekomen.

fevenhuis @Verwijderd • 1 mei 2011 16:00

Bij clouddiensten worden potentiële aanschaf kosten verdeeld onder vele gebruikers/afnemers, maar het risico of storingen neemt evenredig toe met het aantal gebruikers.

Een clouddienst levert dus gewoon lagere kosten in ruil voor een verhoogt risico.

David Mulder @fevenhuis • 1 mei 2011 16:28

In ruil voor een verlaagt risico (want met een groter aantal gebruikers word het niveau van de systeem beheerders ook hoger), MAAR een verlaging van de controle en een machteloosheid als het mis gaat (wat erg frustrerend kan zijn voor bedrijven). Niettemin heb je een grotere kans op een storing als een klein bedrijf dan wat je hebt met iets als amazons toepassingen.

polthemol Moderator General Chat @David Mulder • 1 mei 2011 22:03

een hoger niveau systeembeheerders wil niet betekenen dat de kans op storingen minder wordt. Hardwarestoringen, bugs, netwerkstoringen, automatiseringsprocessen die doordraaien ed. spelen meer mee en de kans daarop neemt toe naarmate je meer systemen bij elkaar zet.

Zie het zoals bij een raid5 opstelling: hoe meer schijven ik erin frot, hoe meer kans dat ik een schijf heb die over een tijdje uitvalt met een defect.

SL600 @polthemol • 2 mei 2011 11:27

Ik ben het helemaal eens! Veel mensen denken vaak dat je kunt technisch kunt wapenen tegen falen of catastrofe. Hierdoor ontstaan vaak over complexe oplossingen die nog meer risicos met zich meebrengen en vaak zware financiele gevolgen hebben.

ha... Je kunt je nog zo goed verzekeren, maar dat neemt jouw risico net weg! :-)

Ik ben meer voor: houd het lekker simpel maar heb een rampenscenario klaarstaan.

boto @Verwijderd • 1 mei 2011 14:52

Sure; storingen en hacks kan je niet bij je eigen pc'tje hebben... droom maar lekker verder.

Lekker blijven lezen wat er niet staat.

Vrijwel alle data is bovendien bewaard gebleven; je enige probleem is dus dat je er even niet bij kan... voor particulieren is dat meestal niet zo'n ramp.

laten de meeste klanten nou net bedrijven zijn.

YopY @Liquid_Bisquit • 1 mei 2011 15:56

En bij brand (of andere calamiteiten) zijn die fysieke dragers weg - de grote zwakte van fysieke dragers. Je kunt niks vertrouwen, en het in eigen beheer hebben is slechts schijnveiligheid.

arjankoole

Cloud computing

@YopY • 1 mei 2011 16:55

en het in eigen beheer hebben is slechts schijnveiligheid.

Nee, ik vertrouw mezelf meer dan een externe dienst wiens gezicht ik nog nooit gezien heb. Niet met de vertrouwelijke data die ik heb. De bedrijfsrisico's zijn domweg te groot.

Als ik zelf een fout maak, prima, dan weet ik naar wie ik moet kijken. Maar amazon gaat echt niet wakker liggen van boze klanten. "Dit is waarvoor je betaald". SLA's zijn ook maar een wassen neus.

Cergorach

Amazon
Cloud computing

@Liquid_Bisquit • 1 mei 2011 15:43

Je zal altijd met een uitval mogelijkheden hebben. De kans is groter dat ik stroom uitval heb of dat mijn beide internet verbindingen eruit liggen dan dat bv. Google Apps eruit ligt.

Wat jaartjes geleden op kantoor meegemaakt dat de hele dag de stroom eruit lag omdat er tijdens wegwerkzaamheden in de buurt de verkeerde lijn was geraakt. Een hoop bedrijven hebben dan nood plannen om op een andere locatie verder te kunnen werken, maar die uitwijk locatie is over het algemeen niet in een paar uur opgezet.

Verwijderd 1 mei 2011 14:54

Cloudstoring. Gaan ze een weerman inhuren?

Justin013 @Verwijderd • 1 mei 2011 15:30

Dan hoop ik wel dat het er eentje van het KNMI is...

ingmaronline 1 mei 2011 17:02

Re-mirroring storm, wat een awesome begrip!

Maar goed, je zou er maar gebruik van maken.

jj71 2 mei 2011 08:40

Toepasselijke termen allemaal. Een re-mirroring storm in de cloud. Ik zie de wolken en bliksemschichten al voor me...

Het hele cloud-gebeuren is natuurlijk allemaal nog vrij nieuw, het is niet zo vreemd dat er nog "bugs" in zitten (zowel in de software en hardware als in de procedures die mensen moeten volgen). Hopelijk wordt het door het oplossen van dit probleem weer een stukje robuuster en betrouwbaarder.

[Reactie gewijzigd door jj71 op 25 juli 2024 17:57]

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (39)

Sorteer op:

Weergave: