Amazon compenseert gedupeerde cloudklanten en belooft beterschap

Amazon komt klanten die last hebben gehad van de storing tegemoet. Alle klanten in het eerder deze week getroffen datacenter komen in aanmerking voor compensatie. Klanten die dataverlies hebben gehad, krijgen extra compensatie.

Amazon werd begin vorige week in verlegenheid gebracht door een grootschalige storing in zijn datacenter in Dublin waardoor een 110kV 10MW-transformator zonder stroom kwam te zitten. Hoewel aanvankelijk werd gedacht dat dit was veroorzaakt door blikseminslag, blijkt het energiebedrijf nu uit te gaan van een andere oorzaak. Over de mogelijke oorzaak zijn geen details vrijgegeven, anders dan dat het energiebedrijf nog onderzoek doet naar de oorzaak.

Het hostingbedrijf heeft sinds afgelopen vrijdag de storing en de nasleep onder controle en heeft daaropvolgend dit weekeinde gedetailleerde informatie vrijgegeven over het verloop van de storing. Ook heeft Amazon een compensatieregeling opgesteld waarover details zijn gepubliceerd. Alle klanten die in de getroffen Availability Zone een EBS-volume of RDS-database in gebruik hadden, krijgen tien dagen gebruik van hun EBS-volume, EC2-instance en RDS-database-instance in de bewuste Availability Zone gecompenseerd. Het maakt hierbij niet uit of een klant daadwerkelijk is getroffen door de gevolgen van de storing of niet.

Daarnaast heeft Amazon een uitgebreidere compensatieregeling opgesteld voor klanten die getroffen zijn door wat het bedrijf de EBS-softwarebug noemt. Deze bug staat volgens Amazon los van de stroomstoring, en kwam daags voor de stroomstoring aan het licht. Door de bug zag de Amazon-software bepaalde opslagblokken als ongebruikt waardoor deze op de lijst werden gezet om te worden gewist. Een tweede run van dit proces ontdekte de fout echter en markeerde deze voor verder onderzoek. De Amazon-medewerker die vervolgens deze gemarkeerde items moest onderzoeken, lijkt echter niet goed te hebben gekeken waardoor de datablokken alsnog werden verwijderd.

Klanten die door deze fout zijn getroffen krijgen 30 dagen gratis gebruik van hun EBS-gebruik in alle Availability Zones in de zogenoemde EU West Region. Het gratis gebruik omvat zowel snapshots en requests als volume-opslag en I/O. Daarnaast kan deze groep klanten in die periode gratis gebruikmaken van Premium Support via het AWS Support Center.

Amazon zegt diverse maatregelen te hebben genomen om zijn infrastructuur te verbeteren of daar over overleg te voeren met fabrikanten. Zo is onder meer het verwijderproces aangescherpt om de EBS-bug te pletten en wordt een extra manier van snapshot-herstel uitgerold. In de huidige opzet kan een volume pas worden hersteld als de data op de EBS-server eerst is verplaatst. Dit zorgt voor aanzienlijke vertraging omdat er soms grote hoeveelheden data moeten worden gekopieerd. Dit probleem wil Amazon omzeilen door de optie te bieden dat een volume direct na een stroomuitval kan worden hersteld zonder data te hoeven verplaatsen.

IT-banen

Reacties (41)

BounceCloud 14 augustus 2011 12:38

Wat ik mij dan afvraag: een datacenter waarin clouds worden gehost is toch in dermate belangrijk voor zijn gebruikers (voor zover geen enkel datacenter dat al niet is) dat er back-up voorzieningen zijn aangelegd?

Als ik het zo lees is de 110MW transformator van het nutsbedrijf kapot gegaan. Is het dan niet zo dat je als datacenter een back-up hiervoor hebt (generatoren?) omdat je niet afhankelijk wilt zijn van derde partijen?

Nactive @BounceCloud • 14 augustus 2011 12:41

Van het artikel dat gelinked is:

Normally, when utility power fails, electrical load is seamlessly picked up by backup generators. Programmable Logic Controllers (PLCs) assure that the electrical phase is synchronized between generators before their power is brought online. In this case, one of the PLCs did not complete the connection of a portion of the generators to bring them online. We currently believe (supported by all observations of the state and behavior of this PLC) that a large ground fault detected by the PLC caused it to fail to complete its task

[Reactie gewijzigd door Nactive op 24 juli 2024 02:09]

Mr_gadget @Nactive • 14 augustus 2011 13:57

Offtopic: Dit soort PLC's schijnen dus ook heel makkelijk te hacken te zijn..en ze zitten vaak bijna direct op het internet gekoppeld..

Clock @BounceCloud • 14 augustus 2011 12:43

Backup voorzieningen zijn geregeld, echter is er iets misgegaan in de apparatuur die de switch naar de backup-voorziening regelt bij een issue met de primary.

Uit de verklaring:

Normally, when utility power fails, electrical load is seamlessly picked up by backup generators. Programmable Logic Controllers (PLCs) assure that the electrical phase is synchronized between generators before their power is brought online. In this case, one of the PLCs did not complete the connection of a portion of the generators to bring them online. We currently believe (supported by all observations of the state and behavior of this PLC) that a large ground fault detected by the PLC caused it to fail to complete its task. We are working with our supplier and performing further analysis of the device involved to confirm. With no utility power, and backup generators for a large portion of this Availability Zone disabled, there was insufficient power for all of the servers in the Availability Zone to continue operating. Uninterruptable Power Supplies (UPSs) that provide a short period of battery power quickly drained and we lost power to almost all of the EC2 instances and 58% of the EBS volumes in that Availability Zone.

c-nan @Clock • 14 augustus 2011 19:20

Dit gebeurd nog helaas te vaak, stroom valt weg, echter worden de generatoren niet gestart vanwege een falende switch.

Zoetjuh 14 augustus 2011 12:32

Ik moet eerlijk zeggen dat ik dit maar bijzonder magere vergoedingen vindt. Ik zou zo iets niet moeten doen richting mijn klanten waarschijnlijk.

Waarschijnlijk omdat het een "groot bedrijf is", is "men" allang blij dat ze iets krijgen..

dcm360

@Zoetjuh • 14 augustus 2011 12:38

Ze bieden anders wel een grotere compensatie dan dat er contractueel is vastgelegd, en dat is niet meer dan heel erg netjes te noemen. Daarentegen moeten ze ook wel, want eigenlijk kunnen ze zich niet echt slecht nieuws veroorloven vanwege eerdere problemen. Als er te vaak dingen mis blijven gaan, dan lopen de klanten wel naar een concurrent en deze 'ruime' compensatie zal er misschien wel voor zorgen dat er enkele klanten niet vertrekken.

Iftert @Zoetjuh • 14 augustus 2011 12:41

Zeker, die mensen vinden het erger dat hun bestanden weg zijn. dan dat ze nu 1 maand niet hoeven te betalen. Maar netjes dat ze het onder het mom van "waar mensen werken worden fouten gemaakt" werken. En zich zelf de schuld geven voor probleem.

Vibonacci 14 augustus 2011 12:52

Verloren data in de cloud is nou het enige waarvan ik zeg dat werkelijk onacceptabel is en nooit mag gebeuren. Tijdelijke storing of een tijdelijke lage snelheid etc is voor mij allemaal te overzien. Dit valt niet goed te maken imo. Je vakantie foto's van 20 jaar terug kun je niet terugkopen.

Clock @Vibonacci • 14 augustus 2011 12:56

Daar ben ik het mee eens, echter is het wel zo dat er nog oudere snapshots teruggezet konden worden. Dit betekent dat er (naar ik gelezen heb) maximaal 1 dag aan data verloren is kunnen gaan bij een heel klein percentage aan klanten (< 1%).

Niet dat het daarmee goed te praten is, maar voor de meeste klanten/gebruikers/bedrijven zal de impact te overzien zijn.

mashell @Vibonacci • 14 augustus 2011 16:14

Je vakantie foto's van 20 jaar terug kun je niet terugkopen.

Hebben die niet alleen een sentimentele waarde? Ze hebben geen economische waarde en ik geloof ook niet dat ze elk jaar wel een keer bekeken worden. Het gaat om het hebben. Hiervan zet je dus een backup in de cloud maar de originelen houd je zelf. Volgens mij is het probleem bij cloud storingen dat je personeel dat er met de data die daar staat niet productief is. En dat kost je als ondernemer gewoon harde euro's.

kartoenweb 14 augustus 2011 17:14

Wat ik niet snap, misschien dat iemand dat kan uitleggen?

Zodra er stroomuitval is, worden de harde-schrijven toch niet spontaan gewist? Hoe kan het dan dat er bij sommigen data mist?

hackerhater @kartoenweb • 14 augustus 2011 18:33

Als de servers niet netjes afgesloten werden toen de UPS'en faalden kan er disk corruptie ontstaan.

Cyberwizzard @kartoenweb • 14 augustus 2011 23:21

De storage bij Amazon is net als de virtuele machine zelf 'virtueel': de data wordt dus op een andere locatie opgeslagen in een storage cluster.

Als de caches van een dergelijk cluster niet de kans krijg om hun data op te slaan is deze dus verloren.

Op je huis-tuin-en-keuken server is de schade waarschijnlijk minimaal op een dergelijk moment, maar op een server met miljoenen transacties per seconde is de schade veel groter als een tijdseenheid aan data verloren gaat.

Alpha89

14 augustus 2011 12:40

Potver.... Met al dat negatief nieuws over clouds krijg ik dit nooit verkocht aan mijn baas.... Zucht, dan maar op de ouderwetse manier eigen serverfarms opzetten... Niet dat dat erg is maar bij een Cloud heb je toch heel wat mindere zorgen en vaak betere licentie opties

NicoJuicy @Alpha89 • 14 augustus 2011 13:09

Windows Azure of zo (ik weet het niet meer zeker), dan doe je "de cloud" gewoon in eigen beheer en heb je alles onder controle

Verwijderd 14 augustus 2011 13:07

Alpha? Hahahhahaha, betere vendorlockin?

Maar goed, we wachten wel tot de markt zich verder ontwikkeld. Een goed beheerd eigen data center met fatsoenlijke procedures is altijd nog beter te managen dan een externe omgeving.

Je moet alleen wel goed personeel hebben, dat laatste wil nog wel eens een probleem zijn maar goed dat geld ook voor data centers die in de "cloud" staan.

Ondanks de schaal van het probleem en de hoeveelheid verlies er heeft iemand zitten slapen en iets niet regelmatig getest.

Verwijderd 14 augustus 2011 17:59

Misschien moet je dit stukje nog eens lezen:

Door de bug zag de Amazon-software bepaalde opslagblokken als ongebruikt waardoor deze op de lijst werden gezet om te worden gewist. Een tweede run van dit proces ontdekte de fout echter en markeerde deze voor verder onderzoek. De Amazon-medewerker die vervolgens deze gemarkeerde items moest onderzoeken, lijkt echter niet goed te hebben gekeken waardoor de datablokken alsnog werden verwijderd.

Lees: Blinde beheerder met dikke vingers en zonder verantwoordingsgevoel. Waarschijnlijk werkeloos nu.

Webgnome 14 augustus 2011 12:29

Handig... zo'n cloud..

PeaceNlove @Webgnome • 14 augustus 2011 12:36

Niet veel handiger dan zelf in je eigen kantoor hosten en servers bijhouden of je servers een rack inschuiven in een datacenter. Voor hetzelfde geld was dit namelijk een gewoon datacenter geweest waar je server opeens een dagje vakantie had gekregen. En als je de cloud niet vertrouwd en je servers op kantoor neerzet en de graafmachine gaat los waardoor je kabel-internet, ADSL en je stroom opeens weg zijn ben je even goed het bokje.
Je loopt altijd risico's en dus ook in de cloud.

poepkop @PeaceNlove • 14 augustus 2011 12:43

Je loopt altijd risico's en dus ook in de cloud.

Ik dacht dat het idee van de Cloud, of iig die van Amazon was dat je data op verschillende plekken staat. Het voordeel zou zijn dat je altijd online bent, omdat als er een server uitvalt alleen je ping misschien wat hoger wordt omdat je aanvraag nu bij een server verderop wordt afgehandeld.

is dead 12 @poepkop • 14 augustus 2011 12:51

Ja dit kan ook maar dan moet je er wl voor betalen om in meerder 'avalabilty zones' je spul te hosten. Iets wat veel bedrijven volgens mij niet doen. En als dan de ene zone uitvalt waar jouw spul in staat ben je de klos.

Verwijderd @is dead 12 • 14 augustus 2011 14:05

Nou, niet echt, als je server in een zone bij amazon niet werkt kan je hem gewoon rebooten in een andere zone zonder extra kosten. Daarom snap ik de ophef niet ze goed, aangezien de twee anderen het perfect deden. Zone west-c had problemen geloof ik en wij hebben onze servers gewoon in a/b geboot en niks aan de hand.

swtimmer @Verwijderd • 14 augustus 2011 15:31

Maar als 1 van de datacentra helemaal plat ligt kan je moeilijk je server migreren naar een ander centra. Dat lukt helaas nog niet zonder stroom ;-)

Passenger @swtimmer • 14 augustus 2011 21:01

Het idee van Amazon Webservices is dat je je server niet gaat migreren op het moment dat een datacenter down is. Amazon moedigt klanten aan om infrastructuur te verspreiden over meerdere (minimaal 2, maar liefst meer) availability zones.
Klanten die dit advies netjes opgevolgd hebben, hebben dan ook minimaal last gehad van deze storing. Maar als je besluit om eigenwijs toch alles in 1 AZ te hosten... tja... dan loop je inderdaad dit risico ja.

Verwijderd @swtimmer • 15 augustus 2011 08:54

Als je geen image hebt van je omgeving en backups van data (op meer dan 1 lokatie) doe je het zo en zo goed fout ook al zit je in de cloud.

TDeK @poepkop • 14 augustus 2011 12:56

Heeft ook te maken met de juridische kant van de zaak. Sommige data mag bijvoorbeeld niet buiten de EU worden opgeslagen, en volgens mij heeft Amazon maar één datacentre in de EU. Daarbij kost het extra geld, zoals eerder genoemd.

Verwijderd @TDeK • 14 augustus 2011 14:10

Ze hebben 3 datacenters in de EU, west-a west-b en west-c

dasiro @TDeK • 14 augustus 2011 16:01

dat soort data mag dan al helemaal niet bij amazon gehost worden, aangezien het een Amerikaans bedrijf is dat verplicht data moet afgeven, zelfs al hosten ze het niet binnen de VS

martijnvanegdom @dasiro • 14 augustus 2011 20:29

Maar die mensen hebben dan ook geen last gehad van het down zijn Amazon

burne @poepkop • 14 augustus 2011 12:55

En iedereen die offline geweest is heeft er zelf voor gekozen (uit onbekendheid of omdat ze het te duur vinden) om z'n services, storage of databases maar op 1 lokatie te hosten.

Na de vorige grote storing in Amerika heeft Netflix een paar artikelen op hun blog gezet waarin ze uitleggen waarom ze vrijwel geen last hebben gehad van de Amazon-storingen en hoe je als beginner hetzelfde kunt bereiken.

tweakerbee @burne • 14 augustus 2011 18:07

Googlen is makkelijk, maar dit is nog makkelijker: http://techblog.netflix.c...rned-from-aws-outage.html

Quacka @PeaceNlove • 14 augustus 2011 13:07

Misschien.
Maar het aantal risico's is ook groter.

- Je eigen netwerk kan storing krijgen (kan ook zonder cloud)
- De cloud-servers kunnen storing hebben (kan ook met eigen servers gebeuren)
- je eigen internetverbinding kan eruit vliegen (zonder cloud kan je lokaal nog doorwerken - je hebt niet overal internet voor nodig)
- De Internetverbinding van de cloud-provider kan eruit vliegen

Daar komt nog bij dat je je eigen it-medewerkers het mes op de keel kan zeggen (figuurlijk gezien), waarbij je bij Cloud alleen kan dreigen met vertrek naar een andere provider (met alle problemen van dien). Dat zorgt dus voor meer traagheid bij het afhandelen van storingen.

the_stickie @Quacka • 14 augustus 2011 22:32

Daar komt nog bij dat je je eigen it-medewerkers het mes op de keel kan zeggen (figuurlijk gezien), ...

denk je dat it'ers beter presteren met (nog) extra druk?
Imho zijn er maar weinigen die nog nood hebben aan een leuterend manager als er een iets-of-wat outage is... als die engineer z'n job kent, laat je hem daarentegen maar beter even met rust: des te sneller ben je weer up-and-running

digital-IMEI @the_stickie • 16 augustus 2011 13:17

Ik heb enkele malen een dergelijke situatie als engineer ervaren maar pas bij het lezen van jou post besef ik me wat een luxe het eigenlijk is.
Iedere andere functie zou over z`n klote krijgen als er iets mis gaat maar engineers worden juist met rust gelaten om het zo snel mogelijk opgelost te krijgen. Daarna kun je als engineer in ieder geval zeggen; "ey, het is opgelost"

skullsplitter @Webgnome • 14 augustus 2011 17:35

Ook mijn vrees...

Grauw @Webgnome • 15 augustus 2011 11:17

OT: Grappig dat dit als FIPO meteen was weggemod, terwijl als tweede post er geen enkel probleem is. Mensen moeten eens wat minder overspannen op FIPO’s reageren.

Aionicus 14 augustus 2011 12:31

hele goede service , daar kunnen veel nederlandse bedrijven nog wel wat van leren (points to KPN / T-mobile etc)

Verwijderd @Aionicus • 14 augustus 2011 12:33

hele goede service , daar kunnen veel nederlandse bedrijven nog wel wat van leren (points to KPN / T-mobile etc)

Vind ik minder erg.. dan niet bij je data kunnen komen...
Je persoonlijke data is toch ietsje belangrijker dan internet

We Are Borg Moderator Wonen & Mobiliteit / General Chat @Aionicus • 14 augustus 2011 13:39

Want ik ben mijn data kwijt en krijg 30 dagen gratig cloud services? Ik zou er van balen dat. Inn data kwijt is

Netrunner 14 augustus 2011 12:29

Nou Nou, dat heeft amazon dan toch weer prima opgepakt. Complimenten amazon!

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (41)

Sorteer op:

Weergave: