Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 135 reacties
Submitter: servicedb

Door een storing aan de airconditioning in een Amsterdamse datacenter van Easynet liep de temperatuur op tot meer dan 70 graden Celsius. Klanten van het hostingbedrijf claimen dat er schade aan apparatuur is door de oververhitting.

De storing van de airconditioning in het datacenter in Schiphol-Rijk begon dinsdagmiddag. De koeling op de tweede vloer viel uit waardoor de temperatuur opliep tot meer dan zeventig graden Celsius. Na drie uur wist Easynet de aircosystemen opnieuw op te starten waarna de temperatuur een uur later stabiliseerde. Vijf uur later daalde de temperatuur uiteindelijk weer, meldt LeaseWeb, klant van Easynet, in een statusmelding. Het hostingbedrijf zag zich genoodzaakt zijn routers in kamer 2A tijdelijk uit te zetten om hardwareproblemen te voorkomen.

Andere bedrijven bleken minder succesvol bij het beperken van de schade. "Ze zijn al vanaf 2 uur vannacht non-stop bezig met het oplossen van een gigantische stapel problemen, van corrupte schijven tot controllers die kapot zijn gegaan. De temperatuur was dan ook echt extreem hoog. Dit heb ik nog niet eerder gezien", meldde gebruiker getUP op het Webhostingtalk-forum. Andere gebruikers klagen over schade aan accupacks, naast de hinder wegens downtime. Volgens meerdere users op het forum 'stond de parkeerplaats vol' met auto's van klanten die probeerden de schade beperkt te houden. De gebruikers klagen dat Easynet hen niet heeft ingelicht over de problemen.

Volgens gebruiker Dutch-IS lag het probleem bij de aansturingseenheid van de airconditioning, waardoor kleppen naar de eerste verdieping dichtgingen. Easynet zou de aansturing vervolgens handmatig hebben overgenomen waarbij de kleppen volledig werden opengezet. Easynet was woensdag niet bereikbaar om deze lezing te bevestigen. Ook is onduidelijk waarom de stroom niet automatisch uitviel toen de temperatuur tot onacceptabele hoogte opliep en of de provider klanten schadeloos gaat stellen.

Update donderdag 16.30: EasyNet laat weten dat zij een temperatuur van maximaal 52 graden Celsius in de ruimte hebben gemeten en dat dit onder de grens van 55 graden Celsius is waarop de stroom wordt afgesloten. Om deze reden is de stekker er nog niet uitgetrokken, want ook dit zou volgens het datacenter grote gevolgen hebben gehad. Verder claimt Easynet dat de storing binnen 2,5 uur verholpen is en dat is binnen de norm van 3 uur. Ook zou de storing geen invloed hebben gehad op apparatuur in andere ruimtes. Het datacenter was zelf ook verbaasd dat zo'n storing kan optreden in een volledig redundant systeem en zal een onderzoek uitvoeren naar de oorzaak. Verder wil het bedrijf benadrukken dat het nieuwe en innovatieve technieken gebruikt om CO2-uitstoot te verminderen en het te betreuren dat de storing aan de aansturing van de koeling heeft plaatsgevonden.

Moderatie-faq Wijzig weergave

Reacties (135)

Je kan heel mooi het temperatuurverloop zien via de temperatuur sensor van 1 van onze harddisken daar:

/dev/hdg temp

Je kan ook mooi zien dat er nog steeds continue mensen bezig zijn die de deur van de koude gangen opzetten/openlaten.
Je kan heel mooi het temperatuurverloop zien via de temperatuur sensor van 1 van onze harddisken daar:
Dat lijkt een dag eerder te zijn geweest, hoor! Jouw piek zit in de nacht van maandag op dinsdag, terwijl het artikel gaat over een storing die dinsdagmiddag begon.
Gezien het feit dat ik zeker weet dat die server in 2A staat, doet dat vermoeden dat de tekst in het bericht niet correct is. Ook het syslog heeft het toch echt over middernacht van de 27e:

Oct 27 00:48:31 www sensord: Sensor alarm: Chip asb100-i2c-0-2d: CPU
Temp (Intel): 60.0 C (limit = 60.0 C, hysteresis = 50.0 C) [ALARM]
Oct 27 01:01:36 www sensord: Sensor alarm: Chip asb100-i2c-0-2d: M/B
Temp: 45.0 C (limit = 45.0 C, hysteresis = 40.0 C) [ALARM]

self preservation kicking in:

Oct 27 01:09:14 www kernel: CPU0: Temperature above threshold, cpu clock
throttled (total events = 1)

Het hoogtepunt zat ergens rond een uur of 4:

Oct 27 03:56:04 www smartd[18401]: Device: /dev/hde, Temperature 65
Celsius reached critical limit of 55 Celsius (Min/Max 17/65!)
Oct 27 03:56:04 www smartd[18401]: Device: /dev/hdg, Temperature 68
Celsius reached critical limit of 55 Celsius (Min/Max 23/68!)
Ik kan je vertellen omdat we daar ook zitten dat het maandasg op dinsdag was. Hij heeft redelijk gelijk. Wij hebben een paar servers verloren met een hoop data. Gelukkig voor ons was dat 1 van de 3 servers uit het serverpark.
Licht het aan mij, of ik zie een maandelijkse temperatuurpiek bij hun?

Niet zo extreem natuurlijkm, maar het geeft je wel te denken. Als je de boel goed voor elkaar hebt, waar komen die pieken dan vandaan?
Onbegrijpelijk. Ze hadden gewoon alles down moeten brengen en de stroom van de hele verdieping af moeten halen toen ze zagen dat de temp wel heel erg aan het stijgen was. Liever even offline dan defecte hardware en een hoop gezeik met verloren data. Onvoorstelbaar.
Iedereen spreekt hier zo heel eenvoudig over " waarom hadden ze niet alles down gezet" ... alsof dat 5 minuten duurt of zo .
Heb je enig idee hoe lang het down brengen duurt van een gehele server farm ??? En dan vooral unix servers . Eerst en vooral moet het management de beslissing nemen om in DR mode te gaan ( overfalen naar de DR site ). Dan moeten alle procedures uitgevoerd worden , mensen opgebeld worden , enz. Als je zo een monster server staan hebt, waar er een 200-300 logical servers op draaien met databases en zo, dan mag je eerst applicaties stoppen, daarna de databanken proper shutdownen en dan uiteindelijk de servers afleggen.
En er wordt dus niet naar de cpu temp alleen gekeken, op een moederbord van high end servers zitten dus meerdere temperature sensors, alsook op storage systems
Als je de stroom eraf gooit, dan krijgt de server toch wel een signaal van de UPS die eraan hangt, dat hij af moet sluiten?

Of wou je zeggen dat dat ook handmatig moet gebeuren?
colo servers hebben doorgaans geen eigen UPS units d'r aan hangen.
Dan ben je gewoon stupid
Een stroomstoring kan altijd gebeuren en de backup generaters zijn niet direct up
datacenters hebben hun eigen centrale UPS voorzieningen, dus als de commercieele stroom uitvalt (die ook redundant is) vangen die accu's het op. Een van de generatoren is altijd voorgegloeid (warm) en kan dus binnen hele korte tijd (minder dan een halve minuut dacht ik) op vol vermogen draaien.

Dat is een veel economischere oplossing dan dat ieder rack z'n eigen UPS moet hebben. Iets wat voor het merendeel van de colo klanten tevens een niet rendabele oplossing is. (immers, je betaald vaak per unit, en zo'n UPS neemt toch al snel 4U in, die zichzelf niet terug kan verdienen)

Je kan een datacenter niet vergelijken met een serverruimte bij een bedrijf op lokatie.
DR site? Het is een datacenter van een ISP, die hebben geen DR site hoor.

(althans, de ISP wel, maar de klanten doorgaans niet)

[Reactie gewijzigd door arjankoole op 28 oktober 2009 16:50]

Vreselijk zo een geintje.
En de server eigenaren de schuld geven ?
Je betaald flink aan een datacenter en dat is niet alleen voor de verbinding maar ook zodat ze daar zorgen voor een propere bewaking van de omgeving.
Standaard mag je een aantal zaken dan verwachten.
Dat ze je spullen bewaken tegen brand, inbraak / amateurs die er met de vingers aan zitten, stofbescherming en zeker ook temperatuur, dit is een belangrijke factor in elk data center en de bewaking daarvoor kun je dus aan hun laten.

Word jouw kastje te warm omdat je de koeling in de kast niet hebt geregeld is het jouw fout ( slechte koeler en geen cpu bewaking )
Maar het niet meer koelen van de ruimte tot op zulke enorme temperatuurtoenames, sorry hoor, daar kan de server eigenaar niks aan doen, die is voor het data center.
Klanten van het hostingbedrijf claimen dat er schade aan apparatuur is door de oververhitting.
Euh, servers schakelen zichzelf over het algemeen uit als ze te warm worden, dus hoe kan er dan schade ontstaan?

En waarom is dit zo laat opgemerkt? De temperatuur is niet binnen een minuut op 70 graden als er een of zelfs enkele aircos uitvallen. Waarom heeft Zaalbeheer in de tussentijd, toen men de melding kreeg van die uitgevallen airco, niet meteen de reserve-airco unit (die als het goed is op een apart circuit zit) aangezet?

Eerlijk gezegd klinkt het alsof Easynet niet heel erg professioneel bezig is, of niet alles was zo redundant uitgevoerd als het zou moeten...

[Reactie gewijzigd door wildhagen op 28 oktober 2009 15:34]

Euh, servers schakelen zichzelf over het algemeen uit als ze te warm worden, dus hoe kan er dan schade ontstaan?
Niet alle servers doen dat plus dat een rack ook bij lange na niet altijd bestaat uit louter alleen servers. Er zijn zullen zat klanten zijn met een rack vol servers die ze toch graag met elkaar willen laten communiceren op een veilige wijze. Dan zit je al snel aan setups met switches en firewalls en die zijn niet zo bedreven in auto-shutdown als de temperatuur te hoog wordt.
De gebruikers klagen dat Easynet hen niet heeft ingelicht over de problemen.
De temperatuur van je apparatuur monitoren is 1 van de standaard zaken die je behoort te doen. Als je dat niet zelf kunt dan zijn er ook anderen die dat voor je willen doen. Als je dan de keuze maakt om daar geen gebruik van te maken of een dienst af te nemen waarbij die monitoring niet zit dan is dat je eigen keuze. Als er dan iets mis gaat is dat dan ook het risico wat je hebt genomen door die keuze te maken. Uiteraard is het lullig voor de klanten die geen eigen server hebben maar iets als een vps of een simpel webhosting pakketje afnemen want die zullen geen monitoring doen (wat zou je dan moeten monitoren?). Samenvattend: klanten kunnen wel zeuren maar ze hebben anders ook nog eens hun eigen verantwoordelijkheid!

Als je een mega probleem hebt waardoor de temperatuur naar meer dan de 70 graden oploopt (dat is wel erg hoog, bij de UT hadden ze dat ook eens maar toen stond de hele mikmak vol in de hens) dan ligt de prioriteit nou niet bepaald bij het informeren van je klanten maar bij het oplossen van het probleem. Dan kun je verwachten dat het even een tijd duurt vooraleer men berichten de deur uit doet. Niet leuk voor jou als klant, ook niet leuk voor Easynet zelf (ze kunnen niet heksen en staan voor een dilemma).
Veel belangrijker is de oorzaak van het op kunnen lopen tot meer dan 70 graden. Ging er dan iets mis met de backup van de koeling?

@humbug & Mathijs: dat bedoel ik nou dus precies: klanten zetten hun eigen spullen in een dc neer. Dat zij verwachten dat een dc niet in temperatuur oploopt is 1 ding en ook de verantwoordelijkheid van een dc. Het is echter ook de verantwoordelijkheid van de klant zelf dat hij z'n apparatuur beheert, dat is namelijk geen taak van het dc tenzij anders overeengekomen. In dat geval is de klant zelf volledig aansprakelijk voor dat beheer. Onderdeel van beheer is monitoring en dat doe je dus ook voor de temperaturen. Waarom? Omdat het dc niet het enige onderdeel is wat enorme warmte in de server kan veroorzaken waardoor het ding zich ophangt. Je moet zelf je eigen spullen in de gaten houden om bij problemen in actie te kunnen komen (in je eigen voordeel ook). Je kunt niet van het dc verwachten dat zij wel even uit hun glazenbol trekken dat er een fan kaduuk is en je cpu staat over te koken en wildvreemden even toegang geven tot je server zodat ze je kunnen waarschuwen.. 8)7 Klanten hebben dus zelf de boel in handen en kunnen dus zelf de schade beperken.

Ik spreek in dit geval uit ervaring. Dankzij de monitoring konden we heel snel het dc inseinen dat er iets mis is (mensen die leuk spullen bovenop de koeltegel voor een rack zetten, airco in een ruimte die stuk is en minder is gaan koelen, etc.). De schade konden we beperken omdat we zelf door onze eigen monitoring een seintje kregen dat er iets mis was waarna we het konden onderzoeken en oplossen (bijv. door het dc te bellen of domweg de servers uit te zetten). De UT kwam op die manier ook achter de brand, die zijn door hun monitoring ook gealarmeerd waarna men op onderzoek uit ging.

Wat hier dus kort door de bocht is, is het domweg afschuiven van alle verantwoordelijkheid richting Easynet. In dit geval gaat om een gedeelde verantwoordelijkheid waarbij Easynet zorg draagt voor de temperatuur in het dc en de klant zorg draagt over het wel en wee van z'n eigen apparatuur. Als ik lees dat mensen alles richting Easynet schuiven dan zegt mij dat 2 dingen: ze hebben hun zaakjes niet op orde en ze nemen hun verantwoordelijkheid niet. Los daarvan heb je ook nog gewoon de groep klanten die iets hebben waarbij temperatuur monitoring niet kan (website hosting o.i.d.). Voor hen is het wel terecht om te spreken van schade door derden (waarbij het niet per definitie Easynet hoeft te zijn natuurlijk). Firma's en mensen die denken dat je ff een servertje in een rack schuift waarna alle verantwoordelijkheid bij het dc ligt snappen gewoon geen jota van systeembeheer. Dat is een ernstiger punt dan een dc die een storing heeft en klanten niet tijdig informeert. Je zou je spullen maar op zo'n server hebben ondergebracht...

Probeer wel goed te lezen en te interpreteren wat er nou staat ;)

Overigens is het ook een understatement om te denken dat kantoorpersoneel bij een storing niets te doen heeft. Drie maal raden wie al die telefoontjes opvangt (bijv. van mensen die wel aan monitoring doen en merken dat er iets mis is) en in crisisoverleg mag. Het is absoluut geen aangelegenheid voor alleen maar technici. Verder vraag ik me af wat men niet snapt aan de zin " Dan kun je verwachten dat het even een tijd duurt vooraleer men berichten de deur uit doet.". Het duurt een tijd voor een bedrijf uberhaupt klanten kan gaan waarschuwen. Soms heeft dat te maken met procedures, soms omdat ze nog even wat willen afwachten, soms met de enorme workload die ze ineens krijgen (bij grote storingen weet iedereen je ineens te vinden) maar vaak ook omdat er eerst wat duidelijkheid wordt gezocht wat er nou aan de hand is en wat klanten moeten doen. Je kunt niet klanten gaan bellen als je alleen maar weet dat er *iets* stuk is, dan krijg je paniekvoetbal en zadel je jezelf op met nog meer werk (je moet iedereen weer af met uitleg wat er nou aan de hand is). Het totaal niet inlichten is niet slim om te doen maar daar komt weer die eigen verantwoordelijkheid om de hoek kijken: een dc is niet verantwoordelijk voor jouw systeembeheer, dat ben je toch echt helemaal zelf. Mensen hadden kunnen monitoren en n.a.v. de alarmen over de temperatuur richting de helpdesk kunnen bellen.

BTW: hadden jullie het volgende al gezien? http://noc.leaseweb.nl/status.php?i=425

[Reactie gewijzigd door ppl op 29 oktober 2009 01:13]

Dit is leuk maar eigenlijk niet relevant. Klanten kiezen ervoor om in een datacenter te staan. Ze betalen een hoop en kunnen dus verwachten dat de temparatuur in dat datacenter niet hoog oploopt. Om nu te verwachten dat men een aparte dienst afneemt om te horen te krijgen dat het mis gaat in het datacenter klinkt als een voetballer die zegt: "He, ik wordt betaald om in het veld te staan. Als je wilt dat ik tegen een bal trap moet je meer betalen." Het datacenter hoort gewoon klanten op de hoogte te brengen als de dienstverlening ernstig de soep in loopt. Geklaag over eigen verantwoordelijkheid van klanten slaat dus nergens op.

En je tweede punt is nog zinlozer. Als je een mega probleem hebt waardoor de temperatuur naar meer dan de 70 graden oploopt hebben je technische mensen een hoop te doen. Je kantoorpersoneel kan echter weinig doen. Behalve natuurlijk je klanten informeren....

Oftewel easynet heeft flinke steken laten vallen en kan van de getroffen klanten claims verwachten. Ben benieuwd hoe ze daar mee om gaan, maar dit is voor de reputatie niet echt best.

Voor de duidelijkheid: Ik heb geen servers in dat datacentrum
Ik vind 2 issue's hier:

1 is dat er s' nachts alleen beveiliging in het pand is. geen kantoorpersoneel om te mailen.
2 is dat easynet de ruimte verhuurd aan grote partijen zoals leaseweb en heeft dus niet de klantgegevens van alle partijen om te mailen. Ik ga er van uit dat easynet zijn klanten heeft ingelicht hierover.

Voor de rest heb je gelijk, je verwacht van je provider in het datacenter dat de temperatuur daar constant is, net zoals de stroom toevoer en het netwerk. Niet iets dat je zelf moet monitoren. Hoewel dit natuurlijk wel altijd handig is.
Dat is nogal kort door de bocht. Je huurt ruimte bij een datacenter. Dat datacenter belooft jou een prima omgeving te leveren voor je spullen.
Er is aico aanwezig, noodstroom, netwerkvoorzieningen, etc.
In dat geval ligt de verantwoordelijkheid voor die omgeving dus bij het datacenter, want jij zelf kunt er niets aan doen wanneer een van die zaken mis gaat.
Tja, je ziet vaak nog een ups in racks, maar dat is dan dus dubbelop. Die investering maak je alleen wanneer je de zeer kleine kans wilt uitsluiten dat er een keer iets mis gaat bij het datacenter. Daarnaast is het ook weer mogelijk dat zo'n ups de geest geeft en je rack alsnog zonder prik valt.

Wanneer er dus iets heel erg mis gaat met de klimaatcontrole zoals in dit geval, is het zaak voor het datacenter om juist te handelen.
Onder juist handelen zou ik dan verstaan, om toch de gehele afdeling plat te gooien wanneer de temperatuur zo ver oploopt dat het vrijwel zeker is dat er schade van komt.

Daarnaast is het uitschakelen van je eigen servers nog geen zekerheid dat alles heel blijft, de temperatuur was boven de 70 graden, er was geen luchtstroming meer.
Dat wil dus zeggen dat de temperatuur op bepaalde plaatsen nog veel hoger is geweest en dat alsnog de coating van je hdd's beschadigd kan zijn en de condensatoren gekookt kunnen hebben.

Ik denk dat er iets zwaar schort aan de noodprocedures daar, wanneer je over iets dergelijks nadenkt, zal iedereen tot de conclusie komen dat de oorzaak van de warmte uitgeschakeld moet worden wanneer de koeling de geest geeft om grote schade uit te sluiten.
Wanneer je een machine zou hebben met waterkoeling en de pomp doet het niet meer, ga je dan urenlang ingeschakeld de pomp proberen te repareren of schakel je het ding uit voor het water kokend in de slangen staat?

Over eigen verantwoording praten in dit geval vind ik dus nogal fout, je outsourced juist een hoop van die zaken naar een ander zodat je jezelf volledig kan storten op datgene dat je het beste kunt.
Inderdaad
Easynet had gewoon moeten kiezen voor de SLA te breken en de boel uit te zetten
Deze beschadigde hardware vergoeden kost nu veel meer
Als ze 5 minuten hadden genomen voor een mass mailing, hadden klanten (remote) een shutdown kunnen triggeren, als dat al niet automatisch gebeurd. Sowieso is Easynet verantwoordelijk, aannemende dat er in het contract staat dat de ruimte op 22 graden wordt gehouden. Misschien iets meer of minder, maar dat is in ieder geval geen 70 graden.
Maar dat wil niet zeggen dat bepaalde onderdelen niet goed tegen een omgevingstemperatuur van 70C kunnen. Bovendien kan het zijn dat bijvoorbeeld de CPU zichzelf ging terugklokken, en zo niet boven een schadelijke temperatuur kwam, waardoor de server bleef draaien, maar andere onderdelen door de hoge omgevingstempreatuur wel beschadigd raakten.
Ik vind dat toch de verantwoordelijkheid van de server, gewoon intake fan meten en automatisch hibernaten en weer opstarten zoals HP.
Ik denk dat de stroom er globaal boven de 40 graden wel af had gemoeten om brand en dergelijke te voorkomen.
Een omgevings temperatuur van > 70 graden lijkt mij een bijzondere omstandigheid.
Bijna elk mobo heeft wel een sensor die een CPU oververhitting voorkomt met een shutdown, maar 70 graden is voor een CPU een acceptabele temperatuur, dus die zal niet afgegaan zijn (uiteraard met zo'n temperatuur zal de CPU veel moeilijker te koelen zijn, dus die zal wel nog heter zijn geweest)
Wat jij omschrijft; het meten van de temp bij de intake-fan zal ook vast niet op alle HP servers zitten...

En dan nog, ook als het spul niet draait, het heeft meer dan 5 uur geduurd voor de temperatuur weer ging zakken.. Ook terwijl de boel uitstaat kan het nog stuk gaan met zo'n temperatuur.
70 is voor een CPU dan wel aanvaardbaar (maar eigenlijk al redelijk hoog) de gemeten temperatuur is deze in de serverruimte en bedraagd dus de omgevingstemperatuur. En voor omgevingstemperatuur is het gewoon veel te hoog aangezien de elektronica op zich dan nog warmer staat.
zo werken servers niet, en de ruimtes al helemaal niet.. je hebt gewoon in de ruimte zelf een x aantal sensoren die de temp controleert, is het te hoog gaat alarmpje af.. en servers hebben zelf ook een sensor.. gewoon een ambiant sensor..meet die 50+ dan zet je je zelf uit.
Sowieso snap ik die schade inderdaad niet. Lijkt mij ook dat ze uitschakelen bij een te hoge temperatuur. of weet iemand daar meer van?
Blijft wel de fout van Easynet btw, maar kan het verhaal niet helemaal goed bevatten.
CPU's en dergelijke wel maar raid controllertjes hebben niet altijd die beveiliging. En bij hoge temperaturen beginnen die dingen ook wel eens rekenfouten te maken zonder je PC te laten stoppen maar ondertussen zitten je schijven wel in de knoop.
Maakt allemaal niet uit; een echte server heeft als geheel een shut-off mogelijkheid. Dat heb je nodig om een controlled shutdown te doen als er een stroomstroing is; UPSen hebben niet het eeuwige leven. Dus als ze bij 45 graden begonnen waren om de UPSsen los te koppelen van het elektriciteitsnet, dan hadden al die servers een ernstige stroomstoring vermoed en zichzelf uitgezet.
Ja ALS, maar dat is hiet niet gebeurd en daarom de uitleg waarom die schade er is gekomen.
het lag aan de kleppen dus misschien was er wel een reserve airco, maar kon de luch er gewoon niet komen ( maar waarom de boel dan niet gewoon uitgezet is is mij een raadsel)
het lag aan de kleppen dus misschien was er wel een reserve airco, maar kon de luch er gewoon niet komen
Maar als het goed is, is het backup airco-systeem voorzien van zijn eigen luchtkleppen, los van het primaire systeem. Dus waarom is dat backupsysteem door zaalbeheer niet, of iig niet op tijd, geactiveerd?
Machines schakelen zichzelf uitzodra er overhitting plaatvindt bij bepaalde gekoelde onderdelen. Schijven ed. die overlijden gewoon vrolijk, hoor. (En zoals je al kan raden duurt het langer voordat gekoelde onderdelen verhitten.)

[Reactie gewijzigd door Rune op 28 oktober 2009 15:56]

70 graden op de hele afdeling? Sauna door servers! Dat zal wel wat uitvallende servers hebben opgeleverd. Schadeclaim lijkt mij dan terecht? Afhankelijk van de hostingvoorwaarden en zo.
Een schadeclaim lijkt mij ook niet meer dan terecht. Maar Easynet heeft vast weer een voorwaarde in de kleine letters staan waarin blijkt dat schade aan hardware door toedoen van 3de niet onder garantie vallen. Dan kunnen ze het vast zo draaien dat hun airco leverancier de 3de partij is. :'(
Nee, toeleveranciers van 1 partij zijn juridisch geen "derden".
nee, maar de schade moet wel op de juiste partij verhaald worden en dat zal een onderzoek moeten uitwijzen, dat kan zelfs het bedrijf zijn dat de installatie van de dataroom heeft gedaan, de beheerder die verantwoordelijk is voor de hard- en softwareconfiguratie, ...

als jij via ILO het enige en volledige beheer van je server hebt en hij valt niet uit boven de 50 bvb, dan is het jouw verantwoordelijkheid, tenzij je kan aantonen dat zij die setting hebben uitgeschakeld
oftewel dan gaan we gewoon naar de airco leverancier :P
Misschien zijn ze hiervoor verzekerd. Dat is geen overbodige luxe met een kapitaal aan servers in je pand.
Ze zijn gewoon aansprakelijk hoor; alleen overmacht wordt uitgesloten (vliegtuig stort neer, overstroming, etc.), koeling valt net zoals de stroomvoorziening nou net onder de 'basiseigenschappen' van een datacenter-dienst.

Frappanter is dat het overhittings-veiligheidsmechanisme niet werkte (misschien door de 'manual override'), ze zouden niet de 1ste partij in NL zijn waarin alles op papier 3 dubbel is ingedekt, terwijl het in de praktijk toch niet zo lekker werkt ;)
Er is door advocatenkantoor Dirkzwager geblogd over dit nieuws. Mogelijk dat je hier iets aan hebt.
Sauna voor de servers? Weenie of je wel eens in 70 graden hebt rondgelopen? :')
En het is normaal al erg warm in hun datacenter. Tja, ze hadden beter de gehele afdeling plat kunnen gooien in plaats van deze 8 uur superwarm door te laten draaien.
Leuk als je raid arrays en je backups tegelijk geroosterd worden.
70 graden op de vloer is dan 100+ intern zou ik zeggen. Dat is dan erg leuk voor de coating van de platters.
Daarnaast zal er nog veel gesodemieter komen met de servers opzich, condensatoren kunnen namelijk niet tegen temperaturen boven 105 graden en die temperatuur zou makkelijk gehaald kunnen zijn als deze zich achter het uitblaaspad van een cpukoeler bevinden.
Daarnaast heb je nog de bumps van de ic's die vanaf een graad of 85 af kunnen breken of in ieder geval qua integriteit beschadigd kunnen raken waardoor ze in de tekomst de geest geven. Dat wil dus zeggen dat er in de komende weken nog een hoop gaat sneuvelen daar.

Dat Easynet verantwoordelijk is voor de schade lijkt mij niet meer dan normaal, lijkt me knap als ze zich daaronderuit kunnen kronkelen.
Naast de schade aan hardware en software denk ik dat Easynet ook een grote klap op gaat lopen in het klantenbestand. Zelf heb ik gelukkig de servers niet staat bij Easynet, want die schade verhalen gaat waarschijnlijk ook nog maanden duren en voor veel bedrijven is een nieuwe server kopen toch wel een relijke kostenpost. De overstap naar een ander centrum zal wel sneller gaan als de algemene voorwaarden dit soort situaties niet goed afdekken (en Easynet zich dus niet het contract is nagekomen).
Ik vraag me af wat er met BGA sockets gebeurd, die willen nog wel eens losraken als ze erg warm worden.

Naast alle hardware die nog gaat sneuvelen vraag ik me zeer af of er na dit grapje nog garantie op de servers zit. De operating temperature lijkt me ruim overschreden... Dus niet alle schade is meteen zichtbaar zelfs niet als de rook optrekt...

Aan de andere kant.. Als bedrijf moet je niet in een ruimte willen hosten waar niet alles redundant is uitgevoerd, inclusief airco.. 8)7
Een on-site backup is dan ook amper te classificeren als backup. Een goede backup regel je off-site, en als je de middelen hebt ook nog meer dan n.
70 graden omgevings temperatuur vertaalt naar >90 graden hete CPU's, harddisks en andere hardware...

Als de lucht te warm is om hitte aan af te geven, bouwt de hitte alleen maar op h... heel veel hardware kan daar NIET tegen (hdd's en accu's bijvoorbeeld (CPU's ook wel, maar de meeste servers draaien op Intel hardware, en die schakelen zichzelf uit bij te hoge temperaturen.. ALS HET GOED IS :P))
Ik las alweer een half jaar geleden ofzo dat Intel die veiligheid tegenwoordig niet meer in alle cpu's bouwt. Zal vast te maken hebben met besparingen op de productiekosten van Intel.
Misschien komt het ook helemaal niet vaak voor dat cpu's oververhit raken. Dan bespaart Intel veel geld, en kan het een enkele schadeclaim makkelijk betalen van het bespaarde geld.
Nog geen half jaar na die invoering van Intel en de beruchte filmpjes op tomshardware had AMD het ook ingevoerd in hun CPU's. Dat is inmiddels al een jaar of 6? geleden, jammer dat sommigen nog jaren aan dat idee blijven vasthouden. Overigens zit er meer in een kast dan alleen een CPU en veel componenten kunnen zelfs als ze uit staan niet tegen 80-90 graden in een kast.
sauna is gewoonlijk ook wel 80 graden of hoger hoor ;) ik kan het weten, want ik zit op het moment in Finland :+
Die 70 graden is de omgevings temperatuur. Daarmee moeten de servers zich koelen. Hoe heet zou een CPU worden met koeling a 70 graden denk je.
Een sauna van 70 graden is een van de koudere. 80-90 is vrij gewoon, 100 stevig en tot 110-120 voor de bikkels.
Tuurlijk kan je die schade claimen bij Easynet. Hier kunnen ze niet onderuit. Ik kan mij alleen niet voorstellen dat zakelijke klanten bij een dergelijk bedrijf in nood zijn systemen onderbrengt. Er zijn meer betrouwbare,en financieel stabielere housing/hosting bedrijven in NL. Elk housing/hosting bedrijf die ik ken (pochte hij) heeft uitgebreide beveiliging bij te hoge temparaturen in de ruimtes. Goedkoop blijkt duurkoop
Waarom zetten ze niet even een raampje open? Of waren ze bezorgd om opwarming van de aarde? ;)
Totaal niet grappig want of ze et nou koelen of niet, die servers generen gewoon xxxxx watt aan warmte ongeacht of ze gekoeld worden of niet :) Raam open of dicht maakt dus geen zak uit, anders komt die warmte ergens anders naar buiten...
Nou als ze die warmte door een niet werkende airco niet kwijt kunnen wordt het alsmaar warmer in de serverruimte en dan kun je de schade wel beperken door anders te ventileren (dus raampje open) ,de buitenlucht is immers koeler dus zal positief een effect hebben. Misschien een beperkt effect maar als je al het mogelijke wil doen, moet je dat ook doen. Maar waarschijnlijk heeft het datacenter helemaal geen ramen...
Maar waarschijnlijk heeft het datacenter helemaal geen ramen...
Precies ;)
bij zo'n meltdown gaan goed geconfigureerde toch echt wel gewoon uit.. wij hadden laatst ook een Airco storing en de serverruimte was 50 graadjes.. en alle servers stonden netjes uit.. (thermal shutdown)..

raar dat dat daar niet gebeurt is.
Misschien toch een hoop goedkope prul hardware die door klanten is neergezet. Wie weet...
Met de deur open en de afzuigfan aan haal je toch een heleboel warmte uit een ruimte.
Buiten is het 11 graden. Maar veel serverruimtes zijn vrij dom van opzet en vertrouwen volledig op de airco.
Men moet ook hand in eigen boezem steken. Kijk eens goed in je contract bij het SLA en wat het gevolg voor Easynet is als ze niet voldoen aan het SLA. Kijk ook eens bij bijvoorbeeld Uptime Instituut over downtime, waarschijnlijk is Easynet een Tier2 of Tier3 datacenter, dan voldoen ze met deze storing redelijk aan het profiel! Je kunt niet voor een duppie rackspace willen kopen en dan zeuren als het mis gaat!
In de SLA, zullen wel de kleine lettertjes staan dat ze niet aansprakelijk zijn.
Ik denk dat Easynet eerder een Tier 3 datacenter is.
Kleine of grote lettertjes, je tekent het zelf. Daarnaast kan niet zo zijn dat je weinig tot niets wilt betalen en dan wel je gelijk wilt halen als het eens niet werkt! Zou alleen erg zijn als de fout niet een kapotte klep oid is, maar een falende mens!
Daar zit je niet echt voor een duppie op de eerste rang, dat loopt al snel fors op, Racks huur je met 6A en dan kost het rond 1000 in de maand
Dat een provider toevallig lage tarieven hanteert ontslaat 'm niet van zijn verantwoordelijkheden.
Serieus, waarom hebben ze de stroom niet gewoon uitgezet?
Denk eens aan de klachten die je dn wel niet krijgt, downtime voor iedereen of een paar apparaten stuk... Beide is niet netjes.
Nee, maar in zo'n situatie dien je wel te kiezen voor de minste van twee kwaden, en in dit geval is dat downtime voor iedereen, door de stroom simpelweg af te schakelen.

Eerst voorkomen dat er nog mr schade komt, dn pas zorgen maken om secundaire zaken als downtime etc.
De kosten voor schade aan apparatuur is voor klanten misschien aantrekkelijker dan dat de klanten van die klant schadevergoedingen gaat wegleggen wegens SLA overschreiding. (En dat kan wel iets hoger oplopen dan een paar duizendjes voor hardware).
Maar als door schuld van het datacenter de server stuk gaat en daarom de SLA overscheden wordt (klant wil immers service beschikbaar) dan krijg je natuurlijk net zo goed die claim aan je broek + de rekening voor de reparatie.
Dat ligt maar net aan de kleine lettertjes...
Heb je in ieder geval minder lang downtime met de kans dat je binnen de SLA periode blijft die je hebt afgesproken met je klanten.

Natuurlijk ben je het beste af als je als klant een failoverlocatie hebt die tijdelijk het spul over kan nemen (dan maakt het nl. niet uit wat het datacenter beslist, je legt daar gewoon een rekening neer.)
In de SLA voor mijn colocated server staat ook een mooie temperatuur van rond de 22 graden. Nou zal ik niet mekkeren bij 25 of zelfs 30, maar bij 70 kan je er op rekenen dan ik eens even goed met mijn colo provider ga praten.
Zou ik idd ook doen, oops zo opeens de hoofdschakelaar om... Maar hier zijn ze vast wel voor verzekerd, voor het omhalen van een hoofdschakelaar denk ik niet ;)
Na het uitzetten van de stroom van apparatuur dat jaren onafgebroken heeft gedraaid kan je ook wel uitval verwachten. Hoge temperatuur of niet.
Als het goed is nemen dan de UPS'en het over en na een tijdje geven die een net shutdown-commando
Je kunt je server toch instellen dat hij bij een omgevingstemp van 50 graden uitschakeld? dat kan in de gemiddelde consumenten pc nog...
De eigenaar van de server is hier dan verantwoordelijk voor

Offtopic:
Er zijn een paar mensen een paar jaar ouder geworden daar bij easynet vandaag denk ik.

[Reactie gewijzigd door FragDonkey op 28 oktober 2009 16:39]

Nee hoor. Een gemiddelde consumenten pc heeft hoogstens een harde shutdown (of erger nog: een reset) op de CPU temperatuur maar tegen die tijd zijn je harddisks met wat pech al krom getrokken.

Nee.... temperatuur monitoring/-shutdown is nog best een vak apart. Wil je het helemaal goed doen, dan moet je allesin ogenschouw nemen: HDD temp, sensors op mainboard. En liefst ook no geen externe thermometer.
Er is genoeg software om een netjes shutdown-signaal af te geven bij temperatuur op elke aanwezige sensor die hoger aangeeft dan een drempelwaarde. En veel (ook consumenten-) moederborden hebben in elk geval een ambient-temperatuur sensor, dus daar kom je een aardig end.

Tuurlijk, dat zijn geen BIOS-checks, maar gewoon deamons die op de achtergrond meedraaien, maar dat maakt voor de functionaliteit niks uit.
Mja, misschien reken je er op dat mensen hun werk doen, en een serverruimte geen 70 graden laten worden. Sowieso lijkt me een simpele shutdown if temp =>50 geen goede manier van een shutdown uitvoeren.
Sowieso had easynet hier de klanten moeten waarschuwen om deze handelingen evt. handmatig in gang te kunnen zetten/controlleren.
Nou de cpu's schakelen zich misschien uit bij 80 graden, deze zijn echter vaak actief gekoeld en voordat het zover is kan een ander stukje hardware (zoals dus de disken en controlelrs ) wat iets minder goed is gekoeld natuurlijk al wel kapot zijn.
De meeste servers, iig van bekende en professionele merken (HP, IBM, Dell etc) schakelen zichzelf al bij veel lagere temperaturen uit, juist om schade te voorkomen.

Vraag is dus waarom dat hier niet gebeurd is? Heeft men die functionaliteit misschien bewust uitgezet, wat niet zo slim is natuurlijk, of speelt hier iets anders?
Als de aanvoerlucht gewoon 'heet' is , immers 1 grote keet met warmte-stokende servers is het snel gedaan met afkoelen. De harde schijven en inderdaad controllers, die er niet tegen bestend zijn geven als eerste de geest. Een HDD op 70 ~ 80 graden is funest. Die kan je meestal na een reboot wel weggooien al.
Succes met de apparatuur die niet verloren is gegaan. Hoor je over 2 maanden wel...
Ooit een gevalletje airco kapot meegemaakt. Zelfs na een half jaar ben je nog bezig met schijven vervangen en de 3Com stacks zijn daarmee ook stuk voor stuk om zeep gegaan.
Idd, Eigenlijk kom je alles in de komende period te vervangen, just in case. Meestal is het niet direct kapot maar gaat het dat wel op korte termijn. Ik wens die klanten van Easynet veel sterkte toe.
Hoge temperatuur zorgt inderdaad voor extra slijtage. Een beetje aan halfgeleiders, maar voornamelijk aan twee zaken: aan mechanische delen (harde schijven) omdat hun toleranties overschreden worden (simplistisch gezegd: een te heet lager gaat klemmen en slijt hard) en aan elco's omdat de levensduur daarvan sterk temperatuurafhankelijk is. Voor elke 10 graden verhoging gaat de slijtage 2 keer zo snel. Dat houdt dus in dat de slijtagesnelheid gedurende zo'n incident al gauw het 16-voudige van normaal bedraagt.

[Reactie gewijzigd door mae-t.net op 28 oktober 2009 16:40]

3700 schade hier aan overleden apparatuur (controlers, mobo's, cpu's & hdd's). Hoogste gemeten omgevingstempratuur in mn logs is 72 graden.
Waarom stuurt het systeem dan niet een mailtje of SMSje als die temperatuur te veel op loopt? Dat is toch niet zo moeilijk, dan ben je er zelf snel genoeg bij om de boel down te brengen (remote of ter plekke).
Dit ljikt er toch op dat er veel te veel vertrouwen is dat er in het datacenter niets fout kan gaan.
Niet teveel vertrouwen dat er niets fout kan gaan.

Wel teveel vertrouwen dat het datacenter een acceptable redundantie heeft.
Ik neem toch aan dat een datacenters ook een SLA hebben. Daarin nemen zij garanties op.

Overigens het vertrouwens heb ik al lang opgegeven in Easynet. Een hele tijd geleden zijn daar primaire DNS servers gecrashed. Backup is iets wat ze bij Easynet niet kennen. Voor een klant moest ik contact op nemen met Easynet, waarbij ik de vraag kreeg... goh weet u toevallig nog welke domeinnamen u heeft en waar deze neer verwezen, omdat ze zelf geen gegevens meer hadden...

Je kunt je vast wel de chaos voorstellen. Easynet is 100% no go!

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True