Euh, servers schakelen zichzelf over het algemeen uit als ze te warm worden, dus hoe kan er dan schade ontstaan?
Niet alle servers doen dat plus dat een rack ook bij lange na niet altijd bestaat uit louter alleen servers. Er zijn zullen zat klanten zijn met een rack vol servers die ze toch graag met elkaar willen laten communiceren op een veilige wijze. Dan zit je al snel aan setups met switches en firewalls en die zijn niet zo bedreven in auto-shutdown als de temperatuur te hoog wordt.
De gebruikers klagen dat Easynet hen niet heeft ingelicht over de problemen.
De temperatuur van je apparatuur monitoren is 1 van de standaard zaken die je behoort te doen. Als je dat niet zelf kunt dan zijn er ook anderen die dat voor je willen doen. Als je dan de keuze maakt om daar geen gebruik van te maken of een dienst af te nemen waarbij die monitoring niet zit dan is dat je eigen keuze. Als er dan iets mis gaat is dat dan ook het risico wat je hebt genomen door die keuze te maken. Uiteraard is het lullig voor de klanten die geen eigen server hebben maar iets als een vps of een simpel webhosting pakketje afnemen want die zullen geen monitoring doen (wat zou je dan moeten monitoren?). Samenvattend: klanten kunnen wel zeuren maar ze hebben anders ook nog eens hun eigen verantwoordelijkheid!
Als je een mega probleem hebt waardoor de temperatuur naar meer dan de 70 graden oploopt (dat is wel erg hoog, bij de UT hadden ze dat ook eens maar toen stond de hele mikmak vol in de hens) dan ligt de prioriteit nou niet bepaald bij het informeren van je klanten maar bij het oplossen van het probleem. Dan kun je verwachten dat het even een tijd duurt vooraleer men berichten de deur uit doet. Niet leuk voor jou als klant, ook niet leuk voor Easynet zelf (ze kunnen niet heksen en staan voor een dilemma).
Veel belangrijker is de oorzaak van het op kunnen lopen tot meer dan 70 graden. Ging er dan iets mis met de backup van de koeling?
@humbug & Mathijs: dat bedoel ik nou dus precies: klanten zetten hun eigen spullen in een dc neer. Dat zij verwachten dat een dc niet in temperatuur oploopt is 1 ding en ook de verantwoordelijkheid van een dc. Het is echter ook de verantwoordelijkheid van de klant zelf dat hij z'n apparatuur beheert, dat is namelijk geen taak van het dc tenzij anders overeengekomen. In dat geval is de klant zelf volledig aansprakelijk voor dat beheer. Onderdeel van beheer is monitoring en dat doe je dus ook voor de temperaturen. Waarom? Omdat het dc niet het enige onderdeel is wat enorme warmte in de server kan veroorzaken waardoor het ding zich ophangt. Je moet zelf je eigen spullen in de gaten houden om bij problemen in actie te kunnen komen (in je eigen voordeel ook). Je kunt niet van het dc verwachten dat zij wel even uit hun glazenbol trekken dat er een fan kaduuk is en je cpu staat over te koken en wildvreemden even toegang geven tot je server zodat ze je kunnen waarschuwen..

Klanten hebben dus zelf de boel in handen en kunnen dus zelf de schade beperken.
Ik spreek in dit geval uit ervaring. Dankzij de monitoring konden we heel snel het dc inseinen dat er iets mis is (mensen die leuk spullen bovenop de koeltegel voor een rack zetten, airco in een ruimte die stuk is en minder is gaan koelen, etc.). De schade konden we beperken omdat we zelf door onze eigen monitoring een seintje kregen dat er iets mis was waarna we het konden onderzoeken en oplossen (bijv. door het dc te bellen of domweg de servers uit te zetten). De UT kwam op die manier ook achter de brand, die zijn door hun monitoring ook gealarmeerd waarna men op onderzoek uit ging.
Wat hier dus kort door de bocht is, is het domweg afschuiven van alle verantwoordelijkheid richting Easynet. In dit geval gaat om een gedeelde verantwoordelijkheid waarbij Easynet zorg draagt voor de temperatuur in het dc en de klant zorg draagt over het wel en wee van z'n eigen apparatuur. Als ik lees dat mensen alles richting Easynet schuiven dan zegt mij dat 2 dingen: ze hebben hun zaakjes niet op orde en ze nemen hun verantwoordelijkheid niet. Los daarvan heb je ook nog gewoon de groep klanten die iets hebben waarbij temperatuur monitoring niet kan (website hosting o.i.d.). Voor hen is het wel terecht om te spreken van schade door derden (waarbij het niet per definitie Easynet hoeft te zijn natuurlijk). Firma's en mensen die denken dat je ff een servertje in een rack schuift waarna alle verantwoordelijkheid bij het dc ligt snappen gewoon geen jota van systeembeheer. Dat is een ernstiger punt dan een dc die een storing heeft en klanten niet tijdig informeert. Je zou je spullen maar op zo'n server hebben ondergebracht...
Probeer wel goed te lezen en te interpreteren wat er nou staat
Overigens is het ook een understatement om te denken dat kantoorpersoneel bij een storing niets te doen heeft. Drie maal raden wie al die telefoontjes opvangt (bijv. van mensen die wel aan monitoring doen en merken dat er iets mis is) en in crisisoverleg mag. Het is absoluut geen aangelegenheid voor alleen maar technici. Verder vraag ik me af wat men niet snapt aan de zin " Dan kun je verwachten dat het even een tijd duurt vooraleer men berichten de deur uit doet.". Het duurt een tijd voor een bedrijf uberhaupt klanten kan gaan waarschuwen. Soms heeft dat te maken met procedures, soms omdat ze nog even wat willen afwachten, soms met de enorme workload die ze ineens krijgen (bij grote storingen weet iedereen je ineens te vinden) maar vaak ook omdat er eerst wat duidelijkheid wordt gezocht wat er nou aan de hand is en wat klanten moeten doen. Je kunt niet klanten gaan bellen als je alleen maar weet dat er *iets* stuk is, dan krijg je paniekvoetbal en zadel je jezelf op met nog meer werk (je moet iedereen weer af met uitleg wat er nou aan de hand is). Het totaal niet inlichten is niet slim om te doen maar daar komt weer die eigen verantwoordelijkheid om de hoek kijken: een dc is niet verantwoordelijk voor jouw systeembeheer, dat ben je toch echt helemaal zelf. Mensen hadden kunnen monitoren en n.a.v. de alarmen over de temperatuur richting de helpdesk kunnen bellen.
BTW: hadden jullie het volgende al gezien?
http://noc.leaseweb.nl/status.php?i=425
[Reactie gewijzigd door ppl op 23 juli 2024 14:20]