Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 97 reacties
Bron: Usenix

Een studie, uitgevoerd door de Carnegie Mellon University, laat zien dat het gebruik van de mttf-waarde bij harde schijven misleidend is. Hoewel fabrikanten soms mttf-waardes van meer dan 100 jaar claimen blijken de meeste schijven op een leeftijd van 10 jaar al dood te zijn.

Harde schijfDe mttf, nauw verwant aan de mtbf, wordt gebruikt om een indicatie te geven van de betrouwbaarheid van een product. Aangezien het niet mogelijk is om een harde schijf honderd jaar te testen voordat deze op de markt verschijnt wordt de ‘mean time to failure’ bepaald door een groot aantal harde schijven een korte tijd te testen en dit resultaat vervolgens te extrapoleren. Het probleem met deze methode is dat de kans op overlijden niet constant is. Het blijkt dat deze kans toeneemt wanneer de schijf ouder wordt, waardoor de kans op kapotte hardware aanzienlijk hoger is dan wat de mttf-waardes suggereren. Voor het onderzoek is gekeken naar circa 100.000 schijven die gebruikt werden in onder andere supercomputers en grote opslagsystemen.

Hoewel een mttf van 1.000.000 uur in theorie zou betekenen dat gemiddeld 0,88 procent van de in gebruik zijnde schijven kapot gaat per jaar, blijkt gemiddeld 3,0 procent per jaar het loodje te leggen. Zelfs in het eerste levensjaar gaan schijven soms al vaker kapot dan wat de mttf suggereert. Bij systemen die ouder zijn dan vijf jaar kan er zelfs een factor dertig zitten tussen de theoretische levensverwachting en de daadwerkelijke levensduur. De onderzoekers concluderen daarom dat er een nieuwe standaard nodig is om de betrouwbaarheid van harde schijven vast te leggen. Tevens wordt opgemerkt dat scsi en fibre channel-hardeschijven geen hogere betrouwbaarheid lijken te hebben dan serial ata-schijven, terwijl er vaak wel een hogere mttf wordt gespecificeerd.

Lees meer over

Moderatie-faq Wijzig weergave

Reacties (97)

Tevens wordt opgemerkt dat scsi en fibre channel-hardeschijven geen hogere betrouwbaarheid lijken te hebben dan serial ata-schijven, terwijl er vaak wel een hogere mttf wordt gespecificeerd.
Niet zo gek, aangezien er alleen een ander printje met aansturingselectronica in de behuizing van de schijf zit, terwijl de disk zelf exact hetzelfde is, of je nu scsi, fibre-channel, p-ata of s-ata gebruikt.
Wel gek, aangezien dat gewoon niet waar is.

ALS je inderdaad exact dezelfde disk hebt, dan maakt het inderdaad niet uit wat voor interface je hebt.

Maar in de praktijk zijn SCSI disks niet gelijk aan SATA disks!
Er is (tegenwoordig) geen enkel merk dat van exact dezelfde disks varianten met SCSI en PATA/SATA interface heeft.

Zo hebben SCSI disks vrijwel altijd kleinere platters met een kleinere diameter, kleinere datadichtheid en hogere rpm. Je kunt van die disks met de beste wil van de wereld niet beweren dat ze exact hetzelfde zijn!!
Kun je bij SCSI in de bios/firmware van je disk,ook nog's instellen,of ie wel of geen bad sectors inkapseld.
D'r is geen IDE/SATA disk die dat doet.

Des ondanks het google onderzoek,blijf ik erbij,
Het ene merk heeft procentueel meer uitval dan het andere merk.(persoonlijk heb ik slechte ervaringen,in werk en privesfeer met Maxtor IDE en SATA en IBM/Hitachi IDE en SCSI schijven,..de laaste 2 waren SCSI320 disken,..beide rot uit de verpakking.
Dat er toch wel een verschil zit,tussen onder eigen merknaam uitgebrachte naam (en garantieafhandeling), van betere kwaliteit zijn,dan de disken die aan OEM's verkocht worden.(al dan niet voorzien van OEM merk sticker)Of het nu een SCSI of IDE is,...maakt weinig uit.
HP/Compaq SCSI disk,...heeft standaard maar een jaar,....en bv. dezelfde van Seagate (voorbeeld) zelf 5 jaar.
En,...een SCSI disk word maar gegarandeerd tot 35 graden omgevingstemperatuur.Dus iets van koeling is dus wel iets om aan te raden.Een IDE/SATA zit zo rond dezelfde waarde.

Eigenlijk hecht ik niet zoveel waarde aan ondrzoeken,zoals die van google en deze.Ik basseer me op m'n eigen ervaringen.
Als een disk raar of veel geluid begint te maken,vervang ik die preventief,
Vrijwel elke SCSI en IDE disk wordt gegarandeerd tot 55 graden omgevingstemperatuur.

Volgens mij vergis je je met de "wet bulb temperature" aanduiding in de specs.
Ook de uitleg die in het artikel staat is niet correct.

VB, 1 serie schijven gaat altijd precies 1.000.000 mee en heeft dus een MTTF van 1.000.000 uur. Echter de kans dat hij binnen een jaar stuk gaat is 0%

Een andere serie schijf gaat of 2.000.000 uur mee, of gaat direct stuk beide met een 50% kans. Again is de MTTF 1.000.000, echter nu is de kans dat de schijf in het eerste jaar overlijd 50%.

Oftewel met alleen de MTTF kun je geen schatting maken over de kans dat een schijf kapot gaat in het eerste jaar.
@Rapier

Wat jij als twee voorbeelden noemt is absurd. In het echt zal zo'n batch niet zulk gedrag vertonen.
In de praktijk zal de ene harde schijf het mogenlijk twintig jaar uithouden en de andere nog geen maand.
Maar met statistiek kun je wel iets zeggen over de gemiddelde levensduur van zo'n harde schijf en de verdeling.

Wat nu het artikel zegt is dat de fabrikant impliciet beweerd dat de verdeling van het type Poison is. Want alleen bij zo'n type verdeling mag je namenlijk hele korte tijd testen en dat getal automatisch extrapoleren.
Want een poison verdeling heeft als eigenschap dat de kans dat het kapot gaat, binnen een bepaalde vaste periode, altijd gelijk blijft.

Bij het onderzoek hebben ze dus geprobeerd of de verdeling wel een poison verdeling is, en dat blijkt dus van niet.

Oftewel de fabrikanten doen statistisch dingen verkeerd.

Linkje naar wikipedia:
http://nl.wikipedia.org/wiki/Poissonverdeling
@Cappen
Heb ik ooit gezegt dat het realischtische voorbeelden zijn dan? Zo nee, val me er dan ook niet op aan, dat is een drogreden.

Wat mijn voorbeeld wel schetst, en dat was ook de conclusie die ik trok, is dat alleen de MTTF hebben niet genoeg is om een schatting te doen van het uitval percentage binnen een jaar. Iets dat wel gedaan is in het artikel.

Wat betreft de poisson-verdeling heb je een waarheid te pakken, waar het artikel(terrecht) kritiek op heeft is dat de HDD fabrikanten uitgaan van een perfecte verdeling, waarbij iedere schijf iedere tijdseenheid een gelijke kans heeft om uit te vallen.
Maar ik zie niet in wat je punt is. Dat is namelijk helemaal niet iets waar ik kritiek op had, again een drogreden.

Ze hadden in het artikel veel gemakkelijker(en correcter) kunnen aantonen dat HDD's niet volgens een poisson-verdeling uit. Door simpelweg uit te rekenen wat bij de gegeven MTTF in een jaar aan garantie gevallen zouden moeten zijn. gem tijd per schijf*verkochte schijven*(1/MTTF) En dat te vergelijken met de garantiegevallen in de verschillende jaren. Dat zie je dat er geen bal van klopt en met name dat de uitval verschilt tussen het tweede jaar en bijvoorbeeld het vijfde. (bij een significatie verschil gaat poisson dus niet op)
Het maakt volgens mij niet zo heel veel uit met wat voor verdeling je te maken hebt. Als je de juiste verdeling weet dan kan je aan de hand daarvan extrapoleren.
Mijn statistiek uit ervaring zegt mij dat harde schijven of binnen een maand of wat stuk gaan, of jarenlang blijven draaien zonder ooit problemen te hebben. Er zit niet of nauwelijks iets tussen.

Ik heb op mijn werk een paar test/ontwikkel omgevingen met daarin ca 500 harde schijven. Een stuk of 10 van dezelfde batch zijn binnen een jaar stuk gegaan, de rest draait al 7 jaar 24/7 muv een verhuizing 2 jaar geleden.
Wat nu het artikel zegt is dat de fabrikant impliciet beweerd dat de verdeling van het type Poison is.

Uiteraard is het geen Poisson verdeling. Iedere eerstejaars TU student leert al dat vrijwel alle mechanische apparaten een "badkuip" verdeling volgen (hoge kans op vroeg falen: "infant mortality", dan lage kans gedurende de levensduur, en weer een stijgende kans na lange tijd door slijtage). Voor een techneut is een MTTF waarde gesneden koek, en daarom staat het ook in de specs. Belangrijk om het tempo van serveruitval te voorspellen en de voorraad reserveonderdelen te optimaliseren, bv.

Je kan het ze moeilijk kwalijk nemen dat mensen die niets van statistiek weten dit getal niet snappen en er een hele eigen uitleg ("deze HD gaat 1 miljoen uur mee!") bij gaan verzinnen.
Ik heb nog wel meer twijfels bij dit artikel. Er wordt gezegd dat scsi/fibre schijven niet langer meegaan, echter de condities dat deze schijven onder functioneren zijn wel idealer met als gevolg dat ze mogelijkerwijs daardoor langer meegaan. Als een hdd 24x7 draait zonder ooit onderbroken te worden in een goed geconditioneerde ruimte, lijkt het mij logisch dat ze langer meegaan dan een hdd die 10 keer op een dag aan/uit gaat.
Tevens lijkt het me sterk dat het uberhaubt klopt, hdd fabrikanten geven goede garanties op de langere loopduur van deze schijven, mocht dit niet zo zijn zouden fabrikanten verhoudings gewijs dus meer kwijt zijn aan scsi/fibre schijven. Iets wat ze maar wat graag niet doen.
? de conclusie van jouw verhaal over ideale condities zouden moeten zijn dat scsi schijven dus minder betrouwbaar zijn dan s-ata schijven omdat ze onder betere condities gelijk presteren. Maar naast de conclusie is ook je verhaal onzin, aangezien het onderzoek, zowel wat betreft de scsi als wat betreft de s-ata schijven, zich toespitst op schijven in betrekkelijk gelijke condities. Dit nog eens onderschreven door hun conclusie dat, juist gezien de gelijke resultaten bij de verschillende typen schijven, het erop lijkt dat
(...) operating conditions, affect replacement rates more than component specific factors
.
Even opnieuw lezen ;)
n4m3l355 zegt dat de scsi/fiber schijfen (in de praktijk, dus niet in de test) betere leefomstandigheden hebben en daardoor langer meegaan.

Zijn conclusie is dus hetzelfde als die van jou.
dat er langer garantie op wordt gegeven, maakt in se eigenlijk nix uit. De kost om een hdd te vervangen valt in het niets met mogelijk dataverlies of de werkuren die nodig zijn.
Gepost door jdevrie -
Backups, backups, backups, backups!!!!
zeker wat te veel naar steve ballmer geluisterd? :+
Backups, backups, backups, backups!!!!
mocht dit niet zo zijn zouden fabrikanten verhoudings gewijs dus meer kwijt zijn aan scsi/fibre schijven. Iets
Dat zit dan wellicht wel verwerkt in de veel hogere prijs van SCSI/Fibre schijven.
(overigens heb je ook SATA/fibre schijven)

Dat geeft dan de nodige twijfels aan jouw argument dat ze de fabrikanten de kosten van de garanties voor de langere levensduur niet zouden willen dragen met schijven die niet betrouwbaarder zijn.

Als ik kijk hoeveel disks er in ons SAN kapot gaan, dan ben ik niet zo heel erg verbaast over de resultaten van dit artikel.
Zo kan je mttf niet uitleggen: geen enkele schijf gaat 1.000.000 uur mee.
Zo kan je mttf niet uitleggen: geen enkele schijf gaat 1.000.000 uur mee.
Inderdaad, ik heb even snel zitten rekenen, maar de oudste schijf die ik heb (8 jaar) en nog steeds functioneerd, is 'slechts' 70800 uur in gebruik.

in werkelijkheid is dat nog iets minder ivm verhuizing en stroomstoringen, daarentegen zijn dergelijke dingen wel altijd meer belastend dan simpel productie draaien
:Z het is een voorbeeld. Als de getallen je niet aanstaan, dan deel je ze allemaal toch lekker door 100 ofzo. De uitkomst en daarmee de door mij getrokken conclusie blijft overeind.
2 verschillende uitval kansen binnen een periode en 2 gelijke MTTF's

Bovendien, hoe zou je dan MTTF uitleggen. De MTTF van 1.000.000 komt uit het artikel, dat betekend letterlijk dat het gemiddeld 1.000.000 uur hebt totdat 50% van de schijven overleden is. Nu kun je bijvoorbeeld claimen dat schijven niet 100% van de tijd draaien, Dan hoef je alleen het getal maar te delen door 3. (8 uur per dag is een redelijke aanname denk ik)
Feit is dus ook dat de opgegevens MTTF's niet gehaalt worden door de fabrikanten omdat ze die op een foutieve manier berekenen.
Niet kloppende resultaten zal je altijd houden, ze kunnen nou niet eenmaal paar jaar testen voordat ze het product op de markt brengen. :)
Het belangrijkste punt hierbij is dan ook niet zozeer dat die MTTF waardes geen nauwkeurige tijd aangeven hoe lang een disk mee gaat (dat was al lang bekend), maar dat de waarde uberhaupt geen enkele relatie tot de werkelijke levensduur lijkt te hebben.

SCSI/FC disks gaan blijkbaar even lang mee als SATA.
En dat betekent dat de MTTF waardes dan compleet waardeloos zijn.
Niet alleen kun je het dus niet als tijdsindicatie gebruiken hoe lang een disk mee gaat, maar je kunt het dan zelfs niet gebruiken als relatieve indicatie hoe lang een disk meegaat tov een andere disk. SCSI vs SATA bv. (of SCSI disks onderling)

Niet kloppende resultaten zul je altijd houden. Maar als de resultaten zo compleet verkeerd zijn dan kun je de tests maar beter achterwege laten.
Inderdaad, SCSI disk worden beschouwd als "industrieel" en er wordt verwacht dat ze kwalitatief beter zijn dan SATA disks die bedoelt zijn voor consumenten. Daarom zijn die dingen ook duurder dan "normale" disks, omdat je er een garantie bij krijgt dat ze betrouwbaarder zijn.

Maar als nu blijkt dat dat helemaal niet zo is dan heeft het dus geen nut voor een bedrijf om geld uit te geven voor beloftes die toch niet waar zijn.
...omdat je er een garantie bij krijgt dat ze betrouwbaarder zijn.
....heeft het dus geen nut voor een bedrijf om geld uit te geven voor beloftes ....
Imho is een uitgebreidere garantie voor een bedrijf juist wel een reden om geld uit te geven, voor mij in ieder geval wel.
Het is natuurlijk zo dat je best extra mag betalen voor extra garantie.
Maar even beetje overdreven voorbeeld.
Als een scsi schijf 2 maal zo duur is omdat je in plaat van 2 jaar 5 jaar garantie krijgt dan is dat natuurlijk absurt.
Zeker omdat blijkt dat de schijven niet langer mee gaan.
Dan kan je beter 2 goedkope schijven kopen en 1 vast op de plank leggen als reserve dan kan je die gelijk inzetten.
Dan ben je net zo duur uit en heb je sneller een vervangende schijf in het systeem zitten.

Je wilt als bedrijf extra garantie omdat je niet wilt dat de boel uitvalt. Dit levert namelijk veel overlast op. Als blijkt dat ze niet langer mee gaan maar wel veel duurder zijn dan is dat een vorm van oplichting.

Ik laat hierbij voor het gemak de prestatie verschillen tussen beide schjiven even buiten beschouwing.
Als je een kapotte schijf terugstuurt krijg je altijd een refurbished schijf terug, en daar heb je eigenlijk niks aan als je een betrouwbaar systeem wilt, die krengen gaan vaak als eerste weer stuk als je een raid set hebt waar je ze in terugstopt, bijv.
Dus die disk garantie is misschien leuk voor thuis, maar eigenlijk moet je gewoon een nieuwe disk kopen als je ze in een betrouwbaar systeem wilt inzetten.
Die tests achterwege laten zal slecht zijn voor de gemiddelde kwaliteit.
Ze zouden net als bij de tests van CD-RW en DVD-RW media de schijven in heftige condities kunnen testen. Zeer vochtige en warme condities die je in klimaatkamers kunt creeren bijvoorbeeld.

In het geval van harde schijven-"endurance tests" zou je gebuik kunnen maken van veel fysieke schokken, hoge temperaturen, rare elektrische omstandigheden (te hoog voltage?), extreem veel restarts, en andere factoren waarvan bekend is dat die de belasting verhogen/voor een snelle veroudering zorgen. Dan heb je nog steeds geen perfecte indicatie, maar wel een die realistischer is dan de huidige methode.
Inderdaad ja.
Bij een autodeur wordt de levensduur bepaald door een robot dat ding een miljoen keer open en dicht te laten doen. De meest versleten delen worden dan verbeterd, wat de levensduur van de totale deur verbeterd. (Een ketting is zo sterk als de zwakste schakel)

Je zou aan kunnen tonen in een relatief korte tijd dat een harde schijf zeg maar een miljoen keer kan worden gestart, beschreven of verschillen in temperatuur aanbrengen. Daarvan kun je meerdere tests gelijk op laten uitvoeren, en zo een redelijk betrouwbaar cijfer kunnen verkrijgen, wanneer je de verkregen uitslagen omrekent naar normaal gebruik.
veel fysieke schokken, hoge temperaturen, rare elektrische omstandigheden (te hoog voltage?), extreem veel restarts
en
Ik behandel mijn schijven nooit zo
Oh nee? Al dit soort effecten zijn vrij gangbaar, alleen met een lage frequentie. Bij iedereen is het wel eens zomer, en als je kamer temperatuur 10 graden hoger is, is het binnen in je kast *ook* 10 graden warmer.

Rare electrische omstandigheden kies je al helemaal zelf niet, en restarten doen we allemaal wel eens.
Ik behandel mijn schijven nooit zo, net zoals alle mensen die van hun harde schijf houden. De test die jij voorstelt zal dus ook helemaal niet zorgen voor een betere indicatie van de levensduur voor de serieuze computergebruiker.
nieuw: trouwen met je harde schijf, nu inclusief HD voor 200 euri!
Schokkend nieuws!!! Dus een schijf wordt onbetrouwbaarder naarmate hij ouder wordt! Wat verrassend!
En daar heeft die test dus helemaal geen rekening mee hehouden!!

Je gaat meteen vraagtekens plaatsen bij ELKE test die ze houden om de levensduur kunstmatig te testen.
Voorbeeldje, wat hier laatst stond hoe ze testen dat printerinkt wel 100 jaar goed blijft. Hebben ze dan misschien ook geen rekening gehouden dat de inkt van steeds slechtere kwaliteit wordt bij het ouder worden?
En bij wasmachines.. die zoveel duizend uur meegaan.. hebben ze wel rekening gehouden dat bepaalde onderdelen steeds minder worden naarmate de ECHTE tijd verstreken is?

Ik heb nooit veel vertrouwen gehad in die kunstmatige tijdsduren.. maar nu helemaal niet meer!
Bij de test van een wasmachine word zeker naar de levensduur van verschillende onderdelen gekeken. Zoals bekend dat de duurdere merken zoals Miele en Asko zeker wel 25 jaar mee kunnen gaan, zelfs bij veelvuldig gebruik. En dat gebeurt ook niet weinig. Ja onderdelen zoals koolborstels en manchetten gaan gewoon altijd redelijk snel kapot, maar zijn ook redelijk goedkoop te vervangen, dus worden die ook niet meegerekend.

Bij een harde schijf is het probleem dat deze ook wel uit verschillende onderdelen bestaat, maar een doe-het-zelver kan ze gewoon niet vervangen. Daarom istie meteen afgeschreven.
Ik vind dit persoonlijk niet bepaald schokkend nieuws.

Het zou wel ideaal zijn als een fabrikant echt kan garanderen dat de schijf bijv. 10 jaar mee gaat. Vette smak ruimte erbij omdat ik geen raid meer hoef te draaien :P

En dan denk ik weer aan het onderzoek van Google waarin staat dat sommige merken/types hardeschijven grotere kans op uitval hebben...en aan mijn Maxtor sata schijven. Binnen een half jaar tijd twee schijven kapot en beide net buiten de garantie, maar nog lang geen 10jaar oud.
MTTF zegt totaal niks. MTBF is een leuke waarde maar ook niet alleszeggend. MTBF zegt iets over een systeem als geheel en niet over de losse onderdelen.

Zo hebben wij bijvoorbeeld een EVA8000 en een EVA5000 staan. Met respectievelijk 96 sindles (Fibre SCSI disks) en 48 spindles. In 1,5 jaar tijd was er 1 disk defect in de EVA5000. Je praat over 300GB 10.000rpm disks. Redelijke betrouwbaarheid dus. 1 defecte disk brak ook het systeem niet af. Volgens de MTBF is de kans groter dat er iets kapot gaat dan wat er in de praktijk geschied.

Wat mij persoonlijk opvalt is dat "consumenten" disks een veel kortere levensduur hebben dan bijvoorbeeld server disks. Misschien komt dit door de toepassing dat ze gewoon 24x7 staan te spinnen of de constante temperatuur+luchtvochtigheid. Wanneer ik goed reken hebben we 160 blades met 2 disks (scsi) en dan de twee EVA's (3e wordt nog niet gebruikt) wat neerkomt op 320+96+48=464 disks met uitval van 1 disk in anderhalf jaar. Terugrekenend is dat dus 2 disks in 3 jaar op 464 disks. Dus de kans dat een disk kapot gaat in 3 jaar is 2/464= 0,4%. Bijna verwaarloosbaar het is zelfs minder dan 0,15% kans in n jaar.
Praat me niet over EVA systemen.
Wij hebben zo ontzettend veel kapotte disks gehad dat HP uiteindelijk van eeb bepaalde serie alle disks heeft vervangen. (honderden disks)
En het is al meerdere keren voorgekomen dat 1 kapotte disk een complete EVA onderuit trok.

Onmogelijk volgens HP, maar na 3 jaar hebben ze er dan toch eindelijk nieuwe firmware voor om het voortaan te voorkomen...
Wat mij persoonlijk opvalt is dat "consumenten" disks een veel kortere levensduur hebben dan bijvoorbeeld server disks
Die conclusie mag je pas trekken als je een vergelijkbare hoeveelheid consumenten disks in die EVA hebt gedraaid.
De MTBF waardes zeggen immers niets blijkt uit dit onderzoek. Dus waar baseer je op dat consumenten disks een lagere levensduur hebben?

Uit dit onderzoek blijkt heel wat anders. En dat heeft een grotere hoeveelheid data onderzocht dan jouw persoonlijke ervaring. Als je bv mijn persoonlijke ervaring met die EVA's combineert bij die van jou, dan kan je ineens niet meer zo makkelijk zeggen dat consumenten disks een veel kortere levensduur hebben.
1 disk een EVA onderuit trekken. Dan zou ik toch iets anders omgaan met je diskgroepen en je raid indeling. Mijn persoonlijke ervaring is gebaseerd op een behoorlijk lange tijd. Laat ik het zo zeggen, van alle "consumenten" disks, of pc-/werkstationdisks heeft meer en deel de 3 4 jaar niet overleefd. Een klein deel de 2 jaar niet overleeft en sommige binnen een jaar naar de klote. Laptop disks daar in tegen (<40G voornamelijk) blijken een vrij lange levensduur te hebben. Ik heb hier nog disks uit 1996 die het nog doen en die ik gebruik met casings aan mijn servertjes (laptops).

Natuurlijk heeft HP, IBM en Compaq wel eens een rotte batch. Heb ooit eens een project geleid waarin we voor een nederlandse overheidsinstelling een kleine 1400 2GB SCSI disks van IBM moesten vervangen. Of een Compaq firmware upgrade van een kleine 5.000 4.3GB SCSI disks tegen uitval (toevallig beide van seagate).

Maar een rotte batch heb je er altijd tussen. Over het algemeen gaan de meeste server disks (SCSI en FC) in mijn ervaring langer dan 5 jaar mee en ik heb systemen gezien waar ze naar 8 jaar nog stonden te spinnen en niemand de power er van af durfde te halen (sticky heads).

Mijn eigen Proliant 2000, dual P1/133 met extern cabinet en 10x4.3GB Wide SCSI bijvoorbeeld gaf pas na 7 jaar de geest. Niet de disks maar de voeding.

Dus lange levensduur is makkelijk te halen. Maar wat je tegenwoordig ziet is dat men (ook service personeel en leveranciers) zo hard met componenten omgaat. Laatst kwamen ze bij ons ff 24 spindles afleveren. Hoe die behandeld werden was "voor mij persoonlijk" niet aan te zien. Uit ervarig weet ik dan ook dat de uitval hoger is doordat ze niet met respect behandeld worden. Eenmaal uit de beschermende verpakking worden ze maar neergekwakt alsof ze daar wel tegen kunnen. Men vergeet dat een disk een fijn stuk meganica is.

Maar op jouw reactie terug te komen. Over het algemeen is mijn ervaring dat high end disks heel lang mee gaan zonder uitval. Wanneer je systemen goed zijn geconfigureerd (raid, disk groepen etc.) dan is een defecte disk nooit een probleem. De meeste problemen zijn "human error". Bijvoorbeeld ff een defecte disk laten zitten in een raid-set en geen hot spare hebben en dan valt opeens de disk uit. Daarnaast valt het me wel op dat disk vaak in groepen uitvallen en ze dan meestal uit de "zelfde" fabrikage batch komen. Meestal als gevolg van ff iets goedkoper parts inkopen door de fabrikant.
1 disk een EVA onderuit trekken. Dan zou ik toch iets anders omgaan met je diskgroepen en je raid indeling
Het heeft helemaal niets met de raid indeling of de diskgroepen te maken. (was het maar zo simpel)
Het ding gaat niet onderuit door teveel load als gevolg van rebuilds of zo. Het ding crashed gewoon compleet door een grove bug in de EVA firmware.

Daar kunnen onze storage admins dus niets aan doen.

Overigens zou ook met een onhandige configuratie de EVA nooit compleet onderuit mogen gaan. Het ding mag hoogstens tergend traag worden, maar mag nooit onderuit gaan.

Maar onze EVA 5000s en 8000s zijn wel heel wat zwaarder belast dan die van jou. 168 spindels (vol 19"rack) per EVA en daarop IO vretende applicaties als Exchange2003 en SAP. En dan loop je toch tegen meer problemen aan dan bij minder zwaar belaste EVAs.

Helaas is het trieste resultaat nu dat in de 3 jaar dat m'n exchange servers op die EVAs staan we geen enkele uitval hebben gehad door human error of software error, maar wel ettelijke door EVA bugs.

Wat betreft je laatste opmerking. Het is mij ook wel eens opgevallen dat disks in groepen lijken uit te vallen. Maar naast de optie dat ze uit dezelfde batch komen, is het vaak ook zo dat voor zo'n groep dezelfde omgevingsfactoren tellen. Bv een voeding die geen nette spanning levert etc. Zulke verschillen in omgevingsfactoren zijn vaak moeilijk te achterhalen.
Je kan je zelfs voorstellen dat een rebuild van een array er bij die groep van disks voor zorgt dat ze ineens veel intensiever gebruikt worden, veel warmer worden etc, met als gevolg dat de kans groter is dat het voor een andere disk in die groep net teveel wordt.
slechte zaak dit... het wordt hoog tijd dat die nieuwe standaard ontwikkeld wordt. Hier sterven jaarlijks ook zo'n 2-3 schijven, als je daar vantevoren op gewezen wordt houd je wel meer rekening met goede backup!
Onzin. backups moet je _altijd_ maken, niet aan de hand van de MTTF of MTBF waardes van de disk.
Precies, Backups hebben veel meer functies dan alleen voor het opvangen van disk failures. 99 van de 100 keer dat ik een restore doe is dat in verband met een software probleem en niet een hardware probleem..
99 van de 100 keer dat ik een restore doe is het vanwege een slapende developer die weer es een keer een tabel leeggegooid heeft of zo.

Overigens heeft google al eerder een onderzoek gepubliceerd met soortgelijke resultaten. Daar ging men ook in op raid arrays en de risico's die je per raid level zou lopen bij diverse formaten arrays.
* sCHuTt applauds!!!
2-3 schijven op een totaal van ?
MttF waardes betekenen helemaal niets

dat is bijwijze hetzelfde als de kilometers noemen die een auto kan rijden bij verkoop, het aantal kilometers wat hij werkelijk haald hangt af van gebruik, productiefouten, omgeving, gebruiker, doel, etc.

ik werk bij een computerbedrijf, en een groot deel van de reparaties bestaan uit het vervangen van een harde schijf. nou gaat het in deze gevallen veeal om datacorruptie, maar er zijn nog veel meer factoren die de MttF beinvloeden:

-temperatuur
-fragmentatie (en dus de activiteit van de koppen)
-type schijf (een schijfje waar alleen data op staat opgeslagen gaat langer mee dan bijvoorbeeld een boot schijf of een schijf met pagefiles)
-omgeving (mede temperatuur) een harde schijf in een pc in een metaalshop krijgt het zwaarder te verduren dan eentje in een datacenter. nog maar niet te spreken over de laptops uitgerust met 3,5" schijven.

de enige manier om zeker te zijn van databehoud is RAID1 of dergelijken. aangezien de kans zeer klein is dat de schijven het tegelijkertijd begeven.
MttF waardes betekenen helemaal niets
nou eigenlijk betekend het wel wat ... alleen lijkt me de uitleg wat simpel ;) hehe

Je moet het meer zien als error-rate ... de kans op een fout... binnen de gespecificeerde tijd zal er minimaal 1 fout optreden volgens statistische informatie.

Hierbij gelden natuurlijk de meest gunstige omstandigheden voor de fabrikant. ;) temp, inhoud en omgeving zijn variabelen waar ze weinig rekening mee houden, en dit kunnen zij ook bijna niet... zij adviseren namelijk (natuurlijk) ideale omstandigheden (+-21 graden, sequentieel :+, cleanroom ;)) .
In MTBF en MTTF berekeningen word wel degelijk rekening gehouden met de omstandigheden die je bij een schijf kan verwachten.
En daarbij wordt zeker niet uitgegaan van sequentiele data en cleanroom omstandigheden bij 21 graden.

Het is wel zo dat bij de berekeningen van een IDE schijf van een lagere workload uit wordt gegaan dan bij een SCSI schijf. Daarbij wordt 24/7 activiteit gesimuleerd.

Het vervelende is nu echter dat de waardes desondanks toch niets betekenen. Ze zijn nu niet meer dan het resultaat van een test in een lab en een rekensom.
Maar je kunt ze dus niet gebruiken voor ook maar de geringste voorspelling over de levensduur van de schijf. Zelfs niet tussen schijven onderling.
En dan hebben MTTF waardes dus geen enkel nut meer.
Vraag me af hoe dat dan zit met harde schijven die speciaal voor veel gebruik zijn gemaakt, zoals de Maxtor MaxLine series.
2 raptors :'( op een maand tijd, jaar oud nog niet toe, ik vraag me af of het mijn fout is, maar pissed op WD ben ik wel.
Is je pc wel geaard? Hier zijn 3 HD's overleden omdat de pc nooit geaard bleek te zijn :o.
offtopic
hoe check ik dat? maar ik zou het sterk betwijfelen, het waren telkens de bootschijven, de andere 4 zijn gespaard gebleven
/offtopic
1) controleren of de aardedraad aangesloten is in de pc op het metaal
2) controleren of je pc op een geaard stopcontact staat (pinnen aan de zijkant)
3) controleren of er een aardedraad in het stopcontact aangesloten is (wel stroom uitzetten!)
hoe check ik dat?
Een stukje electriciteitsdraad vatten, een kant in stopcontact doen, andere tegen aardedraad houden en kijken wat er gebeurd :+
Dat waren dus externe harde schijven? Aarding van de PC heeft nauwelijks tot geen invloed op interne onderdelen onderling, of het moet zijn dat de schijven zijn meegesleept door een moederbord en/of voeding die stuk ging. Of er was sprake van bliksemschade, maar dan helpt aarding sowieso ook maar heel beperkt.
Maxtor speciaal voor veel gebruik?? Ik heb alleen maar slechte ervaringen met Maxtor. Er moet heel wat veranderen wil ik ooit nog een Maxtor kopen.
nieuws: Seagate neemt Maxtor over

De Maxtortjes zijn in de aanbeding van de week.
Maxtor heeft Maxline schijven gehad, waar net iets minder op duurzaamheid bezuinigd was dan bij de rest. Ik heb er nu na 3,5 jaar 24/7 bedrijf in een RAID-1 storage server 2 stuk (ja inderdaad, zo goed als tegelijk), dat is inderdaad langer dan ze er normaal over zouden doen. Tegenwoordig is mijn standaardbeleid om dergelijke dingen met 2 verschillende merken schijven op te bouwen, waarvan altijd 1 Hitachi. Dit lijkt tot nu toe statistisch de betrouwbaarste oplossing (sinds ze het Deathstar debacle te boven zijn gekomen is dit het merk met de laagste uitval).
Binnen 1 maand 2 van 300 GB 7200rpm dood hiero (niet dat dat iets zegt overigens ;D) Beiden net 1 jaar oud.
Hoewel een mttf van 1.000.000 uur in theorie zou betekenen dat gemiddeld 0,88 procent van de in gebruik zijnde schijven kapot gaat per jaar, blijkt gemiddeld 3,0 procent per jaar het loodje te leggen. Zelfs in het eerste levensjaar gaan schijven soms al vaker kapot dan wat de mttf suggereert. Bij systemen die ouder zijn dan vijf jaar kan er zelfs een factor dertig zitten tussen de theoretische levensverwachting en de daadwerkelijke levensduur
Dat betekent dus dat als de mttf zou kloppen het gewoon blijven doen tot het eind der tijden.
Tja, ik denk dat de meeste tweakers al op de hoogte waren van het feit dat een HDD gemiddeld een heel stuk korter dan 100 jaar in leven blijft. Fabrikanten liegen wel vaker over de levensverwachting van hun product. Beschrijfbare media als cd-r's zouden ook 100 jaar oid goed blijven, maar zelfs als je ze meteen opbergt blijken ze na 2 jaar vaak onleesbaar.

Gelukkig gaat het vrij hard met de ontwikkeling van solid state en hybride opslag.
Gelukkig gaat het vrij hard met de ontwikkeling van solid state en hybride opslag.
En die gaan wel 100 jaar mee! Toch? :+
Valt best mee volgemsij, ik heb laats nog een hele rits backups (cd) van 1999/2000 terug op mn schijf gezet, werkten allemaal feilloos. Het waren verschillende schijfjes van verschillende merken, ook de goedkope.

Wel brandt ik (zeker de belangrijke schijfjes) altijd ver onder de maximum snelheid van de drive. Dus ik denk dat die schijfjes die zogenaamd snel onleesbaar zijn, eigenlijk al slecht waren meteen na het branden en dat die 2 jaar gewoon de druppel is.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True