Google: hoge temperatuur geen oorzaak van harddiskfouten

Google heeft statistieken gepubliceerd van de harddisks die het bedrijf in zijn serverpark gebruikt. Hieruit blijkt dat de algemene opvatting dat harddisks minder lang meegaan als ze warm worden, niet helemaal klopt. Ook hoge activiteit blijkt maar van beperkte invloed.

HarddiskGoogle presenteerde de resultaten (pdf) van dit onderzoek tijdens de File and Storage Technologies-conference, die momenteel plaatsvindt. Googles serverpark bestaat naar schatting uit meer dan 450.000 systemen die zijn opgebouwd uit standaard hardwarecomponenten. Het onderzoek dat Google heeft uitgevoerd is in 2001 gestart en omvat meer dan 100.000 harddisks die normaalgesproken ook door consumenten worden gekocht. De harddisks hadden capaciteiten van tussen de 80 en 400GB en een toerental van 5400 of 7200rpm. De schijvenverzameling is gemaakt door 'veel van de grootste harddiskfabrikanten' en omvat minimaal negen verschillende modellen. Van de harddisks houdt Google systematisch de harddisktemperatuur en SMART-gegevens bij.

Uit het rapport blijkt dat in het eerste jaar 1,7 procent van de harddisks stuk gaat. Na twee jaar is dit getal gestegen tot 8 procent om in het derde jaar op 8,6 procent uit te komen. Na drie jaar blijft dit percentage vrijwel stabiel. Na vier jaar wordt de 'failure-rate' vooral bepaald door het specifiek merk en type harddisk en niet door omgevingsomstandigheden, zo blijkt uit de resultaten. Opmerkelijk zijn de resultaten wanneer de belasting van de harddisk wordt bekeken. Uit de resultaten van Google blijkt dat alleen gedurende de eerste zes maanden een hoge belasting de kans op uitval vergroot. Zodra een schijf de eerste maanden heeft overleefd, is de invloed van hoge belasting op de uitval gering. In het eerste, tweede, derde en vierde jaar neemt de kans op een storing door hoge belasting alleen maar af. Pas in het vijfde jaar van de levensduur van een harddisk blijkt de belasting invloed te hebben op storingen.

Ook opvallend is de invloed van de temperatuur op een harddisk. Algemeen wordt aangenomen dat een harddisk eerder stuk gaat wanneer deze warmer wordt. Uit de resultaten van Google blijkt dit echter niet het geval te zijn. Het aantal kapotte harddisks neemt niet toe wanneer de werktemperatuur stijgt. Wel is er een duidelijke trend die laat zien dat fouten toenemen wanneer de temperatuur juist lager wordt. Alleen bij erg hoge temperaturen heeft warmte invloed op de failure rate. De onderzoekers bij Google kunnen geen duidelijke aanwijzing geven hoe kan worden vastgesteld hoe lang een harddisk nog mee zal gaan. Wel noemen ze de 'infant mortality rate', een periode in het begin van het 'leven' van een harddisk waar eventuele storingen kunnen duiden op een voortijdig uitval. Algemeen wordt een levensduur van vijf jaar gehanteerd voor een harddisk.

Door Martin Sturm

Nieuwsposter

17-02-2007 • 13:06

96

Bron: TG Daily

Reacties (96)

96
93
50
24
8
31
Wijzig sortering
Jammer dat ik zo snel in het onderzoek niet een vergelijk in merken zag. Had graag even willen zien welke harddisks het betrouwbaarst zijn.
Dat doen ze denk ik, omdat anders de hardeschijf fabrikanten gaan zeggen: "Best getest door goolgle" of schade claims van andere fabrikanten vanwege laster.

Verder kan goolge nu bluffen met het uitvalpercentage bij een aankoop. Als een fabrikant weet dat ze beste zijn, werkt in hun naadeel.
In hoeverre is het laster als ze laten zien wanneer welke harde schijven uitvallen? Laster is "het plegen van smaad zonder het bewijs te leveren van de waarheid van het ten laste gelegde feit en tegen beter weten in", kortom, als zei de feitelijke gegevens meeleveren is er niets aan de hand.
Aangezien, zoals boven al door iemand vermeld, het best 1 pallet levering van een bedrijf kan zijn, als dan die serie een mankement had en de rest niet hebben ze ten onrechte gemeld dat die fabrikant het slechtste was...

Als de schijven gespreid zijn ingekocht hebben ze dat probleem al veel minder.
dan nog zal google geen smaad plegen,zij zouden nl zeggen dat de schijven van dat type die zij gekocht hadden slechter waren dan de anderen, iets wat ze gewoon kunnen bewijzen met de resultaten.
Het slechtste merk schijven kan dan zelf als ze het er niet mee eens zijn proberen om het onderzoek te ontkrachten met een eigen onderzoek, maar omdat google feiten leverd is het absoluuut geen smaad

-edit- moest reactie zijn op Masterlans
Voor komen is natuurlijk beter dan genzen, maar: Een veroordeling tot laster zit er niet in, omdat de tegen partij nooit kan bewijzen dat hun uitlatingen niet waar zijn. En een veroordeling voor smaad zit er ook niet in, omdat er een algemeen belang bestaat om deze feiten te delen met anderen.

Die fabrikanten kunnen nu speculeren over wie de beste is op basis van de verkoop cijfers. Waarom zou Google slechte harde schrijven kopen?

Google is een behoorlijke grote afnemer en dat is volgens mij een goede reden voor de fabrikant om deals te sluiten. Verder kan Google dergelijke cijfers inzetten tijdens onderhandelingen met de beste fabrikant. "Jullie bieden goedkoop de harde schrijven aan en wij publiceren deze cijfers."
En voorkomen is nog beter dan voor komen ;)
Een veroordeling tot laster zit er niet in, omdat de tegen partij nooit kan bewijzen dat hun uitlatingen niet waar zijn
Een veroordeling voor laster zit er inderdaad niet in, maar (in elk geval in Nederland) niet om bovenstaande reden. In het Nederlands recht gaat het om de intentie iemand te schaden, en dat doe je niet als je dit soort resultaten publiceert. Als je uitspraak waar is maar je doet het om iemand te schaden is het nog steeds laster volgens Nederlands recht.In de USA werkt dit gelukkig anders, daar is de vraag of de uitspraak waar is wel van belang.
"however, in this paper, we do not show a breakdown of drives per manufacturer, model, or vintage due to the proprietary nature of these data."

daarbij zeggen ze net daaronder dat het verschil per model niet 'significant' beïnvloed word voor de meeste test resultaten.
blijkbaar alleen bij seek error rate zit er een groot verschil in en maar bij 1 fabrikant.
Vlak daarvoor staat:
Failure rates are known to be highly correlated with drive
models, manufacturers and vintages [18]. Our results do
not contradict this fact.
Ik denk dat ze de hulp van de HD fabrikanten nodig gehad hebben en dat die geeist hebben dat de fabrikant gegevens op verzoek achterwege gelaten worden.
Zo'n onderzoek als deze levert dus wel keiharde gegevens op.
Hopelijk wordt er gelekt.
Dat is zeker jammer want deze gegevens zijn leuk maar als eindgebruiker wil je toch eens weten op seagate nu echt beter is als maxtor of toch maar wd of samsung of hitachi.
Toch grappig dat een groot bedrijf als Google zo met alleen z'n eigen serverpark een representatief en geloofwaardig onderzoek kan maken. :)
Edit: @Martijnve ---

Ik denk niet dat deze resultaten relevant zijn voor de particuliere gebruiker.
Het HD gebruik van Google is typisch voor een groot datapark, en afwijkend van dat thuis:

1/ De thuiscomputer doet niets minstens 10u per dag (of enkel sporadisch), en start dan plots op.
2/ De locale temperatuur *varieert* sterk --- tijdens gamen geeft de cpu en vooral gpu plots veel meer warmte af dan tijdens de 16u ofzo dat ie op screensaver staat.
3/ De omgevingstemperatuur varieert (afhankelijk van plek ook) tussen (bij mij) 'snachts nu zo'n 14*c, overdag 21*c.

In het datapark draait alles 24h aan gelijkaardig tempo (anders is het slecht ingericht qua resource gebruik) in constante temperatuur.
Slijtage en failures zijn te verwachten tijdens wisselen en opstarten (zoals bij meeste mechanische spullen), in het bijzonder plots volle intensiteit belasting voor koude schijf in koude box in koude kamer, die dan snel en onregelmatig opwarmt omdat sommige delen sneller warm worden dan andere. (En Google zei al dat deze startsituatie al meer slijtage bracht, in stabiele toestand.)
omvat meer dan 100.000 harddisks die normaalgesproken ook door consumenten worden gekocht.
Zoveel verschillend zijn die harddisks niet.

Wat jij verder naar voren brengt is allemaal waar (voor zover ik weet), maar ik denk dat dat het doel van dit onderzoek een beetje voorbij schiet.

Ik denk sowieso dat dit onderzoek meer zoiets is van "we hebben de resultaten toch al", dan dat ze actief gingen onderzoeken wat de effecten van een hoge temperatuur op de slijtage van een harde schijf zijn.
Echt representatief met betrekking tot fabrikanten is het niet. Google koopt per pallet, dus per fabrikant/schijfsoort zullen ze 1 productie serie heben.
Ze zijn eigenlijk productie series met elkaar aan het vergelijken.

Wat over de tempratuur wordt vermeld is wel noemswaardig omdat de groep groot genoeg is.
Google koopt niet per pallet, want Google koopt hardware in het land waar de datacenters staan. Deze staan verspreid over de hele wereld, dus Google koopt uit vele verschillende series en vele verschillende modellen.
Deze gegevens zijn ook over alle datacentra wereldwijd, dus zijn de gegevens wel betrouwbaar.
Wat wellicht ook van invloed kan zijn maar nu niet wordt weergegeven is de geologische ligging en dus het klimaat of de klimaatregeling moet dermate goed zijn dat hier geen rekening mee gehouden hoeft te worden.
zelfs zeggen ze dat de "vintage" (zoals ze het zelf noemen) niet veel invloed heeft op de meeste test resultaten.

en dat kunnen ze weten omdat ze natuurlijk ook zat HDD's hebben van het zelfde type maar die op verschillende tijden geproduceerd werden.
Rachitis != Engelse ziekte
Dit laatste bedoel jij.
Rachitis werd vroeger Engelse ziekte genoemd.
450.000 systemen niet representatief? Hoeveel wilde je er? :?
450.000 systemen is wel representatief om iets te zeggen over de tempratuur,

Maar omdat je meestal praat over 1 productie serie van een model, is het niet representatief voor een model.
Als ze 20 verschillende leveringen van 1 model hebben, dan kunnen ze daar ook iets gefundeert over zeggen.
En daarom denk ik dat Google geen specifieke namen noemt wat betreft fabrikanten. Nogmaals, het gaat om een onderzoek naar de temperatuur en de belasting, en daarvoor vind ik 450.000 schijven (minstens) meer dan representatief.
Het waren "maar" 100.000 schijven. Je haalt nu systemen en schijven door elkaar ;)
Nog steeds voldoende voor een representatief resultaat, volgens mij.
Wat mij opviel in de PDF is dat een drive met een SMART foutmelding 39 keer grotere kans maakt op een uitval dan zonder, maar ook dat er percentagegewijs meer drives faalden zonder een SMART melding vooraf. Ik concludeer hieruit dat SMART serieus genomen kan worden maar dat SMART niet fullproof is daar er een grotere deel van uitval zonder voormelding is gebeurd.

Aangaande de temp, mijn drives opereren meestal zo rond de 30 a 35 graden. Dit wil ik graag toch zo houden, noem me maar bijgelovig ;)
@ Beowulf65.

Je kan zeggen dat SMART een test is met een hoge positief voorspellende waarde. Als de test positief is (lees: SMART geeft een foutmelding) dan is de kans op uitval daarna ook echt groot.
(Weinig fout positieven)
Echter de sensitiviteit, zou je kunnen zeggen, is niet erg groot, sommige schijven moeten eigenlijk opgepikt worden door SMART en deze moet dan een foutmelding geven, maar dat gebeurd dus niet altijd.
(En er zijn dus eigenlijk wat meer fout negatieven)

Ik vind het wel een interessant onderzoek. 450.000 schijven is een hele hoop en dat is goed voor de significantie van je cijfers.
Ze kunnen wel betrouwbaar wat zeggen over harde schijven gebruik in hun setting.

Zoals al gezegd is de thuissituatie soms best wel anders!

Mijn schijfjes blijven tussen 30 en 34 graden zo ongeveer.
Wat moet ik doen om ze warmer te krijgen:P
@ erniel....

Misschien moet je wat meer met je pc doen dan alleen typen en surfen om schijven warmer te kirjgen ;)
(als toevoeging op Erniel)

Daarnaast is de aard van een failure vaak anders als er geen SMART waarschuwing aan vooraf gaat, zoals een head crash.

SMART waarschuwingen van reallocations wijzen direct erop dat het lees- en/of schrijfproces mislukt. Als dat maar vaak genoeg herhaald voorkomt is het op een bepaald moment einde verhaal.

Als er geen waarschuwingen komen gaat het dat proces waarschijnlijk goed alleen dat zegt verder weinig over de slijtage van de spindelmotor bijvoorbeeld.
ik zat me net ook al te bedenken, daar gaat mn CM 4:3 module en 3 92MM fans over mn andere disken...

nougoed, die scsi dingen worden wel nèt iets heter is mijn ervaring, dus k zit iig nog goed ;)

wel een opvallend resultaat zo. en @klaus1250: ga jij dan eens heel snel meer koeling in die consumentenPCs van je installeren, >50 graden is best wel extreem :)
Ik veronderstel dat al deze schijven (zo goed als) 24/7 draaien. Waarbij de temperatuur misschien wel hoog is, maar waar temperatuur fluctuaties miniem zijn. Daar waar een normale schijf bij een normale gebruiker vaak meerdere keren per dag moet opstarten vanaf een graad of 15-20. Tijdens het werken naar een graad of 40-50 in een kast met slechte airflow en dan nog eens terug af te koelen naar 15-20.

Inkrimping en uitzetting van materialen bij veranderende temperaturen weet je wel. En dan nog de piekvermogens tijdens het booten, eventuele head crashes na stroomuitval. Dat heeft volgens mij toch ook een grote invloed op betrouwbaarheid/levensduur, en dat hebben ze dus niet getest.
Dus wat je eigenlijk wil zeggen is dat de fluctuaties schadelijk zijn en niet de gemiddelde temperatuur? Ook niet echt baanbrekend nieuws...
Met 5 jaar bedoelen ze zeker non-stop 5 jaar?

Dan gaat ie van mij minstens 5x langer mee :), hoewel de eerder genoemde temperatuursschommelingen dit vast ook wel weer verminderen.

Ik heb m'n hdd altijd goed gekoeld en ik vraag me al een tijdje af hoe lang het nog veilig is zeg maar... Kun je uberhaupt vantevoren aan zien komen wanneer het voorbij is?
nog los van het temperatuurs verschil is opstarten en afsluiten van een HDD ook niet zo geweldig voor de levensduur.

en volgens googles raport kan je soms zien aankomen en soms niet.
bij de eerste smart error is de kans dat je HDD binnen een paar maanden gaat uitvallen 39 keer groter als zonder smart error.
maar er vallen ook nog genoeg hdd's uit die geen smart error hebben gegeven.
Met 5 jaar bedoelen ze zeker non-stop 5 jaar?

Dan gaat ie van mij minstens 5x langer mee
Je bedoelt omdat de jouwe niet continue aan staat ?

Het ding elke keer weer aanzetten van de schijf zorgt juist dat ie veel meer slijt dan wanneer je 'm continue aan hebt staan.
Ok wie download even dat documentje en voert alles in in de betrouwbaarheids index van de product survey?
Even het rapport bekenen maar het blijkt dat bovenstaande nieuwsbericht niet klopt:
Uit het rapport blijkt dat in het eerste jaar 1,7 procent van de harddisks stuk gaat
Dit is niet waar! In de eerste 3 maanden gaat 2.7% stuk, van de 3e tot 6e maand 1.8% en van 6e maand tot einde 1e jaar de boven vermelde 1.7%, dus totaal eerste jaar 6,2%
Zie figure 2 in het rapport.......
Anoniem: 175233 @djexplo18 februari 2007 11:04
Dat is niet zoals ik de grafiek lees...

In de begeleidende tekst wordt er gewoon over 1.7% voor het eerste jaar gesproken. Ook staat er in de tekst dat de 3, 6 en 12 maand getallen overlappend zijn... m.a.w. die cijfers mag je niet zomaar optellen.
Anoniem: 91625 @dasiro18 februari 2007 01:03
lezen voor je blaat |:(
Wat zijn hoge temperaturen? In een van de grafieken is dat 45 graden en hoger.

Daar zit je zo op in een slecht gekoelde PC. Dus als particulier moet je toch aandacht schenken aan de HDD koeling....
Hiermee bewijzen ze dus dat de absurde koeling in datacenters niet nodig is 8-)
Niet voor de HDD's maar er zit meer spul in een computer. ;)
Misschien komen ze nog eens met de uitslagen van hun CPU-test :)

Als blijkt dat de betrouwbaarheid minder afhankelijk is van temperatuur dan men nu denkt en datacentra 'veilig' pak 'm beet twee graden minder gekoeld kunnen worden dan zou dat gunstig zijn voor het stroomverbruik en dus milieu.
Ik kan me nog herrineren dat de airco in het duitse serverpark van World Of Warcraft er een keer uitlag. Na enkele uurtjes gingen de servers één voor één plat.

Op mijn kamer is het al enkele graden warmer dan in de rest van het huis en hier draaien maar 3 pc's...
Alleen bij erg hoge temperaturen heeft warmte invloed op de failure rate.
Erg hoge temperaturen heb je echter al gauw. Prop maar eens twee 7200 RPM schijven vlak boven elkaar zonder koeling.
mja, maar wat is 'erg' hoog? 40C ? 50? ..60?

Volgens mij geven ze aan dat >45C als 'hoog' mag worden aangenomen. Daar zit je nogal snel op met 7200 rpm zoals hieronder al word aangegeven.

Zo gek is die HDD cooling dus niet.
Hoge temperaturen in Google's context hebben niks te maken met wat hoge temperaturen zijn in de gemiddelde consumenten-pc. Beetje jammer dat dit niet in het artikel vermeld word omdat ik denk dat mensen nu gaan denken dat het artikel en conclusie algemeen toepasbaar is.

Google noemt 45 graden hoog en hun grafiek gaat tot 50 graden. Voor servers is dat misschien normaal, maar als ik SMART-attributes uitlees op de gemiddelde consumenten PC kom ik toch al snel boven die waardes uit.
Boven de 50?? Of je hebt een slecht gekoelde kast of er staan teveel "hete" films op de HD.

Mijn ongekoelde schijf wordt maximaal 41 graden, voor een consumeten PC nog redelijk te doen. Daarnaast is teveel koelen ook niet goed aangezien het materiaal dan stroef loopt zeg maar, vergelijk het maar met koude vingers, typt ook niet lekker.
als je 1 schijf in je pc hebt zitten dan hoef je hem niet te coolen. ik heb 2 pc's met meerdere schijven. 1 met 4 en 1 met 5 schijven. ik ben blij dat ik een chieftec en een antec kast heb waar ik een 80mm fan voor de disken kon plaatsen. hierdoor blijven hun waardes acceptabel. het enige nadeel is dat ik elk jaar mijn harddisken even af moet stoffen
Mooi. Nu kan ik eindelijk dit rapport voor de neus van die verkopers houden die blijven beweren dat een harddidk cooler "absoluut noodzakelijk!" is voor moderne harde schijven.
Net zoals al die tweakers die 20 casefans nodig vinden om hun PC cool te houden :'). 1 Case fan is voldoende :+.
Dat lijkt me wat te kort door de bocht. De topictitel suggereerd ook meer dan er aan de hand is IMO.

Wanneer je de technische specificaties van een model HDD bekijkt op de website v/d fabrikant, staat er altijd iets over de max operating temperature range. Uit het onderzoek van google blijkt dat het niet uitmaakt voor de levensduur of de harddisktemperatuur ergens im het midden of tegen de max van dit bereik zit. Ga je echter over de maximaal toegestane temperatuur heen (dagenlang 60°C bijv.) dan zul je zien dat de slijtage exponentieel toeneemt en je HDD na een paar maande de geest geeft.

Dit laatste is echter meer iets dat Google stelt, niet iets dat ze uit hun resultaten concluderen. Logisch, want in datacenter probeer je de temperatuur een beetje normaal te houden. Uit eigen ervaring kan ik je echter wel vertellen dat het geen goed idee is om tijdens een hete zomer je HDD zonder fatsoenlijke koeling te laten draaien. Of de temperatuur van je HDD ok is, kun je gemakkelijk uitvinden door programma's die de sensordata kunnen uitlezen, zoals Everest, of DTemp.

Op dit item kan niet meer gereageerd worden.