Hoofdcategorieën

Google: hoge temperatuur geen oorzaak van harddiskfouten

Door Martin Sturm, zaterdag 17 februari 2007 13:06
Bron: TG Daily, views: 40.495

Google heeft statistieken gepubliceerd van de harddisks die het bedrijf in zijn serverpark gebruikt. Hieruit blijkt dat de algemene opvatting dat harddisks minder lang meegaan als ze warm worden, niet helemaal klopt. Ook hoge activiteit blijkt maar van beperkte invloed.

HarddiskGoogle presenteerde de resultaten (pdf) van dit onderzoek tijdens de File and Storage Technologies-conference, die momenteel plaatsvindt. Googles serverpark bestaat naar schatting uit meer dan 450.000 systemen die zijn opgebouwd uit standaard hardwarecomponenten. Het onderzoek dat Google heeft uitgevoerd is in 2001 gestart en omvat meer dan 100.000 harddisks die normaalgesproken ook door consumenten worden gekocht. De harddisks hadden capaciteiten van tussen de 80 en 400GB en een toerental van 5400 of 7200rpm. De schijvenverzameling is gemaakt door 'veel van de grootste harddiskfabrikanten' en omvat minimaal negen verschillende modellen. Van de harddisks houdt Google systematisch de harddisktemperatuur en SMART-gegevens bij.

Uit het rapport blijkt dat in het eerste jaar 1,7 procent van de harddisks stuk gaat. Na twee jaar is dit getal gestegen tot 8 procent om in het derde jaar op 8,6 procent uit te komen. Na drie jaar blijft dit percentage vrijwel stabiel. Na vier jaar wordt de 'failure-rate' vooral bepaald door het specifiek merk en type harddisk en niet door omgevingsomstandigheden, zo blijkt uit de resultaten. Opmerkelijk zijn de resultaten wanneer de belasting van de harddisk wordt bekeken. Uit de resultaten van Google blijkt dat alleen gedurende de eerste zes maanden een hoge belasting de kans op uitval vergroot. Zodra een schijf de eerste maanden heeft overleefd, is de invloed van hoge belasting op de uitval gering. In het eerste, tweede, derde en vierde jaar neemt de kans op een storing door hoge belasting alleen maar af. Pas in het vijfde jaar van de levensduur van een harddisk blijkt de belasting invloed te hebben op storingen.

Ook opvallend is de invloed van de temperatuur op een harddisk. Algemeen wordt aangenomen dat een harddisk eerder stuk gaat wanneer deze warmer wordt. Uit de resultaten van Google blijkt dit echter niet het geval te zijn. Het aantal kapotte harddisks neemt niet toe wanneer de werktemperatuur stijgt. Wel is er een duidelijke trend die laat zien dat fouten toenemen wanneer de temperatuur juist lager wordt. Alleen bij erg hoge temperaturen heeft warmte invloed op de failure rate. De onderzoekers bij Google kunnen geen duidelijke aanwijzing geven hoe kan worden vastgesteld hoe lang een harddisk nog mee zal gaan. Wel noemen ze de 'infant mortality rate', een periode in het begin van het 'leven' van een harddisk waar eventuele storingen kunnen duiden op een voortijdig uitval. Algemeen wordt een levensduur van vijf jaar gehanteerd voor een harddisk.

Volgende 13:16
Vorige 13:00

Reacties

«  1  2  3  4  »

Ok wie download even dat documentje en voert alles in in de betrouwbaarheids index van de product survey?

Even het rapport bekenen maar het blijkt dat bovenstaande nieuwsbericht niet klopt:
Uit het rapport blijkt dat in het eerste jaar 1,7 procent van de harddisks stuk gaat
Dit is niet waar! In de eerste 3 maanden gaat 2.7% stuk, van de 3e tot 6e maand 1.8% en van 6e maand tot einde 1e jaar de boven vermelde 1.7%, dus totaal eerste jaar 6,2%
Zie figure 2 in het rapport.......

Dat is niet zoals ik de grafiek lees...

In de begeleidende tekst wordt er gewoon over 1.7% voor het eerste jaar gesproken. Ook staat er in de tekst dat de 3, 6 en 12 maand getallen overlappend zijn... m.a.w. die cijfers mag je niet zomaar optellen.

Toch grappig dat een groot bedrijf als Google zo met alleen z'n eigen serverpark een representatief en geloofwaardig onderzoek kan maken. :)

Echt representatief met betrekking tot fabrikanten is het niet. Google koopt per pallet, dus per fabrikant/schijfsoort zullen ze 1 productie serie heben.
Ze zijn eigenlijk productie series met elkaar aan het vergelijken.

Wat over de tempratuur wordt vermeld is wel noemswaardig omdat de groep groot genoeg is.

zelfs zeggen ze dat de "vintage" (zoals ze het zelf noemen) niet veel invloed heeft op de meeste test resultaten.

en dat kunnen ze weten omdat ze natuurlijk ook zat HDD's hebben van het zelfde type maar die op verschillende tijden geproduceerd werden.

Rachitis != Engelse ziekte
Dit laatste bedoel jij.
Rachitis werd vroeger Engelse ziekte genoemd.

Google koopt niet per pallet, want Google koopt hardware in het land waar de datacenters staan. Deze staan verspreid over de hele wereld, dus Google koopt uit vele verschillende series en vele verschillende modellen.
Deze gegevens zijn ook over alle datacentra wereldwijd, dus zijn de gegevens wel betrouwbaar.
Wat wellicht ook van invloed kan zijn maar nu niet wordt weergegeven is de geologische ligging en dus het klimaat of de klimaatregeling moet dermate goed zijn dat hier geen rekening mee gehouden hoeft te worden.

450.000 systemen niet representatief? Hoeveel wilde je er? :?

450.000 systemen is wel representatief om iets te zeggen over de tempratuur,

Maar omdat je meestal praat over 1 productie serie van een model, is het niet representatief voor een model.
Als ze 20 verschillende leveringen van 1 model hebben, dan kunnen ze daar ook iets gefundeert over zeggen.

En daarom denk ik dat Google geen specifieke namen noemt wat betreft fabrikanten. Nogmaals, het gaat om een onderzoek naar de temperatuur en de belasting, en daarvoor vind ik 450.000 schijven (minstens) meer dan representatief.

Het waren "maar" 100.000 schijven. Je haalt nu systemen en schijven door elkaar ;)
Nog steeds voldoende voor een representatief resultaat, volgens mij.

Edit: @Martijnve ---

Ik denk niet dat deze resultaten relevant zijn voor de particuliere gebruiker.
Het HD gebruik van Google is typisch voor een groot datapark, en afwijkend van dat thuis:

1/ De thuiscomputer doet niets minstens 10u per dag (of enkel sporadisch), en start dan plots op.
2/ De locale temperatuur *varieert* sterk --- tijdens gamen geeft de cpu en vooral gpu plots veel meer warmte af dan tijdens de 16u ofzo dat ie op screensaver staat.
3/ De omgevingstemperatuur varieert (afhankelijk van plek ook) tussen (bij mij) 'snachts nu zo'n 14*c, overdag 21*c.

In het datapark draait alles 24h aan gelijkaardig tempo (anders is het slecht ingericht qua resource gebruik) in constante temperatuur.
Slijtage en failures zijn te verwachten tijdens wisselen en opstarten (zoals bij meeste mechanische spullen), in het bijzonder plots volle intensiteit belasting voor koude schijf in koude box in koude kamer, die dan snel en onregelmatig opwarmt omdat sommige delen sneller warm worden dan andere. (En Google zei al dat deze startsituatie al meer slijtage bracht, in stabiele toestand.)

omvat meer dan 100.000 harddisks die normaalgesproken ook door consumenten worden gekocht.
Zoveel verschillend zijn die harddisks niet.

Wat jij verder naar voren brengt is allemaal waar (voor zover ik weet), maar ik denk dat dat het doel van dit onderzoek een beetje voorbij schiet.

Ik denk sowieso dat dit onderzoek meer zoiets is van "we hebben de resultaten toch al", dan dat ze actief gingen onderzoeken wat de effecten van een hoge temperatuur op de slijtage van een harde schijf zijn.

Dit is heel interessant! En ik denk ook wel dat hun zo iets kunnen beweren, hun serverparks zijn groot genoeg!

Jammer dat ik zo snel in het onderzoek niet een vergelijk in merken zag. Had graag even willen zien welke harddisks het betrouwbaarst zijn.

Dat doen ze denk ik, omdat anders de hardeschijf fabrikanten gaan zeggen: "Best getest door goolgle" of schade claims van andere fabrikanten vanwege laster.

Verder kan goolge nu bluffen met het uitvalpercentage bij een aankoop. Als een fabrikant weet dat ze beste zijn, werkt in hun naadeel.

In hoeverre is het laster als ze laten zien wanneer welke harde schijven uitvallen? Laster is "het plegen van smaad zonder het bewijs te leveren van de waarheid van het ten laste gelegde feit en tegen beter weten in", kortom, als zei de feitelijke gegevens meeleveren is er niets aan de hand.

Aangezien, zoals boven al door iemand vermeld, het best 1 pallet levering van een bedrijf kan zijn, als dan die serie een mankement had en de rest niet hebben ze ten onrechte gemeld dat die fabrikant het slechtste was...

Als de schijven gespreid zijn ingekocht hebben ze dat probleem al veel minder.

dan nog zal google geen smaad plegen,zij zouden nl zeggen dat de schijven van dat type die zij gekocht hadden slechter waren dan de anderen, iets wat ze gewoon kunnen bewijzen met de resultaten.
Het slechtste merk schijven kan dan zelf als ze het er niet mee eens zijn proberen om het onderzoek te ontkrachten met een eigen onderzoek, maar omdat google feiten leverd is het absoluuut geen smaad

-edit- moest reactie zijn op Masterlans

Voor komen is natuurlijk beter dan genzen, maar: Een veroordeling tot laster zit er niet in, omdat de tegen partij nooit kan bewijzen dat hun uitlatingen niet waar zijn. En een veroordeling voor smaad zit er ook niet in, omdat er een algemeen belang bestaat om deze feiten te delen met anderen.

Die fabrikanten kunnen nu speculeren over wie de beste is op basis van de verkoop cijfers. Waarom zou Google slechte harde schrijven kopen?

Google is een behoorlijke grote afnemer en dat is volgens mij een goede reden voor de fabrikant om deals te sluiten. Verder kan Google dergelijke cijfers inzetten tijdens onderhandelingen met de beste fabrikant. "Jullie bieden goedkoop de harde schrijven aan en wij publiceren deze cijfers."

Een veroordeling tot laster zit er niet in, omdat de tegen partij nooit kan bewijzen dat hun uitlatingen niet waar zijn
Een veroordeling voor laster zit er inderdaad niet in, maar (in elk geval in Nederland) niet om bovenstaande reden. In het Nederlands recht gaat het om de intentie iemand te schaden, en dat doe je niet als je dit soort resultaten publiceert. Als je uitspraak waar is maar je doet het om iemand te schaden is het nog steeds laster volgens Nederlands recht.In de USA werkt dit gelukkig anders, daar is de vraag of de uitspraak waar is wel van belang.

En voorkomen is nog beter dan voor komen ;)

"however, in this paper, we do not show a breakdown of drives per manufacturer, model, or vintage due to the proprietary nature of these data."

daarbij zeggen ze net daaronder dat het verschil per model niet 'significant' beïnvloed word voor de meeste test resultaten.
blijkbaar alleen bij seek error rate zit er een groot verschil in en maar bij 1 fabrikant.

Vlak daarvoor staat:
Failure rates are known to be highly correlated with drive
models, manufacturers and vintages [18]. Our results do
not contradict this fact.
Ik denk dat ze de hulp van de HD fabrikanten nodig gehad hebben en dat die geeist hebben dat de fabrikant gegevens op verzoek achterwege gelaten worden.
Zo'n onderzoek als deze levert dus wel keiharde gegevens op.
Hopelijk wordt er gelekt.

Dat is zeker jammer want deze gegevens zijn leuk maar als eindgebruiker wil je toch eens weten op seagate nu echt beter is als maxtor of toch maar wd of samsung of hitachi.

wat is er zo grappig aan?

Ik zou van meer bedrijven dit soort onderzoeks reslutaten willen zien.

Niet dat ik Google resultaten niet vertrouw maar. omdat elk bedrijf zijn schijven anders gebruikt.

Aangezien hun distributed bestandsysteem is gebouwd voor veel kleine bestanden of multi gigabyte bestanden per node, denk ik dat het niet zoveel verschil maakt met andere bedrijven.

Het enigste echte grote verschil is power en cooling.
Google verteld alleen dat dat niet veel verschil maakt.

Wij tweakers zijn geen bedrijven, hooguit bedreven :+

Daarmee bedoel ik te zeggen, deze cijfers zijn voor ons helemaal niet relevant. MartinDMartian zei het al eerder, omstandigheden en gebruik in een serverpark zijn totaal anders :)

Ik denk toch dat er genoeg tweakers eigen servers hebben of professioneel bezig zijn met servers en daarom heel veel hebben aan deze informatie.
Zelf geef ik ook veel aandacht aan de koeling van harddisks maar het blijkt dus dat dit niet zo belangrijk is als ik altijd dacht. Op 20 graden houden is dus niet noodzakelijk, mag een graadje meer zijn ;)

De omstandigheden zijn soms erg verschillend. Wij hebben een goed gekoelde ruimte, maar ik ken een mooi plekje waar een aantal racken met vol met Woodcrest rekenmachines staan te draaien in een te kleine ruimte met 1 (of hoog uit 2) airco systeempjes.
Ik verwacht dat die machines (en de disken) het daar moeilijk gaan krijgen. Als je dat bedoelt... ja, dan is het soms nog wel eens anders. De meeste serieuze data centers zijn toch wel allemaal redelijk hetzelfde hoor.

Ik neem aan dat dit onderzoek alleen gaat over schijven die er sinds 2001 in zitten (anders kloppen de percentages sneller niet). En omdat er weinig /geen gewone consumenten schijven uit 2001 nu nog te koop zijn, zal je niet zoveel aan de types hebben.

het gaat niet alleen om schijven it die periode (wel grotendeels inderdaad) alsof je in 2001 een 400gb schijf kon kopen?
:P

Vraag me ook af of die systemen in dat serverpark nog een mirror draaien (2x450.000, ftw!).

Ik denk eerder dat het nú al 2 × 225.000 is ;)

eigenlijk werkt google met zijn eigen filesystem dat een beetje het gemirror regeld...

wikipedia:
http://en.wikipedia.org/wiki/Google_File_System.

Ik veronderstel dat al deze schijven (zo goed als) 24/7 draaien. Waarbij de temperatuur misschien wel hoog is, maar waar temperatuur fluctuaties miniem zijn. Daar waar een normale schijf bij een normale gebruiker vaak meerdere keren per dag moet opstarten vanaf een graad of 15-20. Tijdens het werken naar een graad of 40-50 in een kast met slechte airflow en dan nog eens terug af te koelen naar 15-20.

Inkrimping en uitzetting van materialen bij veranderende temperaturen weet je wel. En dan nog de piekvermogens tijdens het booten, eventuele head crashes na stroomuitval. Dat heeft volgens mij toch ook een grote invloed op betrouwbaarheid/levensduur, en dat hebben ze dus niet getest.

Dus wat je eigenlijk wil zeggen is dat de fluctuaties schadelijk zijn en niet de gemiddelde temperatuur? Ook niet echt baanbrekend nieuws...

Mooi. Nu kan ik eindelijk dit rapport voor de neus van die verkopers houden die blijven beweren dat een harddidk cooler "absoluut noodzakelijk!" is voor moderne harde schijven.

Net zoals al die tweakers die 20 casefans nodig vinden om hun PC cool te houden :'). 1 Case fan is voldoende :+.

Dat lijkt me wat te kort door de bocht. De topictitel suggereerd ook meer dan er aan de hand is IMO.

Wanneer je de technische specificaties van een model HDD bekijkt op de website v/d fabrikant, staat er altijd iets over de max operating temperature range. Uit het onderzoek van google blijkt dat het niet uitmaakt voor de levensduur of de harddisktemperatuur ergens im het midden of tegen de max van dit bereik zit. Ga je echter over de maximaal toegestane temperatuur heen (dagenlang 60°C bijv.) dan zul je zien dat de slijtage exponentieel toeneemt en je HDD na een paar maande de geest geeft.

Dit laatste is echter meer iets dat Google stelt, niet iets dat ze uit hun resultaten concluderen. Logisch, want in datacenter probeer je de temperatuur een beetje normaal te houden. Uit eigen ervaring kan ik je echter wel vertellen dat het geen goed idee is om tijdens een hete zomer je HDD zonder fatsoenlijke koeling te laten draaien. Of de temperatuur van je HDD ok is, kun je gemakkelijk uitvinden door programma's die de sensordata kunnen uitlezen, zoals Everest, of DTemp.

Hiermee bewijzen ze dus dat de absurde koeling in datacenters niet nodig is 8-)

Niet voor de HDD's maar er zit meer spul in een computer. ;)

Misschien komen ze nog eens met de uitslagen van hun CPU-test :)

Als blijkt dat de betrouwbaarheid minder afhankelijk is van temperatuur dan men nu denkt en datacentra 'veilig' pak 'm beet twee graden minder gekoeld kunnen worden dan zou dat gunstig zijn voor het stroomverbruik en dus milieu.

Ik kan me nog herrineren dat de airco in het duitse serverpark van World Of Warcraft er een keer uitlag. Na enkele uurtjes gingen de servers één voor één plat.

Op mijn kamer is het al enkele graden warmer dan in de rest van het huis en hier draaien maar 3 pc's...
«  1  2  3  4  »

Op dit item kan niet meer gereageerd worden.

Volgende 13:16
Vorige 13:00
VNU Media logo Powered by True

© 1998 - 2009 Tweakers.net - Alle rechten voorbehouden

Uitgever van: