Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 26 reacties
Bron: Real World Technologies

Inmiddels heeft Real World Technologies ook het tweede deel over de werking van ECC-geheugen online geplaatst. In dit deel wordt er ingegaan op de oorzaken van corrupt geheugen en een abstracte kosten/baten-analyse samengesteld, waar het eerste deel zich richtte op de basis van ECC, namelijk foutdetectie, -locatie en -correctie.

Als een rode draad door het artikel zal de supercluster van Virginia Tech lopen. Deze universiteit heeft namelijk samen met Cisco, Lieber and Mellanox Technologies en Apple de Terascale Supercluster opgebouwd, welke uit 1.100 Apple G5-computers bestaat. Deze staat momenteel als derde gekwalificeerd op de lijst van 500 krachtigste supercomputers ter wereld. Het frappante van dit systeem is echter wel dat de Apple G5-computers geen ondersteuning bieden voor ECC-geheugen. Dit is normaal voor desktops, zoals de Apple G5, maar voor berekeningen op grote schaal is enige foutdetectie en -correctie toch wel het minste wat aanwezig moet zijn.

Apple Power Mac G5 doos - zijkant

Zoals alle elektronische apparaten, zijn ook DRAM-chips vatbaar voor zowel harde als zachte fouten. Harde fouten hebben te maken met fysieke problemen, veroorzaakt door bijvoorbeeld corrosie, de hittekringloop of simpelweg een schok dankzij statische elektriciteit. Wanneer er sprake is van een zachte fout, dan blijft de geheugenmodule intact, alleen is de data corrupt geworden door bijvoorbeeld kortstondige elektronische ruis welke ook nog op willekeurige plaatsen verschijnt.

Deze elektronische ruis wordt voornamelijk veroorzaakt door terrestrial neutrons en in mindere mate door alfadeeltjes. Alfadeeltjes zijn goede indicators voor radioactieve elementen. Sinds men hier achter is gekomen, bestaan de producten niet meer uit metalen met een hoge radioactieve waarde. Voor de zogenaamde terrestrial neutrons heeft men nog geen oplossing gevonden. Wel is bekend dat op tweeduizend voet, dit is ongeveer 600 meter, boven de zeespiegel er twee keer zoveel van deze neutronen te vinden zijn als op zeeniveau. Deze neutronen worden namelijk veroorzaakt door botsing van kosmische straling op de atmosfeer, waardoor er hoge energie deeltjes ontstaan.

Wanneer ÚÚn van deze deeltjes door een DRAM-chip schiet, wordt een ´oniserend spoor achtergelaten. In combinatie met de elektrische spanning veroorzaakt dit dan een tijdelijke kortsluiting, waardoor een waarde in een bit kan verspringen. En zie daar, een zachte fout kan zijn ontstaan, dit is echter wel nog altijd afhankelijk van het ontwerp van de chip, aangezien ook hier meerdere factoren nog een rol in spelen. Uit onderzoek is verder gebleken dat wanneer zo'n deeltje minder dan vijf MeV (megaelectron volt) aan energie bezit er geen fout wordt gegenereerd. Verder komen multi bit-fouten alleen voor wanneer het deeltje driehonderd of meer MeV aan energie bezit en daarnaast moet deze in botsing komen met een siliciumatoom.

Geheugenmodules

Op basis van verschillende onderzoeken van geheugenfabrikanten zoals IBM, Micron en Infineon kan men stellen dat de Terascale Supercluster ongeveer elke 14,2 uur een zachte fout kan verwachten. Dat in een cluster waar er 70.400 DRAM-modules worden toegepast op 1.100 G5-computers. Deze uitkomst zal op het eerste gezicht de keuze om geen foutdetectie en -correctie toe te passen ondersteunen. Zeker omdat er 'slechts' zeventien fouten per week zullen voorkomen, bij continu gebruik van de cluster. Echter de kosten van de implementatie van een SEC ECC-algoritme zijn zo laag, dat de baten hiervan ver opwegen tegen de kosten. Zeker als men weet dat tachtig tot negentig procent van de zachte fouten worden gecorrigeerd, dat betekent er in dit geval dan nog maar twee Ó drie zachte fouten per week zullen plaatsvinden.

Het nadeel is wel dat de correctie van multi bit-fouten niet mogelijk is, waardoor de berekeningen nog altijd een aantal maal moeten worden uitgevoerd. Dit is wel stukken minder dan zonder een SEC ECC-algoritme zoals in de huidige situatie. Vandaar dat de auteur bij zijn standpunt blijft en minimaal een SEC ECC-algoritme aanbeveelt bij toepassing in welke supercluster dan ook. Eventueel kan men zelfs gebruik maken van het Bossen b-adjacent Error Correction Algorithm, dat tegen dezelfde kosten kan worden ge´nstalleerd.

Lees meer over

Moderatie-faq Wijzig weergave

Reacties (26)

Het kon niet uitblijven dat het intel bolwerk realworld technologies de prestaties en de prijs met name ($4 miljoen zo rond die prijs voor die hele cluster, dus 4x goedkoper als machines hier in NL worden ingekocht en 10x meer processors als hier) de grond in moesten schrijven vanwege een bepaalde reden.

Als we ons goed realiseren dat de foutkans wegens het ontbreken van ECC kleiner is als de afwijking die *altijd* veroorzaakt wordt door intel compilers (en ook bij de NASA naar men fluistert heeft meegeholpen aan de space shuttle crash begin 2003), omdat de intel Itanium2 processor onder andere geen deel instructie heeft (de opteron wel), dan valt de schade reuze mee voor de spotgoedkope cluster die in de top 10 van de wereld staat www.top500.org .

Andere vraag is welke software je wilt draaien op die gigantische clusters met waardeloze inter node latency; dat lijkt me een meer relevante vraag.
@ Sten Vollebregt

Lood heeft een enorm grote dichtheid hoor, natuurlijk zal je er wel wat voor nodig hebben maar het lijkt mij sterk dat het in de centimeters gaat lopen voor een DRAM reepje? die straling kan nooit zo groot zijn dat het door een plaat lood gaat, correct me if i'm wrong.
(ben pas 17 jaar oud maar dit lijkt mij logisch?)
Als je kijkt naar de dikte van de atmosfeer (een paar kilomter lucht houdt gigantisch veel tegen... waarom denk je dat we niet verschroeid worden door kosmische straling en elektrisch geladen deeltjes van de Zon), dan hebben we vele centimeters beton van het gebouw en dan nog de racks waarin de servers zitten... dat is bij elkaar wel wat meer dan een paar mm lood in dichtheid.

Als zelfs dat de neutronen niet tegenhoud (en dat is er zelfs nog de kans dat de onstopbare neutrino's botsen met de atomen... ook al is die kans redelijk klein) dan gaat een dun plaatje lood ook niet veel zoden aan de dijk zetten.

Het zou wel helpen tegen de alfa-stralers in PCs... maar zoals gezegt wordt er geen licht radioactief materiaal meer verwerkt in chips waardoor dat probleem is opgelost.

Dus helaas, een loden heatspreader zal niet of verwaarloosbaar helpen. :'(
voor alfa straling heb je geen lood nodig hoor :Y) deze straling rijkt niet erg ver en wordt al gestopt door een laagje PAPIER (het is echter wel ZEER schadelijk voor de mens).

Neutrino's zijn (zover ik weet) idd onstopbaar en zijn enkel aan te tonen met zwaar water (vraag me niet hoe) de kans dat neutrino's voor fouten zorgen lijkt mij nihil.
Inderdaad, 3cm lucht is zelfs genoeg.

Neutrino's zijn te detecteren door de lichtflits die ontstaat bij een botsing met een deeltje (bv zwaar water) van verschillende kanten te 'fotograferen' en te analyseren. Hierdoor kan vanalles over het deeltje berekent worden... maar dit valt een beetje buiten deze discussie.

Gelukkig is de kans voor botsingen inderdaad ook nihiel... alleen met een gigantisch oppervlak kan je een paar botsingen per dag krijgen.
Neutrino's zijn (zover ik weet) idd onstopbaar en zijn enkel aan te tonen met zwaar water (vraag me niet hoe) de kans dat neutrino's voor fouten zorgen lijkt mij nihil.
Even voor de duidelijkheid: neutrino's zijn geen neutronen.

Neutrino's vliegen zelfs dwars door de aarde heen zonder problemen. Op ettelijke tig miljarden neutrino's hebben er slechts twee of drie interactie met materie...
Om alpha straling te stoppen met papier heb je wel een extra dik velletje nodig :) Het probleem met alpha straling is dat het alles kapot maakt, incl het papier, en dus schadelijk voor de mens is (alhoewel in kleine hoeveelheden zelfs goed... misschien :P)

Neutrino's gaan overal dwars doorheen, en daar hoef je je inderdaad geen zorgen over de maken. Als je een neutrino door een lichtjaar-lang blok lood stuurt heeft hij 50% kans om er ongehinderd uit te komen. Er zijn niet zo gek veel neutrino's; elke seconde gaan er gemiddeld 4 door je heen. Daarnaast gebeurt er alsnog niet veel ALS hij iets raakt. Niks aan de hand dus :)
Je hebt weinig aan lood om neutronen straling tegen te houden. Lood is erg geschikt om beta en gamma-straling tegen te houden maar neutronen vliegen er gewoon doorheen. Water is het beste om Neutronen tegen te houden, en dan nog liefst Zwaar water (zoals in kerncentrales)
70400 DRAM modules voor 1100 computers is 64 modules per computer. Ik neem aan dat het niet om geheugenreepjes gaat, maar om DRAM chips.
Deze elektronische ruis wordt voornamelijk veroorzaakt door terrestrial neutrons en in mindere mate door alfadeeltjes
Alfastraling kun je zeer goed afschermen. Waarschijnlijk is de PC kast al voldoende. Laat staan als je die PC in een betonnen bunker neerzet. De kans op alfa-interferentie is waarschijnlijk dan kleiner dan 1x op de levensduur van het heelal. Dit lijkt mij echt volledig verwaarloosbaar.
Helaas gaat jouw redenering niet op. Je gaat ervan uit dat de alpha-deeltjes uit de ruimte afkomstig zijn. Feit is, en dit staat ook in het artikel, dat er fouten optreden door de alpha-deeltjes die ontstaan in natuurlijk radioactief materiaal dichtbij de chips.

In het artikel staat dat de eerste keer dat dit verschijnsel werd ontdekt, de hoge aantallen fouten te wijten waren aan het verpakkingsmateriaal van de geheugenchips, dat gemaakt werd in de beurt van een oude uraniummijn. Juist omdat alpha-deeltjes zo makkelijk worden geabsorbeerd, is het eigenlijk alleen van belang het materiaal dat direct in contact staat met de chips zo min mogelijk radioactieve elementen bevat.
Jup het staat zelfs in het artiekel :)
http://www.realworldtech....cleID=RWT122103222030&p=5
Without knowing the exact operating conditions of the Terascale Cluster, we make various assumptions in this section. The actual SER may be rather different if the baseline assumptions are dramatically different from the actual configuration.

One manufacturer, Infineon, has reported the SER for its 256 Mbit generation to be less than 500 FIT, with the worst case projection less than 900 FIT. We know that the Terascale Cluster has 1100 nodes, with each node having 4 GB of memory. We make the following assumptions:

1. 1. The memory systems found in the Terascale Cluster are populated with 512 Mbit DRAM devices. With 4 GB of DRAM per node, there are 64 DRAM devices per node. There are a total of 70400 DRAM devices in the Terascale cluster.
2. 2. The SER for 512 Mbit devices is approximately 1000 FIT. Although this guestimate is higher than the SER reported for the 256 Mbit SDRAM device, there are several factors that could contribute to far worse SER for a 512 Mbit DDR SDRAM device: lower operating voltage of DDR SDRAM devices as compared to SDRAM devices, faster device operation, more DRAM cells at the same technology node. Also, the Terascale cluster is presumably located inside of a concrete building (partial shielding), but since the altitude of the campus of Virginia Tech is some 2000 feet above sea level, the net effect on the neutron flux may be neutural.
Nee, helaas niet ;)

Hoewel er wel iets staat over een betonnen gebouw, gaat het hier alleen op de invloed hiervan op de neutron flux (het aantal neutronen dat bij de chips kan komen). Het gaat hier niet om alpha-deeltjes.
De neutronen zijn namelijk wel afkomstig uit de ruimte en worden wel afgeremd door beton.
Als de zachte fouten door externe factoren worden veroorzaakt, zou je dus de geheugen chips kunnen isoleren. Bijvoorbeeld door er een laagje lood op te plakken oid.

Zoals in dit bericht is gemeld: http://www.tweakers.net/nieuws/30138
Daar heet het trouwens nog 'soft error'. :)
Loden heatsinks dus? :z
Dus daarom crached mijn pc elke 2738,84 jaar eens :P

\[nerd-mode]
De kans dat 1 van de 70.400 DRAM modules be´nvloed werdt was elke 14,2 uur

Ik heb 'maar' 1 module, dus de kans dat die be´nvloed wordt komt dus maar 1x in mijn leven voor.
vind ik nou niet echt iets om me zorgen over te maken...

Maar is zeker wel belangrijk voor die grote clusters.

en verder, hoe betrouwbaar zijn de gegevens die uit grote distributed projecten komen nou echt?
stel bv. dat mijn folding@home client toevallig op dat ene belangrijke stukje is van een eiwit, dat stukje waar de juiste informatie uitgehaald zou worden om een erge ziekte te kunnen bestrijden, en er gaat net zo'n 'terrestrial neutron' door mijn DRAM heen?
Dan krijgen ze gewoon verkeerde gegevens binnen en vinden nooit het bestrijdingsmiddel...
\[/nerd-mode]
Nee hoor het is helemaal niet belangrijk voor die grote clusters.

De statistische kans dat 1 bit die geflipt wordt op de hele cluster eens in de 14.2 uur, dat die van invloed is op je meetresultaten, is verwaarloosbaar.

Al helemaal als je beseft hoe onnauwkeurig en vol bugs de meeste software is die op supercomputers loopt (die zelf ook continue crashen overigens, wist je dat?).

Overigens heeft geen enkel land in heel europa een cluster zo groot als deze Apple cluster.

Als de overheid in NL zijn computer hardware nu eens wat commercieler inslaat ipv factor 3 tot 4 te veel te betalen en ook zo'n cluster van een paar duizend processors neerzet in NL (dit apple cluster kostte maar een paar miljoen), dan hebben we in europa ook eens een echte grote supercomputer zonder dat er 9 organisaties nodig zijn om toezicht te houden op wie er eventueel systeemtijd kan krijgen op de nationale supercomputer.

Momenteel een 416 processor itanium2, met overigens afwijkingen veel groter als die ene bitflip in 't uur.

Compiler geeft default maar een bit of 24 accuracy ipv de door de onderzoekers veronderstelde 44 bits.
Dat moet dan helaas een tamelijk dik laagje lood zijn omdat neutronen een redelijk doordringend vermogen hebben en daarbij ook nog eens niet al te goed aan andere atomen blijven plakken. Als ze een hoog genoege snelheid hebben schieten ze er al doorheen. Een laagje lood van 1mm zal daar weining verandering in aanbrengen en waarschijnlijk veel te duur zijn in vergelijking met wat het oplevert (anders was het waarschijnlijk al lang toegepast, en verder heeft dat deeltje al zo'n lange weg afgelegd (atmosfeer, PC kast, etc) dat je er eigenlijk al meteen vanuit kan gaan dat het niet zal werken.

Een condensator daarentegen is natuurlijk totaal iets anders... ik weet niet hoe ze dat in het artikel geimplementeerd hebben (neutronen bewegen tamelijk maken door een elektrisch veld) maar blijkbaar werkt dat wel.

Leuk feitje: in een kernreactor gebruiken ze 15 m zwaar water (D2O) en tientallen cm lood om neutronen te absorberen (die bij een kernsplijting natuurlijk in grote mate vrijkomen... meer dan er per dag door je PC schieten).
Ik vraag me af of de plaatsing (oriŰntatie) van de modules invloed heeft op de kans op een soft-error:

De kosmische straling (o.a. die neutronen) vanuit de richting haaks op het aardoppervlak heeft een grotere energie dan de straling die van onder een hoek de dampkring binnenkomt, deze zijn immers afgeremd door een dikkere laag lucht.

Dus als de reepjes ram plat (evenwijdig aan aardoppervlak) gemonteerd worden is de kans dat zo'n module geraakt wordt door een neutron met een hoge energie het grootst en dus ook de kans op soft-errors.

Dit zou natuurlijk maar voor een deel van de soft-errors gelden want niet alle soft-errors worden veroorzaakt door kosmische straling.
Als ze bij apple wel ECC zouden inbouwen zou de performance nog hoger kunnen liggen :)

go apple go :)

edit: mss removed
Als je commentaar hebt op de zinsconstructies mag je er zelf wel eens voor zorgen dat je Nederlands correct is. Het is 'opnieuw' of 'over doen'.
Als je commentaar hebt op commentaar op zinsconstructies moet je wel zeker weten of je niet erg voor lul staat omdat je poep praat.

overĚnieuw (bw.)
1 \[inf.] opnieuw
Je zinsopbouw is kut. :+
-ik was mistig ofzo, je kritiek klopt idd :+ -

"Twee keer zoveel dan" klinkt ook helemaal fout :X
Helemaal mee eens!! http://www.ppintaal.nl/als_of_dan.htm
In dit geval dus wel ALS.

Laat ik maar niet met een flame eindigen: een gelukkig nieuwhaar Sorcerer8472!!

ps: waar moet je eigenlijk taalfouten melden?

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True