Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 50 reacties
Bron: AMD

AMD heeft bekendgemaakt dat het problemen heeft ondekt in de Opteron x52 en x54-series. De combinatie van floatingpoint-intensieve applicaties met hoge temperaturen kan leiden tot 'inconsistente resultaten'. De getroffen processors werden in 2005 en begin 2006 geproduceerd en volgens AMD zijn overige modellen en de dualcorechips niet getroffen door de problemen. Nadat het probleem gevonden was, is het testproces voor nieuwe cpu's aangescherpt en alle nieuwe processors zijn dan ook gevrijwaard van de problemen, aldus AMD.

AMD Opteron logoAMD legt in zijn persverklaring de nadruk op het feit dat de problemen alleen bij synthetische benchmarks optreden en niet zijn geconstateerd in productieomgevingen. Desondanks is het een vervelende bug, aangezien de processor niet simpelweg vastloopt, maar foutieve resultaten kan geven. AMD OEM-partners beschikken over software waarmee processors getest kunnen worden op de fout. Wanneer de fout wordt geconstateerd, zullen de 2.6GHz en 2.8GHz Opterons 152, 252, 852, 154, 254 en 854 kosteloos door AMD worden vervangen. Op basis van tests schat AMD dat ongeveer drieduizend Opterons getroffen kunnen zijn.

Moderatie-faq Wijzig weergave

Reacties (50)

ik denk dat AMD er goed aan doet zoals ze nu handelen, als je weet om welke serie het gaat, en je weet wanneer ze geproduceerd zijn, dan is het onzin om alle procs terug te halen. Enkel de procs met dit probleem hoeven dan terug. Het zou daarentegen wél verstandig zijn om dat testprogramma publiekelijk beschikbaar te stellen, want op die manier weten ze zeker dat iedereen met een AMD processor uit de getroffen reeks, uit de getroffen productie, zn processor even test. + dat het natuurlijk een stukje klantenbinding is:

Kijk eens: wij maken een fout, geven u de kans om even te controleren of uw product deze fout bevat. Als dat zo is, geen probleem, u krijgt van ons een nieuwe - foutloze- chip terug...
Kan er geen nieuwe microcode in de getroffen procs gaflashed worden i.p.v. ze om te ruilen?
Dit probleem zit direct op transistor nivo in de chip. Als de temperatuur hoger wordt, dan worden transistors langzamer. Een floating point unit bestaat uit behoorlijk wat transistors die samen paden volgen zodat de berekening uitgevoerd kan worden. Als nu een paar transistors net iets langzamer werken dan verwacht, kan het zijn dat sommige bits in zo'n berekening net iets te laat aankomen om in het resultaat meegenomen te worden. Wat je dan krijgt is een resultaat dat meestal goed is (het is tenslotte een extreem geval) maar soms net een verkeerd bitje heeft.

Denk maar aan overklokken: hoe lager de temperatuur is, hoe harder die kan gaan (simpel gezegd). Dit is het omgekeerde effect eigenlijk, maar wel heel locaal in de processor.
De combinatie van floatingpoint-intensieve applicaties met hoge temperaturen kan leiden tot 'inconsistente resultaten'.
Lijkt me meer een hardwarematig probleempje?
Wederom een slecht vertaalde nieuwsbericht van tweakers. :r

small number of these processors manufactured in 2005 and early 2006 have been observed to produce inconsistent results in a non-production synthetic test environment with the convergence of the following three simultaneous conditions:
Er staat toch ook:
Op basis van tests schat AMD dat ongeveer drieduizend Opterons getroffen kunnen zijn.
Dat noem ik een klein aantal... Als je naar alle gemaakte processors kijkt.
Een klein aantal boeit niet, al is het maar 10 fouten cpu's die erdoor heen geslipt zijn dit mag niet gebeuren. Niet alleen kan het veel gevolgen hebben voor de bewerkingen, dit kan ook op mensen invloed hebben. Er zijn tal van situaties waar foute berekeningen gigantische gevolgen kan hebben. Ik weet toch wel dat ik en niet alleen ik iedereen die een oudere opteron gebruikt zijn systeem gaat nakijken en dan alsnog niet zal vertrouwen of het in orde is. Dit zijn fouten die alleen optreden onder zeer specifieke omstandigheden. Ik ben toch wel blij dat ik hooguit ermee render en er geen constructie berekeningen mee hoef te doen.
Misschien moet je je afvragen waarom AMD als fabrikant in een press-release praat over een small number of these processors, en t.net als nieuwssite dat niet meld?

Als ik fabrikant zou zijn van die dingen zou ik het probleem ook zo klein mogelijk maken, dus dat AMD het doet is niet meer dan logisch.

Maar wanneer je objectief naar het probleem kijkt zie je dat dit echt een zeer serieus probleem is (ga er ook maar vanuit dat dit ook dikke crisis is binnen AMD), of het nou om 10, 1000 of 1000000 CPU's (elke CPU die verkeerde resultaten teruggeeft is er echt 1 teveel) gaat: feit is dat vanaf nu het lastig wordt om een Opteron te vertrouwen wanneer je zeker van je uitkomst moet zijn bij een berekening: en dat is de nieuwswaarde van dit bericht.

Maar AMD heeft een erg mooi stukje historie dat ze als benchmark kunnen gebruiken. Ik neem aan dat ze niet in dezelfde valkuil trappen als Intel heeft gedaan (en aangezien ze meteen alles gratis omruilen lijkt het er inderdaad op dat ze van de geschiedenis hebben geleerd).
Dat "meteen" ben ik niet met je eens. Je moet eerst testen en enkel als er problemen optreden mag je omruilen. Daarbij is het testprogramma ook nog niet eens publiekelijk beschikbaar. Nee, het lijkt erop dat AMD wel in dezelfde valkuil aan het stappen is als Intel. Want hoe kan ik weten dat een processor die de test op moment X doorstaat op moment Y ook goed rekent?

Wat dat betreft kan AMD beter een voorbeeld nemen aan voedselproducenten. Is er een probleem binnen een serie wordt de complete serie teruggenomen. Iets wat uiteindelijk Intel ook gedwongen werd te doen en mij nu ook de enige oplossing voor AMD lijkt.

Want laat ik bot zijn. Als AMD mij geen garantie kan geven dat de chip deze ontwerpfout niet heeft, kan ik dan garanderen dat de resultaten van berekeningen met die chip correct zijn? Alle gebruikers van deze chips hebben recht op een goed werkend product en dus moet men in mijn ogen alle foutieve chips vervangen. Niet enkel de chips waarbij de eigenaars nu al een grote kans op problemen hebben, maar simpelweg die van alle eigenaars. Ja het kost wat, maar dat is "the risk of doing business". Zij verkopen het spul, dan moeten ze ook maar zorgen dat het functioneert.
Vanwaar gelijk maar de kots-smiley?

En vertel eens waar het verkeerd vertaald is? Er staat toch niet dat alle opterons er last van hebben?
Mishcien omdat het maar om een klein aantal gaat en het erger wordt verteld dan het is.

Gebeurt wel vaker dat er dingen in de text niet helemaal kloppen. :)
Volgens mij bedoeld de threadstarter met slecht vertaald een misrepresentatie van de feiten.
en
Mishcien omdat het maar om een klein aantal gaat en het erger wordt verteld dan het is.
Sorry hoor, maar misschien dat jullie het minder goed lezen dan ik doe?

Uit het nieuwsitem:
"De combinatie van floatingpoint-intensieve applicaties met hoge temperaturen kan leiden tot 'inconsistente resultaten'."

"De getroffen processors werden in 2005 en begin 2006 geproduceerd en volgens AMD zijn overige modellen en de dualcorechips niet getroffen door de problemen."

Daar staat niet dat alle processors van die serie getroffen zijn, maar dat de getroffen processors die er zijn, van toen waren.

En dan sluit het artikel nog af met deze zin ook:
"Op basis van tests schat AMD dat ongeveer drieduizend Opterons getroffen kunnen zijn."

Moet er dan echt nog per se nog meer woorden aan gespendeerd worden om aan te geven dat dat maar een deel van de processors getroffen zijn?

In principe moet iedereen met zo'n processor van de goede leeftijd kijken of zijn processor wel of niet die bug bevat, danwel of ie aan de criteria voldoet. Op voorhand kan je niemand uitsluiten en dan is het ineens niet maar 3000 van de paar miljoen, maar alle paar miljoen waar wat mee is (ze moeten getest of geevalueerd worden).
@acm
Dat is het punt, met niet al te veel moeite kan je hier uit opmaken dat het alle processor betreft, bij het oorspronkelijke bericht kan dat niet
Volgens mij bedoeld de threadstarter met slecht vertaald een misrepresentatie van de feiten. Ik moet er persoonlijk niet van kosten, maar slordig is het wel.
Ik nodig iedereen uit die problemen heeft met de inhoud van een nieuwsbericht een topic te openen in het forum Frontpage Algemeen.

Bovendien mag eenieder zijn kots-smiley's voor zich houden. Ik lees in dit nieuwsbericht duidelijk dat het om een drieduizendtal processors zou gaan, en ik citeer het persbericht:
AMD determined that approximately 3,000 AMD Opteron x52 and x54 processors out of the millions of AMD Opteron processors shipped
Dit nieuwsbericht lijkt mij dan ook een correcte weergave van de feiten te zijn. Natuurlijk zou AMD (en zijn fanboys) graag zien dat dit geminimaliseerd wordt en dat we in lettergrootte 24 in het vet zetten hoe miniem dit aantal wel is, maar voor Tweakers.net volstaat het een correcte weergave van de cijfers te geven.

Als je het daar niet mee eens bent, ben ik gerust bereid verder in discussie te gaan in Frontpage Algemeen.
Onderbetaald :+

:X

Maarja, wel jammer dat AMD nu ook een HotBug heeft..
Vond de ColdBug wel genoeg...
Vond de ColdBug wel genoeg...
"Coldbug" is een idioot verzinsel van wat "overklokkers".
Ik snap niet zo goed waarom dit met een persbericht bekend wordt gemaakt. AMD heeft jaren gevochten voor een stukje marktaandeel in de servermarkt, en met dit persbericht geef je jezelf als bedrijf een vuistslag.

Had je dan niet beter de wereld in de waan kunnen laten bij zo'n klein aantal. :?
Ga eens praten met Ford :) In de praktijk is gebleken dat openheid over problemen met producten beter werkt dan het stilhouden van die problemen en doen alsof je neus bloed.

Mensen zien AMD nu als een bedrijf dat problemen serieus neemt en op professionele wijze naar een oplossing streeft. Houdt je het geheim en komt het achteraf uit dát je het geheim gehouden hebt, dan is de schade aan je reputatie vele malen groter
Ik meen mij te herinneren dat Intel ooit een duidelijke bug in een van z'n CPU's had. Nog steeds word het Intel kwalijk genomen dat ze dit probleem ontkent hebben.
Ontkennen deed Intel niet. Men claimde echter (waarschijnlijk terecht) dat 99,99999999999999% van de mensen er nooit last van zou krijgen en wilde dus in eerste instantie niet álle CPUs uit de serie vervangen, maar enkel als je kon aantonen dat je raketonderzoeker was. Na veel soebatten mocht uiteindelijk iedereen die wilde de chip voor een andere omruilen.
Lees eens het stukje op HardwareInfo over de pentium (60/66) processor. En klik eens op de links die er bij staan over de chaos die ontstaan is over het feit dat Intel zn mond hield. Erg interessant.
Dan snap je waarom AMD dit meldt!
AMD legt in zijn persverklaring de nadruk op het feit dat de problemen alleen bij synthetische benchmarks optreden en niet zijn geconstateerd in productieomgevingen.
Hmm, dat klinkt erg als de div bug in de originele Pentium.

Gelukkig voor AMD zijn er een stuk minder processors getroffen.
Bij de pentium had je die bug altijd en niet alleen bij extreme load op de FPU. Vind ik nogal een verschil :o

Vraag me af hoeveel systeembeheerders hun opterons retour sturen voor een bug waar ze waarschijnlijk nooit wat van gaan merken.
*Al zijn er natuurlijk bedrijven waarin een fout behoorlijk veel schade aan kan richten als is er maar een kans van 1:10^eenhoop is dat er iets fout gaat.*
Vooral ook in de wetenschap kan het heel vervelend zijn... juist wetenschappelijke berekeningen/simulaties maken vaak gebruik van voornamelijk floating point operaties. Heb laatst b.v. meegewerkt aan een publicatie op basis van een simulatie die deels op opterons gedraaid is. Het ging hier gelukkig niet om de probleemgevallen, maar het zou wel heel vervelend geweest zijn als een deel van de simulatie gewoon niet goed is door fouten in de berekeningen... kan je imago aardig verpesten, en ik vind dit ook wel een deuk in het imago van AMD ookal gaat het om kleine aantallen.

Juist dat de bug alleen soms optreedt is erg vervelend, bij de Pentium kon je een simpele test draaien om vast te stellen of je exemplaar wel of geen last had van de bug, bij deze bug is dat veel moeilijker.
Wat betreft die hoge temperaturen: veel servers worden in rackmounted machines gezet en vervolgens in een ruimte gehangen met goede airco. De kans dat je deze bug triggert in de zomer is daarmee over het algemeen nihil.
Lees het artikel eens voor je blaat:

"AMD OEM-partners beschikken over software waarmee processors getest kunnen worden op de fout. Wanneer de fout wordt geconstateerd, zullen de Opterons kosteloos door AMD worden vervangen."

En voor hier onder:
AMD heeft hier wel rekening mee gehouden.
Lees zelf ook eens voor je blaat:
De combinatie van floatingpoint-intensieve applicaties met hoge temperaturen kan leiden tot 'inconsistente resultaten'.
M.a.w. wanneer is er sprake van 'hoge temperaturen'? Misschien doet je CPU het in de test wel goed, maar als het zomer wordt of door andere omstandigheden de temperatuur hoger is (b.v. stof in de fan) dan doet hij het misschien opeens niet meer goed...
@Jan de Groot: Het gaat bij deze fout om een situatie waarbij een heel klein deel van de chip erg warm wordt waardoor er (waarschijnlijk door lekstroompjes) een aantal bitjes kunnen omvallen. De totale chip wordt dan niet of nauwelijks warmer, alleen een heel klein stukje.
Vraag me af hoeveel systeembeheerders hun opterons retour sturen voor een bug waar ze waarschijnlijk nooit wat van gaan merken.
Zou jij als systeembeheerder het risico willen lopen dat je gebruikers met onjuiste gegevens zitten, hoe klein dat risico ook is? Zeker als die fouten relatief eenvoudig te voorkomen zijn?
Ik zou het in ieder geval niet aan mijn gebruikers uit kunnen leggen als zij met foute gegevens zitten doordat ik het vervangen van een processor niet nodig vond...
Vraag me af hoeveel systeembeheerders hun opterons retour sturen voor een bug waar ze waarschijnlijk nooit wat van gaan merken.
Je zou maar een ontwerpbureau zijn dat statische en dynamische lastberekeningen op constructies doet. Die zijn zo complex dat je echt niet in de gaten hebt of een staalprofiel nu van 10 of 15mm staal gemaakt moet worden.

Dan heb je toch wel een probleem als je dat met een dergelijke Opteron doet. Je weet gewoon niet of de uitkomst goed is.
Reden genoeg om in zo'n omgeving voor een vervanging te vragen.
Bij de pentium had je die bug altijd en niet alleen bij extreme load op de FPU. Vind ik nogal een verschil
Ik bedoel dat hij alleen significant was voor degenen die uiterste precisie nodig hadden.
mooi is wel dat ze hier een tijdsspanne geven van 2005 tot begin 2006 en zeggen dat er maar 3000 stuks getroffen zijn door deze bug.

conclusie : zoveel zijn er dus ook weer niet geproduceerd en dus ook niet verkocht...
Op basis van tests schat AMD dat ongeveer drieduizend Opterons getroffen kunnen zijn.
Hieruit kan gebleken zijn dat maar 5% van de procs het probleem heeft en slechts 25% van de systeembeheerders heeft laten weten de procs in te ruilen vanwege de bug waar ze in reallife nooit problemen mee krijgen.

Dan kom je ineens op heel andere getalletjes ;)
IS dit niet op overgeklokte opterons zo? Ik zie er genoeg op 3ghz?
Dus is 2,6ghz dan niet meer stabiel met FP?
IS dit niet op overgeklokte opterons zo? Ik zie er genoeg op 3ghz?
Waarschijnlijk wel. Maar dat is niet het probleem van AMD.
ik weet nog wel dat de Pentium 1 dit probleem ook kende in zijn eerste verschijningen... Alleen ging het daar niet om een hitteprobleem waardoor uitkomsten foutief werden, maar het ging om structureel rekenfouten maken in de floatingpoint berekeningen. de uitkomsten klopten geloof ik redelijk, met een foutmarge van 0.0006% oid. Natuurlijk onbruikbaar bij belangrijke berekeningen, maar geen direct gevaar voor de volksgezondheid. :-)
Tenzij je een spaceshuttle op je hoofd krijgt of het gebouw waarin je woont instort of de medicijnen verkeerd gemengd worden of, of, of .....
Heb contact gelegt met de leverancier maar die doet niets ! dus probleem wel herkent, mara wordt niets ana gedaan. :(
Je moet ook bij AMD zelf zijn, niet bij je leverancier.
Je moet wel degelijk bij je leverancier zijn... zo gaat het altijd met RMA-gevallen.

Lekker als je een servicecontract hebt waarin staat dat je je server niet mag openmaken. Dan MOET de leverancier wel komen.
AMD legt in zijn persverklaring de nadruk op het feit dat de problemen alleen bij synthetische benchmarks optreden en niet zijn geconstateerd in productieomgevingen
Ik durf te wedden dat in een rekenomgeving zoals rosetta@home b.v. de problemen zich weldegelijk kunnen uiten.
Nu zit er daar wel een check op dat meerdere berekeningen van verschillende clients nodig heeft, maar stel dat bv een weerinstituut z'n weermodel berekeningen doet. Foutieve berekingen kunnen in foutieve resultaten ontaarden waarmee de hardware waardeloos eigenlijk is.
zo als jij het nu uitlegt zou het betekenen dat all proc`s niet deugen (of draaien ze bij meteo nog met een pentium 60Mhz?)
ze zitten er immers meestal flink naast :Y)

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True