Hoofdcategorieën

PowerMac G5 cluster veel minder krachtig dan verwacht

Door Gabi Gaasenbeek, zondag 19 oktober 2003 23:43
Bron: Real World Technologies, views: 937

Het Apple G5 cluster blijkt niet zo snel als in eerste instantie werd gedacht, zo lezen we op het forum van Real World Technologies. De 1100 eenheden hebben samen een rekenkracht van 7,4 teraflops in plaats van de theoretische top van 17,6 teraflops. Deze cijfers komen uit een rapport van Linpack, waarin de snelheden van clusters worden vergeleken. Men is er op het forum niet zeker van of dit rapport officieel is. Het G5 cluster komt met de geteste snelheid op een zesde plaats terecht, een goede score volgens een van de reacties:

Apple logoThe reported full system result places the G5 cluster in 6th place. If the reported cost is correct, and nothing more than standard educational discounts apply then the result is very impressive. Whether or not 'Deja Vu' can deliver a suitable level of reliability and availability remains to be seen.
Volgende 10:21
Vorige 22:18

Reacties

«  1  2  3  »

Wat is de oorzaak van deze daling van 10 terraflops?

(ik zal wel fipo's krijgen :'()

Het is heel normaal dat 2 processoren minder dan 2x zo veel doen als 1 losse processor. Al het werk moet verdeeld worden, er moet gecommuniceerd worden, en soms moet er op elkaar gewacht worden.

Hoe efficient een ontwerp met meerdere processoren is, hangt heel sterk af van de verbindingen die deze processoren onderling hebben. Vandaar dat de Opteron (met directe onderlinge verbindingen) het heel goed in multiprocessing omgevingen doet. beter dan bijvoorbeeld een Xeon. Een G5 processor heeft blijkbaar meer "vertraging" door de multi processor opstelling dan was verwacht.

Eigenlijk is het het zelfde als met heel veel dingen. Als je bijvoorbeeld in je eentje een stoep moet vegen, dan doe je er een uur over, met zijn 2-en ben je 35 minuten bezig, en met zinn 4-en nog altijd 25. Met zijn 10-en ... en met 100 mensen gaat nauwelijks sneller dan met 90. Als je goed met elkaar kunt afspreken wie welk deel doet, en in welke volgorde, dan gaat het het snelst.
Zo is het dus met processoren ook. In theorie veeg je met 100 mensen 100x zo snel, in het echt blijk je elkaar hoe goed je het ook uitdenkt, toch soms in de weg te lopen en moet je soms op elkaar wachten enz....

[edit]
In de theoretische bepaling van de snelheid wordt natuurlijk een benadering meegenomen voor de tijd die het kost om het werk te verdelen over de processoren. Het is alleen nooit van te voren te zeggen hoe dat precies uitpakt. Vergelijk het maar met de snelheid van een 3d benchmark. Ondanks dat je van te voren weet hoeveel rendering pipelines er zijn en hoe snel ieder van deze piplines is, kan een benchmark soms toch heel erg tegenvallen. Meestal komt dat dan omdat de architectuur niet zo efficient met de bewerkingen omgaat als was verwacht. Door een andere benchmarkt te nemen, of een andere driver kan je echter weer andere gegevens terugvinden.

Zo is het in dit G5 cluster ook, In de eerste voorlopige benchmark blijkt ie niet zo snel, misschien is de benchmark niet oke of de software (nog) niet geod geoptimaliseerd. Of misschien valt toch de G5 architectuur in cluster opstelling gewoon tegen.

Dan nog is dat geen antwoord op de vraag waarom de theoretische limiet (waarbij je dus wel degelijk rekening houdt met overhead en al die andere zaken) bij lange na niet gehaald wordt...

Met een slecht stukje software kan je ook een hoop verprutsen. Als er bv geen rekening is gehouden met de specifieke architectuur van dit cluster dan kunnen de prestaties flink terug vallen.
We zullen binnenkort wel een reactie van Apple hierop krijgen denk ik.

Jawel, bij de theoretische limiet zit iedereen perfect gecoördineerd te vegen vanaf het begin en wordt er niets dubbel geveegd, iedereen weet vanaf het begin meteen al welk stukje zij moeten vegen.

Maar in de praktijk heb je toch iemand nodig die de boel overziet, de vegers verdeelt over de stoep en checked of alles geveegd is, en dan worden er nog steeds sommige stukjes dubbel geveegd. Bovendien vegen sommigen sneller dan anderen omdat er bij hun stukje minder bladeren liggen dan bij anderen wat nog meer organisatie verijst.

Je kan het ook met een bedrijf vergelijken. Iemand met een eenmanszaak kan de hele dag goed doorwerken omdat hij alleen op zichzelf aangewezen is en precies weet wat gedaan moet worden. Als je een bedrijf met honderden werknemers hebt dan heb je managers nodig die puur mensen lopen te vertellen wat zij moeten doen en werknemers die uren op een dag uit hun neus zitten te vreten omdat ze moeten wachten tot iemand anders iets af heeft.

Hoe beter je die dingen organiseert hoe minder je overhead. Bij deze cluster is er een behoorlijke overhead al is 7TF+ toch een nette prestatie. Al schaalt de G5 duidelijk toch minder dan de Opteron die met 11.000 CPU's de 50TF haalt.

Eerste regel rapport:

"The timing information presented here should in no way be used to judge the overall performance of a computer system. The results reflect only one problem area: solving dense systems of equations."

Verder een vrij droog rapport, dus niet erg in verdiept geraakt. Zag wel in het tabel aan het eind dat dat cluster zesde was in R(max), maar tweede in R(peak) - wat dat precies mag betekenen...

Bij en dual CPU systeem kom je, zover ik is gehoord heb, op 80% van wat ie theoretisch dubbel kan.

Ik betwijfel of dat multithreading verhaal echt op gaat. Het gaat hier om een cluster niet om 1100 CPU's op één moederbord. Alleen met het afleveren data packets die clusters heb je die netwerken tussen de systemen nodig.... lijkt me :?

Die 80% hangt er maar van af. Soms is het (veel) minder. Soms nog wel 95 procent ook.

Dat hangt heel sterk van de applicatie af alsmede de hardware-architectuur.
Sommige (hardware) SMP implementaties zijn efficienter dan andere (en dat dan weer afhankelijk van de omstandigheden).

Maar komt het nou door de architectuur van de clusteropstelling of door de processor zelf? De geringe ervaring die er met dit type cluster is zal de effeciëntie misschien ook wel verkleinen.

Wat jij hier zegt Luxx klopt helemaal alleen. Het heeft echter geen belang in dit verhaal. De personen die deze clusters bouwen hebben die kennis ook en houden met de berekening van het haalbare aantal terraflops rekening met datgene dat jij zegt. Alleen blijken er nu meer bottlenecks te zijn waardoor de winst per server extra nog kleiner is dan gedacht.

Je kunt er nu al vanuit gaan dat het raport niet officieel is. In het officiele rapport zal namelijk ook vermeldt worden wat de oorzaak is van de afname in terraflops om zodoende de nodige verbeteringen aan te kunnen brengen in het ontwerp zodat het in de toekomst kan worden voorkomen. Nu is het niet meer dan een simpele constatering.

Wat er misschien aan de hand is is dat deze cluster geen ECC Geheugen gebruikt, volgens mij ondersteund de G5 dit niet (of de chipset die gebruikt is).
Dit kan een enorme performance daling bij sommige benchmarks veroorzaken.

Fit nummer is het aantal fouten dat een gemiddeld dimmetje maakt.
But in simply using the 1000 FIT number, and applying it to 1000 boxes, each with 4 GB, that's 4400 GB of memory. Assume that these are all 512 Mbit chips, that's 70400 DRAM chips in the compute farm.

1000 FIT per chip, that's 70400000 failures per 1E9 hours, or 0.07 failures per hour, or 1 failure every 14 hours somewhere in the 4400 GB of memory.

-> Procyon

En zoals je zelf al schrijft maakt geheugen dus bijna geen fouten. 1 fout per 14 uur. das niks! (En daar komt nog eens bij dat die berekening alleen opgaat met 4400Gb (4.4Tb) memory) En zorgt heus niet voor een performance-daling van 17,6 Teraflops naar 7,4 Teraflops.

En ECC is niet voor performance, alleen maar voor foutcorrectie.

Sterker nog: een systeem met ECC geheugen is zelfs iets trager omdat er naast de data die normaal naar het geheugen word geschreven ook nog een pariteits stream mee gestuurd word die iedere keer word gecheckt bij het schrijfen en uitlezen van het geheugen.

-> Procyon
Ik denk dat je registered bedoelt i.p.v. ECC.

De wrede werkelijkheid die de dromen van de markteting-afdeling van Apple bruut de grond in trapt. :7

De marketing afdeling weet er soms een iets te rooskleurig plaatje van te maken. Maar dat kom je bij elk bedrijf wel tegen. Dus het verbaasd me niets :z

Die 17 teraflops heeft Apple nooit genoemd.. Dit heeft de BBC in een persbericht gezet door gewoon de theoretische max te vermenigvuldigen met 1100.

edit:
verkeerd geplaatste post
I love MS in het kwadraat (krijg ik nu niet 0 of minder punten ;) )

ik zie hieronder wat geleuter over verlies bij duals enzo. Dat is natuurlijk een lachertje vergeleken bij verliezen als de routers niet goed opgesteld staan.

Stel dat als je een supercomputer zo bouwt dat als alle processors met elkaar tegelijk communiceren, dat dan 500 processors van de 1000, om de andere 500 te bereiken, dat dat allemaal door 1 gigabit kaartje heen moet.

Dan heb je een JOEKEL van een probleem dus.

Het zal zeer waarschijnlijk hieraan liggen dat 't zoveel trager is.

Volgens mij hebben daar toch wel echt rekening mee gehouden, 't zijn geen kneuzen daaro. Meende dat het netwerk ook nog eens 10 Gigabit p/s was.

Het is heel lastig hier rekening mee te houden wegens de $$$$$$$$ (8 cijferig) die het kost als je het goed wil doen.

Ter vergelijking een dual G5 zal wel qua productiekosten iets van 1500 of 2500 euro kosten, maar een beetje router is al snel 10000 euro of meer.

Dus hierop bezuinigen is alleszinds handig. Ook is een myrilnet netwerk kaart de snelste netwerk kaart (nog sneller en duurder is een hub op het mainbord poten natuurlijk, maar dan zit je in categorie supercomputers type SGI die veel snellere latencies hebben als deze sporthal volgeladen met Macs) maar die is in de orde grootte $1500 per stuk, terwijl een snelle Netgear netwerk kaart ook enorme bandbreedte levert en maar 2x tragere latency heeft als deze myrilnet werk kaart. Dat voor nog geen $300. Tel uit je winst bij het bouwen.

Het *grote* probleem bij clusters en supercomputers is hoe je op een centrale manier verschillende 'partities' met elkaar kunt laten communiceren.

Centrale routers, bij de machine van de Nederlandse Overheid zijn dat bijvoorbeeld NUMA flex routers van SGI, zijn de duurste componenten van zo'n systeem.

10 Gbit/s is vreselijk weinig voor een centrale router.
TERAS van overheid levert 1 terabyte = 8 terabit per seconde. Factor 1000 meer.

Het verdelen van de bandbreedte kan met cubes en dergelijke opgelost worden, maar dat betekent heel veel extra routers en centrale verbindingen.

Dat vertaalt zich direct in een cluster die 2x duurder is.

Dit is ook het gedeelte van een cluster/supercomputer dat veel stroom vreet.

De processors an sich vreten superweinig.

Het gerucht op Real World Technologies is 4 dagen recenter dan het Wired artikel. In het Wired artikel was nog maar 5% van de processoren actief, en werd daar vanuit ge-extrapoleerd, met als gevolg hoge verwachtingen.

Als het RWT gerucht klopt, is er inderdaad een probleem met de schaalbaarheid, ergens tussen de 128 processoren van 't Wired artikel en de 2200 processoren van de hele cluster.

Duimen maar dat het ding de top-tien haalt...

(Mac-gebruiker Allerbe)

Men is er op het forum niet zeker van of dit rapport officieel is.
Misschien moet daar eerst even op gewacht worden voordat een dergelijk artikel geplaatst wordt? :z

Echt een typisch Apple-afkraak-artikel: PowerMac G5 cluster veel minder krachtig dan verwacht!! O gelukkig! Apple's 64-bit machine is helemaaal niet zo snel!

Een tikje overdreven, maar dat is dit artikel ook. Ergens op een afgelegen forum staat een 'rapport' waarvan niet eens zeker is of het officieel is.. Ik snap het nut van dit artikel niet
|:(

Echt een typisch Apple-afkraak-artikel: PowerMac G5 cluster veel minder krachtig dan verwacht!! O gelukkig! Apple's 64-bit machine is helemaaal niet zo snel!
Inderdaad, volgens deze link (http://www.wired.com/news...82,60821,00.html/wn_ascii) haalt het cluster een veel hogere piekprestatie. Dit bericht heeft op ongeveer alle grote Amerikaanse technologiesites gestaan, in tegenstelling tot het artikel dat hier wordt aangehaald. Raar hoor
|:(

[edit]
Nog raarder, het Wired artikel is gebaseerd op hetzelfde rapport en de maker ervan wordt zelfs aangehaald. Hij zegt zelfs: ""They're getting about 80 percent of the theoretical peak," Dongarra said. "If it holds, and it's unclear if it will, it has the potential to be the world's second most powerful machine."

PowerMac G5 cluster veel minder krachtig dan verwacht!! O gelukkig! Apple's 64-bit machine is helemaaal niet zo snel!
Wat heeft een cluster G5's dan te maken met Apple's 64-bit desktop machine? Wat suggereer je?

Dat de G5 niet zo geweldig is als Apple ons wilt doen geloven weten wij hier op deze hardwaresite echt wel hoor, wij slikken die marketingmeuk niet zo makkelijk als de gemiddelde Apple gebruiker.

Btw, gelukkig weten wij al lang dat de G5 grof overschat is, dus waar zouden wij ons druk om maken :?

http://gathering.tweakers.net/forum/list_messages/824121

Dat de G5 niet zo geweldig is als Apple ons wilt doen geloven weten wij hier op deze hardwaresite echt wel hoor, wij slikken die marketingmeuk niet zo makkelijk als de gemiddelde Apple gebruiker.
wat een ignorant opmerking zeg. alsof de gemiddelde tweaker niet gevoelig is voor marketing. ik erger me meer aan de techy ingestelde tweaker die processor A koopt omdat ie "10 frames meer in Quake 3 arena" heeft, dan aan de "gemiddelde Applegebruiker" die gewoon een fraai vormgegeven machine neemt met een ditto fraai OS. en bereid is daar wat meer geld voor te betalen.

zet daar tegenover de tweakerige AMD freak die helemaal blij is dat ie een beta van een kale gestripte win2k op zn 64 bits AMD athon FX 51 kan draaien. completeer het geheel met de vierkante luidruchtig beige box en het plaatje is compleet. wat win je nou met zo'n computer behalve wat meer snelheid? het is the same old windows (als je gelukt hebt, 64 bits port is nog niet gereed, en drivers is ook afwachten) en the same old linux. al dat fraais van amd 64, die techy glamour die zo uitvoerig op de "hardwaresites" besproken is, wordt weggemoffeld onder dezelfde ouwe software. duh!

maar goed deze site heet niet voor niks tweakers. en voor tweakers is het zelf kunnen schroeven/rommelen aan hardware nou eenmaal een onderdeel van de functionaliteit van de computer. eigenlijk koopt een tweaker ook geen computer maar een benchmark knutsel doos waar ie, op aanwijzingen van"hardwaresites", wat mee kan rommelen. tot de boel kapot is en men weer een nieuwe beige box met courante 64 bits wegwerp technologie kan vullen...

Wat heeft een cluster G5's dan te maken met Apple's 64-bit desktop machine? Wat suggereer je?
Omdat dat Apple's 64 bits desktop machines *zijn*?

Grappig, dat zo snel als men een negatief bericht geeft over Apple, het 'apple-bashing' van anti-mac users is, terwijl het de normaalste zaak van de wereld lijkt te zijn, als AMD of Intel kritische berichten krijgen...
Beetje met 2 maten meten, imo... :Z

Het blijft toch allemaal speculatie totdat het systeem d'r staat en werkt.. wacht nou maar gewoon af, en dan zien wetegen die tijd wel weer verder...

In dit geval is de reactie van Mac gebruikers wel te begrijpen omdat het artikel de feiten verkeerd weergeeft.

Nogmaals

Die 17.6 was de GESCHATTE PEAK PERFORMANCE!
In het rapport staat dat de werkelijke peak performance 16.896 TeraFLOP is

edit:
Niet goed gelezen blijkbaar
Deze mag eruit gemod worden

PowerMac G5 cluster veel minder krachtig dan verwacht
Ergens verbaasd dit me niet helemaal...
Er waren namelijk al eerder geruchten, kort daarop door onafhankelijke benchmarks gestaafd, waaruit bleek dat de PowerMac G5 helemaal niet zo snel was als Apple de wereld wilde voorspiegelen met hun kreten als "worlds fastest..." etc ;)

Ik zou graag willen weten wat een soortgelijk cluster met 1100 AMD Opterons aan prestaties neerzet :9

Wat komt er na terraflop? :7

het is teraflops en wat erna komt is petaflops

en daarna exaflop

En ver daarna Googolflop (vandaar Google).
Jaahaaaa, probeer nu maar eens hoger te komen in termen van woorden :)

Googolplex=10^(10^100)

*Zucht* ‡ 8-)

Die blokjes waren een liggend achtje, het teken voor oneindigheid.

jah ze hadden echt opteron's moeten nemen, die hadden een hele goeie bewezen samenwerking op clusters.

Helemaal ongelijk had Apple niet:

Met de laatste beta van CineBench is de dual G5 gelijkwaardig met een dual Opteron op 2GHz

http://barefeats.com/g5c.html

Maxon geeft te kennen dat in deze versie van CineBench nog niet alle G5 optimalisaties zijn doorgevoerd.

Maar is het cluster een terra-flop geworden? :+

Het antwoord is marketing.
Mac verkopen we als een CPU die op alle fronten super is voor weinig geld ... blahblah
Maar een CPU is niet meer dan het systeem eromheen.
En wat doe je er mee als gebruiker...
iig op de benchmark van apple zal dat ding best wel goed uitkomen en op deze test nu dus ff niet, maar is de test dan wel goed??
3Dmark had ook een tijdje geloofwaardigheid, totdat er bleek dat er gesjoemeld werdt met uitslagen...
maw ik hecht er weinig waarde aan, ga het liever zelf zien in een winkel met eigen test CeeDee :)

Ik ben even zo vrij geweest om het even op te zoeken in dat rapportje op pagina 53 wordt de 'Big Mac' eindelijk genoemd maar, zou iemand mij kunnen uitleggen wat nu het verschil is tussen Rmax en Rpeak.

Het zou mij het zelfde lijken want de piek is toch het maximale, of niet :? ?

Een piek is volgens mij gewoon een uitschieter. De maxima zijn vastgesteld en een piek is gewoon een uitschieter door een fout in de software die de prestaties meet, d8 ik :)

Hoe snel is 1 teraflop eigenlijk? :?

1 teraflop is 1000 megaflop
en 1000 megaflop is 1000000 kiloflop
1000000 kiloflop is 1000000000 flop

en 1 flop is .... euh .... zoiets als een floating operation ofzo ...

wat is dan een floating operation ? een floating operation is de bewerking van een komma getal bestaande uit een x aantal bits. Waarbij x meestal 32 bits is (maar ja een 64 bits CPU zal het wel met 64 bits doen :?). En 1 teraflop betekend dus 1 tera floating operations per seconde ...

nou dit verhaal heb ik dus grotendeels uit de vinger gezogen dus de helft zou wel niet kloppen .... maar t´gaat om het plaatje.

De reactie is sowieso al als overbodig beoordeelt ... }:O }:O }:O

Inderdaad, klopt niet helemaal: je mist de gigaflop nog.
flop
kiloflop
megaflop
gigaflop
teraflop
Dus één teraflop is 1000.000.000.000 flops. Duizend miljard flops, dus.

Zou die 17,6 teraflop niet zijn gebaseerd op hevig altivec-optimized berekeningen? En dat de 7,4 teraflop behaald wordt met 'normale' code?

Nee, die 17.6 is niet gebaseerd op het gebruik van AltiVec.

Ja, die 7.4 is behaald met 'normale' code.

hahahaha dit is echt lachuhhh dit artikel in dat forum is totaal uit zijn verband gerukt, blijkt maar weer eens te meer dat jullie je huiswerk niet goed doen en gelijk weer één of andere stompzinnege forum afstruinen om de G5 maar weer af te kraken kijk anders maar ff op deze site http://www.wired.com/news/technology/0,1282,60821,00.html/wn_ascii

Inderdaad. Dit artikel is in ieder geval wat duidelijker.

Maar blijkt dat een cluster van ongeveer 2200 G5's nagenoeg in de buurt komt van een 2300 Xeon cluster. Maar als ze er pas overheen gaan met performance zal Apple er z'n marketingvruchten van kunnen dus moeten ze nog even doorbijten en die software bijschaven.
En die universiteit wil gewoon hoog op die lijst eindigen en daar zaken mee doen. Lijkt me duidelijk.

Maar te lezen is dat dit wel het goedkoopste cluster in die top 10. En ik maar denken dat Mac altijd zo duur waren. ;)
«  1  2  3  »

Op dit item kan niet meer gereageerd worden.

Volgende 10:21
Vorige 22:18
VNU Media logo Powered by True

© 1998 - 2008 Tweakers.net - Alle rechten voorbehouden

Uitgever van: