Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 21 reacties
Bron: The Mac Observer, submitter: RVW

De beheerders van het Virginia Tech Mac G5-cluster hebben de prestaties van de supercomputer een boost gegeven. Een week geleden schreven we dat de 1100 Powermac's samen een rekenkracht van 7,4 teraflops leverden. Dit blijkt echter niet de top, inmiddels is men in staat geweest om de 8,164 teraflops te bereiken. Theoretisch heeft het Apple-cluster, ook wel Big Mac genoemd, een maximale rekencapaciteit van 17,6 teraflops. Teamleider Srinidhi Varadarajan zegt dat het systeem nu pas met een efficiency van vijftig procent draait, er zal dus nog meer in moeten zitten. Met het nu behaalde resultaat kan het G5-cluster op de derde plaats in de lijst van de snelste supercomputers ter wereld belanden:

Apple logo (kleiner)Today, an article in the Times of India is reporting that the team at Virginia Tech has boosted performance for Big Mac, as it is called, to 8.164 TFlops, a rating that could bump it up to3rd place in the Top500.org's listing of the world's fastest supercomputers.

Lees meer over

Moderatie-faq Wijzig weergave

Reacties (21)

@Cyr1dian:
Het is een cluster. Je moet alle nodes zien bezig te houden tijdens zo'n test run. Een SuperComputer is dat alles interconnected is en dat ieder proces in theorie bij ieder geheugen sigment in het systeem kan komen. Je kan dus met een test run vrij gemakkelijker het hele systeem bezetten. Bij cluster heb je meer een centrale dispatcher die alle nodes kan aansturen een proces te runnen in het locale geheugen op een node. Dit lijkt me een meer omvangrijkere zaak bij een cluster dan een supercomputer.
De taakverdeling is inderdaad een groot probleem maar ik denk dat als je een piramide systeem bouwt het heel erg meevalt; voorbeeldje

1;10;100;1000

level 1 is de top deze pc heeft 10 main servers onder zicht met elk 10 (totaal 100) servers onder zich met elk 10 (totaal 1000) clients. MAW 1000 pc's (macs) die het rekenwerk doen en 111 (dit is slechts 11,1%) overhead. Aangezien elke server van het cluster slechts 10 pc's onder zicht heeft valt dat volgens mij heel erg mee (helemaal als je ze een beetje laat bufferen dus de pakketjes samenvoegt en dan in een keer verstuurt) verder is het van de top naar ene willekeurige pc via maximaal 2 pc's wat volgens mij goed te doen is.

Tenminste dat is hoe ik het me voorstel, de top pc verdeelt het werk alsof hij 10 super computers onder zicht heeft, en zo verdelen de computers onder hem (/haar }>) het werk ook weer totdat je bij de clients aankomt.

Ik moet toegeven dat ik hier 0,0 ervaring mee heb maar vind een score van 50% (terwijl er bij de 17,4 TFlops ook al rekening was gehouden met een minimale overhead) toch vrij mager.
Ik denk dat dit soort alternatieven al lang goed zijn bekeken, en misschien al lang gebruikt worden afhankelijk van het te berekenen probleem.
Wat ik me dan afvraag is hoe het komt dat het al zoveel moeite kost om het hele ding op maar 50% te laten draaien. Het spreekt voor zich dat hier wat meer nij komt kijken dan het tweaken van je peeceetje maar toch. Zijn G5's misschien minder geschikt voor dit soort werk dan de meeste alternatieven?
"Zijn G5's misschien minder geschikt voor dit soort werk dan de meeste alternatieven?"

Juist niet want dat blijkt wel uit de theoretische peak performance van meer dan 17 TFlops.
Die 17 TFlops is gebaseerd op de werkelijke prestatie van ťťn node vermenigvuldigd met het aantal nodes.

Het grote verschil wordt dus voornamelijk veroozaakt door de node interconnect (Infiniband)

De OSX Infiniband drivers zijn nog maar net beschikbaar (beta kwaliteit), grote kans dat daar de meeste winst valt te halen
G5's zijn wel degelijk minder geschikt, omdat je pas zo'n systeem effectief kunt laten draaien als je software erop werkt.

Het gros van de wetenschappelijke software gebruikt libraries die niet voorhanden zijn op die mac cluster.
Het apple systeem is unix based en in de unix wereld is heel veel wetenschappelijke software te vinden. Dus het zou erg eenvoudig moeten zijn om toegang te krijgen tot al deze libraries zonder al te veel problemen.
Ik denk dat je wel met de volgende dingen rekening moet houden:

- het is de eerste keer dat er een cluster gebaseerd op Macs is gebouwd, het is dus nog pionierswerk aan de kant van Apple en Virginia Tech. Een hoop optimalisaties moeten dus nog worden uitgevoerd en 'uitgevonden'

- misschien zijn er wel alternatieven die een hogere efficientie bereiken, maar die kosten ook vele malen meer dan de 5 miljoen dollar die dit G5 cluster heeft gekost. Als je de prijs per teraflop berekend kost dit cluster (zelf met 50% performance) echt een schijntje (vergelijk de Earth Simulator van 350 miljoen dollar maar eens met dit G5 cluster van 5 miljoen dollar)
Deze cluster is dan ook niet zo goed te gebruiken als bijvoorbeeld een

64 processor SGI Altix3000 systeem.

Die kost 1 miljoen dollar per stuk.

Stel je koopt er 5 van met 1 interactieve partitie
is 320 + 32 = 354 processors.

Als je dan iets tragere processors neemt die 5.2 gflop per stuk halen, dan krijg je het bijna voor
de helft van de prijs.

Dus een processor of 700 voor 5 miljoen dollar die krijg je wel bij SGI.

Dat is dan 1.3ghz I2. elke processor 5.2 Gflop.

Dus dan heb je 3.5 BRUIKBARE teraflop, terwijl je in de batch je gebruikers veel effectiever kunt bedienen dan op deze mac cluster.

Latency van processor tot processor tot een cpu of 32 tegelijk op de Altix3000, wat de gemiddelde job is op supercomputers, is dan zo'n 570-700 ns.

De latency op die mac zal rond de 20-40 us liggen.

Dus voor het gros van de software op deze aardkloot die parallel draait, is zo'n 5 miljoen dollar uittrekken voor een SGI supercomputer van een processor of 700, toch al wel snel een factor 20 / 0.57 = 35 keer sneller.

Ook voor software dat gebruik maakt van i/o die niet lokaal op deze node staat, daar is de latency bij SGI vele malen sneller.

Om dus die mac cluster een miskoop te noemen, dat vind ik ver gaan, maar dat er enigszins overdreven wordt, dat moge duidelijk zijn.

Er is echt geen commerciele nog wetenschappelijke software zo belangrijk dat een sporthal vol met mac's zetten handig is ervoor.

Overigens, voor 10 miljoen dollar kun je een cluster kopen van IBM met 2048 processors Opteron 2Ghz en een latency van 5-7 us.

Het nadeel van de mac cluster is dat dus alleen software er kan draaien die niet latency afhankelijk is en ook niet veel i/o lookups doet.
Een efficiency van 50% is helemaal niet slecht, de overhead om een berekening over 1100 systemen te verdelen en daarna weer te bundelen is gigantisch. die 17.6 teraflops zal echt nooit gehaald kunnen worden, eerder 10 gok ik zo.
Aangezien het hier om een cluster gaat, heb je heel veel verkeer tussen nodes of master en nodes. Omdat een CPU nu eenmaal snel is, heb je heel veel timingproblemen om je CPU's (weet ff niet hoveel het zijn) niet te laten idle-en in de "lag" van het netwerkverkeer.
Daarnaast zal de task-scheduling op de CPU's ook enorm kritisch zijn bij deze systemen.
Wie nog fotos van dit cluster eil zien kan het onderstaande linkje volgen:

http://tartarus.uwa.edu.au/~trs80/Terascale/
Vooral deze foto is goed
http://tartarus.uwa.edu.au/~trs80/Terascale/Assembly/IMG_2443.jpg

En verder erg geile hardware shotjes natuurlijk :9
Het is de eerste keer dat er een cluster gebaseerd op Macs is gebouwd, het is dus nog pionierswerk aan de kant van Apple en Virginia Tech. Een hoop optimalisaties moeten dus nog worden uitgevoerd en 'uitgevonden'
Dat klopt niet helemaal, het is de eerste keer dat er een cluster gebaseerd op G5's is gebouwd ;)

Ik ben blij dat dit artikel is geplaatst en ik verwacht dat de performance van de cluster nog wel zal stijgen ;)
Persoonlijk denk ik dat de Task Scheduling over de verschillende nodes het grootste verlies oplevert.

Computer A kan wachten op resultaten van computer B. Bovendien is het lastig calculaties te delen omdat de onderlingen nodes (lees: processors) natuurlijk niet elkaars registers kunnen lezen.
weet iemand misschien wat nu de hoogste behaalde tflops zijn in? ze staan nu op nr 3, dus als ze wel de theoretische snelheid gaanhalen, moet dat een 'dikke' 1e plaats zijn? of niet?
zoals al aangegeven: www.top500.org

Op dit moment is dus de Earth Simulator de king met een whopping 35.86 Tflops

De 17 Tflops zou goed zijn voor een 2e plaats, en daarmee zouden ze HP van de 2e plaats verstoten die 13.88 Tflops wisten te behalen
En dat voor een fractie van de prijs.
5 miljoen (Apple G5) tegenover 300 miljoen...
ze hebben waarschijnlijk panther geinstalleerd vandaar die boost :+
Tja, zoals ik al eerder heb geschreven kan het nog even duren voordat eea. optimaal draait.
Ik denk zelf dat ze pas over zo'n half jaar tegen de 12 tflops zitten.
Kwestie van compiler optimalisatie enzo.
Trouwens, wat veel mensen vergeten is dat dit cluster voornamelijk met vector werk zulke hoge performance haalt.
Cray supercomputers waren juist zo geliefd door het feit dat deze machines uitgerust waren met vector engines.
De G5 heeft in elke processor twee vector units zitten (altivec).
Dit is vooral voor het berekenen van vloeistofmodellen en weermodellen erg handig.
Het is niet voor niets dat NOAA een aantal G4's in een cluster heeft staan om weermodellen door te rekenen.
Dat cluster draait ondertussen ook al zo'n jaartje of 2.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True