IBM's X3-architectuur bestudeerd

Op Real World Technologies is een artikel verschenen over de nieuwe X3-chipset van IBM. Deze werd eind februari aangekondigd en zette toen direct al een aantal indrukwekkende benchmarkrecords neer. IBM beweerde zelfs dat architectuur van de chipset zo goed was, dat de dure Xeon MP Potomac met 8MB aan L3-cache er niet sneller op zou draaien dan de normale Cranford-core zonder L3. Toen Intel even later zijn eigen Twin Castle introduceerde, met oppervlakkig gezien gelijkwaardige specificaties (zoals acht kanalen DDR2-geheugen en een dubbele 667MHz FSB), werd die claim min of meer bevestigd. De vraag die het artikel probeert te beantwoorden is hoe IBM het budget van 100 miljoen dollar heeft besteed om de X3-chipset zo sterk te maken.

Het antwoord zit voornamelijk in de manier waarop de X3-chipset de sychronisatie tussen de verschillende processors afhandelt. De Xeon gebruikt normaal een broadcast-protocol om al zijn broertjes te waarschuwen zodra hij op een bepaald adres data heeft geschreven. Iedere andere processor die hetzelfde adres in zijn cache heeft staan weet dan dat eerst de nieuwe versie opgehaald moet worden voor er weer iets met die data gedaan mag worden. Voor relatief kleine systemen is dit een simpele doch effectieve methode om de caches coherent te houden. Voor zwaardere jongens (acht of meer processors) gaat het broadcasten van al die synchronisatiegegevens echter zoveel bandbreedte slurpen dat er steeds minder overblijft om bijvoorbeeld in het geheugen te lezen. Serverchipsets maken daarom vrijwel altijd gebruik van een directory-systeem, waarbij een centraal mechanisme scheidrechter speelt. Omdat deze precies bijhoudt welke processors met welke data aan het spelen zijn wordt een hoop overbodig busverkeer bespaard. Het nadeel daarvan is echter weer dat het latency-verhogend werkt (voor iets uit het geheugen kan worden gelezen moet bijvoorbeeld toestemming gevraagd worden) en een directory is dus minder geschikt voor relatief kleine systemen. Voor X3 heeft IBM een hybride architectuur bedacht die de voordelen van broadcast en directory combineert.

Binnen een quad (de term die IBM gebruikt voor een blok van vier sockets) wordt in principe gewoon gebruikgemaakt van standaard broadcasts, maar er is in de chipset wel een snoop filter geplaatst met ~6MB aan cache om te voorkomen dat de processors elkaar onnodig lastigvallen. Voor communicatie met andere quads (X3 ondersteunt er maximaal acht in één systeem) wordt daarentegen een directory gebruikt. In grotere systemen wordt een deel van het eDRAM op de chipset zelf en een stuk geheugen door het BIOS gereserveerd als L4-cache, zodat de chipset zelf kan uitzoeken waar (de laatste versie van) bepaalde data zich bevindt, zonder dat alle processors daarvoor lastiggevallen moeten worden. Het mooie is dat de 'balans' tussen de hoeveelheid geheugen die beschikbaar is voor het snoop filter en voor directory-taken door het BIOS kan worden ingesteld. Op dit moment is het weliswaar nog niet iets wat de gebruiker zelf kan tweaken, maar het levert IBM als leverancier wel een hoop flexibiliteit op om hun servers voor specifieke configuraties en situaties te tunen.

Meer informatie over het geheugensysteem, latencies, de IOMMU, scalability ports en I/O-capaciteiten van de X3-chipset is hier te vinden.

Lees meer

IT-banen

Reacties (30)

Verwijderd 25 april 2005 17:33

De chipset wordt in dit soort systemen steeds meer een aparte cpu met specifieke taken. Op den duur komt hier waarschijnlijk een zeer sterke processor voor in de plaatsdie zich enkel bezighoud met het scheidsrechteren tussen alle processors en straks ook cores.

Nu komt dual core opzetten, dat betekent al dat er binnen serverland de scheidsrechters 2x zoveel werk krijgen. In de toekomst is multicore niet onwaarschijnlijk dus deze chipsets zullen over een tijdje wel net zoveel rekenkracht of meer hebben dan de huidige server processoren.

n4m3l355 @Verwijderd • 25 april 2005 18:07

ik denk dat de huidge computer dat op zich al laat zien, vroegah waren chipsets passief gekoeld nu actief. maw er is iets met die chipsets dat ze meer doen en dus meer warmte produceren. en over een jaartje of 5 zeggen we waarschijnlijk iets.. vroegah was een chipset een klein 'onbeduiend' dingetje nu draagt dat ding op 2ghz allerlei taken af. tevens zie je ook regelmatig bij benches tussen mobo's met verschillende chipsets wat een verschil het uit kan maken om een specifieke chipset te hebben. maw dit is meer een logisch gevolg en ook erg interessante ontwikkeling
klein minnetje in dit stuk vind ik persoonlijk dat ibm intels chipset zit af te kraken en daar opeens met hun x3 aan komt zetten. imo is dit een beetje hoge marketing verblinding maar goe benches van intel en ibm zullen vroeger of later wel tevoorschijn komen

knirfie244 @Verwijderd • 25 april 2005 18:10

een echte processor (op de manier zoals jij hem waarschijnlijk bedoeld) zal er nooit voor in de plaats komen aangezien dedicated hardware z'n werk altijd veel sneller kan dan een multifunctioneel apperaat als een processor, wel zullen chipsets de komende jaren nog een stuk complexer gaan worden...

@n4m3l355 wat wil je daarmee zeggen? vroeger waren processoren ook passief gekoeld... zelfs mijn p166 was nog passief gekoeld...

Verwijderd @Verwijderd • 25 april 2005 23:31

In netwerk situaties heb je ook neit altijd een scheidsrechter, als je zorgt dat all cpu evenveel weten, en logisch genummerd zijn, dan heb je al genoeg.

Dedicated hardware, als je maar goed begrijpt dat de de video kaart een taak doet waar de CPU zich ABSOLUUT niet voor leent, en als je maar onthoud dat de videokaart geen programma's draait, alleen maar pixel berekent (welliswaar tegenwoordig met programmeerbare shaders). Ik ben tegen nieuwe dedicated hardware, omdat een systeem dan taak specifiek gaat worden (das is altijd al, maar dan wordt het nog meer) het is de taak van processor om physics in spellen uit te rekenen, schiet de CPU daarin tekort, moet die CPU sneller worden, of moeten er meer CPU's komen....

Verwijderd 25 april 2005 17:36

In reactie op alles wat lijkt op "Waarom maakt IBM zo iets niet voor AMD"

Er schijnt iets te worden vergeten, iedere Opteron heeft zijn eigen memorycontroller, iedere opteron brengt op een NUMA moederbord 2 channels ram met zich mee, dus per processor 2 channel ram, 8 processors, 16 channels ram:
http://techreport.com/reviews/2005q2/opteron-x75/index.x?pg=5
zie bandbreette van de bovenste 3.
Iedere Opteron heeft dus ook zijn eigen geheugen plaats, net als in deze IBM chipset. Verder hebben Opterons een onthedie memory controller, zie zoals verder naar beneden in mijn link te zien is, ze ook nog fenomenaal lage latency opleverd.

AMD moet zeker deze IBM chipset niet gebruiken, het enige wat AMD nodig heeft van een chipset is de I/O, PCI-E controllers, IDE controllers, Ethernet controllers, enzovoorts..

Olaf van der Spek @Verwijderd • 25 april 2005 18:01

AMD moet zeker deze IBM chipset niet gebruiken

Ook AMD heeft cache coherency nodig.

Verwijderd @Olaf van der Spek • 25 april 2005 18:21

dat wordt allemaal intern opgelost, de HT links...

Het enige wat chipsets kunnen toevoegen is een hoger aantal CPU's, door iets met die cache coherntie uit te halen.

Verwijderd @Verwijderd • 26 april 2005 01:29

En hoe wordt de informatie over de HT links verstuurt........

Verwijderd @Verwijderd • 26 april 2005 07:36

niet via de chipset, HT link is precies dat, een link, direct tussen de opterons. Hij is vanzichzelf 'unidirectional', kan 16 bit in beide richtingen sturen, op SP opterons kunnen alle HTlinks op I/O worden aangesloten, op DP opterons kan een van de drie ook op een andere opteron worden aangesloten (coherent HT link) en op MP opterons kunnen alle drie de HT links op I/O of andere opterons worden aangesloten

resink 25 april 2005 17:17

In plaats van een adres te 'broadcasten' is het [per definitie] toch veel handiger om iedere processor een eigen 'blok' adressen te geven waar naartoe mag worden geschreven? Dan kun je imho je aantal processors nog veel groter maken.

edit:

Het uitdelen van adresblokken kan het aantal simultaan af te handelen processen wel ten goede komen. Dat meerdere processoren niet zo efficient aan 1 proces kunnen rekenen moet ik inderdaad ter harte nemen.

masteriiz @resink • 25 april 2005 17:28

Ja in dit artikel wordt nu juist uiteengezet dat een 'broadcast' weliswaar meer bandbreedte eet maar een lagere latency met zich meebrengt dan een 'lookup' via een directory. De bedoeling van deze serverchips is trouwens niet om zoveel mogelijk processors in één systeem te plaatsen, zoals jij suggereerd met de opmerking dat je per definitie voor de ene oplossing dient te kiezen omdat dan je aantal processors groter kunt maken, maar om efficient met je Dollars, ruimte en systemrecources om te gaan.

Luxx @resink • 25 april 2005 18:20

In een extreem parallel systeem heb je inderdaad gelijk, alleen worden deze mega-computers met veel processoren in een node vaak juist voor berekeningen gebruikt die minder goed parallel uit te voeren zijn. Als dat namelijk wel zo zou zijn, kan er eigenlijk 'altijd' goedkoper geclusterd worden. een hand vol dual systeempjes is dan stabieler sneller en veel goedkoper dan een 8x - 32x XEON MP systeem.
Deze oplossing die het beste van beide werelden levert en daar ook nog op getuned kan worden is natuurlijk ideaal om grote caches overbodig te maken (wat aldus IBM dus ook gelukt is).
Met het tunen moet het overigens ook mogelijk zijn om juist wel weer wat winst te kunnen halen uit deze extra cache. De meerkosten van deze cache zullen waarschijnlijk alleen niet de prestaties leveren om het prijsverschil te rechtvaardigen.

familyman @resink • 25 april 2005 17:26

Maar dan zullen ze niet met dezelfde processen bezig kunnen zijn, lijkt me.

Verwijderd @resink • 25 april 2005 17:27

daar word het alleen wel erg langzaam van, erg langzaam, vooral als je het over grotere systemen gaat hebben.

Luxx @resink • 25 april 2005 18:20

browser deed raar - dubbelpost:s

Faust 25 april 2005 17:33

IBM is goed bezig de laatste tijd.

Zowel op het gebied van processors (powerpc5 en cell bijvoorbeeld) als nu ook chipsets.

Ik vraag me het volgende af. Stel dat de cell heel krachtig zal worden. Kan ibm zijn nieuwe servers dan hiermee verkopen in plaats van die x86 processors van amd en intel?

Of hebben ze een contract waarin staat dat ze moeten vasthouden aan x86?

Verwijderd @Faust • 25 april 2005 17:57

IBM en AMD zijn toch nog steeds samen een 65nm-fab aan het bouwen? Of heb ik dat mis?
Gezien deze band qua R&D en zo, lijkt het mij logisch dat IBM zelfs dan nog opterons zou verkopen, naast hun eigen procs natuurlijk. Trouwens, productdifferentiatie vult de gaten in de markt en vergroot de winst

Luxx @Faust • 25 april 2005 19:00

IBM doet al jaren op vele fronten mee. Ze verkopen systemen voor hun eigen POWER architectuur, daarnaast Opterons/Xeons die X86 praten ze hebben zelfs wat met de Itanium geprobeerd, en zijn bezig met het CELL ontwerp wat erg veel belovend is.
IBM heeft met veel bedrijven een cross-licence agreement wat er kort gezegd op neerkomt dat IBM de licenties kan gebruiken in ruil voor alle eigen licenties. Hierdoor kan IBM makkelijk op meerdere paarden wedden, en hebben ze een enorme brede kennis in huis.
Omdat veel klanten van IBM vast zitten aan bepaalde architecturen zullen ze niet zomaar een architectuur kunnen laten vallen, maar contractueel zitten ze nergens aan vast Als ze een goedkoper alternatief zien, of ergens anders kansen in zien liggen, zullen ze hun brede aanbod wel weer afslanken of juist verder vergrootten.

Dreamvoid @Faust • 25 april 2005 17:55

Natuurlijk - IBM zou wel heel dom zijn als ze lange termijn contracten met AMD of Intel zouden hebben afgesloten terwijl ze zelf weten dat er binnenkort wat snels uit hun eigen fabrieken komt rollen.

The Jester 25 april 2005 17:24

Jammer dat het een chipset is voor Intel ipv AMD Opterons.
AMD maakt zelf namelijk amper chipsets (meer referentie-sets, eigenlijk). Gezien het feit dat AMD als eerste met dual core serverchips komt, is dit toch een beetje een gemiste kans. Sterker nog: IBM gaat binnenkort als eerste dual-core Opterons in blade servers verkopen!

familyman @The Jester • 25 april 2005 17:28

Mij lijkt de idee achter architectuur gewoon om te schalen naar AMD, dus wellicht volgt er snel één. IBM heeft met deze processorren gewoon al wat langer kunnen spelen?

Trouwens, hebben AMDs dat uberhaupt wel nodig? :-)

Luxx @familyman • 25 april 2005 18:39

In een Opteron MP systeem heeft iedere processor zijn eigen geheugencontroller en is met hypertransport bussen verbonden aan (minimaal 2 van) de andere processoren. Hierdoor speelt het hele verhaal met latencies en geheugenbandbreedtes niet op deze manier mee. Daarom is deze chipset dus ook niet zomaar om te bouwen naar een Opteron systeem. Daarom zou de Opteron er niet op de zelfde manier van kunnen profiteren.
Blijft natuurlijk wel zo dat het voor AMD leuk zou zijn als IBM eens een Opteron chipset zou maken, het blijven erg erg goede ontwerpers die bij IBM werken natuurlijk.

The Jester @Luxx • 25 april 2005 23:33

Jouw verhaal gaat op tot aan 8 processors. Daarboven moet je toch echt over naar, bij voorbeeld, de Horus-chipset van Newisys.

Devion @The Jester • 25 april 2005 17:28

IBM gaat binnenkort als eerste dual-core Opterons in blade servers verkopen!

Dus is de kans ook groot dat deze methode danwel in andere vorm om een paar intel patenten uit de weg te gaan ook toegepast kan worden voor CPU's van AMD.

Verwijderd @The Jester • 25 april 2005 17:35

Helaas lijkt AMD nog niet groot genoeg voor IBM om dit soort investeringen te rechtvaardigen. Aan de andere kant is dit systeem ook speciaal voor Xeon structuur ontworpen, een Opteron zal er naar alle waarschijnlijkheid minder voordeel uit kunnen halen. Maar wellicht als AMD verder doorbreekt op de servermarkt dat IBM en consorten wel dit soort zaken gaan ontwerpen. In eerste instantie wellicht slechts aanpassingen van reeds bestaande ontwerpen die origineel voor de Xeons waren bedoeld, en afhankelijk van vele factoren specieke AMD ontwikkelingen door IBM.

Overigens in Intel niet onverdeeld gelukkig met de ontwikkelingen die IBM en SUN gemaakt hebben. Deze constructies voorkomen aan de ene kant dat men naar AMD overstapt, maar tegelijkertijd is het verschil tussen een X3 combo en een Protomac (is een rivier waar ooit een vliegtuig in terecht is gekomen en dus eigenlijk al een rampzalige naam) dermate klein dat men deze proc vaak links zal laten liggen.

Verwijderd 26 april 2005 15:08

Ken alleen BMW's X3-architectuur

Verwijderd @Verwijderd • 25 april 2005 17:30

FSB is meestal 64bit, enkel in het geval van A64's, die hebben een HT link die dienst doet als I/O FSB, en die heet een breette van 16bits.

64bit computing (kon ff geen andere verwoording bedenken) heeft weinig met de socket te maken. Alleen probeerd AMD het makkelijker te maken door allemaal nieuwe sockets evoral voor te maken, of het ook werkelijk makkelijk wordt...

Verwijderd @Verwijderd • 25 april 2005 18:01

De Opterons hebben al een ingebouwd systeem die als soort scheidsrechter functioneert:

artikel@tweakers

De Opteron maakt namelijk al sinds zijn introductie gebruik van de zogeheten 'Direct Connect' architectuur, waarin tot vier processors rechtstreeks met elkaar in contact staan via HyperTransport-links. Onder andere omdat de processors toegang tot elkaars geheugen nodig hebben, moeten ze naast opdrachten voor zichzelf ook opdachten voor andere cores uit kunnen voeren. Daarnaast moet een processor kunnen dienen als tussenstation voor de communicatie tussen twee andere chips.

Verwijderd @Verwijderd • 25 april 2005 17:30

Nee, allereerst gaat het hier om de nieuwe ontwikkelingen voor de Xeon en die technieken zijn niet allemaal toe te passen op de Opteron.

En aan de andere kant zijn deze Xeon's al 64-bit dus is er ook weinig drang naar deze stap.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (30)

Sorteer op:

Weergave: