Intel toont dual-core Itanium Montecito

Intel heeft een wafer met Itanium 2-processors met de Montecito-core in Japan getoond, aldus X-Bit Labs. Dit is belangrijk voor Intel, want het toont aan dat de ontwikkeling van de 1,7 miljard transistors tellende Itanium 2 Montecito ver gevorderd is. De Montecito is de eerste Itanium-processor die is uitgerust met twee cores en 24MB aan L3-cachegeheugen. Om meerdere cores op een chip onder te brengen heeft Intel een speciale interne bus ontworpen die als een soort van scheidsrechter bepaalt welke core toegang heeft tot het L3-cache en de externe wereld. Deze 'arbiter'-bus zal waarschijnlijk ook door andere multi-core CPU's van Intel in de toekomst gebruikt worden.

Van de Montecito komt ook een versie met minder cache voor dual-processor systemen, de Millington. Van deze Itanium 2 zal ook een versie komen die minder stroom verbruikt, de Millington LV. Net als de Montecito maakt de Millington gebruik van een aantal nieuwe technologieën: Foxton en Pellston. De eerste zorgt voor een dynamisch energiebeheer door de klok te variëren en de tweede moet fouten in de gegevens die in het cachegeheugen staan verbeteren. Binnenkort zal Intel een aantal nieuwe Itanium 2-processors met de Madison-core op de markt brengen. Deze zullen in de snelheden 1,7GHz, 1,6GHz en 1,5GHz verkrijgbaar zijn met respectievelijk 9MB, 6MB en 4MB L3-cache.

Intel vertegenwoordiger met Montecito waferMontecito wafer

Door Ralph Smeets

Nieuwsposter

20-06-2004 • 21:16

27

Submitter: silentsnow

Bron: X-Bit Labs

Lees meer

Nieuwe Itanium Unix-servers van HP
Nieuwe Itanium Unix-servers van HP Nieuws van 11 februari 2004

Reacties (27)

27
27
19
10
3
3
Wijzig sortering
Kan iemand mij vertellen waarom er astronomisch veel L3 chache aan boord zit.

Er worden nog madisons uitgeven met 9, 6 en 4 MB L3 cache, maar de montecito krijgt 24MB.

Wat is het doel hiervan?

Marketing of ook echt performence.
Kan iemand mij vertellen waarom er astronomisch veel L3 chache aan boord zit.
Afhankelijk van de architectuur zal meer cache bijna altijd resulteren in betere prestaties. Cache is in feite low latentie data opslag, en meer cache is dus beter. L1 cache ligt meestal het dichtste bij de core, en is ook het snelste qua kloksnelheid. L2 staat iets verder, L3 staat nog verder en soms is er zelfs L4 cache. L3 heeft een lagere kloksnelheid vergeleken L2 en L1 cache en daarom is het mogelijk om meer L3 cache op een processor te plaatsen dan L2 of L1 cache.

Het is immers goedkoper omdat het minder snel is dan L2 cache. L1 cache is in feite het snelste en het "beste," maar wel het duurste. Het zou daarom zeer duur zijn om een grote hoeveelheid L1 cache naast de core te plakken. In plaats hiervan kiest men voor meer L2 cache, en/of een berg L3 cache.
Er worden nog madisons uitgeven met 9, 6 en 4 MB L3 cache, maar de montecito krijgt 24MB.
De dual-core Montecito heeft totaal 24MB L3 cache aan boord. Eigenlijk kan je het beter hebben over 2 x 12MB, want elke core krijgt zijn eigen L3 cache. Er is dus totaal 24MB L3 cache, maar elke processor heeft slechts toegang tot de helft. 12MB per core is een logische verbetering ten op zichte 9MB L3 cache bij de Madisons cores.

Op dit plaatje zijn een aantel dual-core Montecito's te zien. De twee cores (de hoekige, grijzige delen) zijn naast elkaar geplaatst, er is duidelijk te zien dat de twee 12MB L3 caches van elkaar gescheiden zijn. Elke core heeft toegang tot 12MB L3 cache (kleuren van de regenboog) door middel van een bus, die ook op het plaatje te zien is. Opvallend is dat het cache een groot deel van het oppervlak van de core in beslag neemt. Ongeveer 1.2 miljard van de 1.7 miljard transistoren zou tot de cache behoren, een zeer groot deel dus.
Om meerdere cores op een chip onder te brengen heeft Intel een speciale interne bus ontworpen die als een soort van scheidsrechter bepaald welke core toegang heeft tot het L3-cache en de externe wereld.


als er bepaald moet worden welke core toegang heeft tot het cahce, dan hebben ze blijkbaar wel beide toegang tot alles, als ze iedereen hun eigen 12mb hadden was t niet nodig om te bepalen welke er toegang heeft
De L1 en L2 cache zijn de echte CPU caches. Deze zijn dus ook echt gedeeld. De L3 cache is een cache voor het echt veel langzamere werkgeheugen. Omdat de CPU's samen op 1 geheugenbus zitten is het dus ook logisch dat ze samen 1 L3 hebben.
De L3 cache is een cache voor het echt veel langzamere werkgeheugen.
En waar denk je dat L1 en L2 voor zijn dan?
Anoniem: 63386 @silentsnow21 juni 2004 11:00
..Elke core heeft toegang tot 12MB L3 cache..
Jammer dat de L3 geen shared cache is. Nu wordt er waarschijnlijk een hoop data in beide 12 MB caches opgeslagen: niet efficient. Ik meen dat de Power5 van IBM wel gebruik maakt van shared L3 cache, om deze redundantie te voorkomen. Ik verbaas me erover dat Intel niet voor deze oplossing koos. Ben benieuwd wie de achtergrond hiervan weet...
lijkt mij om de bus niet te veel arbitrations te geven. Nu heb je veel hogere kans op een cachehit dus is de kans dat twee cores tegelijketijd de memory bus op moeten afgenomen.

ik ben geen expert en denk slechts hardop
Er zijn 3 redenen voor veel cache:

a) het maakt je software sneller
b) de processor wordt ingezet in enorme systemen waarbij nodes ook nog minimaal dual lopen en soms zelfs quad al dan niet bricks met 2x dual dus virtueel quad. Zulke software gebruikt vaak allerlei lokale tabellen om of meer lokaal te draaien of parallel betere speedup te krijgen en dan is meer cache simpelweg erg handig
c) stel de 'highend' cpu's type itanium2 zouden niet 3 of 6 MB hebben zoals ze momenteel hebben maar
slechts 1 MB L3 cache. Hoe zielig staat het dan om voor 1 cpu 5000-15000 dollar per stuk te betalen terwijl een lullige opteron 250 van ruim onder de 1000 dollar je er totaal links en rechts uitrekent op elk gebied en op integer gebied minimaal factor 2? Voor 32 bits software rekent zelfs een P4 je er dan vet uit natuurlijk.
zolang die "scheidrechter" niet dezelfde is die gisteren nederland-tsjechië floot, vind ik alles best. Anders wordt de helft van de data niet gezien en de andere helft van de data die wordt gewoon ter plekke verzonnen ;) :P
Anoniem: 87099 20 juni 2004 21:18
wat moet ik me eigenlijk voorstellen met die verschillende levels in cache? Wat is beter, L2 of L3?
L2 is veel sneller geclockt als L3.

Bij Madison is het onduidelijk hoeveel cycles alles kost. Presentatie van Intel Strategic Marketing Manager voor NWO/NCF toonde iets heel anders als wat er in de intel handbooks staat.

Ik veronderstel dat randomaccesses dus veel trager gaan op de level caches als wat hieronder staat.

L2 cache : 5-7 cycles
L3 cache : 14-17 cycles

L2 cache is maar 256KB.

Bij zo'n bundle processor als de Itanium2 is dat bitter weinig hoor:
a) de instructiesize is *erg groot*
b) 1 bundle is 3 instructies
c) de processor moet ueberhaupt meer instructies verwerken als enig andere processor omdat het geen OoO processor is maar IPF.
d) Itanium2 heeft niet zoveel instructies als andere processors. Bijvoorbeeld geen deel instructie. Maar ook bijvoorbeeld geen rotate.

Vergeet niet dat in alle testsets de Itanium2 een processor is die dus op papier maar liefst 6 instructies per cycle zou kunnen verwerken (5.2 gflop op 1.3Ghz I2 processor met intel c++) en een enorme L3 cache heeft.

Kortom de opzet is indrukwekkend van itanium2, maar als je kijkt naar prestatie dan doet de opteron het dus eigenlijk geniaal.

Zonder een standpunt in te nemen of IPF beter is als OoO, duidelijk is dat superdure IPF processor met kleine L1 + kleine L2 + megagrote L3 het totaal aflegt tegen 1 grote L1 + grote L2 met OoO van de opteron.

Dus ik zou als antwoord willen geven: een L2 is veel belangrijker als een superkleine L2 met megagrote L3.

Overigens er is enorm prijsverschil in produceren van de processor. De Itanium2 is een enorm grote processor.

Als je dus een opteron drukt met een L3 cache erbij van 24MB, wat de prijs natuurlijk net zo duur maakt dan als wat een itanium kost, dan weten we dus zeker dat die opteron nog veel sneller is op de integer testsets.

Daar is de opteron overigens nu al de leider.

Door die 6 instructies per cycle, waarvan 2 floating point multiplies, terwijl de huidige opteron er maar 1 kan doen, legt de opteron het dus wel af tegen de itanium2 op floating point gebied.

Dat heeft echter minder met de L2 of L3 vandoen dus maar meer met hoeveel instructies je per cycle kunt verwerken.

Het is mij een raadsel waarom een architectuur als de itanium2 zo'n enorm kleine L1 en superkleine L2 cache strategie gebruikt, als je weet dat het *juist* voor deze cpu het zwakste punt is daar deze zoveel instructies per cycle kan verwerken.

Misschien worden de yields enorm slechter als je de L1 en de L2 caches wat groter maakt en deze enorm grote processor probeert te clocken op de frequenties waar het op loopt.

Overigens intel moet de processor niet zo belangrijk vinden als andere, want ondertussen heeft intel 0.09 prima onder controle terwijl deze processor nog 0.13 is.

De highend wordt dus niet als superbelangrijk geacht.

Ze drukken gewoon een grotere chip voor veel geld in een bijna al verouderde processtechnologie.
L2 is veel sneller geclockt als L3.
Dit geldt binnen één processor natuurlijk, alleen kan het tussen processoren onderling verschillen
Bij Madison is het onduidelijk hoeveel cycles alles kost. Presentatie van Intel Strategic Marketing Manager voor NWO/NCF toonde iets heel anders als wat er in de intel handbooks staat.

Ik veronderstel dat randomaccesses dus veel trager gaan op de level caches als wat hieronder staat.

L2 cache : 5-7 cycles
L3 cache : 14-17 cycles
Niet zo lang geleden stond op tweakers over de Itanium2: " Het L1 cache is namelijk zonder enige latency te lezen, en het L2 en L3 cache kunnen in respectievelijk vijf en twaalf stappen bereikt word en, twee keer zo snel als Itanium." Dit zijn heel andere getallen dan jij geeft.

Over de Opteron is de snelheid van de L2 cache niet bekend, L1 is wel, namelijk 3 cycles Als naar de K7 kijkt, (die er toch veel op lijkt) dan kan je verwachten dat voor de k8 de cache dus ook in +- 7-8 cycles aan te spreken is.

Overigens "vergeet" je te noemen dat de Itanium veel meer registers heeft dan de Opteron... Daardoor is deze iets minder afhankelijk van een snelle L1 cache en buffers.
Bij zo'n bundle processor als de Itanium2 is dat bitter weinig hoor:
a) de instructiesize is *erg groot*
b) 1 bundle is 3 instructies
c) de processor moet ueberhaupt meer instructies verwerken als enig andere processor omdat het geen OoO processor is maar IPF.
d) Itanium2 heeft niet zoveel instructies als andere processors. Bijvoorbeeld geen deel instructie. Maar ook bijvoorbeeld geen rotate.
punt c en d zijn min of meer het zelfde, nietwaar?
Zonder een standpunt in te nemen of IPF beter is als OoO, duidelijk is dat superdure IPF processor met kleine L1 + kleine L2 + megagrote L3 het totaal aflegt tegen 1 grote L1 + grote L2 met OoO van de opteron.
Dus ik zou als antwoord willen geven: een L2 is veel belangrijker als een superkleine L2 met megagrote L3.
Het is belangrijk dat de Cache levels evenwichtig verdeeld zijn tussen grootte en snelheid. De penalty voor het ontbreken van een stuk data in een laag cache level moet niet te groot zijn, maar je kunt ook niet alles in de L1 cache zetten.... Echter zijn er veel meer dingen die de snelheid van een processor bepalen, daarom denk ik dat jouw conclusie wat te kort door de bocht gaat.
Als je dus een opteron drukt met een L3 cache erbij van 24MB, wat de prijs natuurlijk net zo duur maakt dan als wat een itanium kost, dan weten we dus zeker dat die opteron nog veel sneller is op de integer testsets.
Maar je kunt niet zomaar zeggen dat een processor met een totaal ander ontwerp meer, of minder extra voordeel haalt bij een "belachelijk grote" L3 cache. In dit geval wordt deze cache overigens gedeeld door meerdere cores, dus dat maakt de grote minder belachelijk. Hij zal er waarschijnlijk wel langzamer door worden.
Het is mij een raadsel waarom een architectuur als de itanium2 zo'n enorm kleine L1 en superkleine L2 cache strategie gebruikt, als je weet dat het *juist* voor deze cpu het zwakste punt is daar deze zoveel instructies per cycle kan verwerken.
Misschien worden de yields enorm slechter als je de L1 en de L2 caches wat groter maakt en deze enorm grote processor probeert te clocken op de frequenties waar het op loopt.
Ik denk dat je conclusie gewoon niet goed is. De L2 cache is misschien minder belangrijk dan jij denkt. Intel is prima in staat grote L2 caches te maken, die ook op hoge snelheid prima functioneren (zie de EE-CPU's) maar bij de Itanium kiezen ze een anderer weg.
Overigens intel moet de processor niet zo belangrijk vinden als andere, want ondertussen heeft intel 0.09 prima onder controle terwijl deze processor nog 0.13 is.

De highend wordt dus niet als superbelangrijk geacht.Ze drukken gewoon een grotere chip voor veel geld in een bijna al verouderde processtechnologie.
Het ontwerp van de highend processoren is denk ik veel ingewikkelder dan die van een "gewone" processor. Daarnaast moet de betrouwbaarheid nog eens echt helemaal 100% zijn. Door de nieuwste technieken voor productie dus toe te passen op "low end" weet Intel zeker dat high end betrouwbaar blijft.
Ik denk dat je conclusie gewoon niet goed is. De L2 cache is misschien minder belangrijk dan jij denkt. Intel is prima in staat grote L2 caches te maken, die ook op hoge snelheid prima functioneren (zie de EE-CPU's) maar bij de Itanium kiezen ze een anderer weg.
De EE-CPU's hebben een grote L3 cache, is dus niet helemaal het juiste voorbeeld, wat niet wegneemt dat Intel prima grotere L2 cache's kan maken op hoge frequenties en lage latencies
c) de processor moet ueberhaupt meer instructies verwerken als enig andere processor omdat het geen OoO processor is maar IPF.
d) Itanium2 heeft niet zoveel instructies als andere processors. Bijvoorbeeld geen deel instructie. Maar ook bijvoorbeeld geen rotate.
Waar staat IPF voor?
En geen DIV? Dat lijkt me wel heel sterk. Bron?
hier is wel een leuk stukje te lezen over cache geheugen werkt.
hier is wel een leuk stukje te lezen over cache geheugen werkt.
Leuk, maar niet foutloos.
Memory caching is het vooruit lezen van data, voordat deze daadwerkelijk opgevraagd wordt.
Nee, dat is prefetching.
24 mb L3 Cache?? dat is drie keer zoveel als mijn pentium 90 mhz ftp server aan geheugen heeft. Het gaat toch wel heel snel de laatste tijd ;)
Anoniem: 70844 @jealma20 juni 2004 23:38
|:( Tuurlijk of een P90 CPU al L3 Cash geheugen heeft.
P90....als we al de puntjes op de i gaan zette,bestaat P90 natuurlijk ook weer niet he,we zijn pas bij P4 ;)
omg ik denk dat hij ram geheugen bedoeld
Dan moet je dat RAM eens upgraden, zelfs mijn 80486 had al 8 mb RAM en mijn P60s hebben 64 mb RAM. ;->
Het gaat over cache, niet ram...
Als je cache kan bijsteken op de processor dan zou ik dat eens op het forum posten want dan ben onmiddelijk de Uber-Tweaker denk ik...

[edit: typo]
jealma had het over RAM in zijn servertje.
iemand al met z'n microscoop op die wafer gezeten om te zien of hun beweringen kloppen, want een wafertje tonen en beweren dat die zulke cpu's bevat kan quasi iedereen (8>
L1 is het beste want het snellst
wrom??? ik gebruik free sco, dat heeft heeft zat aan 8 mb hoor :z
kan iemand mij zeggen waarom er niet voor 24 mb l1cache word gekozen want die proccesors worden alleen maar in bedrijfen gebruikt die het geld toch wel hebben toch???

Op dit item kan niet meer gereageerd worden.