'Tanglewood tien keer zo snel als Madison'

Intel Madison core 'Tanglewood' zal tien maal sneller zijn dan 'Madison', zo meldde Intel topman Paul Otellini gisteren tijdens de officiële introductie van Microsoft's Windows Server 2003. Zowel Tanglewood als Madison zijn codenamen van toekomstige Itaniums. Eergisteren meldden we nog dat een Itanium op basis van de Madison-core de leiderstrui overnam in de TPC-C serverbenchmark. Montecito, de dual-core Itanium die we in 2005 mogen verwachten, zal twee tot drie maal sneller zijn dan Madison. Overigens zal Montecito Intel's eerste chip zijn die meer dan een miljard transistors aan boord heeft. Klap op de vuurpijl is echter Tanglewood, waarnaar door Otellini werd gerefereerd als 'een toekomstige Itanium'. Tanglewood zal tien keer sneller zijn dan Madison en zal in 2006 of 2007 verschijnen. De Shavano, een dual core-processor die gepland stond voor 2006, is van Intel's lijstje verdwenen, in plaats daarvan zal Montecito wat langer mee gaan.


	Jaar		Itanium-core

	2003 Q2/Q3		Madison

	2005		Montecito (dual core)

	2006/2007		Tanglewood (multi core)

Reacties (54)

Verwijderd 27 april 2003 00:14

Ah, hier zit ik al een tijdje op te wachten: Het verwerken van meerdere simple processor cores op een die.

Volgens mij is dat een veel betere manier om snellere processors te maken, dan steeds (alleen) maar snellere kloksnelheden halen en ingewikkeldere cores maken. Vooropgesteld dat het besturingssysteem hiermee goed kan omgaan (multithreading).

Op deze manier krijg veel minder snel de problemen die je hebt met steeds hogere kloksnelheden.

Ben benieuwd of deze multi-core processors in de toekomst de huidige single-core processors zullen vervangen.

Je zult dan in plaats van tussen een P4 2.6 en 2.8 GHz of zo, moeten kiezen tussen een P? met 4, 6 of 8 cores.

Liam @Verwijderd • 27 april 2003 15:34

Nou wil ik niet vervelend zijn, maar het verwerken van meerdere cores op een die wordt al een tijdje door IBM geprobeerd en volgend jaar komt de Power5 uit, mulitcored.
Linkje: www.tweakers.net/nieuws/25681/?highlight=IBM+CPU

Verwijderd @Liam • 28 april 2003 01:19

Ik weet wel dat er al een tijdje experimenten bestaan om dit soort processors te bouwen. De eerste keer dat ik dit idee zag, was een paar jaar terug in een artikel over een (als ik het goed herriner) Duits bedrijfje dat hiermee experimenteerde.

Het probleem is dat dit soort bedrijven niet echt op de huis-tuin-en-keuken PC markt bezig zijn. Het Duits bedrijfje richtte zich meer op de embedded markt, en bedrijven zoals Sun en IBM richten zich veel meer op de server markt.

Als Intel of AMD dit soort ideeen in hun processors gaat verwerken, is de kans een stuk groter dat dit soort processor na verloop van tijd ook in een consumer PC opduikt.

hardwareaddict 27 april 2003 01:04

Ten eerste hebben we die processor kracht *wel* nodig. Dit zijn niet de huis en tuin pc'tjes. Dual Itanium2 1Ghz is $67k.

Voor ondergetekende is itanium2 1Ghz ongeveer 1.5x sneller als een K7 op 1ghz. Dat ter vergelijking.

Dat gaat dan om integer software.

Laten we even wat objectief meerekenen. Factor 10 lijkt namelijk op 't eerste gezicht wel erg optimistisch.

Madison is geclocked op 1.5Ghz en nog niet goed leverbaar. Laten we dat voorop stellen.

Dan is de tanglewood dual core (jammer jammer, had gehoopt quad core). Dus dan houden we factor 5 over.

Die core krijgen ze echt niet vreselijk veel sneller omdat het een predication core is. Meer instructies per clock als het ding nu doet (6) is ook niet handig.

Verder heeft intel helaas maar weinig L1 cache. Die is dan wel enorm snel met enorme bandbreedte. Dat is voordeel. Ander voordeel is dat je het makkelijker hoog clock.

IPC van itanium2 is vrij matig voor games wegens die kleine L1 cache. Die gaan ze vast niet vergroten omdat ze al een toereikende L2 en gigantische L3 cache hebben.

Kortom het ding wordt hoger geclocked.

5 x 1.5ghz = 7.5Ghz

Dus in 2005 zou er een chip moeten uitkomen van 7.5Ghz.

De itanium is momenteel 0.18 technology en 130 watt ongeveer.

Echter gegeven zijn enorme cache, gaat dat natuurlijk niet hard doorclocken. De kritiek die intel heeft op dat AMDs opteron niet zo snel hoog geclocked kan worden, gaat natuurlijk kwadratisch op voor de itanium serie natuurlijk.

Dan verdien je met zo'n itanium vet minder als de nieuwe versie van de P4. Dat betekent dat je dus altijd een process generatie achterloopt t.o.v. P4.

Dus in 2005 zitten ze net goed in het 0.13 vel en hikken ze tegen 0.09 net aan. Dus een demo versie van de tanglewood kunnen ze dan in 2006/2007 net in 0.09 krijgen.

Die is dan vet lager geclocked initieel om hem alleen maar aan de praat te krijgen.

Dat loopt natuurlijk van zijn leven nooit op 7.5Ghz dan. Extra probleem dat ze hebben is transistor count. In tegenstelling tot de P4 die gewoon groter is als de P3. Een stuk groter, is natuurlijk die tanglewood niet veel groter te produceren als de voorgaande generatie itaniums. Die zijn al zo enorm groot, dat ze dat risico vast niet willen aangaan om zo'n enorme die te creeren (al koelt dat wel makkelijker).

Het ding heeft gewoon een te grote L3 cache en veel te veel registers en een enorme predicatie en ook nog supersnelle L2 cache (moet jaren 80 L1 cache natuurlijk opvangen).

Dan nog wat stikstof koeling erbij (water koelt niet genoeg), dan loopt hij misschien net op 4.2Ghz.

Dat is dan echter geen factor 10.

Maar maximaal factor 4.2 * 2 / 1.5 = 5.6 net.

Dat is dan wel optimistisch gerekend dat SMT voor de itanium factor 100% speedup geeft. Het geeft op de P4 gemiddeld 10% namelijk.

Realistischer is een speedup van rond de 40% voor de tanglewood, uitgaande dus van SMT en niet van CMP.

Dat is dan 4.2 * 1.4 / 1.5 = 3.92

dus factor 4 ongeveer sneller.

Als ze het voor elkaar krijgen het ding hoger te clocken. Want juist dat is de kritiek die zij geven op de opteron. Dat het AMD niet gaat lukken het ding hoog te klokken. De opteron heeft echter vet minder cache en een enorme lading minder registers.

Houdt daarbij rekening mee dat fabrikanten als Sun al helemaal veel moeite hebben om maar boven de 1 Ghz uit te komen met die zwaar verouderde ultrasparcs.

n-i-x @hardwareaddict • 27 april 2003 16:16

Jaar Itanium-core

2003 Q2/Q3 Madison

2005 Montecito (dual core)

2006/2007 Tanglewood (multi core)

Het zou dus best kunnen, dat de Tanglewood 4, , of zelfs 8 cores heeft.

hardwareaddict 27 april 2003 21:16

als itanium 500 miljoen opbrengt. Opmerking: verwachting is 50k verkochte itaniums voor versie 1 en 2 tezamen, dus 100k verkochte versies is dan zeker niet te magertjes ingeschat. Dan verdienen ze aan 't gros ook geen 5000$. Ga je akkoord daarmee?

In dat geval verdienen ze dus *maximaal* 500 miljoen dollar aan de itanium.

Jij zegt nu zo'n fabriek kost nog geen tiende deel van 50 miljard dollar. Dat is dan heel spijtig voor de itanium. Want als het 5 miljard dollar kost zo'n fabriek te bouwen dan is er dus een gat van 4.5 miljard, en het loopt dus in de vele miljarden om zo'n fabriek neer te zetten en elke nieuwe generatie is het weer duurder zo'n fabriek te bouwen, kijk maar naar de prijs per product van ASML!

Ik weet niet hoe jij zaken doet, maar intel gaat op een product niet een verlies lijden bewust van 4.5 miljard dollar. Dat is business regel nummer 1.

Zie je nu het probleem?

Dat is waarom die dingen altijd een generatie achterlopen met de nieuwste x86 cpu zoals dat zo mooi heet.

De reden waarom supercomputer cpu's achterlopen als het gaat om de fabriek waarin ze geproduceerd worden *en* de clockfrequentie voor de process technologie waarin ze geproduceerd worden (dat laatste is ook simpel te verklaren aan de grootte van de caches en de kleinere moeite die erin gestoken wordt zo'n processor als de x86) dan is het duidelijk dat die cpu's dus altijd zullen achterlopen op x86.

Geld is de reden.

Neemt niet weg dat je per product meer geld erin kunt steken zoals 4 cores per cpu en dat soort grappen als grote caches. Dat is geniaal voor specint en specfpu natuurlijk. X86 heeft dat niet nodig.

Maar om het nog eens duidelijk te maken. De verkoop van die 'supercomputers' levert te weinig op om ze in de meest moderne fabriek te fabriceren. De prijs van die machines in die fabrieken wordt elke generatie duurder, dus het is ook niet zo dat over een paar jaar ze helemaal niet achterlopen. In tegenstelling, ze lopen steeds meer achter.

MVG

Se7enth_son @hardwareaddict • 27 april 2003 22:12

Toch noem je een aantal punten waar ik het niet mee eens ben:

Zoals al snel na de introductie van de eerste Itanium (Merced) bekend werd, zou pas de McKinley de eerste Itanium worden die commercieel aantrekkelijk zou moeten worden. Het is dus logisch dat de verkopen van de Itanium 1 & 2 (Merced en McKinley) bijzonder laag waren. De servermarkt is vaak nogal sceptisch over een nieuw platform. Er zijn dan ook niet veel bedrijven die al hun server-taken meteen over laten aan het nieuwe platform (de Itanium). Daarom zijn die verkopen nog zo laag...

Pas sinds een paar kwartalen begint de Itanium wat overtuigender te bewijzen bijzonder snel (al dan niet het snelste) te zijn. De verkopen krijgen dus nu pas een beetje een zet. De markt wordt steeds bekender met de Itanium en de acceptatie zal dan ook steeds beter worden met als gevolg dat de verkopen steeds meer stijgen.

Jij pakt als 'verwacht verkoopaantal' het aantal tot nu toe verkochte Itaniums. Deze is om bovengenoemde redenen inderdaad teleurstellend laag. Maar de Itanium is een meerjarenplan en dus gaat Intel er (in mijn ogen terecht) vanuit dat de Itanium flink beter zal gaan verkopen...

Dus jouw berekening klopt daar al niet helemaal. Ik ben wel helemaal met je eens dat Intel voorlopig niet echt op winst van de Itanium moet rekenen, maar ook hier komt de lange termijn planning Intel om de hoek kijken. De Itanium moet over een tijdje het x86 platform gaan vervangen...

Over de kosten van supercomputers: Ze nemen idd maar een klein deel van de totale afzetmarkt in, en dus is het niet rendabel om zo'n hypermoderne fabriek te wijden aan slechts 'enkele' processoren. Daar heb je helemaal gelijk in en dat is inderdaad de reden waarom die super-processoren vaak wat achterlopen kwa grootte. Maar je moet dit alles wel uit Intel oogpunt blijven bekijken:

Intel is nog helemaal niets op deze markt en wil (uiteraard) graag de grootste worden. Hoewel het flinke opstartproblemen kende is de EPIC-architectuur zeker weten superieur aan z'n concurrenten. Intel heeft al ongelooflijk veel geld in het project gestopt en wil hier zoveel mogelijk van terugverdienen. Dit kun je echter pas doen wanneer je platform geaccepteerd is door de markt. En hoe kun je dat proces een beetje helpen: door je CPU's veel sneller en veel goedkoper dan de concurrentie aan te bieden. Een Itanium is dan ook een van de goedkoopste processoren in die markt.

Verlies nu is winst later, geldt voor de Itanium. Als hij nu niet geaccepteerd wordt kan Intel inpakken, daarom is geld nu juist niet de reden!

(Dit wil niet meteen zeggen dat Intel ff een peperdure fabriek neerzet voor alleen Itaniums, maar wel is het zo dat Intel dat ding door wil drukken!)

Over de machines in die fabrieken: deze worden niet veel duurder dan de voorganger. Die verschillen zijn niet zo bijzonder groot. Een moderne fabriek nu is niet veel duurder dan een moderne fabriek 5 jaar geleden...

<off-topic>
Hoe vaak het ook gezegd/ontkend wordt door mensen: x86 loopt al jaren op z'n einde! Elke keer wordt er weer wat bedacht om toch die IPC wat hoger te krijgen (MMX, SSE, 3DNow, enz enz) maar het is hopeloos! Het grootste nadeel van deze architectuur is namelijk z'n backwards-compatibility (elke x86 processor is compatible met een 8086!) Het CISC idee is inmiddels ook achterhaald (dit heeft heel veel uitgebreide instructies om zo met weinig code veel te kunnen doen - dit deed men omdat ruimte op HDD's en geheugen erg duur waren). Door die enorme berg instructies is x86 helemaal niet effectief en het heeft dan ook een hele lage IPC.

De EPIC architectuur van de Itanium moet dit hele probleem uit de weg helpen. Na heel veel leeswerk ben ik er echter gekomen dat Intel met behulp van z'n macht op de markt het Itanium-platform prima kan doordrukken als vervanging van de x86. Dit gebeurt uiteraard niet in een paar jaar, maar toch zal het ook geen decennia meer duren. Daar is x86 gewoon te slecht voor. Zodra de grenzen van Silicium bereikt zijn houdt het definitief op voor x86.

Wat ik hier mee zeggen wil is het volgende: de Itanium moet meer gezien worden als toekomst-muziek welke nu net begint aan z'n opmars. De kosten van de Itanium hoeven dus niet met een paar jaar terugverdient te worden.
</off-topic>

Verwijderd @Se7enth_son • 28 april 2003 12:33

Helemaal mee eens. De Itanium is lange termijn strategie. Ook over de "pentium pro" werd van alles beweerd. En wat is de basis van de Pentium II en III? iNTEL gebruikt de winst die nu wordt gemaakt op de PIV en andere technologie om de winst in de toekomst zeker te stellen. Investeren noem je dat.

Verwijderd 27 april 2003 01:06

Rekenkracht hebben we tekort en blijven we te kort houden. Denk eens aan je thuis "divx-"-renderwerk. Toekomstige video-codecs en de nieuwste games zijn reden genoeg om een snellere pc aan te schaffen.. Ik zou graag zien dat de processoren zo snel waren ( en dat hoeft niet eens meer 10 jaar te duren ) dat we realtime ray-tracing kunnen doen.
Games bestaan dan uit 3d wireframes renderen maar. Kunnen we massaal onze Nvidia's en Ati's met hun "Super AA en blabla" in de kast mikken

Realtime movie/game/environment rendering op ieders pc

. Daar gaat het heen !

hardwareaddict @Verwijderd • 27 april 2003 01:14

Realtime movie/game environment rendering op een GPR is niet bepaald handig.

Op een dedicated grapics core kun je een paar duizend zaken parallel doen als het gaat om graphics. Daar zijn de huidige cores dan ook op gebouwd. Als een tanglewood dual core is, dan kun je dus maximaal 2 threads tegelijk executen.

De snelste graphics chips zijn qua design geniaal en niet extreem veel lager geclocked als cpu's.

Factor 4 praten we ongeveer over.

Dat terwijl het 1000x sneller loopt op zo'n cpu. Hoe complexer dus de grafische omgeving, des te sneller het loopt op zo'n cpu.

Momenteel zijn de objects simpelweg niet complex genoeg om goed gebruik van die factor 1000 gebruik te kunnen maken.

Vandaar dat ze geen factor 1000 sneller zijn nu. Maar dat verschil in snelheid neemt natuurlijk wel toe als de rendering van de omgevingen complexer wordt.

Het zal echter typisch zo zijn dat de grafische artiesten op een gegeven moment gewoon niet *meer* details kunnen laten zien omdat het ontwerpen gewoon te veel tijd ervan kost.

Adm.Spock @hardwareaddict • 27 april 2003 02:06

Met een aantal wiskundige functies kun je aardig flitsende graphics laten verschijnen. En hierbij geldt hoe verder je deze functies doorrekend hoe meer detail. Snellere GPU = Méér detail.

garagaholic @Verwijderd • 27 april 2003 16:26

reetracing wil nu ook al best realtime lukken hoor, zoek er maar naar op de gerenommeerde gaypr0n sites

Verwijderd 27 april 2003 00:55

de vraag is een beetje of er daar echt een consumentenmarkt voor is...

Als ik mijn eigen computer nu wil vervangen dan ga ik van PIII 800 -> PIV 2.4 das drie keer zo snel

ga ik echter in 2006 van 8 Ghz naar 14 Ghz dan gaat mijn computer niet eens dubbel zo snel (de prijs echter)

Voor computer games hoeft het tegen dan ook al niet meer.... je kan niet meer polygonen tonen dan er pixels zijn (wel ik bedoel 500 miljoen polygonen scenes zullen er niet onmiddelijk komen...)

Tjah ... ik kan altijd wel een extra kookplaat gebruiken voor op mijn kot, en vergeet niet mensen de 70°C van cpu's is perfect om delicaat eten op te garen, iets voor grootkeukens?

Verwijderd @Verwijderd • 27 april 2003 12:29

Da's natuurlijk een beetje kort door de bocht. Die PIII is meer dan drie keer zo langzaam dan die PIV in jouw voorbeeld. We weten toch met zijn allen al lang dat je de kloksnelheden tussen verschillende typen processors niet mag vergelijken? Zelfs met een nieuwe core binnen hetzelfde type is het al niet mogelijk.
En die prijs daalt ook natuurlijk. Heb je wel eens een prijslijst gezien van een 486 in 1991? Betaalde je ook fl 700 voor de processor. Nu geef je er geen stuiver meer voor.

Jefrey Lijffijt @Verwijderd • 27 april 2003 16:38

Dat je niet meer polygonen dan pixels kunt tonen heb je enigzins gelijk in, maar die pixels kunnen wel een blend zijn van meerdere polygonen. Anders kun je namelijk niet hetzelfde poppetje op een grotere afstand weergeven. Hij heeft dan minder detail maar het berekenen wordt er niet lichter op. Tenzij je het aantal polygonen op een object af laat hangen van de afstand tot jezelf en dat gebeurt op dit moment niet iig.
Daarnaast is het misschien niet zo dat je 500 miljoen polygonen in 1 scene wilt laten zien, maar misschien wil je ze wel berekenen en een gelijke complexiteit voor licht-effecten is niet ondenkbaar.

hardwareaddict 27 april 2003 21:33

Hallo,

Hier vanaf wallstreet heb ik maar wat gecut'n paste zonder financieel expert te zijn overigens:

http://finance.yahoo.com/q?s=INTC&d=c&t=6m&l=on&z=b&q=l

Ik zie staan:

Market Cap: 119.6B

Ik neem aan dat dat betekent dat intel waard is in totaal rond de 120 miljard dollar op wallstreet.

De divisie 'supercomputing' lees itanium afdeling aangevuld met wat ex-alpha lieden, is daarvan dus nog niet eens 0.25% van als het gaat om omzet.

Het is dus logisch dat in 2006/2007 als de modernste fabrieken 0.065 technologie zijn, dat die x86 cpu's gaan produceren en *niet* Tanglewoods.

Hun dan al verouderde 0.09 fabrieken, daar kunnen ze er dan eentje van open houden om nog fijn itaniums te produceren. Het bouwen van die fabrieken is zo duur heb ik me laten vertellen door iemand die bij ASML werkt.

Elke nieuwe generatie product die ASML levert gaat ook voor vet wat meer dollars weg. Zal nu wel tegen de 20 miljoen euro per product zitten. Daarvan zijn er een hele sloot nodig om dus 1 fabriek mee te bevolken naast nog heel veel andere kostbare machines.

Dus een 0.065 fabriek in 2004 bouwen om in 2006 mee te produceren is heel veel duurder als nu 0.09 fabrieken nu kosten. En dat is niet terug te voeren op inflatie, maar op de machines en overige zaken die nodig zijn om zo'n fabriek aan de praat te krijgen, naast de constante personeelskosten.

Het bouwen van een 2e en 3e fabriek is dan wel goedkoper (AMD heeft maar 1 fabriek van 0.13 bijvoorbeeld staat me bij en die staat in Duitsland).

Kortom Tanglewood gaat niet in 0.065 uitkomen in 2006/2007 maar 0.09.

Dan hebben we 't nog niet over het optimistische rekensommetje dat 4 cores op 1 processor 4x sneller zijn. Dat is natuurlijk ook een grap.

De IPC die zo'n processor haalt is enorm groot. Zelfs de itanium2 haalt al een theoretische ipc bundel van 6.

Stel je eens voor dat er 4 processors zitten te hacken met writes op een gezamenlijke L3 cache.

Dat schiet niet op natuurlijk.

Die L3 cache is ook enorm 18MB+.

Dat is ook niet bevorderlijk voor het hoogclocken van die CPU natuurlijk.

Dus de voorspelling dat de tanglewood niet 4x snelheid gaat halen uit SMT/CMP en dat het ding niet 0.065 gaat worden, lijkt me een vrij simpele voorspelling om te doen.

Se7enth_son @hardwareaddict • 27 april 2003 22:33

De divisie 'supercomputing' lees itanium afdeling aangevuld met wat ex-alpha lieden, is daarvan dus nog niet eens 0.25% van als het gaat om omzet.

Mee eens, dit klopt bij Intel

Het is dus logisch dat in 2006/2007 als de modernste fabrieken 0.065 technologie zijn, dat die x86 cpu's gaan produceren en *niet* Tanglewoods.

De kans is niet bijzonder groot dat Intel de Tanglewood in z'n nieuwste fabriek gaat maken. 0.09u is reëel, maar dit is nog altijd 2x zo klein als de aankomende Madison (0.13u)

Hun dan al verouderde 0.09 fabrieken, daar kunnen ze er dan eentje van open houden om nog fijn itaniums te produceren. Het bouwen van die fabrieken is zo duur heb ik me laten vertellen door iemand die bij ASML werkt.

Het bouwen van een nieuwe fabriek kost zo tussen de 2 en 4 miljard dollar

Elke nieuwe generatie product die ASML levert gaat ook voor vet wat meer dollars weg. Zal nu wel tegen de 20 miljoen euro per product zitten. Daarvan zijn er een hele sloot nodig om dus 1 fabriek mee te bevolken naast nog heel veel andere kostbare machines.

Veel veel meer valt wel mee. De step&scan machines van oa ASMLworden iedere generatie duurder, maar dit levert geen miljarden verschil op in de bouw van een nieuwe fabriek.

Het bouwen van een 2e en 3e fabriek is dan wel goedkoper (AMD heeft maar 1 fabriek van 0.13 bijvoorbeeld staat me bij en die staat in Duitsland).

Dit klopt en is een goede reden voor Intel om meerdere 0.065u fabs neer te zetten. Dit hangt echter vooral van hun eigen verwachtingen van verkopen af. Hier hebben wij als niet-Intel mensen nauwelijks zicht op

Kortom Tanglewood gaat niet in 0.065 uitkomen in 2006/2007 maar 0.09.

Die kans is groot, maar waarom kan de Tanglewood op 0.09u z'n voorspelling van 10x zo snel niet halen?

Dan hebben we 't nog niet over het optimistische rekensommetje dat 4 cores op 1 processor 4x sneller zijn. Dat is natuurlijk ook een grap.

Stel je eens voor dat er 4 processors zitten te hacken met writes op een gezamenlijke L3 cache.

Dat schiet niet op natuurlijk.

Die L3 cache is ook enorm 18MB+.

Hoewel de processor zeker niet exact 4x zo snel zal zijn, is het verschil niet zo groot als jij denkt. We hebben het hier over 4 core op één die welke dus niet bedoeld zijn om alle 4 een totaal andere taak uit te voeren. Hun gezamelijke L3 cache gaat hier alleen maar voordelen opleveren omdat ze nu allemaal over dezelfde data kunnen beschikken. Dit is voor multi-core oplossing echt een voordeel en dus geen nadeel (zoals in multi CPU oplossingen icm shared geheugen). De grootte van de cache is maar beperkt van invloed op de cloksnelheid. Helpen doet het zeker niet, maar een 18MB (idd een bijzonder groot getal) L3 cache zal er niet voor zorgen dat je kloksnelheid amper omhoog kan. Wel zullen de yields behoorlijk tegen kunnen vallen gezien de grote die-size.

De IPC die zo'n processor haalt is enorm groot. Zelfs de itanium2 haalt al een theoretische ipc bundel van 6.

Dit is inderdaad theoretisch 6, in de praktijk heeft ie al moeite met 4,5. Ik zal de precieze details later wel ff posten...

Dus de voorspelling dat de tanglewood niet 4x snelheid gaat halen uit SMT/CMP en dat het ding niet 0.065 gaat worden, lijkt me een vrij simpele voorspelling om te doen.

De Tanglewood wordt helemaal geen SMT/SMP. Het wordt gewoon een single CPU die een beetje overdreven manier van HyperTreading heeft. Je moet het beeld uit je hoofd zetten dat het meerdere CPU's zijn, dat is het namelijk niet!!

hardwareaddict @Se7enth_son • 28 april 2003 03:48

>>Kortom Tanglewood gaat niet in 0.065 uitkomen in 2006/2007 maar 0.09.
>Die kans is groot, maar waarom kan de
>Tanglewood op 0.09u z'n voorspelling van 10x zo
>snel niet halen?

Het belangrijkste is eerst vast te stellen welke clocksnelheden het meeste schelen. Dan wat ook enorm belangrijk is, is vast te stellen hoeveel SMT geeft en hoeveel we gokken dat 't geeft op een I2 core.

Dat zijn natuurlijk de grootste invloeden in hoeveelsneller de processor is.

Dan kunnen we ook nog kijken naar waar er nog ruimte is om een hogere IPC te halen.

Het is ronduit logisch dat er veel software is die allemaal afhankelijk zijn van andere zaken om sneller te worden.

Ten eerste specint/specfpu en dan specint in het bijzonder. Die is enorm afhankelijk van de snelheid van de cache, de latency binnen de cache en pas daarna van IPC throughput.

Zelf heb ik zowel FPU software als veel specint software waarbij opvalt dat de code veel beter geschreven is als in de specint programma's. Dat is vaak GNU code en als het 'werkt' dan is dat prima, einde verhaal. Vaak wordt er nog wat gehacked, maar een principe wordt niet omgeschreven om op een bepaalde cpu een hogere IPC te halen. Dus programma's worden niet omgeschreven om een hogere IPC te halen.

Gevolg is dat veel commerciele software gewoon beter is en minder afhankelijk van gigantische caches als de specint software.

Dus daarom is een I2 op 1.0Ghz even snel als een K7 van pak hem beet 1.5ghz.

De invloed van de compiler op de K7 is daarbij belangrijker als op de I2, dus als het bij veel moeite met optimaliseren voor de K7 uitkomt op 1 tot 1.4 dan sluit ik dat niet uit. De I2 compiler getest is de intel compiler. Die is voor de I2 vrij goed.

De K7 verhoudt zich tot de P4 (DDR ram) als ongeveer 1.0 tot 1.6, overigens een verhouding die je bij veel commerciele software ziet. Dus per Ghz van de K7 is het ongeveer gelijk aan 1.6 ghz van de P4.

Het moge duidelijk zijn dat de zwakke schakel van de I2 dezelfde is als die van de P4 in dit soort software. Namelijk de kleine L1 cache.

Waar deze bij de x86 software duidelijk verbeterd gaat worden, heb ik nog niet goed kunnen waarnemen of dat dit ook bij Tanglewood het geval gaat zijn.

Feit is dat het voor de specint software niet vreselijk veel uitmaakt omdat de logics klein is. Logischerwijze gaat intel dat dan niet veranderen.

Dus dat betekent simpelweg dat er niet veel verbeteringen in de IPC valt te verwachten. Zo goed als nul simpelweg. Dat is realisme.

Als het gaat om specint zullen ze overigens ongetwijfeld nieuwe truuks weten te verzinnen voor de compilers. Dat is echter niet relevant voor de software die de gebruikers zelf compileren op deze processors. Het maakt echt niet uit of dat bzip 1% sneller is geworden doordat ze een truuk hebben gevonden die alleen voor bzip werkt, maar natuurlijk als 'algemene truuk' in de compiler wordt ingebouwd.

Verwachting is 0 hier tenzij er duidelijke vergrotingen plaats gaan vinden in de L1 cache en de predicatie (die verre van ideaal plaats vindt).

Dit overigens zonder een uitspraak te willen doen of
Out of Order de toekomst heeft of dat Predicatie de toekomst heeft, of dat beide goed zijn.

Dan de SMT. Bij de P4 geeft dit 10% speedup lineair voor software die geschikt is multithreaded te draaien en voor SMT/HT is geoptimaliseerd.

Dat klinkt niet erg aanmoedigend voor de Itanium2. Natuurlijk zijn meer registers een voordeel. Maar laten we voor mijn software eens simpel de relatieve IPC vergelijken van I2 versus P4.

1.5 * 1.6 = 3 * 0.8 = 2.4

Kortom dat is 2.4 : 1

Dus de I2 haalt een 2.4 keer zo grote IPC als de P4. Het moge duidelijk zijn dat er meer aan de P4 valt te verbeteren als de I2 als het gaat om IPC!!

Zonder af te willen geven op de x86 architectuur, want dat vind ik volkomen onterecht omdat upwards compatibiliteit iets heel moois is, toont het natuurlijk wel de achilleshiel van de x86 aan.

Een native I2 versie haalt een 2.4x grotere IPC als de P4.

Maar dat neemt niet weg dat dus die I2 ipc weliswaar te verbeteren valt, maar dat is helemaal niet triviaal. Dit waar het bij de P4 triviaal is wat verbeterd kan worden.

Het feit dat dat nog niet verbeterd is, terwijl er meer moeite en tijd in die P4 gestopt wordt als in die I2, dat zegt wel iets over hoe moeilijk het is. Dat zegt des te meer over hoe moeilijk het is om de IPC van de I2 dus met een kleine moeite te verbeteren valt.

Het komt gewoon neer op wat voor speedup de SMT gaat geven en hoeveel hoger hij geclockt kan gaan worden.

Als we het er over eens zijn dat 0.065 niet haalbaar is voor de Tanglewood per 2006, dan is die droom al onderuit gehaald.

De vraag resteert dan welke klokfrequentie bereikt men *wel* in 2006 voor tanglewood?

De grootste invloed op hoeveel tanglewood sneller is als Madison, is dan dus SMT.

Bij een dusdanig hoge IPC die de I2 al haalt en dus de tanglewood zeker ook wel, is het vrij eenvoudig uit te rekenen wat de problemen gaan worden.

Een duidelijk probleem is storen in de L3 cache.
Als je een potentieel hebt van 24 instructies per clock, wat bijzonder dicht tegen wat een Cray blok haalt, dan heb je dus ook dezelfde problemen simpelweg. Daarbij komt het probleem van de parallelle synchronisatie. Die is vrij eenvoudig op te lossen (en ook niet anders) door tijdens een store van een processor te verbieden dat andere processors in de cache storen.

Er zijn een enorme hoeveelheid stores in de L3 cache simpelweg. Daarbij is deze ook vet trager als de L2 en L1 cache. Dus een enkele write erin zorgt ervoor dat alle andere processors geen store kunnen doen (of nog grover niet verder kunnen rekenen) voor een groot aantal clocks. Dat is heel frustrerend.

Aanname is wel dat elke processor zijn eigen decoders en L1 en L2 cache heeft etc, anders is het al helemaal huilen met de pet op.

Al met al zal de speedup geen pretje zijn. 2.0 uit 4 halen lijkt me een geniale speedup eerlijk gezegd. Zeker is in elk geval dat het 4 jaar oude idee van Alpha dat 1 processor meerdere threads tegelijk execute, dat de speedup die een programma daarmee behaald, enorm klein zijn.

Dus Tanglewood zal CMP moeten worden om hier een goede speedup te behalen. SMT zuigt voor 4 processors. Bij 2 kun je op de Itanium core nog wel wegkomen met 50% of zo, maar bij 4 niet meer. Bij 4 zijn er gigantische problemen, believe me. De parallelle kennis zit vrij diep hier. Parallel software uitvoeren is 1 groot brok ellende.

Verwijderd 26 april 2003 22:54

Wat ik trouwens nog niet snap, als de Montecito @ 10GHz gaat draaien ofzo, dat dan dus de Tanglewood rond de 100gig komt...

Beaves @Verwijderd • 26 april 2003 23:05

Nee hoor, zoals in het nieuwbericht staat word de Tanglewood een multi-core CPU (een core die weer uit meerdere core's bestaat). Daardoor is het niet zo dat de Tanglewood 10x zo snel moet zijn kwa aantal MHz'en.

Daarnaast zal het zo zijn dat de IPC van de Tanglewood beter als de voorganger zal zijn.

Daardoor kan het best zo zijn dat de Tanglewood kwa aantal MHz'en amper sneller is, maar dat door de extra core's en de betere IPC de Tangelwood sneller zal zijn. Of dat 10x zo snel zal worden is natuurlijk de vraag.

silentsnow @Beaves • 26 april 2003 23:50

multi-core CPU (een core die weer uit meerdere core's bestaat).

Volgens mij hebben we het over een processor, de Itanium, die meerdere cores bevat. De op de Madison gebaseerde Itanium zal één Madison core bevatten. Dan zal de Montecito gebaseerde Itanium twee Montecito cores bevatten. En de Tanglewood gebaseerde Itanium zal meer dan twee Tanglewood cores bevatten.

Daardoor is het niet zo dat de Tanglewood 10x zo snel moet zijn kwa aantal MHz'en.

De Tanglewood is inderdaad gewoon een opvolger van de Montecito core. Kortom, je kan verbeteringen verwachten zoals een hogere corekloksnelheid of een betere IPC, of beide. En waarschijnlijk meer cache dan de Montecito. De Montecito core krijgt trouwens 18MB level 3 cache. Dat is per core, dus de op de Montecito gebaseerde Itanium zal totaal over twee maal 18MB level 3 cache beschikken

Mooody 26 april 2003 23:59

De grote vraag is of we die processorkracht allemaal wel nodig hebben dan...

Ik zeg nee

90% van de computergebruikers heeft nu teveel aan 1Ghz

In plaats van snellere processors te maken, moeten we eens dingen gaan verzinnen die snelle processors nodig hebben...Office kan makkelijk op 500Mhz, Photoshop wil veel RAM en spellen hebben meer aan een snelle videokaart...de processor is niet eens zo belangrijk meer

silentsnow @Mooody • 27 april 2003 00:05

De grote vraag is of we die processorkracht allemaal wel nodig hebben dan...

Ik zeg nee

90% van de computergebruikers heeft nu teveel aan 1Ghz

Een processor als deze is ook niet ontworpen voor mensen zoals jij en ik. De Itanium (waar het hier dus over gaat) is een processor die vrij duur is, zeker vergeleken met een desktop processor zoals de Athlon of de Pentium. In dit artikel gaat het namelijk over een processor die voor zware servers, servers of workstations geschikt is. Het is een processor voor, zoals intel het omschrijft, "demanding enterprise and technical applications" geschikt is.
Intel® Itanium® 2 Processor

Een groot deel van de computergebruikers heeft inderdaad geen snelle processor nodig, maar het verkoopt wel. Bovendien ken ik genoeg spellen die stukken beter draaien op een snelle AthlonXP of een Pentium4 2.5GHz dan op een 1GHz Athlon of Pentium III

In plaats van snellere processors te maken, moeten we eens dingen gaan verzinnen die snelle processors nodig hebben

Misschien dat je zelf een keertje servers heb zien staan, of misschien wel een soort supercomputer. In dat geval is er zeer veel rekenkracht nodig waardoor één processor, tien processor en zelfs 50 processoren niet genoeg rekenkracht bieden. Kortom, zware applicaties zijn er. En dit is een processor die die zware applicaties aankan.

Beaves @Mooody • 27 april 2003 00:06

Sinds wanneer schaar jij de Itanium serie onder de noemer "CPU voor thuis"?

Door de concurentie tussen Intel en AMD zijn de CPU's inderdaad sneller dan 99% van de gebruikers thuis nodig hebben, maar daar hebben we het nu niet over.

Dit artikel gaat over de Itanium, een CPU voor zware servers en daar is snelheid wel nodig, en liefst zoveel mogelijk. Waarom denk je anders dat er super computers zijn waarin 64+ Itanium of andere CPU's zoals Alpha's en Power4 zitten. Omdat ze aan een CPU niet genoeg hebben, daarom zetten ze er maar een "paar" bij elkaar.

Er is dus zeker wel noodzaak om dit soort CPU's steeds sneller te maken, de markt vraagt erom.

grimlock 26 april 2003 21:05

Het blijkt natuurlijk maar gissen wat de efficiency dan zal zijn. Aan de ene kant multicore, aan de andere kant, wat zal die 50-70GHz daadwerkelijk aan rekenkracht hebben...

SG @grimlock • 26 april 2003 22:35

50-70Ghz volgen mij ben jij in de war met de Netburst architektuur de P4/Xeon lijn.

Dit gaat over Epic architektuur tot derde generatie opvolgers van de itanium en daar geld low clock high IPC

denk niet dat ze van 1,5Ghz naar 50-70Ghz warpen denk eerder 3Ghz á 5Ghz na één á twee die shrinks
0,09 0,065

Steve 27 april 2003 10:53

Intel speelt 't lekker.. Eerst kondigen ze met veel tromgeroffel de Itanium II met Madison-core aan.. En nu die een beetje leverbaar wordt, gaan ze leukweg vertellen dat een van de opvolgers 10x zo snel zal zijn.. Ik kan me wel voorstellen hoe de mensen die net duizenden euro's hebben uitgegeven aan een Madison zich nu voelen..

hardwareaddict @Steve • 27 april 2003 15:27

Het is de gebruikelijke marketing campagne. Ik begrijp dat dit bericht ook is opgepikt op andere fora en dat zelfs intel designers zelfs heel voorzichtig aangeven dat het wel erg optimistische praat is van deze marketing manager.

De assumptie dat het ding 10x zo snel is geclockt is overigens gebaseerd op 2 aspecten:
A) 4 cores op 1 cpu

0.065 core

A is al enorm ambitieus, maar B afhankelijk van de sales van itanium2 en madison.

Om de itanium op dezelfde technologie te krijgen als de P4 tegen die tijd, dient de itanium2/madison dus voor enige tientallen miljarden te verkopen.

Dat is vrij lastig, want dan praten we over best veel Itaniums die verpatst dienen te worden. Laten we optimistisch rekenen dat ze $5000 verdienen bruto op elke core (900Mhz I2s zijn bijvoorbeeld maar $2500 dus dat schiet ook niet op).

50 miljard $ / $5000 = 50 mln / 5 = 10 miljoen itanium cores verpatsen.

Dat halen ze natuurlijk nooit.

Insiders trekken hun wenkbrouwen al op als ze er 100k van verkopen.

100k x $5000 = 500 miljoen dollar.

Daar kun je dus niet een 0.065 fabriek mee bouwen. Nog niet eens een kwart van die fabriek.

Dus het is zeer onwaarschijnlijk als ze maar een paar 0.065 fabrieken hebben tegen die tijd, dat ze in die fabrieken Tanglewoods gaan produceren. Dat doe je natuurlijk in de al verouderde 0.09 fabrieken dan, die alleen nog maar onderhoud kosten en hooguit nog een paar dump P4s fabriceren.

Se7enth_son @hardwareaddict • 27 april 2003 17:39

Ik vind je verhaal kant noch wal raken. Je berekening is nergens op gebaseerd en slaat eigenlijk nergens op:

- Een fabriek neerzetten kost geen 50 miljard $. Nog niet eens een 10e deel ervan...
- Waarom moet de fabriek betaalt worden van het geld wat de Itanium opbrengt? Intel heeft meer divisies die geld in het laadje brengen...
- Waarom ga je ervan uit dat de Itanium altijd een productieproces achter moet lopen op de P4/Xeon?

Het feit dat Intel aangeeft dat het een multi-core wordt ipv een dual-core (Montecito) geeft al aan dat er meer dan 2 cores gebruikt gaan worden. het minimum is dus 4 cores voor de Tanglewood: hij hoeft dus maar 2,5 tot 3 keer zo snel te zijn als een Madison (per core). Dit lijkt mij helemaal niet onrealistisch:

- Het productieproces wordt een stuk kleiner (0.065u is zeker niet onhaalbaar!) waardoor de cloksnelheid omhoog kan
- Men is bij Intel bezig om de caches iets aan te passen, voornamelijk de L1 cache: deze gaan vergroot worden.
- Vergeet niet dat een Itanium z'n branch-prediction grotendeels door de compiler laat doen: de huidige compilers zijn zeker nog niet optimaal en dit is een onderdeel waar Intel keihard aan het sleutelen is voor meer performance. Dezelfde core kan met een verbeterde compiler (dus verbeterde software) echt een flink stuk meer performance leveren.

Per core hoeft er dus niet eens zo veel te veranderen om de Tanglewood 10 keer zo snel te maken als de huidige Madison.

Verwijderd @Steve • 27 april 2003 13:59

Net alsof je de aanschaf van een database of SAP server 3 jaar gaat uitstellen omdat je dan een snellere processor kan krijgen

ANdrode @Steve • 27 april 2003 11:15

Het zijn bedrijven die deze straalkachels (130 watt @ 1 Ghz) kopen voor hun rekencentra.

En tja, je weet toch wel dat je cpu over 4 jaar (...) daar gaat het over, verouderd is?

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (54)

Sorteer op:

Weergave: