Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 42 reacties
Bron: Ace's Hardware

Johan van Ace's Hardware denkt dat Intel's Foster, de serverversie van de Pentium 4, uitgerust zal zijn met twee processors op één chip, zoals AMD van plan is met de Sledgehammer. Dit na aanleiding van een Intel presentatie over Foster waarin over 'Jackson Technology - on-chip multithreading support' wordt gesproken.

Paul DeMone denkt echter dat er iets anders aan de hand is, in deze thread vraagt hij zich af of de huidige Pentium 4 ook uitrust is met deze eigenschap. Aangezien Foster en Willamette dezelfde, onverklaard enorme, core gebruiken is het volgens hem waarschijnlijk dat SMT (Simultaneous Multithreading) wel in de Pentium 4 zit, maar om een of andere reden niet werkt:

Is this a form of simultaneous multithreading? Perhaps Intel has beat Compaq/DEC to the SMT punch by more than two years (EV8 doesn't ship until ~2003) The implications are interesting. If the Foster and Willamette share the same die then the Pentium 4 also potentially implements SMT. If P4 Willy does have SMT, is it:
  • broken in the current version of the chip
  • disabled in the current version of the chip
  • functional but not currently used, or
  • currently used by some programs but not others
An x86 processor like the Pentium III, K7, and P4 typically only average around 1 native x86 instruction or 1.5 uOPs per clock cycle on most code or about half or less of their peak performance. If SMT can increase throughput of a decoupled execution superscalar x86 machine as well as it seems to be capable of for wide issue RISC type designs then this could represent a significant pool of currently untapped performance in the Willamette/Foster family. Perhaps this also help explains the large number of transistors and amount of die area in P4 that seemingly couldn't be accounted for on the basis on all the other known features and functions. Time will tell.

Intel Foster features
Moderatie-faq Wijzig weergave

Reacties (42)

Niet te filmen zeg... welke idioot komt door de term
"on-chip multithreading support" ineens met dual-core op de proppen?

Multi-threading support komt gewoonlijk neer op handige en snelle commando's om de processor-state te storen en restoren, sinds geloof ik de Pentium zitten er bv al instructies ingebakken om snel de hele register-zooi op stack te dumpen enzo. Nu kan ik me voorstellen dat ze zoiets moeten gaan uitbreiden omdat er tegenwoordig vanwege alle leuke optimalisaties ineens van alles misgaat bij een thread-switch: volle pipelines moeten gedumpt worden en opnieuw worden gevuld, idem voor de cache, etc etc en dat kost natuurlijk performance (lees: lange pipelines kosten dan juist extra tijd en een supersnelle cache is nutteloos).
Volgens mij heb je gelijk. Wat argumenten op een rijtje:
** Server software is zwaar multithreaded. Domweg omdat dat de enige manier is om een groot aantal requests asynchroon te kunnen verwerken met een zo groot mogelijke benutting van de beschikbare processorcapaciteit.
** Bij een context switch worden bij huidige processoren alleen registers & flags gesaved. Niet alleen de inhoud van de pipeline, maar ook die van de cache en trace-cache (branch prediction) zijn in een keer nutteloos. Een nog veel grotere hit dan bij een call of jump dus.
** De P4 heeft een extreem lange pipeline, maar compenseert dat o.a. door betere caching & branche prediction. Dat helpt dus niets bij een context switch.

Intel moet wat dus doen aan de architectuur van de P4 om de processor geschikt te maken voor servers. Het ligt voor de hand de oplossing te zoeken in een methode om ook [een deel van] de interne processor state te saven als onderdeel van een context switch. Dumpen naar RAM is een methode, maar je kan ook denken aan on-chip caching. In het extreme geval gebruik je voor de meest kritische data meerdere buffers die worden toegewezen (geroteerd) aan de meest actieve threads. Kost wat transistors en moet effe getuned worden natuurlijk. Als je daar een oplossing voor bedacht hebt, dan verdien je het ook dat die technologie naar je genoemd wordt. Dank u meneer Jackson!

Twee cores in een chip lijkt me minder waarschijnlijk. De yield gaat dan drastisch omlaag (aardige beginschatting is kwadrateren van de yield voor de single-core processor, bijv. van 90% naar 81%) en je hebt er weer een afzonderlijk te ontwerpen & fabriceren type bij waarbij je dan ook weer eens produktie op de vraag moet afstemmen. Helemaal super onwaarschijnlijk is dat een deel van de P4 core (nog) niet functioneel is. Daarvoor is die-size een te grote factor in de produktiekosten. Het is heel wat waarschijnlijker dat de grote die-size van de P4 op dit moment onontkoombaar is en dat Intel heel hard aan het werk is daar iets aan te doen.
Hmmmz ik kan me herinneren dat IBM een CPU met 4 cores gepland had... ben nu even kwijt of dat hier enigszins mee te maken heeft : )
SMT (Simultaneous Multithreading) wel in de Pentium 4 zit, maar om een of andere reden niet werkt:
Voel ik daar weer een ¨Een vage Japanner...¨ topic aankomen? :)
Of een japanner die de flowchart van de P4 een weekje bekijkt en er dan achter komt hem op z'n kop te hebben :)
ja best mogelijk, die maken zelfs Furby's in SMP... :P
Zou het niet kunnen dat de die zo groot is gemaakt om de koeling betere koeling mogelijk te maken (groter contactoppervlak en minder 'buur'-warmte)...
Lijkt me niet waarschijnlijk. Hoe groter je core hoe groter de kosten. prijs van 1 core is gerelateerd aan het aantal cores per vierkante meter waver. Oftewel de oppervlakte van 1 core.Het zou een hele dure manier van warmte afvoer betekeken. Overigens verklaart jouw idee nog steeds niet waarom er zoveel transistors opzitten.
Om de koeling te verbeteren is die koperen plaat al op de P IV geklust...
je moet je niet vergissen met Xeon en p2/p3.
de Xeon's hebben veel extra's aan boord tenopzichte van de p2/p3. Dat cpuID het niet goed kan herkennen is meer een gebrek van dat proggie ...

[kut reaktie systeem, dit moest natuurlijk reaktie op GA!S zijn]
Ik had het over de instap-Xeon, de versie met de gelijke hoeveelheid cache als zijn Pentium II / III tegenhanger. Die is dus gewoon gelijk aan zijn goedkopere broertje. Puur staaltje marketing techniek dus in dat geval.

zie ook www.tweakers.net/nieuws.dsp?ID=14539
Er wordt duidelijk meer geld gevraagd voor de Xeon. Maar het even intrigerende antwoord op de vraag luidt volgens Ars Technica dat er geen verschil zit tussen de 256kb Xeon en de Coppermine:
Niet helemaal, als je een mobo hebt met 2x Slot2 en je wil een beetje rustig instappen, kun je natuurlijk een goedkope Xeon erin zetten, beetje testen en daarna pas het grote werk erin zetten.
Nu wordt ook vaak pas later de tweede of vierde processor geplaatst.
Daarnaast heeft de vroege levering van die Xeon's er wel voor gezorgt dat de mobo's af waren toen het serieus interessant werd.
Dat weegt denk ik niet op tegen de hogere productiekosten die de die-grootte met zich meebrengt...
waarom zegt intel het niet als het erin zit?
ikzelf denk niet dat het erin zit, anders zouden ze er wel reclame voor maken....
ikzelf denk niet dat het erin zit, anders zouden ze er wel reclame voor maken....
Omdat het goedkoper is om heel veel dezelfde chips te bakken.
Mens wil nu eenmaal wat variatie, dus dan zetten we verschillende features aan en uit, et voila! Opeens hebben we 4 verschillende procs!
Door dit soort kleine variaties is het dus mogelijk om met de prijzen te spelen, anders heb je gewoon 1 proc met een gemiddelde prijs. Nu heb je voor de consument die die features niet nodig heeft een goedkopere variant en voor een server, waarin de prijs van de proc een iets minder grote rol speelt, weer een duurdere variant. De gemiddelde prijs blijft zo gelijk, wat gunstig is voor zowel fabrikant (eenvoudiger productie-proces, groter marktaandeel) als consument (betaald niet voor features die hij nooit zal gebruiken). En zolang er nog wazige Japanners zijn ook goed voor de Tweaker aangezien hij dan met wat "simpel" knutselwerk alle features uit de goedkoopste proc weet te toveren :*) .

enkele voorbeelden:

Zie XEON, de versie met <1MB cache is op de CPUID na exact gelijk aan de PII/III, is wel 2 tot 3x zo duur.

Zo ook de eerste Celeron, SMP was wel mogelijk maar door een simpele modificatie aan de proc "stond ie ff niet aan". Vage Japanner met soldeerbout en hop, dual-systeem voor de doe-het-zelver voor de prijs van een enkel systeem. Natuurlijk gaat Intel daar geen reclame voor maken, dan koopt namelijk niemand meer de duurdere variant!

En ook bij videokaarten: De Elsa Quadro is eigenlijk ook niets meer dan een GeForce met enkele functies extra aangezet in de GPU en een ander driverpakket.


Marketing schijnt dat te heten :)


edit:

re-format + kleine toevoeging....
Zie XEON, de versie met <1MB cache is op de CPUID na exact gelijk aan de PII/III, is wel 2 tot 3x zo duur
Dat is dus niet helemaal waar. De Xeon heeft een aantal extra functies zoals een onboard voltage regulator en ondersteuning voor een management systeem. Daar moet je extra voor betalen. Of dat terecht is is een andere vraag.
Dat de core gelijk is aan een PIII staat als een paal boven water.
Die zitten volgens mij in de slot2 behuizing en niet in de core. De core is exact dezelfde core als de coppermine bij de 256 KB versie.
Die zitten volgens mij in de slot2 behuizing en niet in de core. De core is exact dezelfde core als de coppermine bij de 256 KB versie
Dat zei ik ook. Maar blijkbaar betaal je 2x zoveel voor die functies (en dus voor die extra functies op die grote plaat in dat zwarte doosje).
Je moet niet vergeten dat de oplage van de Xeon veel kleiner is, waardoor leveranciers er ook een grotere marge op zetten, de gewone PIII staat qua marges zwaar onderdruk omdat er zoveel verkooppunten zijn.

Daarnaast heeft een Xeon bordje vaak wat voordelen, en is meer geschikt voor lompe toepassingen (veel geheugen ed.) Daarnaast zijn die serverbordjes vrij specialistisch en hebben vaak aparte configuraties (RAID onboard (SCSI)ed.)
klopt hier nog een voorbeeld:
de intel celeron2 heeft 256kb cache, de helft hiervan is door intel disabled zadat er nog maar 128 werken.
Ik zat eigenlijk te wachten op een vage japanner die hier een oplossing voor had, maar nog niet gezien.
Klopt, maar in een aantal van die geheugen gebieden zit een fout, waardoor Intel het foute deel (en een goed deel) uitzet, zo kunnen ze afgekeurde PentiumIII's verkopen als Celerons. Dit geeft ook een verklaring voor het feit dat de Celerons geklokt kunnen worden naar PentiumIII snelheden!
Komt de Foster er in Slot behuizing of in 'n Socket uitvoering? Indien deze als Slot uitvoering komt, kan het best zijn dat ze gewoon twee P4s op een PCBtje douwen. Misschiens is 'n hoop van die extra transistors op de P4 niks anders dan 'n ondersteuning om twee procs aan elkaar te knopen en micro-ops uit te wisselen....
2 p4's in 1 pcbtje zal nog niet zoveel zin hebben...je moet ook nog iets hebben wat de instructies verdeelt...een normale singelchipset kan niet meerdere chips aan. Of het zou mogelijk moeten zijn een aparte chip tussen de echte chipset en de p4's te zetten...dat weet ik niet...
maar simpel twee p4's op een pcbtje douwen zal niet werke denk ik...
Ook zullen ze eventuele extra transistors niet dubbel uitvoeren als dat niet nodig is. Die zullen ze apart houden, en niet op elke core gooien. Die core is al zo groot :) Das gewoon veel te duur.
een normale singelchipset kan niet meerdere chips aan.

wat is dan met een BP6 bord van Abit..


is een gewone BX sjipzet dacht ik..

als het niet is corrigeer dan even svp..

Greetz Roger
Hmm..hoe het met dat ding zit weet ik niet...
Maar andere chipsets AMD760 bijvoorbeeld ondersteunen ook alleen maar single. Wel word daar een aparte versie AMD760MP van gemaakt die wel dual ondersteunt.
Misschien dat de BX chipset uit zichzelf al MP ondersteunde?
Simpel, omdat de 440BX gewoon gebouwd is met MP support. Daar is 'ie op ontworpen en daarom werkt het ook. Niet meer dan 2 CPU's trouwens, daarvoor ga je naar de 450GX en de 450NX. De NX kan voor zover ik weet tot 16 Xeon's aanspreken.
je moet het zo zien: een cpu met 2 cores is een cpu met 2 CPU chippies op 1 printplaat, SMT is 2 parallelle cores in 1 chip zo ongeveer.
Ik heb hier een paar gedachten over:

Enerzijds is het vreemd dat Intel eerst features van de Pentium 4 schrapt uit kosten- en hitte overwegingen, zie athena.tweakers.net/nieuws.dsp?ID=14879 en dan 2 cores erin zou stoppen. Nou produceert een gedisabelde core natuurlijk geen hitte, maar de die-size is wel ruim een factor 2 groter dan nodig. Ik betwijfel of de kostenbesparing van een uniforme chip hiertegen opwegen. Als Intel al een uniforme chip voor de P4 en Foster zou willen hebben hadden ze dat ook vanaf de 0.13 micron kunnen doen, en de P4 op 0.18 micron nog gewoon een enkele core geven.

Een P4 met 2 cores zou wel veel betere yields kunnen hebben dan je zou verwachten wanneer de huidige P4 maar uit 1 core bestaat. Als 1 van de 2 werkt disable je de andere gewoon.
Je leest het niet helemaal goed, SMT is iets anders dan 2 cores. Intel heeft bekend gemaakt dat Foster on-chip multithreading krijgt, die Johan denkt dat ze dat doen door 2 cores op een chip te plakken en Paul DeMone denkt dat Intel SMT voor elkaar heeft gekregen, 3 jaar voor Alpha. Als die laaste gelijk heeft dan is een deel van de Pentium 4 core ongebruikt, maar heeft de eerste gelijk dan is de Foster gewoon een andere chip.

Geen van beide beweert dus dat de huidige Pentium 4 een gedisabelde 2e core heeft.
:?

Johan denkt dus dat de huidige P4 niets gedisableds bevat en dat de Foster gewoon nog ruim 2x zo groot zal zijn? Johan heeft dus geen verklaring voor de huidige grootte van de P4?

Wat is SMT dan precies? 1 core die toch intern parallel werkt?
----------
edit: 1 chip => 1 core
4x ja :)
An SMT capable CPU is basically a Out of Order CPU that also can schedule and issue multiple instructions of several independent threads each cycle. The main advantage is that if a certain thread (or even an application, as one application always has at least one thread) has very low parrallelism, the CPU can issue instructions of another thread and work at its full potential. A four wide SMT processor could for example issue 2 instructions of your favorite office application, while the same scheduler also issues two instructions of your MP3 decoder.
Lijkt me op zich wel erg vreemd, 2 processoren op 1 chip, moet je dus of een goede chipset voor hebben, of weer een samenwerkingschip tussen de 2 processoren, waardoor je instructieset waarschijnlijk weer wordt uitgebreid, dus toch weer een nieuwe chipset.


* 786562 TheGhostInc
Het is idd erg gek dat de P4 core zo groot is ten opzichte van een P3. Enkele weken geleden had ik een C0 stepping van de Celeron in handen. Die zijn zo ongeloofelijk klein en licht dat is ongeloofgelijk. Als je dat vergelijkt met een huidige P3 of een Athlon dan zijn die dingen gewoon heel erg licht. En die P3 of Athlon is weer onnoemelijk licht als je ze vergelijkt met zo'n P4.

Ivm de productiekosten is het ook niet ondenkelijk dat er al 2 cores zitten ingebakken in het ontwerp. Het is duurder om 2 aparte productie modellen te ontwerpen ipv een model en daar een gedeelte van disabelen. Dan zie je al bij de Celeron waar een gedeelte van het cache is gedisabeld tov de P3 (zelfde core). En het gerucht gaat dat er nog meer onderdelen zijn gedisabled om niet te concureren met de P3.

Uit het volgende plaatje is echter op te maken dat het niet zo is :) Er veel ruimte word ingenomen door de nieuwe features zoals SIMD2, etc.

www.tomshardware.com/cpu/00q4/001120/images/die-erklaerung.jpg

edit:

Link fix > Thanx GA!S (zie thread)



* 786562 The
Krijg alleen maar logo_white te zien.
Die leuke die-erklaerung krijg ik niet te zien!
binnenkort bij de wazige japanner: hoe soldeer ik 2 p4's op 1 chippie ? :P
Als er cores op zitten draagt dat dan niet bij aan extra incompatibliteit? Misschien wel lastig voor linux gebruiker ivm cpuid enz.....
Ik heb zo'n voorgevoel dat dit net zo gaat als met wel of niet raid op je Hotrod kaartje (dat was 'm dacht ik):
potloodstreepje zetten en je hebt op je non-raid kaartje ook raid, gewoon omdat dat voor Abit goedkoper te maken was :). Dus potloodstreepje zetten en je P4 wordt een Foster. Laat dat de Jappen maar uitzoeken, ik blijf voorlopig toch bij mijn P3-800@1066 :9

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True