Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 29 reacties
Bron: Emulators.com

Darek Mihocka van Emulators Inc. heeft een zeer uitgebreid artikel geschreven over de nieuwste processor van Chipzilla (Intel). Aangezien deze man kennelijk het liefste nog achter zijn Atari ST zit, is het geen vrolijk verhaal. Ondanks dat de schrijver niet geheel objectief te noemen is, zullen liefhebbers van dit soort uitgebreide technische verhandelingen het toch interessant leesvoer vinden.

Het artikel begint met de bewering dat de Pentium 4 alles behalve de meest krachtige processor is. Vervolgens noemt de schrijver de volgens hem grootste gebreken in het Pentium 4 ontwerp:

1) Small L1 data cache: My testing shows that while the Pentium 4 has extremely fast memory access for working sets of data up to 8K in size, at 16K and 32K sizes it is no faster than a 650 MHz Pentium III.

2) No L3 cache (as originally specified): My testing shows that at working sets between 256K and 2M, a 700 MHz Xeon processor easily outperforms the Pentium 4 at memory operations. How much is 256K or 2M? Well, that's about the typical size of an uncompress bitmap. It's the reason a Power Mac G4 running Photoshop kills a typical Pentium III running Photoshop. And axing the L3 cache is a main reason why the Pentium 4 is not the G4 killer it could have been.

3) Decoder is crippled: Intel took a rather idiotic approach to the U-V pairing and 4-1-1 grouping limitations of past decoders. They simply eliminated the extra decoders and went back to a single decoder. ...How long [will] it thus take that piece of code to execute? More than 21 clock cycles. Now, compare this to the Pentium III or Athlon. How long will those chips need to decode the bytes? Roughly 7 to 11 cycles.

4) Trace cache throughput too low: these execution units can in theory process 9 micro-ops per clock cycle - 4 simple integer operations, 1 integer shift/rotate, a read and write to memory, a floating point operating, and an MMX operation. Sounds pretty sweet, except for the problem that the trace cache feeds only 3 micro-ops at a time! While on the Pentium III we have the situation that the decoder can feed up to 3 instructions and 6 micro-ops (4+1+1) to the core per clock cycle, the Pentium 4 is crippled to the point of decoding one instruction per cycle and feeding at most 3 micro-ops to the code per clock cycle.

5) Wrong distribution of execution units: ...5 of the 7 execution units are dedicated to handling the integer registers... ...only one single execution unit handles MMX. And if you read Intel's specs in more detail, it states that the unit can only accept a micro-ops every second clock cycle. ...the three ALUs can accept up to 5 micro-ops per clock cycle. But we've already learned that the trace cache can provide at most 3. So one or more integer ALUs sit idle each clock cycle.

6) Shifts and rotates are slow: ...they created the shift/rotate execution unit, which by design operates at normal clock speed (not double clock speed), but in my testing actually operates even slower. A typical shift operation on the Pentium 4 requires 4 to 6 clock cycles to complete. Compare this with a single clock cycle on any 486, Pentium, or Athlon processor. How bad is this mistake? For emulation code, it's absolutely devastating. Shift operations are used for table lookups, for bit extractions, for byte swapping, and for any number of other operations.

7) Fixed the partial register stall with a worse solution: Accessing certain partial registers now involves the shift/rotate unit, meaning that a simple 8-bit register read or write can take longer than accessing L1 cache memory!


De beslissingen die door het P4 design team zijn genomen, hebben onder andere tot gevolg dat de Pentium 4 erg slecht presteert op bepaalde P6-geoptimaliseerde code sequences en vice versa. Omdat het normaal gesproken jaren kan duren voordat compilers zijn geoptimaliseerd voor nieuwe architecturen, verwacht Darek dat het lang kan duren voordat P4 optimalisaties ingeburgerd zijn.

Uiteindelijk komt de schrijver tot de conclusie dat we vooral geen Pentium 4 moeten te kopen, tenzij Intel alle features terug in de P4 stopt die ze eruit gehaald hebben om de chip betaalbaar te maken. Al met al een boeiend artikel voor de geïnteresseerde lezer, mits de nodige korrels zout maar bij de hand gehouden worden. Er is de afgelopen dagen dan ook veel kritiek geweest op dit artikel, vooral omdat de schrijver volgens velen te eenzijdig kijkt naar de trade-offs die Intel heeft genomen om de schaalbaarheid van de Pentium 4 architectuur met het oog op de toekomst te verbeteren. Hier een quotje uit een posting van Paul DeMone op het forum van Ace's Hardware: [/break] I don't think the author understands many of the key features and design decisions that went into the P4. I also think he doesn't understand the principle of delayed gratification in microarchitecture design trade-offs. Many of the choices P4 architects made have little or no benefit and are sometimes even liabilities in the original 0.18 um implementation. But these decisions make a whole lot more sense viewed over the expected ~5 year lifetime of this basic microarchitecture where it will likely experience multiple process shrinks. The original 0.8 um Pentium and 0.5 um PPro were not overly impressive either compared to their predecessor in the same process but these cores proved to be quite good after one or two shrinks.

Zie voor meer info ook dit artikel van The Register en de discussies op het Technical Forum van Ace's Hardware.

Moderatie-faq Wijzig weergave

Reacties (29)

Ik heb ook de volle 25 pages ff doorgeworsteld, maaarrrrr, zonder in depth erop in te gaan kun je het tegenargument samenvatten: "Als iedereen maar z'n programma's herschrijft voor de P4 komt het uiteindelijk ook wel goed."

Het kleine stukje text van Demone onder de posting heeft ook zo'n boodschap. En precies DAAROM heeft Mihocka ook gelijk; je koopt er helemaal NIETS voor dat de huidige P4 core, over een aantal jaren gereincarneerd als de Pentium7 ofzo beter is.

Qua huidige software hebt je te maken met een ENORM grote installed user base. Die software wordt niet ala minuut herschreven, ook niet als Intel dat wil (uitgezonderd schoolvoorbeeld Photoshop).

Ik vind zelf ook wel dat'ie zich een beetje vastbijt op't huidige, maar dat is aan de andere kant ook wel correct. Je moet een CPU hebben die het NU beter doet, een CPU 'die naar verloop van tijd wel sneller gaat presteren' ruikt naar vapourware. Terecht, dat een CPU beoordeeld word naar hoe die met huidige programmatuur werkt. Daar werken we immers mee.

De benaming 'severly crippled' vind ik overigens wel op z'n plaats, als Intel op het allerlaatste moment de FPU en L3 cache schrapt, en de L1 terugbrengt naar 8KB.
"Als iedereen maar z'n programma's herschrijft voor de P4 komt het uiteindelijk ook wel goed."
Dat is niet het hele verhaal. Een van zijn bezwaren is inderdaad dat de P4 andere optimalisaties nodig heeft als de andere x86 processoren. Maar een ander bezwaar is dat de processor "uit balans" is, dwz dat de bottleneck in het ene deel de voordelen van het andere deel teniet doet. Bijvoorbeeld die 5 integer bewerkingen per clocktick waarvan er maar 3 gebruikt kunnen worden (zie reactie van The Flying Dutchman). Dit soort problemen kan niet opgelost worden door nieuwe software, alleen door het processor ontwerp te veranderen.
Als iedereen zijn programma maar herschrijft.....

Maar als je de text goed gelezen hebt, dan staat er ook in dat met een paar simpele aanpassingen de cpu zo gemaakt had kunnen worden dat ook de huidige software die dus niet geoptimaliseerd is veel beter zou draaien... En denk niet dat de huidige software allemaal herschreven gaat worden speciaal voor de pentium 4...

Verder valt er in de text te lezen dat een AMD Athlon bijvoorbeeld zo is gemaakt dat de software er gewoon lekker op draait en dat hiervoor dus geen speciale software voor nodig is om hem optimaal te laten draaien.
Maar als je de text goed gelezen hebt.....die dus niet geoptimaliseerd is veel beter zou draaien...
Hey, ik heb de text gelezen, dat staat er, en ik weet dat ze onderdelen hebben laten vallen, zucht :Z
En denk niet dat de huidige software allemaal herschreven gaat worden speciaal voor de pentium 4...
Goed gezien jonge, dat zei ik ook. :Z
Verder valt er in de text te lezen dat een AMD Athlon.........optimaal te laten draaien.
Dat is het punt niet, is het niet? Die P4 is er nu, niets meer aan te doen. 'Er moet dit en dat bij' is academisch geleuter. We hebben het erover dat Intel's oplossing neerkomt op 'herschrijven die boel'.

En het is wel degelijk mogelijk om ook redelijke prestaties neer te zetten, als het programma herschreven wordt. Dat heeft die hele MPEG4 FlasK oefening wel bewezen.

En natuurlijk wordt alle software niet herschreven, dat was mijn punt. Wat de jouwe is ben ik nog niet achter :?

//typos
Blijkbaar is het niet haalbaar om op de oude manier verder te gaan voor Intel, ze richten zich nu toch meer op de zwaargewichten.
Het is niet interessant voor computer gebruikers dat hun Office sneller draait, of dat je een halve fps er bij krijgt, terwijl er morgen een kaart is die er 3 extra doet.
Het is belangrijk dat een PC zijn nieuwe taken zoals DVD rippen goed kan, veel data verkeer, want de rest is op dit moment vaak al snel zat.
(Ik denk dat misschien Intel wel meer inzicht heeft dan Amd, maar tijd zal het leren)
En het is wel degelijk mogelijk om ook redelijke prestaties neer te zetten, als het programma herschreven wordt. Dat heeft die hele MPEG4 FlasK oefening wel bewezen.
En dan is FlasK nog een speciale gast omdat-ie erg veel baat heeft bij een hoge bandbreedte en snelle SSE, waarin de P4 beide beter is dan de PIII en Athlon.
Laat een PPro dan maar eens 16-bit code draaien: precies, slechter dan een gelijk geklokte Pentium.

De P4 is wat dat betreft net de PPro, hij is in principe wel beter maar in de praktijk is het toch net even anders.

Een Pentium MMX daarintegen is gewoon een P1 met wat extra transistors, en draait dus minimaal net zo goed.
Je wilt een PPro 16 code laten draaien om het verschil met 32 bit te laten zien? klopt niet want een P4 kan geen 64 bit draaien. Die moet het ook met 32bit code doen..

P4 is mijnsinziens niet geschikt voor allround PC toepassingen
de schrijver is dan wel niet geheel objectief maar het klopt allemaal wel wat hij zegt, en van wat ik gelezen heb op t.net zijn er veel meer mensen met hem eens :*)

* 786562 IMME
Ik denk dat dit ook een stukje het verhaal is van: De beste stuurlui staan aan wal. Je kunt wel kritiek hebben, maar Intel zal in sommige gevallen geen keuze hebben gehad, als je naar 2Ghz of hoger wil, kun je niet alles optimaal per clockcycly doen, dan moet je soms wat performance laten vallen. Het gaat uiteindelijk om de benchmark, een 'optimale P4' die niet boven de 1 Ghz komt is toch niet acceptable?
Maar wat schiet je dan op met een snellere proc ?
Als zo'n p4 (bv 2Gig) over een bewerking 21 cycles doet en een p3 (bv 1Gig) 11 cycles, waar is dan de winst van die Gig gebleven ?
Die winst zit dan in de zak van intel. 2GHz verkoopt namelijk aanzienlijk beter dan 1GHz, simpel en alleen omdat het leuker klinkt op verjaardagen. Dat die 2GHz in sommige gevallen absoluut niet aan een 1GHz kan tippen, is dan alleen bekend bij mensen die zich erin willen verdiepen en niet bij de leek die patst met zijn megahertzen.

Bovendien, en dat is ook door intel als argument aangevoerd, geloof ik dat opoffering van ruwe performance een investering is die gemaakt moet worden om processors uiteindelijk nog sneller te krijgen, hoewel sommige opofferingen wel duidelijk alleen op kostenbesparing slaan.

MetalStef
de schrijver is dan wel niet geheel objectief maar het klopt allemaal wel wat hij zegt
Pardon... als dit geen dubbelziinigheid is...
Nog even een voorbeeld van een stukje uit de tekst waarvan ik vond dat het echt alles sloeg.

De Pentium 4 bevat 3 ALU's.

Twee daarvan zijn double pumped (lopen op de dubbele kloksnelheid van de cpu) en kunnen per klokcycle per stuk 2 microOps (soort van instructies) aan. De 3e kan per klokcycle 1 microOp aan.

Dus kunnen de ALU's van de P4 maximaal 5 microOps per klokcycle aan.

MAAAAAR, wat blijkt, de trache cache kan maximaal 3 microOps per klokcycle voeden!!!!

Er zit dus een complete double pumped ALU voor niets in die P4, ze hadden hem net zo goed weg kunnen laten.... dit is toch wel het toppunt!!!
Ik denk dat intel straks dit soort dingen gewoon gaat "activeren" ofzow om zo op het oude design toch nieuwe dingen te doen enzo weer een nieuw type CPU ofzo te lanceren.
Je vergeet ( en de schrijver van het artikel ook) dat veel instructies meer dan één klokcyclus nodig hebben om verwerkt te worden. De ALU's halen die vijf microOps per cyclus alleen als ze instructies krijgen die in een kloktik te verweken zijn.
severely crippled
ok, hij is niet echt supersnel enzo, maar severely crippled... daar zet ik toch mijn vraagtekens bij.
Ik heb het artikel toevallig ook gelezen omdat iemand mij erop wees....

Ik vond het een intressant artikel en er staan een aantal dingen in waarvan je denkt: '"waar zijn ze mee bezig daar bij intel????"

Het stuk over de P4 was dan misschien wel heel erg negatief voor de P4, maar hij komt toch eigenlijk alleen maar met feiten op de proppen... dus wat dat betrefd valt de schrijver weinig te verwijten.
goh jij ook al?
* 786562 stefana3a
Het is misschien dan wel ggen volledig objectief artikel, maar feit blijft dat dit het zoveelste negatieve artikel over de P4 is en er tot op heden geen enkel echt positief artikel over is geweest. Dat zegt genoeg lijkt me....
Alles goed & wel, maar the bottom line is dat dit géén processor is die de schoonheidsprijs verdient.
Natuurlijk is het zo dat de P-Pro niet al te goed was, maar een zeer solide basis vormde voor de latere P-II en P-III, maar met de P-IV is dit een heel ander verhaal.
Toen de P-Pro gelanceerd werd, was het duidelijk dat we nog voor jaren aan de 32-bits architectuur vast zaten. Dat daar een einde aan komt is gevoegelijk bekend, zodat de P-IV nooit-en-te-nimmer een basis kan zijn voor volgende generaties. De IA-64 familie heeft weinig tot niets gemeenschappelijk met Intel's jongste telg. Mijns inziens heeft Intel deze processor voornamelijk op de markt gebracht om weer numero uno te zijn qua MHz'en, hetgeen de voor gemiddelde zelfbenoemde "deskundige" alleszeggend is.
Dit alles neemt natuurlijk niet weg dat het in potentie best een aardige chip is. Kijk maar naar de performance bij MPEG-4 encoding (mits er met ge-optimaliseerde programmatuur wordt gewerkt). Maar omdat de huis-tuin-en-keukengebruiker niet dagelijks met videocompressie e.d. aan de gang gaat, is het een chip voor een kleine doelgroep. Dat is zonde van alle ontwikkelingskosten die Intel erin heeft gestopt. Die kosten zullen terugverdiend moeten worden middels de Celeron-2 c.s. en dat is weer jammer voor al die al eerder genoemde huis-tuin-en-keukengebruikers.

* 786562 The
Waarom lees ik niks in die (terecht of onterecht) afkrakende artikelen van de P4 over de erg lange pipeline waar eerst zoveel om te doen was.
De keuze van intel was (ik ga een beetje kort door de bocht) voor multimediatoepassingen in plaats van nog snellere ofice aplicaties. Dit vond ik (indien goed uitgevoerd) een verstandige strategische keuze. Maar je leest er nu niks meer over.
Het is al overduidelijk dat de P4 niet de beste uit de pentium range is. en eigenlijk alleen maar een tussenstap is naar de nieuwe generatie net als Ppro en de PMMX tussen stappen waren naar de PII. aangezien ze heel veel dingen uit de P4 geschrapt hebben, zijn ze dus voorlopig nog niet bij de release van de volgende serie. Ze kunnen niet een serie overslaan waar ze veel research in hebben gestopt en willen er alsnog ff geld uit halen, wat dat betreft erg slim. Daarnaast zeggen de tests van de P4 al genoeg en kan je beter een TB kopen. In andere woorden de schrijver maakt een duidelijk punt.

En het klopt dat Intel zijn P4 core gebaseerd heeft op een design van weet ik veel hoeveel jaar geleden en ja daar laten ze helaas een steekie mee vallen
De P4 is juist een compleet nieuw design... ik denk dat je het artikel eens daadwerkelijk moet gaan lezen.
de huidige PIII is nog steeds gebaseerd op de PPro (net als de Celeron en PII).
Klopt, maar nieuw wil niet altijd zeggen dat het beter is, het was voor Intel handiger geweest om nog even door te gaan op het oude design en zich niet gek te laten maken door AMD en gelijk maar de P4 uit te brengen.

* 786562 IMME
P4 is op nieuw gedesigned jawel.. echter de core werkt hetzelfde als de eerste pentium hij is alleen geoptimaliseerd en er zijn veranderingen aangebracht.. Intel zal de naam alleen veranderen als de core opnieuw gedesigned was...
Volgens mij kunnen ze niet zomaar een compleet andere core bedenken ivm de huidige software de (denk ik) dan raar gaat doen. Het is maar een gedachte hoor, ik kan er volledig naast zitten.
een verschil een Ppro en een Pmmx zijn allebei sneller als hun voorgangers..

niet alleen sneller in mhz maar ook in preformance..
niet alleen meer mhz zoals een p4..

Greetz Roger
Dit geeft wel aan dat Intel zich opmaakt voor een andere aanpak, waarbij ze misschien bij een software mode minder fps halen, maar dat doe je toch met je 3D kaart, maar juist zich gaan richten op werk dat dadelijk wel van de processor wordt verwacht.

DVD rippen is een leuk voorbeeld, het is iets dat je niet door iets anders kunt laten doen, dit moet de processor doen.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True