Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 19 reacties
Bron: Real World Technologies

Paul DeMone van Real World Technologies heeft een artikel gepost over de performance van de Pentium 4. Wie het levensverhaal van de Pentium 4 heeft gevolgd, zal zich kunnen herinneren dat Paul DeMone en Hans de Vries dit voorjaar als één van de eersten de Pentium 4 architectuur 'reverse-engineerden'. Dit werd gedaan aan de hand van de beperkte gegevens die bekend werden gemaakt op het Intel Developer Forum. Terwijl Hans de Vries reeds in mei voorspelde dat de AMD Mustang sneller zou zijn dan de Willamette, bleven de verwachting van Paul DeMone tot het eind toe erg positief. Ook de tegenvallende benchmarkresultaten van P4 engineering samples konden hem niet op andere gedachten brengen. Inmiddels is duidelijk dat de performance van de Pentium 4 met de huidige generatie ongeoptimaliseerde software op veel terreinen achter blijft bij de Athlon en (soms) Pentium III.

In het P4 performance artikel maakt Paul gebruik van de officiële Pentium 4 SPECint2000 en SPECfp2000 resultaten om de prestaties en schaalbaarheid van de P4 en PIII te vergelijken. Het probleem met deze vergelijking is het (onrealistisch) 'brede' geheugen gebruik van de SPECfp2000 benchmark, waardoor de snelheid van de FSB en geheugenbus een grotere invloed op de resultaten heeft dan de eigenlijke snelheid van de FPU units. Volgens SPECfp2000 heeft de 1,5GHz Pentium 4 een 77,8% hogere FPU performance dan een 1GHz PIII op een i820 plank. De FPU benchmarks van Ace's Hardware en Ome Tom geven echter een totaal ander plaatje, in sommige gevallen is de P4 zelfs trager dan een 50% lager geklokte PIII. Zolang applicaties zoals 3D Studio Max, Povray en Truespace. een veel negatiever beeld scheppen van de P4 prestaties is het sterk twijfelachtig of SPECfp2000 wel representatief is voor real world floating point performance.

De geëxtrapoleerde SPECint2k scaling grafiekjes van Paul DeMone geven bewijs van de betere schaalbaarheid van de Pentium 4. Op lage kloksnelheden is de IPC (Instructions per Clock) van de P4 weliswaar lager dan de PIII, maar het verschil wordt kleiner naarmate de kloksnelheid stijgt. Het break-even punt ligt op ongeveer 1,8GHz. Kortom: de PIII heeft dankzij z'n kortere pipeline een hogere IPC, maar wordt dwars gezeten door een trage bus. 1,8GHz is bovendien nogal onrealistisch omdat Intel waarschijnlijk meer nodig heeft dan hun nieuwe 0,13micron koper-interconnect procédé om uberhaupt deze snelheid te bereiken. Ondanks een trucendoos vol geavanceerde technologiën zoals de trace cache en dubbel gepompte ALU's heeft de Pentium 4 een lagere IPC, maar bereikt hij wel veel hogere kloksnelheden dankzij de lange pipeline. De schaalbaarheid is beter dankzij de dikke busbandbreedte:
As the P4 begins the long frequency scaling process ahead of it, more and more P4 optimized applications will become available and its appeal will quickly broaden. With an expected shrink to a 0.13 um process in the second half of next year, the P4 will likely be an extremely competitive product that will soon leave the PIII in the dust and relegate it to spending its twilight years in portable PC compatible applications. Although the nature of the AMD x86 processors that the P4 will compete against in the coming years is uncertain, it is apparent that AMD will be hard pressed to retain the unprecedented level of competitiveness versus Intel they have enjoyed since the introduction of the K7 family. The only certainty in the upcoming round of competition is that PC buyers will be among the winners.

Pentium 4 vs PIII SPECint2000 scaling

Historisch gezien zijn de prestaties van een nieuwe generatie Intel architectuur overigens altijd tegenvallend geweest. De eerste 5V Pentiums deden het slecht op 486 code omdat deze code geen rekening hield met de twee ALU's van de P5. De Pentium Pro was geoptimaliseerd voor 32-bit code en presteerde daardoor tegenvallend onder Windows 3.1x en Win95. AMD volgde bij de ontwikkeling van de K7 de strategie om de architectuur te optimaliseren voor P6 code, waardoor de Athlon van meet af aan hard kon fietsen.
Moderatie-faq Wijzig weergave

Reacties (19)

Even over SPECfp2000, mijn ervaring is dat deze wel degelijk een goede benchmark is, en helemaal niet biased naar breed geheugengebruik. Ik heb zelf benchmarks gedaan op een aantal CPU's, en die schaalden wel degelijk prima met de SPECfp2000. Alleen als de geheugenbandbreedte echt een rol speelt (zeg een rekensommetje van 4GB memory), dan liepen de resultaten niet meer in de pas met SPECfp2000.

Mijn mening is dat om goede resultaten op een P4 te krijgen, je waarschijnlijk andere compileroptimalisaties moet instellen. Want reken maar dat Intel voor de SPECfp2000 benchmarks alles uit de kast heeft gehaald om die zooi zo efficient mogelijk te draaien, terwijl de mensen van de bovengenoemde applicaties hetzelfde deden, maar dan voor de P3. De geobserveerde verschillen in gedrag van de P3 en P4 geven trouwens aan dat de FPU's van die helemaal niet hetzelfde kunnen zijn.

Begraaf die P4 nou niet meteen, maar wacht effe af...
Yep. Een jaar of anderhalf geleden stond er in de C!T een uitgebreid vrhaal over SPEC. Als een gebrekkig punt van de SPEC95 suite wer toen beschouwd dat die teveel leunde op pure CPU power, wat met het groeiende prestatie-gat tussen processor en geheugen een steeds minder reeel plaatje gaf. Dit is in SPECfp 2000 veranderd.
Belangrijker dan de keuze van compiler-opties is trouwens de keuze van de compiler zelf. Zo maakt de Alpha in de meeste tests gahakt van de Pentium 3, maar alleen als je Compaqs eigen compilers gebruikt.
Da's op zich logisch.
Als je naar de assembleertaal kijkt naar Alpha zie je ontzettend veel optimalisatiemogelijkheden op assembly-nivo. Nog meer dan bij Intel, omdat de instructieset van de RISC eenvoudiger in elkaar zit, maar toch flexibeler is.

Voorbeeld:
Je kunt in een instructie soms best veel doen, zo bevat de Alpha een instructie die de waarde van een bepaald register met 4 (of 8) vermenigvuldigd en daar een ander register bij op telt. Deze handeling komt heel vaak voor bij het lezen van een bepaalde waarde uit een bepaalde geheugenplek. Bij een Intel-achtige CPU heb je daar minimaal 2 instructies voor nodig.
Als een compiler hier niet op optimaliseert, loop je performance mis.

Dit geldt trouwens voor elke RISC-processor..
Wat ik me meer afvraag is wat de maximum clock van de P4 kan worden (dat versta ik tenminste onder schaalbaarheid). Dat is echter iets wat de toekomst zal moeten bewijzen.

Vaag vind ik wel dat SPECfp2000 gebruikt word. Het is overduidelijk dat de geheugen snelheid daar een te grote invloed heeft.
Dit neem overigens niet weg dat iedere test op dit moment niet representatief is. Zodra de testsoftware (games en benchmarks) geoptimaliseerd zijn voor de P4 word het langzaam aan tijd om het iets serieuser te nemen.


/em koopt voorlopig nog geen Intel CPU. AMD gaat er bij hem als volgende in !

/em kijkt verrast... first post :o
Schaalbaarheid betekent simpel gezegd de mate waarin een sneller geklokte CPU voor betere resultaten zorgt.

Overigens is SPECfp2000 juist ontworpen om de rol van het geheugen een meer prominente plaats te geven, vergeleken met SPECfp95.

Ik vind het alles bij elkaar toch indrukwekkend.
Sluit ik me bij aan,
het is duidelijk dat Intel toch nog aardig wat in die P4 heeft gestopt.
Ze gaan AMD er misschien niet mee verslaan, maar tot nu toe zien de berichten er niet helemaal negatief uit.
(Bij de P3 was zeer snel duidelijk dat de 1,13GHz gewoon niet haalbaar was)
Volgens simulatie programma kan de snelheid in de toekomst van deze proc oplopen tot 6 Ghz !! Ik heb het artikel gelezen en sluit me daar volledig bij aan. Bij 1.8 Ghz verwacht hij een omslag punt. Ik verwacht deze eigenlijk bij 2 Ghz dan zijn de 20 Pipelines evenredig met de 10 van een 1 Ghz P3.
Een simulatie is heel wat anders dan echte sillicon.
Dus dat zegt ook weer niets... theoretisch wel, theoretisch gezien kon de P3 ook wel 1,133Ghz aan.

AMD haalt theoretish ook wel 3Ghz... met huidige ontwerp...
Je begrijpt het niet helemaal.. Op een gegeven moment stijgt de performance amper/nauwelijks. Dat is waar het hiet over gaat. De p3 kan ook wel tot 3 Ghz in tegenstelling wat jij beweert. Dat die 1.133 niet aan kon had gewoon met de hitte te maken. Een P3 op 0.15 um kan dat makkelijk aan en nog wel veel hoger ! Die 6 ghz is de grens waar de performance stijging omlaag gaat en het eigenlijk niet meer interessant is om op de huidige techniek door te teren.
Je begrijpt het niet helemaal..
Mijn reactie was op zijn eerste zin.
Die 6 ghz is de grens waar de performance stijging omlaag gaat en het eigenlijk niet meer interessant is om op de huidige techniek door te teren.
Ja Theoretisch. Praktisch ligt het hoger of lager afhankelijk van wat je met "huidige techniek" doelt.

Een P3 met 6 ALU's op 3Ghz red het ook wel, het is gewoon puur afhankelijk wat je neemt ter referentie.
Of pleur 2MB cache on die, heeft ook invloed.

Er zijn tal van manier om je IPC te verhogen met "huidige" technologie. het is gewoon onzin om zoiets te zeggen. Anders moet je gelijk een nieuwe architectuur nemen. x86 is ook zwaar verouderd.

Theorie en praktijk is totaal anders.
Als Intel de FSb kan verhogen naar 133 (is nu 100)
dan kan de snelheid nog wel oplopen.

Reken de Reken
1600/100= Multipla van 16
is dus
16*133= snelheid van 2128 oftewel 2.1GHz

Ik wacht het allemaal nog ff af voordat ik mijn p3 ga Jansen.... :Z

En dat is dan bij de huidige snelheden....
toekomstige snelheden kunnen natuurlijk nog verder omhoog B-)
En als AMD een multiplier van 100 maakt dan kan de Tbird zeker ook nog wel naar 26,6GHz?

Zo steekt de wereld niet in elkaar.
En als AMD een multiplier van 100 maakt dan kan de Tbird zeker ook nog wel naar 26,6GHz?
Waar komt die brandlucht ineens vandaan?
op dit moment is multi van 16 een feit......
en oon (een dus) 133 MHz bus ook
:Y)


* wanneer komt er eens iemand met een auto spel check.....
De p4 draait op een 400 Mhz bus :) Waarbij 2 modules Rambus zijn parallel geschakeld :) 16 * 400 :) dat is wat jij denkt
Caddy een P4 draait NIET op 400 MHz

Er gaat wel 4x data over maar de FSB is nog steeds
100MHz.
Als je niet weet hoe het werkt moet je maar eens aan 1x AGP, 2x en 4x denken.
Dan krijg je een IDEE hoe het werkt.....

En vertel me niet hoe het moet, ik weet als EMEA
Trainer en Intel CPU Beta Tester wel het eea over PC's en FSB's

BTW Rambus Parallel???
Volgens mij Serieel

Contact me maar ff op ICQ, zal ik het ff uitleggen ;-)
'Wizkid', je hebt gelijk voor wat betreft de FSB (100x4=400). Maar Rambus loopt via dual-channel, dus parallel lijkt mij :). Daarom moet je ook altijd paarsgewijs reepjes aanbrengen, dus 2 of 4 en niet 1 of 3.
The first new feature seen by code or data as it enters Pentium 4 is the new system bus. The well-known 'FSB' of Pentium 3 is clocked at 133 MHz and able to transfer 64-bit of data per clock, offering a data bandwidth of 8 byte * 133 million/s = 1,066 MB/s. Pentium 4's system bus is clocked at 100 MHz and also 64-bit wide, but it is 'quad-pumped', using the same principle as AGP4x. Thus it can transfer 8 byte * 100 million/s * 4 = 3,200 MB/s. This is obviously a tremendous improvement that even leaves AMD's recently 'upgraded' EV6-bus quite far behind. The bus of the most recent Athlon's is clocked at 133 MHz, 64-bit wide and 'double-pumped', offering 8 byte * 133 million/s * 2 = 2,133 MB/s.

The new bus of Pentium 4 enables it to exchange data with the rest of the system faster than any other x86-processor. However, the fastest processor bus doesn't help much unless the system's main memory can deliver data at an according pace. Intel's new 850 chipset for Pentium 4 is using two Rambus channels and RDRAM. These two RDRAM channels are able to deliver the same data bandwidth as Pentium 4's new bus (3,200 MB/s), making them a perfect match. This constellation enables Pentium 4-systems to have the highest data transfer rates between processor, system and main memory, which is a clear benefit.
Cookie,
Dat is niet helemaal waar.
Je kan er per stuk reepjes bij zetten.
Ivm met load's e.d. kun je beter je geheugen per kanaal verdelen.
(256mb word dus 128mb per channel)
Parallel heeft hier echt helemaal NIX meer mee te maken. ;)
Het enige wat ik weet wat in paren gaat is simm's...
Dimm gaat per stuk en Rimm ook.
Het enige "vreemde" is dat je een RimmRAM bus altijd moet laten continuen dus daar heb je crimm's voor.

Nog meer vragen??
Intel gokt duidelijk op toekomstige applicaties met zijn SSE2.

De huidige benchmarks laten dus ook niet het volledige potentieel zien van de P4.

FPU scores zijn het ergst omdat intel de x87 van de P4
een beetje verwaarloosd heeft om SSE2 mogelijk te maken.

Mijn conclusie is dan ook dat de P4 waardeloos is voor huidige applicaties (behalve Q3 :+ ) en ook veel te duur is om nu te kopen.

Ik wacht liever af wat de resultaten zullen zijn wanneer SSE2 volledig wordt ondersteund.
Ik moet wel zeggen dat ik het jammer vind dat Intel de x87 heeft verwaarloosd, de processor is immers NU uit maar voor huidige applicaties heb je er niet veel aan imho.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True