Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 34 reacties

Op het forum van Xtreme Systems zijn benchmarks van de komende Bloomfield-processor verschenen. Een gebruiker van het forum heeft de Nehalem-cpu in Super Pi, wPrime en Cinebench getest en screenshots van de resultaten gepost.

De gebruiker, die op het forum van Xtreme Systems onder de bijnaam 'JCornell' schuilgaat, heeft een Bloomfield-processor met B0-stepping aan diverse benchmarks onderworpen. In het programma Super Pi, dat het getal pi tot op 32 miljoen cijfers achter de komma kan berekenen, werden twee verschillende benchmarks gedraaid. Zo wist de processor 1 miljoen decimalen van pi in 13,969 seconden te berekenen, terwijl het berekenen 32 miljoen decimalen 13 minuten en 35,813 seconden in beslag nam.

Intel Bloomfield gebenchmarkt in Super PiIn wPrime, dat ook het getal pi kan berekenen, had de geteste Bloomfield maar 9,218 seconden nodig om pi op 32 miljoen decimalen nauwkeurig te berekenen. Dit komt echter doordat wPrime een zogenoemde 'threaded benchmark' is, wat inhoudt dat alle threads - in dit geval 8 stuks - aan het werk gezet worden om pi te berekenen. Super Pi gebruikt daarentegen ťťn thread. Het berekenen van pi op 1024 miljoen decimalen nam 4 minuten en 48,937 seconden in beslag.

De geteste Bloomfield-cpu maakt deel uit het van Nehalem-platform, dat eind dit jaar moet verschijnen. De op 45nm gebakken processor draait op een snelheid van 2,93GHz en is voorzien van 4 kernen met ieder 2 threads - in totaal dus 8 threads. Verder heeft de Bloomfield 8MB l3-cache en ondersteuning voor Quickpath aan boord, en verstookt de processor 130 watt.

Moderatie-faq Wijzig weergave

Reacties (34)

Super Pi [..] 1 miljoen decimalen van pi in 13,969 seconden [..] 32 miljoen decimalen 13 minuten en 35,813 seconden
Lineair schalend van 1 naar 32 miljoen zou 7 minuten en 27 seconden op moeten leveren. 13m 35.813s lijkt me dus absurd lang?
wPrime: [..] 9,218 seconden nodig om [..] 32 miljoen decimalen [..] te berekenen. Dit komt [..] doordat wPrime een zogenoemde 'threaded benchmark' is, wat inhoudt dat alle threads - in dit geval 8 stuks - aan het werk gezet worden [..]
Als een benchmark 32x zoveel decimalen in minder tijd uitrekent, dan is dat niet alleen toe te schrijven aan de 8 threads of cores, omdat dat hooguit een 8x betere prestatie oplevert en meestal een mindere.

Kortom: getalletjes die alleen maar vragen oproepen en geen nieuws brengen.
Het is hier en daar bekent dat Super pi niet per se de efficiŽntste is in het uitrekenen van Pi maar het is wel een soort van standaard net zoals pcmark en 3dmark etc.

Verder is het uitrekenen van meer decimalen niet iets wat lineair door te rekenen is, hoe verder je achter de komma gaat des te meer tijd het in neemt.

Verder zijn deze gegevens wel zeker nuttig, run super pi bijvoorbeeld even op jou pc en zie het verschil. Er is natuurlijk nog veel meer aan die cpu te testen (pi berekenen is maar erg beperkt daarin) maar het geeft toch al een indicatie op een klein gebied.
@drie reageerders:
Om de volgende term in een algoritme bij de vorige op te tellen, zullen vele lees-schrijf operaties naar L1 en L2 cache plaats moeten vinden, omdat de CPU uiteindelijk maar eenheden van 32 bits tegelijk verwerkt. Uitwisseling van een miljoen decimalen in de cahce met het RAM geheugen hoeft echter maar een zeer klein aantal keren te gebeuren. Dat snelheidsverschil is dus niet zo relevant?

Het zal inderdaad gewoon aan de non-lineariteit van het algoritme liggen. Ik dacht dat er een O(n) algoritme voor het berekenen van decimalen van pi was, maar dan blijkt helemaal niet zo te zijn.
1 m past in het cache geheugen 32m niet. Dat swappen leverd ook vertraging op.
SuperPi 32M zal met een grotere dataset werken en daardoor niet meer (bijna) volledig uit het cache kunnen draaien zoals de 1M-versie. Dat verklaart makkelijk waarom het niet linear schaalt.

wPrime zal wel een ander algoritme gebruiken dan SuperPi.
Precies, wat doen andere -bijvoorbeeld huidige- top-processoren, om een vergelijking te kunnen maken?

[Reactie gewijzigd door OcNewB op 23 juni 2008 17:20]

Mijn E8400 (stock) doet er op:

1m.....16 sec. over

Met Super PI
Om een miljoen decimalen te berekenen ?
Wat geeft hij met 32 miljoen decimalen ?

Hier heb ik een lijstje opgesteld, ondertussen v1.2, met nieuwe resultaten en fixes:

Pentium III coppermine 1GHz, met SuperPI:

1 Miljoen decimalen: 2 minuten en 38 seconden
32 Miljoen decimalen: 2 uur 12 minuten 23 seconden (!)

Pentium III coppermine 1GHz, met wPrime:

32 Miljoen decimalen: 3 minuten en 58 seconden (!)

Athlon64 X2, 4600+, 2.4GHz, met wPrime:

32 Miljoen decimalen: 38 seconden 64 miliseconden

E8400 stock, met SuperPI:

1 Miljoen decimalen: 16 seconden
32 Miljoen decimalen: 16 minuten 8 seconden

E6600 3.6GHz, met wPrime:

1 Miljoen decimalen: 12 seconden en een beetje

Bloomfield, met SuperPI:

1 Miljoen decimalen: 13,969 seconden
32 Miljoen decimalen: 13 minuten en 35,813 seconden

Bloomfield, met wPrime:

32 Miljoen decimalen: 9,218 seconden

Wordt vervolgd ;)

[Reactie gewijzigd door Petervanakelyen op 23 juni 2008 19:59]

Het gaat hier om 1 Miljoen (zoals aangeven met 1m ) en berekening voor 32 Miljoen decimalen: 16 minuten en 8 seconden.

De berekeningen zijn wel gedaan met SuperPi.
:)
Bedankt, lijstje is bijgeschaafd, veel succes met je proc, die doet er zo maar eventjes bijna 2 uur minder lang over dan m'n Pentium III :)

Gelukkig heb ik nog wel iets beter staan...
zijn dit goede resultaten?
Dat is nu juist het voordeel van dit soort resultaten, is dat je ze gemakkelijk met je eigen systemen kan vergelijken.

1.7Ghz single-core Dothan B1 werkstation draait wPrime hier in 109,121 seconden.
X2 4000+ dual-core doet het in 42,312 seconden.

Dit is met wPrime v1.63 en kan je dan goed vergelijken met de 9,218 seconden die de Bloomfield er voor nodig had. Het zegt echter niks over andere programmatuur, en je kan alleen puur op wPrime (en de onderliggende instructies) een vergelijking maken.

Aangezien wPrime dus ideaal opschaalt op meerdere cores, moet je het dus in vergelijking zetten met andere programmatuur die ideaal opschaalt. Maar daarom is het dan weer handig dat de SuperPi waarden er ook bijstaan, omdat die namelijk puur op 1-core draaien. Op die manier kan je dus zowel single-threaded applicaties (de meeste spelletjes) een beetje vergelijken, en multi-threaded applicaties met wPrime.

Het is voor iedereen anders, mijn 1.7Ghz Shuttle XPC box doet het nog steeds prima als werkstation, echter mijn PVR is toe aan een zware upgrade, omdat ik steeds vaker met HighDef streams aan het spelen ben. Het is dan voor een toekomstige upgrade handig om zonder aanschaf te kunnen kijken hoe een AMD Phenom 9600 van $169 zich weerhoud tegen een Intel Q9450 van $329. Aangezien beide CPUs al ruime tijd beschikbaar zijn is het gemakkelijk om een site te vinden die een benchmark heeft gedraaid om die twee te vergelijken in H.264 en DivX prestaties.

Echter als ik dan tevens wil weten of het verstandiger is om op de Bloomfield te wachten als ik dan toch $329 ga uitgeven voor een Q9450, en er zijn nog geen H.264 en/of DivX prestatie benchmarks te vinden, dan is het ideaal om van deze wPrime gegevens gebruik te maken, omdat H.264 transcoding zich goed schaalt op meerdere cores.

PS: Het blijft voor iedere gebruiker een overweging tussen budget en doel. Ik ga namelijk vermoedelijk zelf voor een Phenom 9600 upgrade, ook al is ie veel trager dan de Intel CPUs met SSE4.x, maar de prijs/prestatie verhouding ligt veel hoger. Tevens gok ik erop dat Toshiba begin volgend jaar met commerciŽle verkoop van hun Cell PCI (en/of PCI-Express) kaartjes gaat beginnen. Die zijn namelijk nog beter in H.264 encoding dan deze Bloomfield en zouden tussen de $50 en $100 gaan kosten.
Ja, het wereldrecord SuperPi 1M ligt rond de 9 seconden, dat is met een Core 2 Duo op bijna 6 GHz.

Maar SuperPI is niet echt relevant, en geen goede indicatie voor de snelheid. Je doet alleen wat integer-berekeningen waarbij de data in het geval van een Intel CPU ook nog eens volledig in de cache past.

edit: SuperPI is trouwens ook niet multi-threaded, dus je test slechts 1 core, en niet de scaling met multi-core CPU's.

[Reactie gewijzigd door Avalaxy op 23 juni 2008 17:20]

Niet overdrijven he, een Core 2 Duo op 6GHz haalt wel minder dan 8 seconden in SuperPI 1M en niet rond de 9 seconden.
Neemt niet weg dat dit een hele verbetering is. Alleen schijnen deze processors heel wat minder goed te overklokken dan de huidige C2D reeks. :)
Het wereldrecord ligt op 7,4 sec, net boven de 6ghz clocksnelheid.
Dat ze minder overclocken is denk ik gebaseerd op een nieuwsbericht van fudzilla, welke ook alweer is weerlegd, zo gaat dat met geruchten. Nobody knows for sure.

Het is afwachten belazen om te kijken of deze cpu's lekker overclocken.
Inderdaad, je kan sowieso weinig zeggen over de overclockbaarheid voorlopig want de eerste samples clocken vaak ook slechter dan de retail versie's.
(Dat ligt vaak ook aan CPU optimalisaties en compatibiliteit van het moederbord/BIOS wat nog verbeterd word).
Ok hier een linkje naar een site met superPi benchmark results: http://whirlpool.net.au/wiki/?tag=pcb_spi
Als je het puur de kloksnelheid afzet tegen de resultaten dan doet onze Bloomfield het ongeveer net zo goed als een Core2 op 3800MHz.
Met andere woorden, single-threaded lijkt de Bloomfield toch ook nog bijna 20% sneller. Dat vind ik opmerkelijk goed, vooral omdat de geintegreerde memory controller bij deze test ook minder belangrijk schijnt te zijn (alles schijnt uit de cache gehaald te kunnen worden) ..
Multiplyer van 22x en een bus speed van 133,3mhz? Klopt dit? want het is een hele verlaging.

edit: Komt natuurlijk omdat ze de fsb vervangen hebben. Ik dacht al :p

[Reactie gewijzigd door svenk91 op 23 juni 2008 17:44]

lol L3 in plaats van grote L2, dus die L3 is extern neem ik aan?
maakt het moeilijker om te overclocken.
waarom zou een L3 cache extern liggen?

Volgens mij is dit omdat de L3 toegankelijk is voor alle cores, L2 niet (dat is het voordeel dat AMD heeft met zijn direct interconnects).

En zoiezo, extern cache geheugen, wat is dan nog je voordeel ten opzichte van ram?
het is inderdaad meer als phenom.
l1 l2 en l3 cache .
Dat is best snel maar ik dacht dat Intel de FSB zou dumpen en net zoals AMD de memorycontroller in de CPU wilde plaatsen.
Daardoor heb je die belachelijk grote cache ook niet meer nodig en blijft je CPU een stuk koeler.
Waar wordt dat tegengesproken dan?

Het L2/3-cache is overigens doorgaans het koelste en zuinigste deel van een chip.
Die FSB wordt ook gedumpt maar dat betekent nog niet dat CPUz het gelijk een goede naam geeft. Kijk eens naar de snelheid van die bus en de multiplier, als dat de standaard FSB van een Intel processor, dan zijn ze wel heel raar bezig.

En verder kan een Cache nog steeds veel nut hebben, ook met een directe link naar het geheugen. Er is vast wel een optimumkromme erbij te tekenen maar ik denk dat ze nog niet bij het keerpunt zijn gekomen daarvan.
Die 133MHz is de basisfrequentie, alles draait op een veelvoud hiervaan, zoals de CPU met een multiplier van 22.

De "rated FSB" hoort inderdaad niet meer thuis bij de info...

[Reactie gewijzigd door knirfie244 op 23 juni 2008 22:49]

Overclockpotentieel Nehalem nog onbekend?
Ik weet niet waar jullie het idee krijgen dat wPrime het getal pi berekent...Op de website (wprime.net) zegt ie toch duidelijk dat het de square root (wortel) van grote getallen berekent.
Wprime (Multi-thread Pi berekening):
When I did my back of the envelop calculation, I used the 32M numbers... so here is what I get...

For Nehalem @ 2.93G
32M = 9.218 Secs
For Yorkie @ 2.93G
32M = 13.859

This translates to a increase in speed of 50.3% (these are time to complete so you need to take [(1/slower)-(1/faster)]/(1/slower) to calculate the actual rate, or you could convert into digitis per second and then it calculates out like FPS in game).

For Nehalem @ 2.93 G
1024M = 288.937
For Yorkie @ 2.93 G
1024M = 439.39

This translates to about 52% speed improvement.

This is estimated because I am using 1.58 Wprime, JC is using 1.55 Wprime.

Jack
Bron: http://www.xtremesystems....p?p=3076107&postcount=162

:9~

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True