Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 140 reacties

De in 2011 te introduceren Bulldozer- en Bobcat-processors waren lange tijd onderwerp van speculatie, maar tijdens Hot Chips 22 heeft AMD eindelijk details over de nieuwe architecturen vrijgegeven.

De op prestaties gerichte Bulldozer-architectuur is bedoeld voor desktops, servers en high-end notebooks. De eerste Bulldozer-processors zouden door GlobalFoundries op 32nm worden geproduceerd en aanvankelijk voor de servermarkt worden gemaakt; desktop-cpu's zouden later volgen. Het zou gaan om processors met vier tot zestien cores, terwijl de sockets en tdp's gelijk zouden zijn aan die van de huidige Magny-Cours-serverprocessors.

De processors zijn opgebouwd uit modules van twee cores. Deze cores hebben hun eigen L1-cache en integer scheduler, maar delen het gros van de overige logica. De L2-cache is gedeeld binnen de modules, terwijl de L3-cache en de geheugencontroller door verschillende modules worden gedeeld. Elke core heeft vier integer-pipelines, een gedeelde floating point scheduler en twee 128bit-fmac's, die ook als een enkele 256bit-fmac dienst kunnen doen en die de nieuwe fma4-floating-point-instructies kunnen uitvoeren.

Een extra core zou op moduleniveau slechts twaalf procent extra silicium vergen; op processorniveau is dat zelfs maar vijf procent. Dankzij de modulariteit en de gedeelde logica zouden de prestaties van de Bulldozer-processors tot vijftig procent hoger kunnen zijn zonder dat de complexiteit en de kosten te groot worden. Ook het energieverbruik en de warmteontwikkeling zouden opmerkelijk laag zijn.

Een interessante eigenschap is dat de modules transparant voor het besturingssysteem zouden zijn, zodat verschillende cores tegelijk aan een enkele thread kunnen werken. Daarmee zou AMD een concurrent voor Intels HyperThreading hebben ontwikkeld.

Bulldozer-processor

Ook van de Bobcat-architectuur zouden in 2011 de eerste op 32nm geproduceerde processors verschijnen. Deze Ontario-cpu's zouden een geïntegreerde videochip en dito geheugencontroller hebben en worden door AMD daarom apu genoemd. De zuinige Ontario is ontworpen voor laptops, netbooks en nettops.

Volgens AMD zouden de Bobcat-cpu's per core minder dan 1W verstoken. Anders dan de Atom-processors van Intel, die een vergelijkbare markt bedienen, ondersteunen de Ontario-apu's out-of-order instructies, wat ze significant sneller zou maken. Een Bobcat-core bestaat uit zes pipelines: twee voor integerberekeningen, één load-pipe, één store-pipe en twee floating point-pipelines. Elke core heeft zijn eigen L1- en L2-cache, maar de geheugencontroller, de gpu en overige componenten zoals de systeembussen worden weer door de cores gedeeld.

Ontario-apu met Bobcat-cores
Moderatie-faq Wijzig weergave

Reacties (140)

Voor +5% die size krijg je Hyper-threading bij Intel en voor +12% krijg je bij AMD een tweede integercore. 2 threads moeten wel een floating point core delen, maar zware floating point berekeningen worden toch naar de GPU verplaatst. Over een jaar kunnen we 2 cores voor de prijs van 1 verwachten.

Ontario (zit op 88% integer en 85% floating point van Athlon II X2 250u 1,6 GHz) gaat alles onder Athlon 64 X2 3800+ (daarmee maakten consumenten kennis met dualcore in 2005) decimeren. Atom's, Pentium 3's, Pentium 4's, CULV laptops, netbooks, nettops,... kunnen allemaal door een 20 à 30 W TDP bakje vervangen worden. Voor een werkplek zou je nog een 30 W monitor erbij kunnen tellen om bij 60W TDP te eindigen. Het gemiddeld verbruik van een werkplek kan gemakkelijk onder 40 W gaan. De overheden zouden AMD's "spaarlamp-computer" kunnen promotoren. Je kan zelfs passief gekoelde computers zonder bewegende onderdelen maken om het echt onderhoudsvrij te krijgen.

[Reactie gewijzigd door rapture op 24 augustus 2010 17:48]

2 threads moeten wel een floating point core delen, maar zware floating point berekeningen worden toch naar de GPU verplaatst.
Intel denkt daar helemaal anders over. Zij gaan net de vectoren tot 256 bits uitbreiden met AVX.

Vergeet niet dat deze SIMD-eenheden niet louter floating-point berekeningen uitvoeren, maar ook algemene vectorbewerkingen met gehele getallen. Doorsnee code kan hier dus ook veel voordeel uit halen. In het bijzonder door lussen te paralleliseren.

Ik vrees dat AMD hier aan het korste eind zal trekken. De prestaties, betrouwbaarheid en featureset van GPUs ligt te ver uiteen om voor ontwikkelaars als interessant alternatief gezien te worden. Het vergt bovendien heel grote inspanningen om code van de CPU op de GPU over te zetten en goede prestaties te behalen.

Intel's aanpak is juist om via kleine aanpassingen de rekenkracht van de GPU naar de CPU te brengen, waar ontwikkelaars veel opener voor staan.

Trouwens, de double-precision rekenkracht van GPUs is nog erg laag. De pas gereleaste GeForce GTX 460 moet het met 76 GFLOPS doen, terwijl een quad-core CPU met AVX meer dan 100 GFLOPS haalt. De keuze is dan snel gemaakt.
Moet ik wel de opmerking bij plaatsen dat AMD ook 256 bits AVX berekeningen kan doen met een unit.

stukje van anandtech: The FP scheduler has four ports to its FPUs. There are two 128-bit FMAC pipes and two 128-bit packed integer pipes. Like Sandy Bridge, AMD’s Bulldozer will support SSE all the way up to 4.2 as well as Intel’s new AVX instructions. The 256-bit AVX ops will be handled by the two 128-bit FMAC units in each Bulldozer module.

Ik vermoed ( speculatie ) dat dit een overblijfsel is van het geschil dat de twee hebben opgelost.
Klopt, maar Sandy Bridge heeft per core een AVX eenheid (eigenlijk twee halve) terwijl Bulldozer per core slechts een halve AVX eenheid heeft. Dus je moet eerder een Bulldozer module als core beschouwen, bestaande uit twee semi-cores.

Daarmee is een Bulldozer octa-core eigenlijk eerder het equivalent van een Nehalem quad-core met Hyper-Threading.
1 bulldozer core = 1 Sandy Bridge thread. AMD gaat cores uitspelen tegen intel threads.
dus een 4cored/8threaded sandy core komt tegenover een 8cored Bulldozer te staan.


Bulldozer Fpu kan simultaan 2*128 aan dus
core1 256bit
core2 niets

core1 128bit
core2 128bit

core1 niets
core2 256 bit.

edit: fpu is dus vrij gelijkaardig tussen core/thread of module/core.

[Reactie gewijzigd door Devpartner op 25 augustus 2010 17:01]

De strijd om de marktacceptatie is inderdaad iets anders dan de GPU-euforie. Het is gemakkelijker om nieuwe functionaliteit in een processor bij de klant te krijgen dan de klant duidelijk maken dat je nog een "gamerskaart" nodig hebt.

Om GPU's bij klanten binnen te krijgen, worden ze in samen met processorcores op een APU gezet. Vanaf het moment dat je overal de GPU-code kan draaien, dan kunnen ontwikkelaars meer GPU-code schrijven. Ook lastig dat er CUDA-code bestaat ipv een algemeen geaccepteerde taal dat op alle GPU's kan draaien.

Fermi Telsa M2050 GPU doet 1,03 Tflops single en 515 Gflops double precision, maar consumentenkaarten zijn op single precision gedeeld door 8 ingeperkt. Dat levert een GeForce GTX 480 met 168 Gflops double precision. Radeon HD 5870 doet 544 Gflops double precision, maar op een ATI draai je geen CUDA-code. Double-precision rekenkracht van GPU's zijn niet laag, maar nVidia castreert hun kaarten om te voorkomen dat mensen te goedkoop aan hogere rekenkracht geraken.

Het ziet eruit als het x64-verhaal. Het kost jaren voordat iets nieuw geaccepteerd wordt, dan kan Intel met AVX gemakkelijker ontwikkelaars overtuigen. Zeker als Bulldozer ook AVX ondersteunt.

[Reactie gewijzigd door rapture op 24 augustus 2010 19:17]

maar zware floating point berekeningen worden toch naar de GPU verplaatst.

Uhm. Nee
Echt nog lang niet.
zware floating point berekingen die multithreaded gemaakt kunnen worden zullen snel naar de GPU worden verplaatst als een programma daar zwaar op leunt. de performance winst die te behalen valt is namelijk gigantische.

en kan de floatingpoint niet multi-threaded gemaakt kunnen worden dan heeft AMD's nieuwe ontwerp toch weinig invloed op de performance ervan.

edit
Larie. De gemiddelde GPGPU applicatie verslaat pas een geoptimaliseerde applicatie voor de CPU wanneer men een high-end kaart gebruikt. En die vind je niet bij de doorsnee gebruiker.
hier valt nog veel winst te behalen met optimalisaties, en straks vind je zo'n GPU dus wel, bij alle AMD fusion CPU's ingebakken.
en is een factor 2 tot 5 niet gigansiche dan?

[Reactie gewijzigd door Countess op 25 augustus 2010 08:48]

...de performance winst die te behalen valt is namelijk gigantische.
Larie. De gemiddelde GPGPU applicatie verslaat pas een geoptimaliseerde applicatie voor de CPU wanneer men een high-end kaart gebruikt. En die vind je niet bij de doorsnee gebruiker. De winst met een high-end kaart is dan ook doorgaans slechts een factor 2-5. Met een mid-end of low-end kaart blijft daar niks van over.

Zowel Intel als AMD zijn nu goed op weg om de prestaties van de CPU te verdubbelen, per core/module, en dat kan nog eens verdubbelen met twee keer zo veel cores bij elk nieuw proces. GPUs daarentegen moeten steeds meer transistors investeren in caches en exotische bewerkingen, om meer generiek programmeerbaar te worden. Daardoor haalt de CPU de GPU dus eigenlijk lichtjes in.

Een van de grootste problemen met het inzetten van de GPU is de round-trip tijd. De tijd tussen het versturen van data en de taak die erop uitgevoerd moet worden, en het antwoord terug ontvangen, is veel groter dan dingen op de CPU uitrekenen. De GPU is eigenlijk verschrikkelijk slecht qua single-threaded prestaties. En het kleinste beetje afhankelijkheden tussen de taken kan er dus voor zorgen dat de GPU amper vooruit geraakt.
Offloaden naar de GPU is iets wat gebeurt op een heel ander niveau. Programmas moeten omgeschreven worden. Het wordt allemaal van tevoren door de programmeurs gedaan. Het is echt niet zo dat FP instructies door de scheduler naar de GPU worden doorgestuurd. En dan zal de komende jaren niet gebeuren ook.

Misschien zien we later wel een een soort vector coprocessor waar wat textures units en rops aangeplakt zijn. Soort evolutie van de IGP die ook FP werk kan doen.
je zie het nu al gebeuren met cuda, en dat werkt alleen op nvidia hardware (3dmax en adobe ect bijvoorbeeld)

taken waar het echt grote verschillen in performance kan maken zullen een upgrade krijgen naar GPGPU. en waarschijnlijk met OpenCL, of in het 2de geval direct compute.
De X2 4200+ werd samen met de X2 4400+ (heb er nog 1tje van), X2 4600+ en X2 4800+ als eerste dual cores van AMD (voor consumenten) geintroduceerd. De X2 3800+ kwam later. Er was op dat moment wel al een single core 3800+ (op 2.4GHz). Kan me me nog herinneren dat ik zat de dubben of ik een single core 3800+ zou nemen (voor €300 ofzo) of een X2 4400+ (voor €600)...

[Reactie gewijzigd door brute51 op 24 augustus 2010 17:47]

Ik definieer "de consument maakt kennis" als in "betaalbaar voor de consument om in te stappen". 600 euro voor een processor is te duur om over te stappen. Een 350 euro dualcore zit in de midend en de reviews kopten "dualcore voor de grote massa", "betaalbare dualcore",...
ik heb die x2 4200+ genomen ( 939 socket toen),
je kon die wel overklocken naar 2.4 :) ( wow 200mhz :p )

spijtig was daarna de andere voet (1 maand of 2 derna) :(
voor +12% krijg je bij AMD een tweede integercore.
Die 12 % is enkel op core niveau. Als je op CPU niveau kijkt (inclusief cache en mem controller), krijg je een vergroting van 5%. Ongeveer gelijk aan de vergroting die HT voor Intel met zich mee bracht, maar met een gunstiger effect.
Een interessante eigenschap is dat de modules transparant voor het besturingssysteem zouden zijn, zodat verschillende cores tegelijk aan een enkele thread kunnen werken. Daarmee zou AMD een concurrent voor Intels HyperThreading hebben ontwikkeld.
Dit is geen hyperthreading.
Dit is reverse multithreading.

Hyperthreading maakt va n een code extern meerdere "cores".
Terwijl reverse multithreading van meerdere cores, een core maakt. Wat ideaal is voor niet multithreaded applicaties c.q. applicaties die niet optimaal op meerdere cores draaien.
Je moet het eerder zien als van twee halve cores weer één hele core maken. Moderne x86 cores hebben immers vier pijplijnen terwijl Bulldozer twee maal twee pijplijnen heeft per module.

Daar waar bij Hyper-Threading één volle core instructies van twee threads kan ontvangen, splitst AMD z'n cores in twee zodat ze elk een stroom instructies van verschillende threads kunnen verwerken.

Vanuit het standpunt van de software werkt dit dus net zoals Hyper-Threading, waarbij je één module als één core moet beschouwen.

Met andere woorden, AMD heeft flink z'n best gedaan om met een alternatief voor Hyper-Threading te komen, maar is gekomen tot een ontwerp dat beperkter is.

[Reactie gewijzigd door c0d1f1ed op 24 augustus 2010 18:31]

Volgens mij staan hier 4 pijplijnen per core ( 8 per module ) : http://www.anandtech.com/...tures-at-hot-chips-2010/4

Als je het t.net artiekel nog eens goed leest zul je zien wat ik bedoel. Misschien moet je ook het artiekel daat hier al eens eerder werd gepost lezen. http://tweakers.net/nieuw...at-en-bulldozer-cpus.html

Enige dat Hyper thread is zijn volgens mij de 128 bit fmac's en een paar andere onderdelen. de core's zijn wel echte core's en geen halve zoals jij kleemt
Ik heb het over de 'issue width'. Bulldozer telt per module vier decoders; net zo veel als Nehalem per core heeft.

Bulldozer heeft een paar ALUs meer, maar is daar niet zo veel mee. Ook Nehalem zou je kunnen uitrusten met extra ALUs maar de prestaties zouden amper verhogen omdat de issue width hetzelfde blijft. Die extra ALUs kosten weer extra transistors (niet enkel voor de ALU zelve maar ook voor alle logica om die extra ALU aan te sturen en van data te voorzien). Je wint dus niet aan prestaties / oppervlak.
aangezien beide cores hun eigen schedualer hebben zijn het volgens mij gewoon 2 4issue interger cores.
zolang de fetch en decodes breedte genoeg zijn is er geen enkele reden waarom de performance niet even groot zou kunnen zijn als bij 2 normale cores bij Int taken.
...zolang de fetch en decodes breedte genoeg zijn...
Daar knelt net het schoentje. Die zijn slechts even breed voor een hele Bulldozer module dan voor een hele Nehalem core.

Hyper-Threading zorgt er in de eerste plaats voor dat de vier decoders goed benut blijven. Door out-of-order execution maakt het weinig uit dat een ALU af en toe niet beschikbaar is voor de ene thread omdat die in gebruik is door de andere thread. Dat balanceert zichzelf van zodra er een data-afhankelijkheid is (en zo zijn er vele). Bulldozer kan in dat geval die instructies simultaan uitvoeren, maar is daar verder niks mee als hij vervolgens moet wachten om de resultaten weg te kunnen schrijven.

AMD heeft dus gewoon een alternatief gevonden voor Hyper-Threading, dat echter meer transistors vergt. Gelukkig hebben ze het kunnen inperken door de floating-point eenheden te delen, maar het geheel lijkt mij eerder op het omzeilen van Intel's patenten dan op een technologisch betere oplossing.

Let op m'n woorden; klanten zullen raar opkijken dat een AMD octa-core slechts presteert zoals een Intel quad-core met Hyper-Threading.
klanten zullen raar opkijken dat een AMD octa-core slechts presteert zoals een Intel quad-core met Hyper-Threading.
dat zou betekenen dat de bottleneck bij intel nu altijd in de decoder te vinden is.
dat lijkt me eerlijk gezegd erg sterk.

en waarom zou AMD moeten wacht om de resultaten weg te schrijven? hun L1 is groter traditioneel gezien, en er is er 1 per core (dus 2 per module). beide cores hoeven dus helemaal niet op elkaar te wachten.
veel van het werk van een CPU (veelal loops) bevind zich in de L1 en worden meerder keren gebruikt. dan zijn ze al door de decoder geweest.
in die gevallen kan AMD in het gunstigste geval gewoon 100% van beide integer cores gebruiken, waar intel het met 1 moet doen.

alleen als er veel communicatie tussen de threads nodig is zal het regelmatig mis gaan, maar dat gaat het bij HT net zo goed. daarom is dat ook iets dat vermeden worden want dat getuigt van slechte software.

daarnaast werkt HT nog regelmatig vertragend. wat duidelijk maakt dat er gewoon te veel instructies zijn om te verwerken. in die gevallen zal AMD een duidelijke voorsprong nemen met dit systeem.

de prestaties zullen zeker niet die van een traditioneel gemaakt octa core kunnen evenaren, maar ze komen er waarschijnlijk een stuk dichter in de beurt als intel met HT.
(hoe dicht bij zal denk ik liggen aan de grote en het hoeveel 'way' het L1 is en de bandbreedte naar het L2 toe.)
maar aangezien ze het kunnen maken voor bijna de prijs van een quadcore (met vergelijkbaar verbruik en clocksnelheid) denk ik dat ze er hoe dan ook een aardig slaatje uit kunnen slaan.

[Reactie gewijzigd door Countess op 25 augustus 2010 00:32]

Bulldozer heeft inderdaad een nauwere core (thread) dan sandybridge of barcelona. Maar die integer core is wel een pak meer flexibel. Tevens is de impact moeilijk in te schatten van een vernauwing. Intel gebruikte HT om zoveel mogelijk te gebruiken. Amd splitst ze op om zoveel mogelijk te gebruiken. Denk dat intel een hogere Single thread throughput kan krijgen terwijl AMD een hogere multithread throughput kan krijgen.
Als ik mij niet vergis en je vergelijkt met K10
K10 kan 3ALU of 3 AGU aanspreken. bulldozer core kan 2ALU en 2AGU aanspreken. (let op de of en de en). Gaat bulldozer een veel hogere average throughput hebben dan de vroegere K10 met een nauwer model.
Ik heb het over de 'issue width'. Bulldozer telt per module vier decoders; net zo veel als Nehalem per core heeft.

Je bedoelt dat er maar 2 per threard zijn?

Ik weet niet maar Intel heeft maar een core waar het SMT op toe past en daar heeft het die 2 extra decoders voor nodig lijkt mij.( 2 voor de eerste thread en 2 voor de 2de thread ?) Waar AMD dus een module heeft met 2 core's en 4 decoders........

[Reactie gewijzigd door wiskid op 24 augustus 2010 20:15]

uhmm de bulldozer heeft 2 maal 4 pipelines. en 1 maal 2 FP pipelines
core2 en i7 hebben 1 maal 4 interger pipelines en 1 maal 2 FP pipelines.
http://www.hardocp.com/im...3YTdlWk81TTNfMV85X2wuanBn

zelfde hoeveelheid FP pipelines maar 2 maal zo veel integer pipelines dus.
het is AMD gelukt om 2 volwaardige 4issue integer cores te proppen in een ruimte niet veel groter als waar er voorheen maar 1 paste.
ik zie hier weinig beperkters aan. zeker niet gezien vanuit het module perspectief vergeleken met 1 intel core. (en die zouden per transistor aantal en dus kosten heel goed vergelijkbaar moeten zijn)

[Reactie gewijzigd door Countess op 24 augustus 2010 19:00]

ik heb hier nog geen reverse hyperthreading uit kunnen halen moet ik zetten.

heel simpel gezegd is het een manier om heel goedkoop een extra integer core toe te voegen aan de CPU.

edit@tankeriv : heel goedkoop bedoelde ik niet negatief.
maar deze oplossing kost gewoon heel weinig, maar brengt wel een hoop extra potentiële performance met zich mee.
ik bedoelde absolute niet dat het een slecht ontwerp of dat er op een misleidende manier door AMD word gewerkt hier.

het enige is dat ik er geen reverse hyperthreading uit kan halen.

[Reactie gewijzigd door Countess op 24 augustus 2010 20:24]

heel simpel gezegd is het een manier om heel goedkoop een extra integer core toe te voegen aan de CPU.
Wat een onzin.
Het is gewoon een hele goede vooruitgang. Want nu voor het eerst kunnen we werkelijk van de grote hoeveelheid cores gaan genieten zeg maar.
De DualCore was een grote voorruitgang.

De stap naar een Quad Core was ook een voorruitgang.
Hexa Core is leuk. Maar nog niet zo heel bruikbaar. Nu wordt zelfs een octo of een twaalf core bruikbaar voor de enthiausiaste thuisgebruiker.
Eindelijk een grootte vooruitgang voor Amd met als gevolg een strijd tegen Intel.
Eindelijk een grootte vooruitgang voor Amd met als gevolg een strijd tegen Intel.
Neen, Hyper-Threading is nog steeds superieur: c0d1f1ed in 'nieuws: AMD geeft details aankomende processors prijs'
Neen, Hyper-Threading is nog steeds superieur: c0d1f1ed in 'nieuws: AMD geeft details aankomende processors prijs'
sorry maar anand is het niet met je eens

http://www.anandtech.com/...tures-at-hot-chips-2010/4
All else being the same, it should give you more threaded performance than a single SMT (Hyper Threaded) core but less than two dedicated cores.
en ik overigens ook niet.

er is niks superiors aan TH behalve de iets kleinere hoeveelheid transistors die het kost.

[Reactie gewijzigd door Countess op 25 augustus 2010 01:40]

dat is moeilijk te zeggen, omdat ze bij amd er gewoon echte cores bij gooien
dat is moeilijk te zeggen, omdat ze bij amd er gewoon echte cores bij gooien
Neen, ze gooien er enkel extra ALUs bij.

Een Bulldozer module telt slechts even veel decoders als een Nehalem core. Net als bij Intel's Hyper-Threading moeten twee threads vier decoders delen.

Wat AMD een core noemt is eigenlijk geen core, maar gewoon de helft van de rekeneenheden. Wat ze een module noemen is de echte core. Wanneer de module één thread draait maakt men gebruik van alle rekeneenheden. Dat zijn er redelijk veel, maar ze zijn nooit allemaal tegelijk te gebruiken aangezien er slechts vier decoders zijn. Draait een module twee threads dan krijgt elk een 'core' toegewezen (de helft van de rekeneenheden) en moeten ze de decoders delen.

Bij Hyper-Threading beschikt iedere thread over alle rekeneenheden. Die zijn dus net zoals de decoders volledig gedeeld. Bij Bulldozer kan het voorvallen dat een thread een rekeneenheid die vrij is, niet kan benutten. Daar staat dan wel tegenover dat er in totaal meer rekeneeheden zijn dus vaak zal dat niet voorkomen, maar het kost wel weer extra transistors.

Al bij al verschilt het dus weinig van Hyper-Threading. Een Bulldozer octa-core presteert vermoedelijk ongeveer als een Nehalem quad-core met Hyper-Threading. Dat maakt het er voor de consument niet makkelijker op. Men zou beter spreken van een quad-module om te voorkomen dat men de prestaties van een echte octa-core zou verwachten.
door ze een halve core te noemen doe ze zwaar te kort qua performance.
de onderdelen die ze delen zijn niet de onderdelen waar vaak de bottlenecks voorkomen namelijk
Men zou beter spreken van een quad-module om te voorkomen dat men de prestaties van een echte octa-core zou verwachten.
http://www.tomshardware.c...cat-hot-chips,2724-2.html
but I can certainly respect that we’re looking at an architecture that’ll do much more for performance than Hyper-Threading in parallelized workloads.
en
According to Dina, the company’s Two Strong Thread approach achieves somewhere in the neighborhood of 80% of the performance you’d see from simply replicating cores.
80% van de performance van een normale dual core in de ruimte van 1 core + 12%.

nu zijn er vast en zeker nog wat op en aanmerkingen te maken over die 80%, maar het is duidelijk dat HT daar niet eens in de beurt kan komen.
de bottleneck ligt duidelijk niet perse bij de fetch of decoder.

de prijs die AMD straks voor een octa core kan vragen zal heel vergelijkbaar zijn met waar intel een quadcore voor moet verkopen.

[Reactie gewijzigd door Countess op 25 augustus 2010 22:29]

"According to Dina..."

Dina McKinney is corporate vice president of design engineering bij AMD. Nogal wiedes dat die vol lof vertelt over het nieuwe ontwerp. In de praktijk gaat het echter (jammer genoeg) nooit zoals beloofd. In de tijd van de Pentium 4 HT claimde Intel ook 30% hogere prestaties, maar moest je eigenlijk blij zijn als het de prestaties niet schaadde. Voor Nehalem werd 45 % geclaimd, maar mag je al dik tevreden zijn met 30%.

Een beetje realiteitszin zegt me dat Bulldozer maximaal 50% zal halen. Beter dan Nehalem, maar wel voor een groter transistorbudget (wat men je er niet bij verteld is dat ook de gedeelde componenten breder zijn geworden) en bovendien slechts één floating-point eenheid per module (wat transistors spaart maar uiteraard de prestaties vermindert). Al bij al dus een mooi alternatief voor Hyper-Threading, maar ook niet meer dan dat. AMD zal er z'n achterstand op Nehalem mee ophalen (als kloksnelheid en verbruik goed zijn), maar revolutionair is het niet.

TANSTAAFL
dina heeft het natuurlijk over een max van 80%. en tenzij je denk dat ze staat te liegen is dat stukken beter als wat HT maximaal kan halen.
als daar in de praktijk gemiddeld de helft of 2/3 van overblijft is het nog steeds een flink stuk beter als wat HT in de practijk haalt, en het verschil in transistor kosten meer dan waard.

dat breder worden moest toch als je van 3 naar 4 issue gaat.

en er is niet slecht 1 floating point unit, er zijn 2 gedeelde. elke core kan ze alle bij gebruiken als de ander ze niet nodig heeft (wat in de praktijk vaak het geval zal zijn)

zie ook commentaar hieronder van anand dat ik heb gepost.
Daarbij, 16 halve cores die samen werken is toch echt sneller dan 1 losse core in bijvoorbeeld een x6.
laatmaarrr...
Wiskid legt het hieronder heel goed uit: wiskid in 'nieuws: AMD geeft details aankomende processors prijs'

[Reactie gewijzigd door poepkop op 24 augustus 2010 20:22]

Ik weet het niet hoor, maar ik tel toch echt 4 pipelines per module. Oftewel 8 pipelines per echte core. Als ik dit uitzet tegenover Intel die 4 pipelines per core heeft dan lijkt me dat AMD zijn implementatie (SMT) superieur is aan die van Intel (HT). ;)

Ben je niet in de war met bobcat?
Ziet er inderdaad erg interessant uit, en het zou erg mooi zijn als AMD na jaren en járen van doorzetten iets fantastisch goeds op de markt kan zetten. :)

Iets a la AMD64 qua populairheid. Iets wat iedereen wil. :)

[Reactie gewijzigd door Format-C op 24 augustus 2010 17:26]

imo doet AMD dat toch al een aantal jaren goed, weliswaar behoort het top-segment nog altijd toe aan Intel, maar qua budget- en mainstream-markt heeft AMD toch al wat jaartjes een streepje voor op Intel als het aankomt op de hoeveelheid 'bang for your buck'. Dat is volgens mij ook de meest interessante markt.

Zelf ben ik 2,5 jaar geleden nog voor een E8400 gegaan omdat ik deze voor een belachelijk lage prijs kon krijgen (daarvoor wordt ie nu nog steeds niet verkocht). Maar de stuk of 10/12 systemen die ik voor anderen in de tussentijd heb gebouwd waren allemaal AMD; lagere prijs, lager vebruik en prima prestaties. Plus dat ik de stock-koelers ook beter vind dan Intel, zijn minder luid onder load, vond het daarom nooit nodig een andere koeler te installeren en dat scheelt ook weer wat kosten.

AMD weet qua prijs/prestatie heel vaak de 'sweetspot' te raken waar Intel dan toch een stukje duurder is. Zelfde geld voor de ATI vs. Nvidia... ze snappen het op dit moment gewoon ff wat beter bij AMD/ATI heb ik het idee.

Erg fijn dat die nieuwe cpu's rond de tijd uit gaan komen dat ik mijn huidige boeltje van plan ben te vervangen :9~ hopen dat de desktop cpu's niet te lang op zich laten wachten.

[Reactie gewijzigd door MicGlou op 24 augustus 2010 17:46]

Je laat toch hier en daar wat steekjes vallen. AMD heeft op dit moment een geweldig aanbod van six-core cpu', maar kwa prestaties houdt een i7 920 het allemaal prima bij, en die is al uitgefaseerd en vervangen door de 930.

Kwa bang for buck heeft intel met de eerste e6xxx een prima serie gehad, en de q6600 is wat dat aangaat toch de meest populaire cpu geweest voor een lange tijd, en die was met 200 nogwat euro heel betaalbaar. Goede stock performance en overclockte ook nog eens prima, 3,6ghz wist een groot deel van de chips wel te halen.

Stock koelers van intel en amd zijn beide luidruchtig onder load, al is de koeler van de celeron e3300 in mijn old-skool game bak behoorlijk stil, en die heb ik overclockt naar 3,33 ghz, wordt max 70 graden met prime95.

Het is waar dat intel meestal wat duurder is, maar met socket 1156 kun je toch aardig goedkoop een high-performance systeem samenstellen icm een i5 570 of een i7 860 als je HT nodig vindt, en ze lopen met gemak 3,4+ ghz. Verbruik ligt bij intel atm trouwens lager dan bij amd.

Heb zelf een i7 860, prijs is niet al te hoog en een gigabyte mobo met 10 sata poorten voor 150 euro mag er ook zijn. Loopt op 4,2ghz waarmee geen enkele applicatie problemen oplevert. ben benieuwd naar de performance van deze nieuwe amd cpu's, zou natuurlijk leuk zijn als ze in de voersporen van het amd64 tijdperk kunnen treden, de p4's toendertijd waren op bijna alle fronten machteloos versus de amd cpu's

Wat ati en nvidia aangaat ben ik het met je eens, al is de gtx460 een prima alternatief op dit moment, bang for buck, temps zijn op orde en het verbruik is niet zo hoog als bij de gf100 gebaseerde kaarten.
Ik zeg amen broeder, als AMD voor een competitieve prijs straks deze 32nm CPUs op de markt brengt, denk ik dat Intel opnieuw de wet van de remmende voorsprong sterk gaat voelen. Vooral AMDs variant van wat klinkt als een omgekeerde vorm van Hyperthreading klinkt zeer interessant, gezien de meeste huidige applicaties nauwelijks gebruik maken van multicore of HT mogelijkheden. De mogelijkheid om juist het potentieel van meerdere cores los te laten op dezelfde applicatie lijkt me een stap in de goede richting. Op naar de 10Ghz core :D
Reversed HyperThreading zou inderdaad geweldig zijn voor applicaties die maar één core ondersteunen, maar ik vraag me af of tweakers.net hier niet een foutje heeft gemaakt. Als ik die link naar HardOCP bekijk dan zie ik:
AMD seemed to be of the mind, "Why do we need something akin to HyperThreading when we can add an additional core to our module for about a 5% increase in die size?" AMD kept with the 2-core module to HyperThreading comparison throughout the talk.
Met daarbij een screenshot uit de presentatie. Zowel in de quote als in het screenshot zie ik geen reversed HT.

Even later echter quoten ze wat ze (HardOCP) zelf zeiden in 2007:
Currently using our dual and quad core processors, when we have a resource-hungry single threaded application, which is still usually the case, our other core(s) are sitting there doing nothing. Bulldozer seems to be able to unite its core to work together on a single threaded application.
Dit is dan wel weer reversed HT?? De reviewer denkt dat het OS elke module als een core ziet, maar als de module "transparant" is, ziet een OS hem toch niet lijkt mij? Navraag bij AMD zegt hier echter helemaal niets over. Ze zeggen alleen dat een module (dus twee cores) ook twee threads tegelijk kan afhandelen (zie weer de screenshot).

Oftewel, reversed HT lijkt me een voorbarige conclusie (en wishful thinking) van de reviewer bij HardOPC, helaas.

[Reactie gewijzigd door Bonez0r op 25 augustus 2010 14:28]

Wat ik er van kan maken:
Elke core heeft zijn eigen integer pipes maar twee cores delen de FP pipes. Dat is dus "twee echte, fysieke cores" (zoals AMD ze nu ook heeft) als je integer code draait en "twee logische, maar slechts één fysieke core" (zoals een gehyperthreade Intel dualcore) als je floating point code uitvoert.
Klinkt alsof het vooral een compromis is tussen alles-fysiek, voor maximale throughput, en zoveel-mogelijk-"virtueel", om ruimte (en energie!) te besparen. Laten we eerlijk zijn, hoeveel FP code gebruik je nou helemaal? Zeker als je OS weet dat ie VLC en iTunes niet op "aangrenzende" cores moet schedulen (al zie ik geen elegante manier, zonder recompiles, om dat aan te geven) dan zou je nauwelijks last mogen hebben van het gebrek aan FP pipelines. Op deze manier kun je elke core FP instructies voeren (moet ook wel, anders raak je de S van SMP kwijt) maar ben je veel minder ruimte kwijt aan functional units die toch het grootste deel van de tijd niks staan te doen.

Wat betreft "reverse HT", dat haal ik ook niet uit de slides of de antwoorden van AMD. Maar als het erin zit, dan denk ik in de richting van twee vier-pipeline cores op de een of andere manier aan elkaar klussen tot een enkele acht-pipeline core. Of er in bestaande code genoeg parallellisme zit (of, anders bekeken, of de instruction window en reorder buffer diep genoeg zijn) om die ook daadwerkelijk aan de praat te houden? Alles wat ik ooit heb geleerd zegt van niet (niet in een haalbare hoeveelheid silicium)...
De periode waar jij het over hebt is dus net waar het op begon te houden imao. De q6600 was idd een prima cpu tegen een gunstige prijs. Alhoewel ik daarbij ook nog wel durf te zeggen dat het voornamelijk door de grote verkoopaantallen kwam, want stock was het ook weer niet zo'n rappe jongen, maar je kon het ding wel lekker opkrikken e.d. Het is juist in de periode daarna dat AMD met (mijn inziens iig) een inhaalslag is begonnen. Uiteraard voornamelijk door de lagere prijzen en verbruik...
sorrie, maar de q6600 was gewoon een ineengebakken dual core.....dus geen echte quad core cpu.
idd AMD snap het heel goed en Intel niet. Wat intel snap is dat ze nog steeds gigantische winsten maken en amd niet echt. Ach de winst van intel is nog steeds groter dan de omzet van amd.

32 nm daar zit intel al een tijdje op en amd komt er dan in 2011 mee, lopen ze toch achter. De vergelijking nu met intel gaat ook niet op aangezein je niet weet wat intel rond die tijd uit gaat brengen.

Maar vooruit concurrentie voor intel is goed en moet er ook zijn maar te veel verqacht ik niet van amd.
idd AMD snap het heel goed en Intel niet. Wat intel snap is dat ze nog steeds gigantische winsten maken en amd niet echt. Ach de winst van intel is nog steeds groter dan de omzet van amd.
Blijkbaar snapt Intel het dan dus wel heel goed......
Tja, het is natuurlijk zo dat Intel nog altijd goede mobiele processoren maakt. En die markt groeit maar steeds. Bovendien zijn veel mensen nog erg vertrouwd met de naam van Intel's processoren, en worden AMD processoren in OEM PC's vaak alleen in het budget segment aangeboden. Dan krijgt AMD al gauw het imago van "goedkope rommel".

Zelfs in het AMD64 tijdperk was AMD wel erg populair onder tweakers, maar werden er toch nog altijd enorm veel Pentium 4's verkocht in OEM PC's. Gewoon vanwege de contracten met Intel, en de bekendheid van die naam onder minder technisch aangelegde computergebruikers.
Nu wil ik toch graag even mijn ervaringen kwijt aan jouw reactie. Want ik moet toch echt toegeven dat Intel CPU's en MOBO's langer volhouden dan AMD CPU's en MOBO's...tot op heden. Ik heb al vaak genoeg problemen ondervonden met systemen van vrienden en kennissen die AMD hardware bezaten. De vraag is dus nu of AMD de kwaliteit in huis heeft om Intel te verslaan op de lange termijn! En niet dat een AMD systeempje het al na 2 jaar begeeft door uitgezette transistoren of een opgeblazen CPU.
Ik werk namelijk al dikke 5 jaar met een Intel core 2 duo E6750 die het nog steeds perfect doet, terwijl een vriend van me een AMD systeem heeeft van 4 jaar oud die de geest geeft. En dat heb ik met AMD al vaker gezien. Dus ze zullen echt moeten proberen om deze reputatie een beetje op te schroeven

[Reactie gewijzigd door TwiLighT_DM op 26 augustus 2010 17:31]

uitgezette transistoren

Das een probleem in keuze onderdelen goed-koop of goed en soms is de
mobo maker zeunig dus eerste keuze valt op cheapo
Want? Ik zie een op papier aardig klinkend ontwerp, maar geen praktijk-prestaties of vergelijkingen met Intel, alleen vage omschrijvingen (Volgens AMD zouden de Bobcat-cpu's per core minder dan 1W verstoken.)
Meen vergelijk iets op papier uit de toekomst met het nu van intel.

Lijkt me logisch dat een nieuwer ontwerp normaal beter is. Maar ja papier is geduldig
Praktijkprestaties vragen om silicium, dat is er nog niet. De achterliggende techniek en theorie kan natuurlijk wel beoordeeld en geoptimaliseerd worden in simulatie en emulatie. De voortgang in powersimulatie (en -emulatie) zorgen overigens ook voor grote inzichtelijkheid in verbruik, wat al tijdens RTL-ontwerp toepasbaar is. Daarnaast zijn er de afgelopen jaren diverse low-power technieken opgekomen, die natuurlijk in ontwikkeling blijven, en ervoor zorgen dat het verbruik zo laag als mogelijk/wenselijk kan worden gemaakt.
Die strijd is er al, zeker in de prijs range waarin AMD opereert. Daarin zijn ze prijs kwaliteit verhouding namelijk beter. Zeker als je ook de mobo erbij gaat tellen (vaak ook goedkoper).

Hopelijk komt er op de high end markt ook meer concurentie.
Wat ze doen is niet nieuw, het is heel eenvoudig de Opteron server achitectuur op 1 chip plaatsen.
Wel me dit probleem dat geheugen NIET SNEL genoeg is.
Ergo, je kan er dus niet mee.
'Eindelijk een grootte vooruitgang voor Amd met als gevolg een strijd tegen Intel.'

Misschien, als ze wat meer zouden doen voor de Opensource community dan wel, momenteel is de ondersteuning Intel/Nvidia over het algemeen altijd beter dan die van AMD/ATI

[Reactie gewijzigd door LURHESCH op 25 augustus 2010 01:38]

Jeetje wat een techniek zeg, petje af hoor.

Moet je voorstellen als AMD en Intel (+ de rest) zouden samenwerken in een nonprofit organisatie. In plaats van winsbejag prachtige producten maken waarvan iedereen kan profiteren.
vergeet niet dat dit net de factor is die de snelheid van de ontwikkeling bepaalt. minder concurrentie betekent in veel gevallen ook minder vooruitgang

even ontopic: is hyperthreading niet een beetje het omgekeerde van deze techniek: 1 CPU er laten uitzien als 2 naar het OS toe, terwijl deze AMD cpu's net meerdere cores laten uitschijnen als 1 naar het OS. Benieuwd wat dit zal veranderen in prestaties.
Dit is een stukje van Tomshardware:

I was also curious how Bulldozer modules are expected to interact with Windows 7. Intel and Microsoft put a deliberate effort into optimizing for Hyper-Threading. The operating system’s scheduler knows the difference between a physical core and a Hyper-Threaded core. If it has two threads to schedule, Windows 7 and Server 2008 R2 use two physical cores. The alternative—scheduling two threads to the same physical, Hyper-Threaded core—would naturally sacrifice performance. Because Bulldozer modules are still sharing resources, it’d stand to reason that a four-module Zambezi CPU would be best served by similarly handling two threads using different modules. Though AMD wasn’t able to address how it’ll handle this interaction, it assures me that it’s working with OS vendors on optimizations that’ll be ready for Bulldozer’s release.

Wat je zegt klopt niet helemaal. Ik zal het proberen zo makkelijk mogelijk uit te leggen: je hebt een unit met "twee" core's het os ziet dus twee core's. ( Intel een core twee threads en dan zo efficiënte mogelijke alle extra onderdelen van de core die niet door de eerste thread worden gebruikt gebruiken om onderdelen in de tweede thread af the handelen. AMD 2 core's 2 threads een keer de extra onderdelen die je van daag de dag in een Phenom II vindt + extra ( ongeveer ) ) Je kunt straks als je Intel vs AMD wilt doen het beste het aantal threads met elkaar gaan vergelijken. Dan zul je al gouw tot te conclusie komen dat AMD hier een heel mooi ontwerp heeft. Doe je dit niet. zeg maar aantal "cores" tegen elkaar houden dan hebt je dus twee intel threads vs een AMD thread dan kan de verhouding wel eens scheef lopen. ( bij AMD zal Singel thread geen probleem zijn, maar bij dubbel kom je dan in de problemen met de extra onderdelen in de unit.)

De vraag wordt ook een beetje hoe MS hier mee om gaat.
Misschien komt er vanavond nog info over het AM3r2 Socket ( AM3+ ? )

Edit misschien is dit een makkelijker : http://hardocp.com/image....3YTdlWk81TTNfMV80X2wuanBn
AMD past dus een beetje van alle bij toe. ( SMT & CMP )

[Reactie gewijzigd door wiskid op 24 augustus 2010 18:15]

Deze jongens zijn niet bezig de wereld te verbeteren, ze maken een product.
Op het moment dat er niemand is die het produkt van de ander overtreft komt de zaak tot stilstand.
En stilstand is achteruitgang.
Is dat wel zo? Als je toch kijkt waartoe ze in staat zijn bij CERN dan zou het ook wel mogelijk moeten zijn binnen de chip industrie. Lekker zweverig eventjes, dat snap ik ook wel maar het was even een ingeving die ik had toen ik het bericht las.
Zonder winst geen geld voor investeringen. Zonder investeringen geen ontwikkeling. Zonder ontwikkeling hadden we nu nog op telramen gewerkt. Laat staan wat concurrentie doet, outsmarting is heel belangrijk als je op wilt vallen.

Zover ik weet, doet CERN het ook niet zonder subsidies. Geld moet toch ergens vandaan komen.
Sterker nog; Zonder de computing power van tegenwoordig kun je de resultaten van de LHC onmogelijk filteren. Zonder bedrijven als AMD en Intel die uit concurrentie de prijs per TFLOP flink drukken, was het LHC onderzoek veel duurder geworden.
Veel duurder? Ze hadden het gewoon niet kunnen doen. Het was nooit in ze opgekomen om het maar te proberen!
Winstbejag moet je in dat geval even vervangen door 'streefdoel'. Een commerciële organisatie heeft als streefdoel 'het maken van winst', in tegenstelling tot een non-profit organisatie zoals CERN die wetenschappelijke vooruitgang tot doel heeft.

De economie als wetenschap heeft voldoende aangetoond dat je door middel van incentives sneller vooruitgaat dan zonder incentives. Neem de concurrentie weg bij AMD/Intel en de vooruitgang zal minder snel zijn.

Neem de wil weg bij CERN om de oorsprong van het heelal na te bootsen, en de vooruitgang zal veel minder snel verlopen. Zet daarentegen een 'CERN2' naast CERN die hetzelfde doel voor ogen heeft en op een andere manier dezelfde ontdekking zou kunnen doen, en er zal zeer snel resultaat geboekt worden (wat de naleving van veiligheidsprotocols misschien niet ten goede zou komen - misschien toch niet zo'n goed idee als er ook mar enige waarheid schuilt in de voorspellingen dat er een zwart gat zou kunnen gemaakt worden met de LHC dat alle materie ter aarde opslokt...)

OK, genoeg off-topic. Please continue :)
Je bedoelt geen concurrentie meer? Dan gaan juist die mooie, nieuwe producten er niet komen en zeker niet tegen een fatsoenlijke prijs en levertijd. Dat heeft de recente Oost-Europese geschiedenis wel bewezen.
"Moet je voorstellen als AMD en Intel (+ de rest) zouden samenwerken in een nonprofit organisatie. In plaats van winsbejag prachtige producten maken waarvan iedereen kan profiteren."

Dan zou geen van de producten bestaan. Concurrentie en winstbejag zijn de drijfveren voor innovatie. De beperkte initiatieven in de nonprofit zouden niet meer bestaan als iedereen daar voor zou kiezen (Linux zou al snel niet meer gratis zijn, laat staan innovatief, als iedereen het zou gebruiken).

Eeuwenoude principes van marketing en vooruitgang zijn dat.
winstbejag, markteconomie ?

Will je terug naar geen winstbejag, communisme ?
Dat is nogal de boel uitsluiten. Non-profitorganisatie genoeg in Nederland.
Meest voor de hand liggende voorbeeld van een innoverende non-profit organisatie is natuurlijk de Mozilla foundation, de organisatie achter o.a. Firefox welke toch een aardig steentje heeft bijgedragen aan de vooruitgang van het web.
Ja, mooi, maar Mozilla kijgt dus donaties van bedrijven (die wel winst maken) waarmee ze tegen een commercieel tarief resource inhuren. Als iedereen daar pro bono zou werken was het nooit wat geworden.

[Reactie gewijzigd door ari3 op 25 augustus 2010 00:35]

Ook al hebben ze niet het "wij willen zoveel mogelijk winst maken", ze hebben wel het "wij willen de beste browser maken" / "wij kunnen het beter dan IE/Chrome/Opera/... en dat willen we de wereld laten zien". Dat is ook een aanjager!
Eerlijk gezegd betwijfel ik of een monopolie (want dat zou het zijn) van "IntelAMD" op CPU ontwerpen tot dezelfde vaart in vernieuwingen zou leiden. Tuurlijk, er zitten voordelen aan, maar onderschat niet de drang van (een groep) mensen om beter te willen zijn dan een andere groep.
Als je dan toch het (soviet)communisme erbij wilt halen: welk economisch systeem gebruikte het land dat, behalve de eerste mens op de maan, alle delen van de space race eerste object in de ruimte, eerste wezen in de ruimte, eerste mens in de ruimte, eerste object op de maan, ... gewonnen heeft? Dat ging niet om (monetaire) winst, dat ging om nationale trots.
De vernieuwingen van Intel en AMD komen voor een deel wel door streven naar winst, maar voor een deel ook omdat beide teams van ontwerpers zichzelf (en elkaar) willen laten zien wie het beste is in wat ze doen. Kijk maar naar deze slide, daar staat niet voor niks "Hyperhtreaded", de naam van Intel's versie van SMT.
Stel nou met Bulldozer 8 core dat je een spel gaat spelen die 4 cores ondersteunt zou gaan spelen dan zou dit betekenen dat die andere 4 die er nog over zijn kunnen gebruikt worden om zo eigenlijk dan de prestaties op processor gebied te kunnen verdubbelen(theoretisch gezien dan) :)
Neen, één module komt eigenlijk overeen met één core. Wat AMD voor Bulldozer een core noemt is eigenlijk gewoon de helft van de rekeneenheden. Met twee threads per module kan elke thread dus slechts over de helft van de rekeneenheden beschikken dan wanneer er slechts één thread draait.

Het aantal decoders voor een Bulldozer module is gelijk aan het aantal decoders voor een Nehalem core. Dus beide hebben dezelfde piekprestaties. Een Bulldozer octa-core is daarmee eerder vergelijkbaar met een Nehalem quad-core met Hyper-Threading dan met een echte octa-core waarbij iedere core over z'n eigen decoders beschikt.

Dat gezegd zijnde is een Bulldozer module wel krachtiger dan een Phenom core. Dus de single-threaded prestaties zijn wel verbetert en vermoedelijk net iets hoger dan die van een Nehalem core (maar daar staat dan tegenover dat het extra transistors vergt en Intel dus op hetzelfde oppervlak meer cores kwijt kan dan AMD modules kan plaatsen).
maar de performance bottleneck ligt helemaal niet bij de decoder in veruit de meeste gevallen.
heel veel gedecodeerde instructies worden meerdere keren gebruikt.

je kan dus wel zeggen dat elke module hier een halve core is, maar daar doe je ze flink te kort mee wat performance betreft.

komt er op neer dat AMD altijd hyperthreading zal kunnen evenaren, zonder de regelmatig voorkomende performance hits to HT met zich mee brengt, en met de mogelijkheid om flink op HT uit te lopen in veel regelmatig voorkomende scienarios.
nee zo werkt het helemaal niet. Een thread kan maar op 1 core tegelijk draaien. Enige wat low multithreading aan boost in CPUs gebeurt heet bij AMD Turbo Core en bij Intel Turbo Boost: stukken van de CPU omlaag klokken of uitschakelen om dat overschot aan TDP te gebruiken om de overige cores te overklokken.
Verbeter mij als ik fout ben. Maar wat AMD dan ontwikkelt is dan toch niet gerelateerd aan HyperThreading? Zoals ik het hier lees laat AMD meerdere cores aan één thread werken. Maar HyperThreading splitst de cores toch waardoor 1 core aan 2 threads kan werken (en dus niet meerdere cores aan één thread).

Voor de rest een mooie vooruitgang van AMD. Goed voor de concurrentie. :)

Edit: Bedankt voor de verheldering. :)

[Reactie gewijzigd door Ywa op 24 augustus 2010 20:16]

AMD laat 1 modules aan 2 threads werken, per core is het nog steeds 1 thread (cores zoals ze op het plaatje hierboven staan teminste)
beide threads hebben dus hun eigen set van 4 pipelines binnen de module, en hoeven die niet te delen zoals bij hyperthreading.
wat dat betreft lijkt het idd heel weinig op hyperthreading.

het is wel vergelijkbaar omdat je 2 threads kan uitvoeren op hardware die maar een klein beetje groter is als hardware die er maar 1 doet.

we moeten het nog in de praktijk zien natuurlijk maar ik denk dat AMD's aanpak veel minder nadelen heeft. bij intel zie je de performance nog redelijk vaak terug zakken met TH aan. hierbij zou daar weinig reden voor moeten zijn.
Bij Hyper-threading hoop je dat een core in stall gaat omdat je bv op c=a+b moet wachten voordat je e=c+d kan uitvoeren. Of je moet iets uit het geheugen ophalen en je wilt niet tientallen kloktikken lang een core niks laten uitvoeren. Een 2de thread kan klaar staan om direct in te springen dankzij een 2de set registers waarin de toestand van de 2de thread staat.

Aan de andere kant is het in stall gaan niet iets dat we graag hebben. We proberen de instructies met onder andere out-of-order zo slim mogelijk te ordenen dat het aantal stalls geminimaliseerd is.

De 2 threads gebruiken dezelfde cache. In het geval dat de meest herhaalde code (critical loop) van een thread in 2 MB cache past en je hebt 4 MB cache voor 2 cores. Dan passen 2 threads op zo'n dualcore mooi in 4 MB cache. Als je Hyper-threading toepast en 4 threads erop zet, dan kan je de situatie tegenkomen dat ze niet meer in de cache passen. Dan verlies je performance door het extra wachten op data uit het geheugen.

Bij Bulldozer zal je veel threads tegenover de beschikbare cache zien. Het verschil is dat je bij Hyper-threading een prijs betaalt voor het voordeel dat we eigenlijk niet graag willen hebben (stalls minimaliseren ipv zoveel mogelijk stalls erbij maken). Bij AMD betaal je de prijs voor een voordeel dat er altijd beschikbaar is, een 2de integercore. Als het echt moet, dan kan je een aantal modules uitschakelen voor energiebesparing en je hebt niet meer teveel threads tegenover de beschikbare cache.

[Reactie gewijzigd door rapture op 24 augustus 2010 18:35]

Misschien is het idee achter de bulldozermodule wel dat men het L3 cache te traag vond, en dat men door deze architectuur het relatief snelle L2 cache beter benut ten koste van de benutting van L3 door 2 cores/module te gebruiken. Oftewel men gebruikt liever L2 cache dan L3 cache omdat L2 cache veel sneller is.

Off-topic: eigenlijk valt er nog vrij weinig te zeggen van de chips, zeker voor vrijwel alle mensen hier. Omdat je werkzaam moet zijn (geweest) bij een ontwikkeling van een chip, of een heel goed programmeur, om hier iets zinnigs over te zeggen. Dat gevoel heb ik tenminste.
+- inderdaad.

AMD lijkt op hyperthreading voornamelijk door de gedeelde FPU.
Wat intel doet is proberen om zoveel mogelijk hardware te benutten van hun executie lijn.

AMD heeft gekeken en gingen ervan uit dat als je 2 threads laat lopen op dezelfde cpu je integer bewerkingen die zeer courant zijn niet zoveel winst boeken. Dus zij hebben besloten om Hyperthreading door te voeren, maar hebben er wel voor gezorgd dat Integer threads dedicated hw krijgen en enkel de fpu bewerkingen gedeelde executies krijgen. Vandaar de vergelijking met threads. Eigenlijk had amd perfect hetzelfde kunnen zeggen als intel en 1module een core genoemd die 2 threads kan behandelen maar dan met volledige simultane integer access voor beide threads. Maar ze hebben blijkbaar geopteerd om voor de core# te gaan.
heb ik dit goed gelezen: 4 tot 16 cores? me likes
De grote uitdaging is overigens wel om alles 16 cores aan het werk te houden, zeker als je bedenkt dat 95% van de computergebruikers vaak slechts een paar (2 tot 4) programma's open hebben staan. Op dit moment zijn de meeste programma's echter ingericht op de aanwezigheid van 1 enkele core en hebben deze dus niet direct een voordeel van meerdere cores, de kans dat alle 16 cores door de bestaande software gebruikt zal gaan worden is erg klein.
"Een interessante eigenschap is dat de modules transparant voor het besturingssysteem zouden zijn, zodat verschillende cores tegelijk aan een enkele thread kunnen werken"

lijkt me dus net geen probleem.
ZOUDEN zijn, er is dus geen zekerheid over of dat ook wel zo zal zijn.
ja, inderdaad, maar ze komen pas volgend jaar uit, dus mochten de software developers daar nu al support voor inbouwen zodat met de volgende software versie, de processor volledig benut kan worden,

zou voor mij (mocht de software die ik gebruik er mee overweg kunnen) een grote vooruitgang zijn voor het renderen van 3D toepassingen, het zal in ieder geval héél wat rapper gaan dan met m'n huidige dualcore
dat hangt er maar net vanaf wat je doet.
ik doe veel aan rendering, en geloof me, 16 cores trek ik ook makkelijk dicht.
640k is toch genoeg, ja in die tijd voor de meeste mensen wel.

maar er zijn zat applicaties te bedenken waar 16 cores zeker wel zin hebben.
ok vor de gemiddelde persoon de eerste 4-5 jaar niet, maar daar is deze processor ook niet voor bedoeld,
daar zijn de bobcat en fusion cores voor gemaakt.

de low end user,
bobcat en atom

midend
core i3, i5 en phenom II en fusion

en highend
core i7 (nehalem en gulftown) phenom x6 en straks bulldozer
De grote uitdaging is overigens wel om alles 16 cores aan het werk te houden, zeker als je bedenkt dat 95% van de computergebruikers vaak slechts een paar (2 tot 4) programma's open hebben staan
Vandaar dat AMD zich ook in eerste instantie richt op servers. De meeste servers bedienen honderden of duizenden gebruikers tegelijk en dan is multi-core en multi-threading een heel natuurlijke optie om meer performance te krijgen.

Al ben ik zelf inderdaad ook nog altijd niet echt overtuigd van het voordeel van multi-core voor de meeste desktop toepassingen (waar AMD zich later op gaat richten met deze nieuwe CPUs). Op mijn eigen dual-core laptop zijn beide CPU cores bijvoorbeeld over het algemeen bijna continue idle.

Maar van de andere kant, een collega van mij houdt zich (thuis) bijvoorbeeld veel bezig met video bewerkingen en het programma dat ie daarvoor gebruikt is dankzij multi-core inderdaad een heel stuk performanter met het berekenen van overgangseffecten en zo.

[Reactie gewijzigd door awulms op 24 augustus 2010 21:29]

4-8 voor desktop, tot 16 voor server
hoop dat de memory controller wat meer pit heefd.
de huidige memory controllers van amd zijn nogal slecht en halen nog geen 60% van maximum va het geheugen.
Kun je uitleggen wat je bedoelt? Je zegt dat AMD's geheugencontrollers maar 60% van het maximum van het geheugen halen, in welk opzicht is dat dan?
Waarschijnlijk maar dit is speculatie zal er een nieuwe memory controller komen voor qaud channel memory control. Dit ivm AM3r2 en de geruchten dat hij ook op AM3 past met de huidige 8xx chipset maar goed dit is dus speculatie.
Het is inderdaad een grote vooruit gang voor AMD.
Maar wanneer in 2011 komen deze cpu's? vroeg midden of laat in het jaar is een behoorlijk verschil.
En zullen deze AM3r2 cpu's op bestaande AM3 borden passen?
Dat je kunt upgraden is iets wat ik belangrijk vindt.
Ik ben wel benieuwd of deze architectuur het vuur aan intels schenen kan leggen.
hopelijk wordt het net zo'n succes voor AMD als de athlon 64's

Eigenlijk heeft AMD het nog best goed gedaan als je kijkt wat ze nog voor elkaar gekregen hebben met hun phenom architectuur die is er behoorlijk op vooruit gegaan sinds Agena als je dit vergelijkt met de Thuban van vandaag.

Dit is daarbij nog een veel grotere stap vooruit dan agena was in verhouding tot de windsor athlons het is een nieuwe architectuur en een Die shrink in een met nog eens 2 extra cores voor de zambezi/orochi en een heel wat bredere instructie set. SSE4a daarin tegen was een veel minder grote stap in verhouding.
Volgens mij klopt daar niet veel van. Kijk hier maar eens naar: http://www.anandtech.com/...tures-at-hot-chips-2010/4
Er zijn vier execution ports per core, maar slechts vier decoders per module. Dus vier volledige pijplijnen per module. AMD noemt in die afbeelding elke ALU/AGP een pijplijn, maar eigenlijk is dat een valse benaming die de indruk wekt dat een Bulldozer module veel krachtiger is dan eigenlijk het geval is.

De issue width is veel bepalender voor de prestaties dan het aantal ALUs, en dus presteert één Bulldozer module niet veel beter dan één Nehalem core. Met andere woorden één Bulldozer core is slechts ongeveer de helft zo krachtig als één Nehalem core.

AMD heeft dus vooruitgang geboekt in die zin dat ze een alternatief bieden voor Hyper-Threading, maar het lijkt er niet op dat ze betere prestaties / oppervlak zullen behalen.
AMD heeft dus vooruitgang geboekt in die zin dat ze een alternatief bieden voor Hyper-Threading, maar het lijkt er niet op dat ze betere prestaties / oppervlak zullen behalen.
zoals eerder gezegt, anand is het niet met je eens

http://www.anandtech.com/...tures-at-hot-chips-2010/4
All else being the same, it should give you more threaded performance than a single SMT (Hyper Threaded) core but less than two dedicated cores.
de decoders zijn maar zelden de bottleneck. veel instructies worden herhaaldelijk gebruikt nadat ze uit de decoder komen. hier val voor AMD veel winst te behalen, waar intel executie units te kort komt.
Ik zie in mijn glazenbol, dat amd een voorspoedige toekomst tegemoet gaat.
Als ze dit zo aanhouden steeds maar weer opboksen tegen goliath, zij uiteindelijk een keer moeten winnen. 10 jaar van nu en de rollen zijn omgedraaid amd nummer 1 intel nummer 2.
met de atlon serie van amd was amd ook de betere het is een afwisselende eerste plaats afgezien van het fijt dat amd het in top prestatied gewoon niet goed gedaan heefd de laatste jaren.
qua prijs prestatie zijn ze wel altijd beter want zeg nou zelf wie wil er nou 900 euro voor een cpu betalen dan zit er toch echt een steekje los en heb je geen besef van de waarde van geld of je heb er gewoon te veel van en moest je maar eens wat belasting extra betalen :) (of minder vaak ontslag nemen bij banken)
Je vergeet even dat in de AMD64 tijd ze ook 800+ euro vroegen voor hun AMD FX62. Dit was de black edition destijds. Het allerbeste is en zal altijd wel het allerduurst blijven. Hetzelfde geldt voor de ati 5000 serie, die maar niet goedkoper wordt. Die wordt natuurlijk pas goedkoper als nvidia met een snellere GPU op de markt komt :')
lol bij die laatste zinnen wordt je post steeds grappiger :P

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True