Ja je pakte toevallig verkeerd voorbeeld. Ook embarrassingly parallel is radixsort. Radixsort is de snelste methode als je die kunt toepassen. De TNT gebruikt RADIX sort bijvoorbeeld.
Probleem waar AMD meer mee zit als het gaat om server cpu's is drieledig.
Ten eerste gaan meer en meer workloads op supercomputers naar GPU's toe, dus da's Nvidia terwijl Intel ook moeite doet met larrabee. Op supercomputers draaien grotendeels matrixcalculaties en FFT gerelateerde workloads (ook de NSA gebruikt vormen van FFT naar we kunnen verwachten om priemgetallen te vermenigvuldigen - bijvoorbeeld GIMPS gebruikt DWT wat een vorm van FFT is). Dus belangrijkste is de snelheid van de vermenigvuldigingsinstructie. AMD heeft op bulldozer de vermenigvuldigingsunit op elke minicore gewoon 2x trager gemaakt dan op de 6 core cpu's (1090T etc) ervoor. Van 4 naar 8 klokjes (cycles).
Ten tweede heel belangrijk in de servermarkt is latency. Dus de tijd die het kost om een stukje geheugen op te halen en te WACHTEN tot je het hebt (dus niet throughput).
Intel is megasneller qua latency op 2 sockets en 4 socket machines zijn simpelweg veel trager qua latency dan de 2 socket machines.. AMD zal altijd trager zijn met deze generaties CPU's,daar ze trage L2 cache hebben en nog tragere SRAM vorm (L3 cache).
Dus qua latency verliezen ze 't altijd van de 2 socket intels.
2 socketmachines zijn eigenlijk altijd trager dan 1 socketmachines qua latency.
Zelfs wat oude beursmachines die allang niet meer gebruikt worden omdat ze te traag nu zijn qua latency, die waren met hun i7 Xeons toen ik testte al rond de 90 nanosecondes qua blocked read latency (alle cores busy).
Als je zelfde doet met bulldozer dan is dat 160 nanosecondes.
meer sockets is natuurlijk nog veel trager. Er zullen er dus erg weinig zijn die die opterons gaan kopen.
De 1090T verslaat qua (blocked read) latency met 2 vingers in de neus elke willekeurige bulldozer of latere incarnatie. Zo'n enorme zelfmoord is dat hele ontwerp van bulldozer of later. Dus het is inpakken en wegwezen voor AMD op grond van latency. Totaal zelfmoordontwerp. Hierop wint intel eigenlijk vrijwel elke benchmark die niet FFT georienteerd is.
Al die kadootjes en presentjes die intel altijd geeft aan websites en testers, terwijl AMD dat hoegenaamd niet doet (en ook vrijwel nooit deed) en gerommel met compilers, dat is al bijna niet nodig zo'n zelfmoordontwerp is bulldozer en de latere afgeleide CPU's van AMD hierop.
Enige nadeel van intel is de megahoge prijs voor hun CPU's. Dat is echt enige waarop AMD kan concurreren.
Echt handig is AMD daar niet. Ze vragen te veel gewoon om de stap makkelijk te maken AMD 4 socket opteron machines met 64 minicores te kopen voor de hobbyist. Idemdito 32 minicore machines. 2e hands loopt het ook van geen meter met socket G34. De moederborden zijn te duur. tweede hands is de 6176 geweldige cpu met 12 echte cores en ligt voor 100 dollar op ebay. Moederbord is echter fortuin.
Ook AMD's snelle gpgpu kaart hebben ze 3500+ dollar geprijst in plaats van keihard de concurrentie aan te gaan en er een duizendje voor te vragen.
AMD overvraagt - krijg je met veel van die Arabische invloeden daar.
Verder rust intel toch behoorlijk op zijn lauweren als het gaat om de servermarkt. Enige echt belangrijke wapenfeit in nieuwere i7's t.o.v. de oude is dat de vermenigvuldigingsinstructie (belangrijk dus voor supercomputers, NSA en vrijwel alle wetenschappers) dus van 2 clocks naar 1 clock ging in AVX qua throughput (het gaat dan om throughput dus niet om latency zoals hierboven die 8 clocks is van AMD - die van AMD gaf ik alleen om te laten zien dat ze feitelijk de zaak teruggeschroefd hebben in 't bulldozer ontwerp t.o.v. de vorige architectuur).
Het derde probleem zie ik als iets waar AMD wel aan kan werken en ook aan werkt. Dat is de praktische power usage. In veel server ruimtes is de hoeveelheid energie beperkt. Dus server cpu's dienen EFFICIENT te zijn.
AMD heeft daar ACP uitgevonden. Daar klopt natuurlijk geen hol van als je 't gaat meten. Intels TDP aan de andere kant klopt ook al paar decennia niet veel van. Er wordt altijd maar mee gegoocheld met die TDP's. Dat zijn allang compleet theoretische getallen.
Vergeet al die getallen wat TDP's betreft. Fabrikanten claimen maar wat daar.
Toen opteron in 2003 net uitkwam veroverde hij snel 50% van de servermarkt. Hij was vet sneller qua latency dan intel en won op alle benchmarks.
Waar het op neerkomt is dat een CPU net zo goed is als zijn caches zijn. AMD's L2 cache is lachwekkend traag echter. inpakken en wegwezen voor AMD uit die servermarkt joh.
[Reactie gewijzigd door hardwareaddict op 22 juli 2024 18:11]