Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Je kunt ook een cookievrije versie van de website bezoeken met minder functionaliteit. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 93 reacties, 20.044 views •
Submitter: QinX

De RV770-gpu van ATI is uitgerust met achthonderd shaders, meldt Fudzilla. Hierdoor zouden zowel de Radeon HD 4850 als de Radeon HD 4870 over een rekenkracht van minimaal 1 teraflop beschikken.

Ten opzichte van zijn voorganger heeft de RV770 ruim twee keer zoveel shaders: de RV670-gpu moet het met 320 shaders stellen. Eerder werd voor de nieuwe gpu nog een aantal van 480 shaders genoemd, maar deze informatie zou volgens Fudzilla onjuist zijn.

De achthonderd op 625MHz geklokte shaders van de Radeon HD 4850 zouden een gezamenlijke rekenkracht bieden van 1 teraflop, terwijl de op 750MHz draaiende shaders in de RV770-gpu van de 4870 meer dan 1,2 teraflop weten te behalen. ATI zal de kaarten daarom aanprijzen met de term 'Terascale Engine'. Wanneer videokaarten op basis van de RV770-gpu verkrijgbaar zullen zijn, is nog niet bekend, maar er wordt verwacht dat moederbedrijf AMD binnen enkele weken met een officiële aankondiging zal komen.

Reacties (93)

Reactiefilter:-193083+129+216+31
ziet er veelbelovend uit...

nog even geduld tot 23 juni dus, volgens onderstaande link

http://www.hardware.info/...0_uitgesteld_tot_23_juni/
Is dat een standaart volume ofoz ? Meer shaders hoe sneller het wordt ? Maar in theorie zou dat een dubbele snelheid geven dan tegen over de RV670-gpu
In theorie ja, maar in de praktijk moet je de shaders ook van de nodige bitjes kunnen voorzien, anders heb je er nog niets aan...
Inderdaad: in de praktijk blijkt dat de kaarten van Nvidia (met veel minder shaders) de kaarten van Ati goed bij kunnen houden.
Daarbij heb ik vernomen dat de Shaders van ati gedeeld moeten worden door een factor 5 omdat elke 5 shaders (een unit) wel uit 5 apparte delen bestaan, maar bij games niet altijd alle 5 tegelijk gebruikt worden, maar meestal 1 van de 5.
Je moet wel delen door vijf als beide kaarten vol belast worden, maar de redenering erachter hoort omgekeerd. Shaders bij nvidia werken nog per vector, terwijl ze bij ati op losse waardes werken.

Meestal wordt met vectoren gerekend en dan wordt dus 5 van de 5 gebruikt. Als het om kleinere berekeningen gaat, is bij nvidia nog steeds een 5 keer zo "grote" shader unit nodig, terwijl ati er 1 kleine voor nodig heeft. Op dat moment is een ati shader dus gelijk aan een nvidia shader. Meestal kan een nvidia shader unit echter meerdere waarden tegelijk berekenen, terwijl een ati shader unit er maar 1 kan verwerken.
ATI's ALUs zijn vergelijkbaar met die van NVIDIA hoor. Het belangrijkste verschil zit in de aansturing, waar ATI heeft gekozen voor een "very long instruction word" ontwerp is NVIDIA voor een simpele "scalar" architectuur gegaan. Zie ook mijn post hieronder voor het verschil daartussen, maar weet wel dat de 320 ALUs van R600 vergelijkbaar zijn met de 128 ALUs van G80 qua functionaliteit.
Daarbij heb ik vernomen dat de Shaders van ati gedeeld moeten worden door een factor 5 omdat elke 5 shaders (een unit) wel uit 5 apparte delen bestaan, maar bij games niet altijd alle 5 tegelijk gebruikt worden, maar meestal 1 van de 5.
Nee, dat is te simplistisch gezien. ATI heeft gekozen voor een zogenaamde VLIW (very long instruction word) architectuur, waarbij elk ALU block van 5 tegelijk een instructie krijgt. Als er een operatie moet worden uitgevoerd op een vector met vier elementen kunnen alle 4 de ALUs aan het werk gezet worden. Als er daarnaast ook een complexe operatie moet worden uitgevoerd (bijvoorbeeld sinusberekening), dan kunnen alle 5 ALUs iets doen. Het probleem ontstaat als er afhankelijkheden zijn in de code. Als een operatie afhankelijk is van het resultaat van de vorige operatie bijvoorbeeld (1: C = A + B, 2: D = E / C, 2 kan pas uitgevoerd worden als C bekend is). Dit gebeurt nogal vaak in shadercode, en wanneer dit gebeurt kan het zijn dat er maar 1 operatie uitgevoerd kan worden (A+B), terwijl de overige vier ALUs niets te doen hebben. Pas in de volgende clockcycle kan het resultaat gebruikt worden en kunnen er (mogelijk) meer ALUs aan het werk gezet worden. Zo kan het bijvoorbeeld gebeuren dat bij een complex stuk shadercode met veel afhankelijkheden maar twee vijfde van de rekenkracht van de ATI kaart gebruikt wordt, gemiddeld gezien.

NVIDIA heeft dit probleem niet, omdat het simpelweg 128 simpele "scalar" ALUs heeft. Dit betekent dat een G80 ALU vier clockcycles nodig heeft voor een vectorberekening, maar dat bij afhankelijkheden tussen operaties nog steeds altijd alle ALUs aan het werk gezet kunnen worden. Daar komt dan nog bij dat de ALUs op dubbele snelheid draaien in vergelijking met de ATI kaarten.
Dit gebeurt nogal vaak in shadercode, en wanneer dit gebeurt kan het zijn dat er maar 1 operatie uitgevoerd kan worden (A+B), terwijl de overige vier ALUs niets te doen hebben.
Op zich correcte uitleg. Uit metingen met huidige games is echter het gemiddelde aantal operaties per vec4 + scalar unit op ongeveer 3.5 uitgekomen. Dit betekent dat er een occupancy van ongeveer 70% is. Dus claimen dat dit nogal vaak gebeurd is wat gechargeerd als je het mij vraagt.

Bovendien heeft ATI een groot voordeel met GPGPU door hun shader die allen in staat zijn een dual precision float uit te rekenen. Dus ipv. 4 SP per clock twee DP per clock. Hoe nVidia dit op gaat lossen is nog maar de vraag.

nVidia heeft ook geen 100% occupancy ondanks wat ze beweren. Ze noemen hun architectuur wel scalar, en dat is het ook wel, maar ze hebben in sommige gevallen opeens wel een 2-issue op de MUL unit. Wanneer de compiler dit doet is niet duidelijk, zoek maar op google naar "G80 missing MUL".
Dus claimen dat dit nogal vaak gebeurd is wat gechargeerd als je het mij vraagt.
Afhankelijkheden zijn toch wel veel voorkomend, maar wat ik in mijn uitleg er dan weer niet bij zei is dat de ene afhankelijkheid niet per se er voor zorgt dat de rest van de ALUs zit te idlen. Je hebt dus gelijk dat het probleem niet zo groot is als ik het boven eerst beschreef. Desalniettemin blijft VLIW toch achter bij een simpeler architectuur als G80, en het kan nare bottlenecks opleveren in games (70% betekent soms 100%, maar ook soms veel en veel lager).
Bovendien heeft ATI een groot voordeel met GPGPU door hun shader die allen in staat zijn een dual precision float uit te rekenen. Dus ipv. 4 SP per clock twee DP per clock. Hoe nVidia dit op gaat lossen is nog maar de vraag.
Ik heb bij geruchten op het Beyond3D forum opgevangen dat elke SIMD een eigen DP eenheid zou krijgen, maar daar werd geen bewijs bij gegeven. GT200 zou dan uitkomen op iets van 80 GFLOPs DP, wat verrassend laag is, zeker in vergelijking met RV770, die drie tot vier keer meer haalt.
Ze noemen hun architectuur wel scalar, en dat is het ook wel, maar ze hebben in sommige gevallen opeens wel een 2-issue op de MUL unit. Wanneer de compiler dit doet is niet duidelijk, zoek maar op google naar "G80 missing MUL".
Ik moet zeggen dat ik me nooit in het hele "missing MUL" verhaal heb verdiept, maar bestaat deze uberhaupt wel? Ik heb meerdere keren gelezen dat het niets meer was dan marketingtrucje om wat meer FLOPs te kunnen claimen.
Jouw theorie gaat helemaal niet op

Een RV670 heeft in theorie dan 320 shaders (maar als je dit zo bekijk heeft een G92 er 256) doch kan echter maar overweg met simultane 64 threads in vergelijking met 128 tov de G92
Nvidia is hierdoor dus sterk in het voordeel, en het opvoeren van het aantal shaders naar 800 zorgt ervoor dat er 160 simulaten threads kunne plaats vinden, dit is een hele verbetering
Een nvidia kaart heeft ook meer ROP's en TMU's, dus is het moeilijk te zeggen dat een Nvidia kaart met minder shaders, meer weet te doen
Een RV670 heeft in theorie dan 320 shaders (maar als je dit zo bekijk heeft een G92 er 256) doch kan echter maar overweg met simultane 64 threads in vergelijking met 128 tov de G92
Totale onzin. De RV670 heeft 64 Vec4 + 1 scalar ALUs in 4 processors van 16 ALUs. De G92 heeft 128 scalar ALUs in 16 processors van 8 ALUs. Het grote verschil is de occupancy (efficientie) en de clocksnelheid, beide gunstiger op nVidia's architectuur.

Het aantal threads is totaal iets anders. Ik draai met een GPGPU programma meer dan 5000 concurrent threads op een 8800GTX (G80). DIe worden door de hardware dynamisch gescheduled op de 16 SIMD processors.
http://www.anandtech.com/showdoc.aspx?i=2988&p=4

lees dit eens dierbare vriend

Het is duidelijk dat je niet echt goed weet waarover je het hebt

[Reactie gewijzigd door de_nille op 11 juni 2008 14:53]

@drahca en de_nille
jullie hebben beiden een paar zaken juist en een paar zaken verkeerd :p

de_nille:
Op de huidige gpu archtecturen draaien simultaan veel meer threads dan ze stream processoren hebben. Om latency's te verbergen worden threads die op data wachten uit geswapt met threads waarvoor de data reeds klaar is etc. Er lopen 1000en threads tegelijk om ALU gebruik te maximaliseren.
Het aantal actieve threads is natuurlijk beperkt door het aantal execution units, op de G80 128, op de R600&R670 64.
Een execution unit van de g8x kan per klok niet zoveel flops uitvoeren als een r6xx. In het algemene geval kan een g8x stream processor per klok 1 operatie uitvoeren, de R6xx stream processoren kunnen 5 operaties simultaan uitvoeren.

drahca:
Vec4 wil zeggen SIMD, de execution units van amd echter MIMD een significant verschil.
De occupancy van amd is lager maar hun execution units kunnen meer flops leveren met minder transistors. SISD vereist veel meer controle logica en schedulling overhead die meeschaalt als je het aantal stream processors wil verhogen. Bij de R6xx architectuur is dat probleem veel kleiner. Het is maw een afweging van één architectuur tov een andere en in de vorige generatie is gebleken dat nvidia het beste evenwicht had. Het zal zeer raar zijn dat de piek flops van een mainstream (4850) amd kaart hoger gaan zijn dan die van snelst nvidia (GT280) kaart.
My bad, ik bedoelde met Vec4 geen SIMD maar ik begrijp de verwarring, dit klinkt meer als de r500. Het zijn natuurlijk simpele VLIW processoren met 4 simpele en 1 complexe ALU.

Ik werk zelf veel met de nVidia architectuur. De processoren van nVidia zijn SIMD processoren met een branch-granularity van 16 threads. (2 batches van 8 ). Ik snap dus niet precies wat je met SISD hier bedoelt.

Ik denk dat voor veel GPGPU werk ATi de betere architectuur heeft. Maar nVidia is heer en meester in occupancy met typische shader programma's die niet zo veel last hebben van het SIMD karakter van de processoren. Voor GPGPU heb ik nog wel een last van de branch-granularity, vooral als er iets teveel branches in het programma zitten. Alles wordt dan serieel uitgevoerd op de G80.

- edit: per ongeluk ingevoegde smiley verwijderd

[Reactie gewijzigd door drahca op 11 juni 2008 16:47]

Door het serieel gedrag blijf voelt het aan als sisd maar je hebt 100% gelijk dat het simd is.
Ik zou zeggen op een hoger niveau simd maar als je naar de uitvoering kijkt denk je sisd (tot je gaat branchen). Als ik denk aan het programmeren voor simd denk ik aan SSE instructies en hoe je daarmee programmeert.
Ik ben misschien wat vaag maar ik hoop dat je begrijpt wat ik bedoel.

//edit
De rapidmind developers spreken over SPMD geloof ik, singe program multiple data (ivm kernels) wellicht een betere term dan gewoon SIMD.

[Reactie gewijzigd door oeLangOetan op 11 juni 2008 16:40]

ik bedoelde uiteraard actieve threads :)
Wow, dat is wel eventjes een verbetering tov de 320 shaders! Ik begin weer vertrouwen te krijgen in AMD, mits dit waar is natuurlijk, dat moeten we eerst nog maar eens zien :)

Nu de rest van de specs nog, want alleen shaders bepalen de snelheid van je kaartje niet ;)

[Reactie gewijzigd door FTI op 11 juni 2008 10:46]

625 Mhz voor de 4850 en 750Mhz voor de 4870
http://www.fudzilla.com/i...amp;id=7806&Itemid=34
Er zijn twee geruchten

1: 480 Shaders met apparte shader clocks op 1050 MHz
2: 800 Shaders op 750 MHz

Laatste optie zou nog heel wat sneller zijn qua shader performance. Maar ik vraag me af of dat gaat passen aangezien de die space 30% is toegenomen. Beide zijn 55nm.

Oke je hebt even veel robs en dezelfde memory controller dus dat verdubbelt niet, en 2x zo veel texture units Maar goed 800 is wel heel veel meer meer dan een verdubbeling tov de 320 van de RV670 en dat in 30% extra ruimte...
@ Astennu

ik dacht dat onze eigen betrouwbare bron al had aangegeven dat het best mogelijk zou kunnen zijn
aangezien shaders niet al te veel ruimte inneemt.

Lees het Ati Topic nog is door ahoewel ik niet kan voorstellen dat je het nog niet gelezen had
Zelfs op GT200 lijken de ALU clusters niet meer dan 10% 26,5 van de totale die-space in te nemen. ATI's ALUs zijn sowieso echter een stuk kleiner naar het schijnt, dus het is nog steeds een mogelijkheid.
De interessante vraag is eerder hoe je 800 ALUs aan het werk blijft houden. Als dit ten koste is gegaan van de ALU:TMU ratio kan het best zijn dat de uiteindelijke chip minder waard is dan een ontwerp met 480 ALUs en meer TMUs. En daarnaast geldt hetzelfde natuurlijk ook voor setup, ROPs, SIMD-breedte, bandbreedte, texture filtering, interpolatie, enzovoort.

EDIT: Oeps, die 10% klopt helemaal niet, zie ook mijn onderstaande reactie op oeLangOetan

[Reactie gewijzigd door Snoitkever op 11 juni 2008 16:44]

10%?? van waar haal de dat cijfer?
Oeps, 10% klopt inderdaad van geen kant. :o
26.5 volgens Arun van Beyond3D.
It's 10, 3x8 in each, no coarse redundancy. Anyway, since we're letting the cat out of the bag here... This is also based on a die shot, although a better one so if you can't corroborate it, you'll just have to believe me:
~26.5% SMs, ~26% Non-SM Clusters (TMUs etc.), ~14.25% memory I/O, ~13.25% unique, ~8% MCs, ~6.25% ROPs, ~2% Misc. I/O, 4%+ Misc. (intrachip I/O, rounding errors, unidentifiable units, etc.)
http://forum.beyond3d.com...167940&postcount=1755
En voor wie het zich afvraagt, SM staat voor Shader Multiprocessor.

[Reactie gewijzigd door Snoitkever op 11 juni 2008 16:42]

Dat gaat wel met hele grote stappen!

Ben benieuwd of ze dit tegen bijna dezelfde kosten hebben kunnen bereiken.


laat de benchmarks maar komen!
de r770 is nog steeds 55 namometer en maar 100miljoen(700-->800) transistors meer dus hij zou niet duurder hoeven zijn om te maken als de r670
Waarom begint titel met ATI en niet AMD?
Waarschijnlijk omdat de merknaam Ati al grafische bekendheid geniet, meer dan AMD
Omdat AMD nog steeds de merknaam ATI aanhoudt.

Het is niet slim om een bekend merk over te nemen en dan de naam te veranderen.
ATI is zo bekend in het segment dat je meteen marktaandeel zou verliezen als je de naam zou veranderen.
omdat je in het nieuws met de prijzenoorlog het ook over albertheijn hebt en niet over ahold.
klinkt goed, ik zit nu serieus te overwegen om van videokaart te switchen als de nieuwe uitkomen... ik ben nog altijd trouw aan AMD..
ik wacht wel even de benchmarks en de rest van de specificaties af..
Heeft het feit dat hij eerst met 480 shaders werd aangegeven niet te maken met het feit dat ATi shaders heel anders in elkaar zitten dan nVidia shaders?

(een ATi shader kan meerdere bewerkingen tegelijkertijd?)
Nee, een nVidia shader kan meerdere bewerkingen tegelijkertijd. Daarom kan nVidia evenveel FLOPS halen met minder shaders.
nope, die van nvidia lopen 2 to 2,5 keer zo hard als de core. daarom halen ze meer flops.
biede zijn op verschillende manier opgezet maar ze werken allebij met groepen van shaders die samen bepaalde dingen snel kunnen doen maar die groepen hebben ook beperkingen (ze moeten bijvoorbeeld allemaal de zelfde soort taak doen)
nvidia heef groepen van 8 gelijke shaders, ATI heeft groepen van 5 met 1 uitgebrieden en 4 simple shaders als ik het goed heb.
nvidia heef groepen van 8 gelijke shaders, ATI heeft groepen van 5 met 1 uitgebrieden en 4 simple shaders als ik het goed heb.
Bijna, ATI heeft 4 groepen (SIMDs) van 16 ALU "blokken", die elk bestaan uit 4 simpele en 1 complexe ALU. Om marketingpraat te gebruiken heeft ATI 4 clusters van 80 "stream processors", terwijl NVIDIA 16 clusters van 8 SPs heeft.
NVIDIA heeft daarbij weer een hogere clocksnelheid en vanwege de kleinere blokken meer flexibiliteit, ATI heeft meer SPs.
Was het niet zo dat ATI de kloksnelheid van de shaders nu ook ging loskoppelen van de core snelheid en dus kon gaan opvoeren net zoals Nvidia heeft gedaan?
ja dat is het idd het andere gerucht wat de ronden doet (en waar we al GPU-Z screenshots van hebben... die ineidergeval echt lijken)
en dat gerucht over 480 shaders en een 1050mhz clock met 750 core snelheid lijken mij eigenlijk waarschijnlijker (dat zou ook ongeveer uit komen op een verdubbeling van de shaders kracht namelijk).
Ja, en nee, ATI's shaders zijn inderdaad anders dan NV's shaders. Eén NV-shader is, kort door de bocht, gelijk aan 5 ATI-shaders. Maar de reden dat het eerst 480 shaders zouden zijn is puur marketing + het verborgen houden van de daadwerkelijke specs, zodat de concurrentie uitgaat van een veel langzamer product.
Nee, denk eerder dat het een onduidelijkheid was of het er 480 waren, of 480 méér. 320 van de R670 + 480 is 800 namelijk ;)
Denk ik ook. Dit is dus ook weer 'n fudzilla etc. gerucht.
Zelf wacht ik eerst lekker op de officiele release spects. Dan te worden misleid door deze halfbakken geruchten gezever.

het islijkt erop dat iemand 'n half dove source heeft en een cijver opgevangen van 480. En dan ja, even zelf gokken wat het is en dan de geruchten molen in.
Als lezer zoek dan maar uit wat het moet zijn.

Ik zie wel wat het wordt. Ik ben eerder benieuwd naar de resultaten. En shaders waren geen probleem eerder Hardware AA en fillrate

[Reactie gewijzigd door SG op 12 juni 2008 00:36]

Volgens mij word dit een fantastische videokaart. ik verwacht zelfs dat ze mischien de performance crown van nvidia kunnen afpakken met hun 4870X2 t.o.v. de gtx280.
probeer van die gt200 er maar 2 op een kaart te proppen, dat zal ze nooit lukken. O-) edit: op fuzilla was te lezen dat die chip 236 watt verbruikt, dat gaat ze dus echt noot lukken.

de 25e gelijk de hd4870 bestellen. :)

[Reactie gewijzigd door leeuwtje1 op 11 juni 2008 11:22]

probeer van die gt200 er maar 2 op een kaart te proppen, dat zal ze nooit lukken.
Ik ben wel benieuwd hoe ze dat willen doen, gezien het feit dat HD4870 al meer dan 160Watt schijnt te verbruiken onder load. Lijkt me sterk dat ze zomaar twee RV770XT chips op een kaart kunnen gooien zonder clocks aan te passen, anders zit je met een TDP van over de 320Watt.

Hoe dan ook hoop ik wel dat ze wat concurrentie kunnen bieden. AMD kan het wel eens gebruiken.
Hadden ze met de 2900XT ook geen problemen mee hoor, met een TDP van 300+ watt.
2900XT had een TDP ergens tussen de 220 en 240 als ik me niet vergis. Vergelijkbaar met de nieuwe Geforce kaart dus.
de 2900XT had geen x2 kaart. tenminste nooit iets over gehoord.
de 3870 wel. en die x2 had een TDP van bijna 300 watt. dus met 2x160watt zouden ze ook ongeveer op het zelfde nivo zitten.
De HD4850 verbruikt maar 110W, als ze de clock snelheid wat aanpassen, is het heel goed mogelijk om zo'n X2 kaart te maken. 110w per core is nog goed te doen, en aangezien 2 warmte van 2 plekken komt kun je ook op 2 plaatsen koelen. (2 cores die warmte afgeven).
Ik wacht eerst een tijdje op benchmarks en dan misschien bestellen.
Snot_aap:

Ik zou denken dat die site niet echt meer up-to-date is, die geeft nog aan dat de 4850 "maar" 480 shaders heeft, dus dat zou niet echt representatief zijn.

En als er nu al aangegeven wordt, met die 480 shaders, dat het een behoorlijk bang for the buck is, dan moet het met 800 shaders toch wel goedkomen lijkt mij.

En als ik die site zie, en je kijkt naar die scores in 3dmark, op

1280x1024 = 12494
1600x1200 = 11240
1920x1200 = 10442

Dat vind ik toch heel erg netjes hoor, volgens mij doet ie dat een stuk beter dan een nvidia kaart. Misschien niet de hoogste score op 1280x1024, maar hij verliest in totaal maar 2000 punten als je van 1280x1024 naar 1920 x 1200 gaat, en dat is dan met 480 shaders.

Wil ik wel eens zien hie die dat doet met 800 shaders.
mijn ervaring is dat ATI het in3d mark altijd wel goed deed.. maar ingame dat moeten we afwachten lijkt mij.
dat ze 2000P maar achterlopen op nvidia in die benchmark dat zegt mij helaas niet veel zie de 2900XT
Andere screenshot geven ook 470 shaders.
Heeft er mee te maken dat gpuz de shaders uit zijn eigendatabase leest.
De scores wijzen wel wat anders uit.

Op dit item kan niet meer gereageerd worden.



Apple iPhone 6Samsung Galaxy Note 4Apple iPad Air 2FIFA 15Motorola Nexus 6Call of Duty: Advanced WarfareApple WatchWorld of Warcraft: Warlords of Draenor, PC (Windows)Microsoft Xbox One 500GBSamsung

© 1998 - 2014 Tweakers.net B.V. Tweakers is onderdeel van De Persgroep en partner van Computable, Autotrack en Carsom.nl Hosting door True