De RV770-gpu van ATI is uitgerust met achthonderd shaders, meldt Fudzilla. Hierdoor zouden zowel de Radeon HD 4850 als de Radeon HD 4870 over een rekenkracht van minimaal 1 teraflop beschikken.
Ten opzichte van zijn voorganger heeft de RV770 ruim twee keer zoveel shaders: de RV670-gpu moet het met 320 shaders stellen. Eerder werd voor de nieuwe gpu nog een aantal van 480 shaders genoemd, maar deze informatie zou volgens Fudzilla onjuist zijn.
De achthonderd op 625MHz geklokte shaders van de Radeon HD 4850 zouden een gezamenlijke rekenkracht bieden van 1 teraflop, terwijl de op 750MHz draaiende shaders in de RV770-gpu van de 4870 meer dan 1,2 teraflop weten te behalen. ATI zal de kaarten daarom aanprijzen met de term 'Terascale Engine'. Wanneer videokaarten op basis van de RV770-gpu verkrijgbaar zullen zijn, is nog niet bekend, maar er wordt verwacht dat moederbedrijf AMD binnen enkele weken met een officiële aankondiging zal komen.
Nee, dat is te simplistisch gezien. ATI heeft gekozen voor een zogenaamde VLIW (very long instruction word) architectuur, waarbij elk ALU block van 5 tegelijk een instructie krijgt. Als er een operatie moet worden uitgevoerd op een vector met vier elementen kunnen alle 4 de ALUs aan het werk gezet worden. Als er daarnaast ook een complexe operatie moet worden uitgevoerd (bijvoorbeeld sinusberekening), dan kunnen alle 5 ALUs iets doen. Het probleem ontstaat als er afhankelijkheden zijn in de code. Als een operatie afhankelijk is van het resultaat van de vorige operatie bijvoorbeeld (1: C = A + B, 2: D = E / C, 2 kan pas uitgevoerd worden als C bekend is). Dit gebeurt nogal vaak in shadercode, en wanneer dit gebeurt kan het zijn dat er maar 1 operatie uitgevoerd kan worden (A+B), terwijl de overige vier ALUs niets te doen hebben. Pas in de volgende clockcycle kan het resultaat gebruikt worden en kunnen er (mogelijk) meer ALUs aan het werk gezet worden. Zo kan het bijvoorbeeld gebeuren dat bij een complex stuk shadercode met veel afhankelijkheden maar twee vijfde van de rekenkracht van de ATI kaart gebruikt wordt, gemiddeld gezien.Daarbij heb ik vernomen dat de Shaders van ati gedeeld moeten worden door een factor 5 omdat elke 5 shaders (een unit) wel uit 5 apparte delen bestaan, maar bij games niet altijd alle 5 tegelijk gebruikt worden, maar meestal 1 van de 5.
Op zich correcte uitleg. Uit metingen met huidige games is echter het gemiddelde aantal operaties per vec4 + scalar unit op ongeveer 3.5 uitgekomen. Dit betekent dat er een occupancy van ongeveer 70% is. Dus claimen dat dit nogal vaak gebeurd is wat gechargeerd als je het mij vraagt.Dit gebeurt nogal vaak in shadercode, en wanneer dit gebeurt kan het zijn dat er maar 1 operatie uitgevoerd kan worden (A+B), terwijl de overige vier ALUs niets te doen hebben.
Afhankelijkheden zijn toch wel veel voorkomend, maar wat ik in mijn uitleg er dan weer niet bij zei is dat de ene afhankelijkheid niet per se er voor zorgt dat de rest van de ALUs zit te idlen. Je hebt dus gelijk dat het probleem niet zo groot is als ik het boven eerst beschreef. Desalniettemin blijft VLIW toch achter bij een simpeler architectuur als G80, en het kan nare bottlenecks opleveren in games (70% betekent soms 100%, maar ook soms veel en veel lager).Dus claimen dat dit nogal vaak gebeurd is wat gechargeerd als je het mij vraagt.
Ik heb bij geruchten op het Beyond3D forum opgevangen dat elke SIMD een eigen DP eenheid zou krijgen, maar daar werd geen bewijs bij gegeven. GT200 zou dan uitkomen op iets van 80 GFLOPs DP, wat verrassend laag is, zeker in vergelijking met RV770, die drie tot vier keer meer haalt.Bovendien heeft ATI een groot voordeel met GPGPU door hun shader die allen in staat zijn een dual precision float uit te rekenen. Dus ipv. 4 SP per clock twee DP per clock. Hoe nVidia dit op gaat lossen is nog maar de vraag.
Ik moet zeggen dat ik me nooit in het hele "missing MUL" verhaal heb verdiept, maar bestaat deze uberhaupt wel? Ik heb meerdere keren gelezen dat het niets meer was dan marketingtrucje om wat meer FLOPs te kunnen claimen.Ze noemen hun architectuur wel scalar, en dat is het ook wel, maar ze hebben in sommige gevallen opeens wel een 2-issue op de MUL unit. Wanneer de compiler dit doet is niet duidelijk, zoek maar op google naar "G80 missing MUL".
Totale onzin. De RV670 heeft 64 Vec4 + 1 scalar ALUs in 4 processors van 16 ALUs. De G92 heeft 128 scalar ALUs in 16 processors van 8 ALUs. Het grote verschil is de occupancy (efficientie) en de clocksnelheid, beide gunstiger op nVidia's architectuur.Een RV670 heeft in theorie dan 320 shaders (maar als je dit zo bekijk heeft een G92 er 256) doch kan echter maar overweg met simultane 64 threads in vergelijking met 128 tov de G92
[Reactie gewijzigd door de_nille op woensdag 11 juni 2008 14:53]
[Reactie gewijzigd door drahca op woensdag 11 juni 2008 16:47]
[Reactie gewijzigd door oeLangOetan op woensdag 11 juni 2008 16:40]
[Reactie gewijzigd door FTI op woensdag 11 juni 2008 10:46]
[Reactie gewijzigd door Snoitkever op woensdag 11 juni 2008 16:44]
En voor wie het zich afvraagt, SM staat voor Shader Multiprocessor.It's 10, 3x8 in each, no coarse redundancy. Anyway, since we're letting the cat out of the bag here... This is also based on a die shot, although a better one so if you can't corroborate it, you'll just have to believe me:
~26.5% SMs, ~26% Non-SM Clusters (TMUs etc.), ~14.25% memory I/O, ~13.25% unique, ~8% MCs, ~6.25% ROPs, ~2% Misc. I/O, 4%+ Misc. (intrachip I/O, rounding errors, unidentifiable units, etc.)
http://forum.beyond3d.com...167940&postcount=1755
[Reactie gewijzigd door Snoitkever op woensdag 11 juni 2008 16:42]
Bijna, ATI heeft 4 groepen (SIMDs) van 16 ALU "blokken", die elk bestaan uit 4 simpele en 1 complexe ALU. Om marketingpraat te gebruiken heeft ATI 4 clusters van 80 "stream processors", terwijl NVIDIA 16 clusters van 8 SPs heeft.nvidia heef groepen van 8 gelijke shaders, ATI heeft groepen van 5 met 1 uitgebrieden en 4 simple shaders als ik het goed heb.
[Reactie gewijzigd door SG op donderdag 12 juni 2008 00:36]
[Reactie gewijzigd door leeuwtje1 op woensdag 11 juni 2008 11:22]
Ik ben wel benieuwd hoe ze dat willen doen, gezien het feit dat HD4870 al meer dan 160Watt schijnt te verbruiken onder load. Lijkt me sterk dat ze zomaar twee RV770XT chips op een kaart kunnen gooien zonder clocks aan te passen, anders zit je met een TDP van over de 320Watt.probeer van die gt200 er maar 2 op een kaart te proppen, dat zal ze nooit lukken.
Op dit item kan niet meer gereageerd worden.
Populair: Asus Samsung Websites en communities Mobiele telefoons Laptops Sony Games Microsoft Consoles Microsoft Xbox One
© 1998 - 2013 Tweakers.net B.V. Contact Over Tweakers Jouw privacy Algemene voorwaarden Cookies
Tweakers wordt uitgegeven door De Persgroep en wordt gehost door True