Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 34 reacties
Bron: Extreme Tech, submitter: CJ

ExtremeTech schrijft dat ATi een licentie heeft genomen op de Fast14-technologie van Intrinsity. Met behulp van de Fast14-technologie zou ATi GPU's kunnen bouwen die een factor vier zo'n hoge kloksnelheid hebben. Aangezien de huidige GPU's ongeveer een snelheid hebben van 400 600MHz zou dat chips op kunnen leveren met een snelheid van 1,6GHz 2,4GHz. De Fast14-technologie heeft echter wel beperkingen. Het kan alleen gebruikt worden om logische schakelingen sneller te maken. Het verbeteren van de geheugenprestaties is niet mogelijk. Hieronder valt niet alleen het op de videokaart gentegreerde geheugen, maar ook de verschillende buffers en caches in de GPU zelf.

Intrinsity logoDe Fast14-technologie biedt ATi de mogelijkheid om zowel qua performance als qua kosten een voorsprong te verkrijgen op nVidia. Het is namelijk goed mogelijk om een aantal pipelines te schrappen om kosten te besparen en tegelijkertijd betere prestaties neer te zetten. Voorlopig blijft het echter allemaal speculatie en zal het nog wel even duren voordat we zullen zien of de technologie haar beloftes kan waarmaken.

De werking van de Fast14-technologie is gebaseerd op de zogenaamde dynamische logica. Dynamische logica werd in de jaren zeventig veel gebruikt om simpele microprocessors te ontwerpen met behulp van NMOS- en PMOS-circuits. Met de komst van CMOS-productietechnieken verdween de dynamische logica naar de achtergrond omdat het bijzonder ingewikkeld is om dergelijke circuits te ontwerpen die correct en tevens snel werken. Alleen in circuits waar bijzonder hoge kloksnelheden noodzakelijk zijn en waarbij de complexiteit van de schakeling beperkt is worden ze gebruikt.

Intrinsity heeft een set ontwikkelingsgereedschappen ontworpen die een groot aantal problemen uit de weg ruimen waardoor dynamische logica ontworpen kan worden met dezelfde tools als de hedendaagse logica. De technologie bestaat uit verschillende onderdelen. Allereerst wordt er gebruik gemaakt van een special klokschema waardoor het niet langer nodig is om logische waardes in latches tussentijds op te slaan wat een simpeler en sneller circuit oplevert. Verder legt de software de verbindingen automatisch zo neer dat de hoeveelheid ruis minimaal is.

Klokschema Fast14-technologie
Schematische weergave klokschema Fast14-technologie

Het belangrijkste onderdeel van de Fast14-technologie is echter de 1-Of-N dynamische logica familie. Hiermee is het mogelijk om logische functies te implementeren met minder transistors in serie en tevens is het energiezuiniger ten opzichte van traditionele dynamische logica. Hierdoor treden er minder schakelvertragingen op en is de logica sneller klaar met de berekening. Wanneer je bijvoorbeeld de waardes 0 tot en met 3 wilt representeren heb je 2 bits nodig. NDL logica kan twee bits tegelijkertijd representeren met behulp van vier draden waarbij er per klokcyclus n draad schakelt. Bij traditionele dynamische logica schakelen er twee draden per klok waardoor het stroomverbruik tweemaal zo hoog is.

NDL logica schema
Verschillende tussen statische, traditioneel dynamische en NDL dynamische logica
Moderatie-faq Wijzig weergave

Reacties (34)

Dat zijn wel hele mooie getallen,
Maar kan me eigenlijk niet voorstellen dat de gpu @ 1.6ghz loopt en dan ook niet te warm word.
Heb je dalijk een verplichte Pelt op je Gpu
maar wat heb je er eigenlik aan als het geheugen niet sneller wordt
ze gaan dan ook pipelines schrappen. pipelines schrappen zorgt er dan voor dat alles weer koeler wordt.

Het is ook beter dat je met minder pipelines bezig gaat die sneller zijn. Het liefst zou je 1 pipeline hebben met een immense snelheid, maar dat is tegenwoordig niet mogelijk. Dus bouwen ze parallele pipelines, die onafhankelijk werken. Voordeel van 1 snelle pipeline ten opzichte van meerdere langzamere pipelines is dat de latency een stuk lager is. De pipeline draait op een veel hogere kloksnelheid en kan dus veel sneller reageren op veranderingen.
Uiteraard zit de core wel gebonden aan de capaciteiten van de memory bus, maar dat is altijd al geweest (net als bij cpu's)
Dat de geheugenprestaties niet verbeterd kunnen worden met deze techniek is jammer, maar niet onoverkomelijk. Net als bij de CPU lijkt me dat dit op te lossen is door een dual-channel techniek in de geheugencontroller te gebruiken.
Demoniac, geloof me, de ontwerpers bij ATI en nVidia hebben daar al voor u aan gedacht.

nVidia heeft haar memory crossbar techniek, ATI dachtik iet soortgelijks. In hoeverre die technieken gelijk zijn aan dual-channel memorycontrollers in de chipset (of processor) weet ik eerlijk gezegd niet.

Mocht ik er compleet naast zitten, mijn excuses, maar als het er nog niet is zal het wel een reden hebben"
-complexiteit van het ontwerp (wat ook de prijs omhoog zal drijven)
-kostprijs (ze moeten ze nog steeds verkocht krijgen)
Die geheugenprestaties zullen steeds minder belangrijk worden.
Dat zie je nu al met nieuwe DX9 spellen en de verwachting is dat die trend doorgezet zal worden, misschien nog niet zo duidelijk in het komende jaar, maar daarna waarschijnlijk wel.

Bij de R420 en R500 zal deze technologie nog niet gebruikt worden, want die gpu's zijn al te ver ontwikkeld. Maar dit zal eerder voor de versie daarna bedoeld zijn.
Het is namelijk goed mogelijk om een aantal pipelines te schrappen om kosten te besparen en tegelijkertijd betere prestaties neer te zetten
dat dacht nVidia ook te kunnen. Dit werkt gewoon niet. Ik hoop voor ati dat het hier wel werkt. En de rest van de techniek ook. Maar ik hoop niet dat Ati dezelfde fout maakt als nVidia.
als je klok 2 keer zo snel loopt als voorheen dan kun je zeker wel pipelines schrappen
Het klinkt inderdaad fantastisch, maar ik denk dat als dit echt gaat werken, het niet lang zal duren vooraleer nVidia ook bij Intrinsity op de stoep staat - tenslotte is "in licentie nemen" niet iets exclusiefs...
ATI heeft dan wel een forse voorsprong, ervan uitgaande dat ze al langer naar dergelijke technieken zochten, en nVidia er pas net van gehoord heeft. Voor de ontwerpstaf is het nogal een omschakeling lijkt me.
en nVidia er pas net van gehoord heeft.
Natuurlijk niet, beide bedrijven houden elkaar nauwlettend in de gaten. Ik kan me moeilijk voorstellen dat ze er nu pas van horen ;)
De wet van de remmende voorsprong.
Wanneer blijkt dat de kaarten van Ati idd hierdoor erg goed en snel worden, zal nvidia de technologie ook gaan toepassen, dit aangezien Ati niet het exclusieve recht heeft voor de technologie. Dit zonder een hele hoop research e.d.
Het heeft dus zn voordelen maar ook zn nadelen.
@neo fooker:

Tuurlijk heb je er wel wat aan! bij de komende dx9 spellen hangt het meer af van de rekenkracht van je gpu dan aan de beschikbare bandbreete.

Het lijkt mij wel vet als we starks gpu's hebben die veel sneller gaan, alleen hoop ik wel dat ati dan nog steeds meer pipelines erop blijft bouwen zodat je een uber snelle videokaart krijgt :D
Dit is een heel mooie techniek. Het idee dat er achterzit is geweldig, en ook zal deze techniek vast hogere snelheden op kunnen leveren. Maar die factor 4 is puur theoretisch zoals ik het nu bekijk, en er zullen vast nog wel een paar flinke nadelen aan kleven die hier niet genoemd zijn.
Ook zal de implementatie alles behalve meevallen lijkt me.
Maarja het feit dat er onderzoek en ontwikkeling (huh R&D, nooit van gehoord) is, is natuurlijk een hele goede zaak.
Helaas is het tegenwoordig voor kleine bedrijven niet meer mogelijk om zelf een nieuwe techniek/product te ontwikkelen in de technologiesector.
Twee waarneembare trends zijn dat de R&D kosten als maar hoger worden (complexere technologie), en dat de productcyclussen als maar korter worden (producten verouderen sneller en de terugverdienperiode wordt daardoor automatisch korter door dus).
Er is voor bedrijven dus meer risico, omdat er hogere kosten zijn en de technologie ook nog eens snel moet aanslaan omdat het bedrijf anders voorbij gestreefd wordt door anderen. Laten we dus maar hopen dat het ATI in iedergeval weer iets verder gaat brengen.
Yojordi zei:
Wanneer is deze techniek klaar voor gebruik dan? Ik denk niet dat de volgende ATi kaarten (R420) al een core hebben met 2.4Ghz
Dat lijkt me ook niet, omdat de samples van de R420 al (lang en breed) de deur uit zijn. Bovendien blijkt deze techniek vrij complex en zal dus niet zomaar toegepast gaan worden.
Ik zal wel weer niet weten waar ik het over heb maar... :Y)

Is zoiets dan niet toe te passen op processoren? Dat zou pas een leuke vermenigvuldiging zijn.

Athlon64 3000+ 2,0 Ghz @ 8,0 Ghz? :Z
Dynamische logica werd in de jaren zeventig veel gebruikt om simpele microprocessors te ontwerpen met behulp van NMOS- en PMOS-circuits. Met de komst van CMOS-productietechnieken verdween de dynamische logica naar de achtergrond omdat het bijzonder ingewikkeld is om dergelijke circuits te ontwerpen die correct en tevens snel werken. Alleen in circuits waar bijzonder hoge kloksnelheden noodzakelijk zijn en waarbij de complexiteit van de schakeling beperkt is worden ze gebruikt.
microprocessor == processor

Als je dit leest weet je meteen waarom het niet gebruikt word voor cpu's.
Dynamische logica werd in de jaren zeventig veel gebruikt om simpele microprocessors te ontwerpen met behulp van NMOS- en PMOS-circuits. Met de komst van CMOS-productietechnieken verdween de dynamische logica naar de achtergrond omdat het bijzonder ingewikkeld is om dergelijke circuits te ontwerpen die correct en tevens snel werken. Alleen in circuits waar bijzonder hoge kloksnelheden noodzakelijk zijn en waarbij de complexiteit van de schakeling beperkt is worden ze gebruikt.
Een VPU is zeer zeker niet 'minder' complex dan een CPU. Alleen waar een CPU aan een vast x86 instructieset zit, en een heuze regelneef qua I/O is met daarnaast hoofdverantwoordelijke voor een uiteenlopend aantal programma's (welke in user of kernelmode draaien, maar op een bepaald aantal punten mag lezen/schrijven, en best complexe dingen doen die allemaal door de CPU zelf de pipelines ingestuurd moeten worden en hardware matig geoptimaliseerd worden) en ook nog eens de VPU zijn instructies (dmv drivers) moet voorkouwen, lijkt het meer werk, en gaat ie relatief 'langzamer'. Hence de hoge klokken, flinke I/O (die ook de VPU heeft) en bergen cache (ivm de vele programma switches).
Een VPU aan de andere kant krijgt geoptimaliseerde code binnen, dmv een instructieset die niet vast staat (paranoia-niveau geheim gehouden door de fabrikant) en hoeft het alleen maar te verwerken. Dit maakt hem veel sneller, omdat de taak veel nauwkeuriger gedefinieerd is. Maar minder complex, nee. Want waar de CPU al deze verschillende dingen onboard heeft, heeft de VPU er gewoon krachtigere varianten van.
Een CPU heeft 3 floating point pipelines, eentje voor vermenigvuldigen, eentje voor optellen/aftrekken en eentje voor overigen (denk aan shifts, read/write, naar integer, etc) en deze draaien stevig mee op de kloksnelheid, wat ze snel maakt.
Een VPU kan er zoveel als 21 hebben, die allen even sterk zijn, maar op een vierde van de snelheid, en kunnen allen vermenigvuldigen n optellen n schrijven. Complexer? Jazeker.

Het beeld dat een CPU dus complexer is, is fout. Ja, hij is gevarieerder, maar elk onderdeel is een veelvoud complexer in een VPU. Daarom is de vraag van Z-Dragon erg interessant. Jammer alleen dat de techniek niet voor buffers en cache werkt, waardoor het hele verhaal gedeeltelijk weer niet op gaat voor CPU's. Elk onderdeel moet natuurlijk aan elkaar gekoppeld worden, en dat gebeurd met latches, buffers, en caches. En een CPU heeft met z'n grote diversiteit er een flink arsenaal van nodig...
Interesante technologie,teminste als het echt zo is als hierboven staat en niet bedrijfspropaganda. Maar als dit echt toepasbaar gemaakt kan worden en de echte snelheidswinst ook echt liniair oploopt dan is dit een hele mooie vinding.
Knap trouwens om nu iets te vinden wat al zo lang geprobeert is.
Ik geloof de opmerking over processoren niet zo. Het allemaal wel moeilijk toe te passen zijn, maar...

Microprocessoren zijn ook omgevingen waar het noodzakelijk is om snel te werken. Niet alle schakelingen zijn even eenvoudig, maar het kan delen van processoren toch zeker versnellen.

Lijkt me met de gestaag naderende uitputting van de mogelijkheden rondom Si, toch een meer reele optie dan nano-, quantum-, licht computing.
Is iemand op de hoogte wat er tegenwoordig in de GPU's en CPU's zit? Ik dacht namelijk dat het allemaal TTL (transistor - transistor logic) omdat die techniek een hoge frequentie aan kan, in tegenstelling tot xMOS technieken. Maar misschien is deze opvatting verouderd en zit het tegenwoordig anders in elkaar.

Wel leuk om te zien hoor, hoe je een met een paar transistoren hele aardige schakelingen kan maken.

Maar ik begrijp niet waarom dit niet k in geheugen gebruikt kan worden, mits geheugen dezelfde soort logica gebruikt. Als ik het goed begrijp is het ook een soort van truucje net zoals bij DDR SDRAM,of niet?

Een andere vraag: Mocht het nu haalbaar zijn om moeilijk implementeerbare technieken toe te passen, krijgen we over een aantal jaar ook een computer die met een decimaal systeem werkt?

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True