Clearspeed overweegt ontwikkeling co-processor voor K8

Clearspeed heeft deze week opgemerkt dat het in overleg met AMD is over de ontwikkeling van een floating point co-processor voor het K8-platform. Het bedrijf is een producent van 'supercomputerchips'. Hun meest recente product - de CSX-600 - is een 250MHz processor met maar liefst 96 cores aan boord. Ondanks het feit dat het apparaat slechts 10 watt nodig heeft, kan het in theorie ruim 25 gigaflops aan rekenkracht leveren. Net als bij Cell - die zelf overigens 256 gigaflops claimt te kunnen leveren - is de grootste uitdaging bij Clearspeed om toepassingen te vinden die deze theoretische prestaties om kunnen zetten naar iets wat ook in de praktijk bruikbaar is. Tevens is het maar net de vraag hoe flexibel de rekenkracht is: fabrikanten van moderne videokaarten specificeren ook vele honderden gigaflops, maar buiten spellen komt het gebruik daarvan maar erg moeizaam op gang.

Clearspeed PCI-kaart

Eén van de beperkingen die altijd geldt is de beschikbare bandbreedte: het is erg leuk om zoveel te kunnen rekenen, maar als je de invoer én uitvoer op PCI-snelheid over moet sturen wordt de maximale doorvoer toch behoorlijk beperkt. Om dit deels op te lossen ondersteunen de huidige Clearspeed-kaarten een lokale buffer van maximaal 4GB DDR2 per chip. Deze configuratie wordt onder andere al gebruikt door Sun, die er een 100 teraflop supercomputer mee aan het bouwen is voor een Japans instituut. Een groot deel van die gigaflops komt voor de rekening van 600 Clearspeed-processors, de rest wordt geleverd door een batterij van ruim vijfduizend dualcore Opterons.

De integratie tussen processor en co-processor kan natuurlijk altijd beter, en dat is precies waar Clearspeed nu samen met AMD naar aan het kijken is; de optie om een zogenaamde 'closely coupled' versie te maken. Het ligt voor de hand dat hiermee een directe verbinding met het HyperTransport-netwerk wordt bedoeld, wat de Clearspeed-chip in staat zou stellen om het volledige geheugen van de server min of meer rechtstreeks aan te spreken. Er zitten echter heel wat haken en ogen aan zo'n onderneming, en het is dan ook niet duidelijk hoe concreet de plannen al zijn. AMD heeft echter al een paar keer eerder gehint naar de optie om in de toekomst co-processors te gaan ondersteunen in zijn infrastructuur. Als het idee daadwerkelijk uitgevoerd wordt dan zal het waarschijnlijk voor het eerst opduiken in speciale workstations en supercomputers.

CeBIT 2005: HyperTransport-connector op Tyan Thunder K8QW
Deze HyperTransport-connector wordt nu nog gebruikt om twee quad-Opteron-planken aan elkaar te knopen, in de toekomst ook andere uitbreidingsmogelijkheden?

Door Wouter Tinus

16-03-2006 • 21:43

46

Bron: Electronics Weekly

Reacties (46)

Sorteer op:

Weergave:

En ik maar denken dat het na mijn 386 afgelopen was met de co-processor.

Zou je nu een FP-unit erbij kunnen prikken als je met je systeem veel FP-operaties nodig hebt of een INT-unit als je systeem liever hele cijfertjes smikkelt (en je geen woodcrest wilt :P )?
De NexGen Nx587 is een co-processor voor de NexGen Nx586. Dit is een 5de generatie chip en nieuwer dan de 386 ;)
NexGen is overigens overgekocht door AMD ;)
AMD heeft het Nx686 design gebruikt voor de AMD K6.
Het was niet afgelopen met de 386, de 486 had er namelijk ook een. Alleen de goedkopere 486sx had er geen. Klopt overigens niet helemaal, de sx had er namelijk wel een coprocessor, maar die was niet aangesloten, om op die manier een instap processor te aan te kunnen bieden.
VAUDT.
de 8086, 80186, 80286 en 80386 hadden FPU coprocessoren.
de 80486 SX had in tegenstelling tot de 80486 DX slechts een 16-bit externe bus en wel de complete instructie set.

Eigenlijk had hij dus de 80488 moeten heten die naamgeving zou onvereenkomstig zijn met de 8088 in de 8086 reeks (en ook bij de 186 en de 286). Een 80388 heeft nooit bestaan.

Om het helemaal onverzichtelijk te maken heeft IBM in licentie de 80486 SLC en 80486 SLC2 processoren gemaakt. Deze hadden net als de 80486 SX een 16 bits brede databus maar wel een opgevoerde instructie set op het nivo van de pentium te krijgen maar dan passend in het oude voetje. Dit om niet nieuwe mobo's te hoeven maken.

@lily
je hebt gelijk. Papa's geheugen laat hem in de steek. Ik verwarde de SLC en de SX teveel.

shame on me!
De 486 had een geintegreerde coprocessor. De "coprocessor" voor de 486SX was in werkelijkheid een complete 486, bij plaatsing ervan werd de 486SX gewoon uitgeschakeld.

[edit] @boner: nee, dat 32/16 bits verhaal is niet van toepassing op de 486, maar op de 386 - de 386SX was extern 16 bits.
De 486SX is ontstaan door een stukje productieuitval betreffende de co-processor toch te kunnen gebruiken.
Inderdaad, 386... :)

Maar bijprikken zal denk ik niet zo makkelijk zijn als het met Hypertransport wordt geintegreerd. Het artikel haalt juist aan dat transfer over de PCI bus veel te traag is (zelfs PCI-e neem ik aan).
als het over de HyperTransport bus gaat is eigenlijk het enige wat ze hoeven te doen er een socket voor te maken
dus een speciale socket voor co processors.
or ze passen de package van de co-processor aan zodat hij in socket 940 of socket F past.
het voordeel dan is onderandere de dat coprocessors ook hun eigen geheugen kunnen gebruiken (of ook hun geheugen kunnen delen met de rest van het systeem)
en dan kan je heel makelijk kiezen tussen of meer normale CPU's of een aantal gespecializeerde processors.

al met al lijkt dat me een best aantrekkelijke optie eigenlijk.
funmode:

http://thang.ongameport.c...ty/sshot_pop.asp?idx=4310#
leuk plaatje die ik een paar weken geleden tegen kwam in een oude doos. En er een leuke post van gemaakt op een gameforum :)
als de bus zon probleem is waarom dan geen pci-ex?
Waarom wel PCIe ?
Vermoedelijk is dat alleen maar inefficiënt als dit systeem met de processor samen kan gaan werken. Een directe link naar de CPU is dan veel sneller. Naast dat blijft de PCIe bus dan 'over' voor andere doeleinden :)
maar de pci bus is toch ook geen directe link met de cpu, beide gaan toch via de chipset?
Ja maar Thandor bedoelt dan ook dat je de chipset verder ongemoeid laat. Dat maakt het juist veel sneller en minder belastend voor andere onderdelen van het systeem.

De Hypertransport bus is hier denk ik best toepasbaar voor maar er zal dan denk ik wel een uitbreiding op het protocol moeten komen om prioriteit ed. vast testellen.
moet ik me hier dan voorstellen dat, deze co-processors, de iets wat geavanceerdere optie worden voor, bijv driver-management, of high-end I/O controllers, of 3D-rendering?????

want eigenlijk bestaat dit toch al in een basis-vorm (lees mini-procs op raid kaartjes, vga-kaartjes e.d.???????
Het lijkt mij dat het een aanstuurbare processor is. En dus kun je hem voor van alles gebruiken mits de software de processor maar aanspreekt.

Mij lijkt het wel wat voor diegenen die net als ik wel eens wat in Scenarist doen. Vooral die subs vertragen je systeem zo :(
De processoren op RAID kaarten zijn doorgaans normale CPUs met eigen geheugen en een programma in FLASH.
Ze zijn niet - zoals een co-processor - in staat geoptimaliseerd om één soort bewerking uit te voeren.
uiteindelijk kan je de GPU's ook als een co-processor zien, gewoon ter acceleratie van een specifiek iets, als men nu denkt dat dit voor floating point ook nuttig is, waarom niet...
Ik geloof dat er ooit wel is ideeen waren om de GPU voor dit soort taken in te zien. Dit is geloof ik een dood spoor geworden :).

Het klinkt goed, dankzij het ontwerp van de K8 en voornamelijk de mooie Upscaling van Hypertransport. Hypertransport heeft bandbreedte (8GB/s), en is makkelijk toepasbaar. Goeie zet van AMD, om weer een stukje in de server markt te veroveren!
Iwill is een van de weinige leveranciers (zo niet de enige) met een HTX bordje. Bij Iwill kan daat een Infiniband kaart in. Dat is het bordje met de laagste latency ter wereld.
Wat zijn dan precies programma's die hier baat bij hebben? Hier bedoel ik dus desktop gebruik mee, niet server gebruik.
Want het 'klinkt' best interresant om zoiets te kopen voor in je desktopje.

@T3rmi:
Hypertransport is volgens mij full duplex dus 16GB/s.
Wat dacht je van het doorrekenen van kern-reacties? anti-materie achtige zaken?
ja dat doe ik ook veel op mn desktopje :Z
K8 = ook opteron :)
Een }:O natuurlijk! :Y)

mja, en verder denk ik toch dat alleen games hier baat bij kunnen hebben, voor je tekstverwerker zal het weinig uitmaken :)
Spraakherkenning, OCI software, schaakprogramma's.
Deze configuratie wordt onder andere al gebruikt door Sun, die er een 100 gigaflop supercomputer mee aan het bouwen is voor een Japans instituut

En dat moet natuurlijk 100 teraflop zijn! Anders was het een supercomputer die maar uit een paar CPU's bestond :+
idd, kleine fout, factor 10^3 maar :P
zouden deze ontwikkelingen er uiteindleijk toe leiden dat we in de toekomst bij het samenstellen van een pc niet alleen het moederbord, CPU en GPU (+geheugen etc maar dat laat ik buiten beschouwing), maar ook een FPU, PPU en bijv een AIPU (Artificial Intelligence Processing Unit) uitkiezen??

Oftewel: de (ultieme) pc op maat.

Wil je bijv pure rekenkracht, dan pak je een paar sterke FPU's.
Wil je een allround machine dan pak je van alles wat.
Wil je pure grafische kracht, dan pak je een (paar)krachtige GPU('s) en dat wat nodig is om deze goed zijn/hun werk te laten doen....
Voor games heb je nu al een physics coprocessor. Is wel een PCI insteekkaart maar het blijft een processor voor een specifieke taak
.oisyn Moderator Devschuur® 16 maart 2006 23:44
Jammer dat AMD alleen de servermarkt inslaat, en niet gebruik maakt van het feit dat de high-end desktopmarkt hier ook veel voordeel van kan hebben. Het is niet voor niets dat er tegenwoordig ook een physics-kaart te krijgen is en de gameconsoles richting een multi-core en cell architectuur gegaan zijn. Games en beeldbewerkingssoftware kunnen er veel baat bij hebben.
Jammer dat AMD alleen de servermarkt inslaat, en niet gebruik maakt van het feit dat de high-end desktopmarkt hier ook veel voordeel van kan hebben.
Hoezo? Het is toch voor het K8 platform, dan ook voor je A64-X2 :Y)
ik denk dat als het aanlaat het wel komt overwaaien naar de destkop, maar voorloopig haal je toch echt het meeste voordeel van die dingen binnen servers, dus niet zo gek dat ze daar beginnen.
Wat is een co-proccesor eigenlijk?
Een co-processor is een unit die de CPU (Central Processing Unit) assisteert bij bepaalde berekeningen. De co-processor zal dan gespecialiseerd zijn in een bepaald soort berekeningen en kan deze sneller uitvoeren dan de hoofdprocessor. Zo zal een bepaalde co-processor gespecialiseerd zijn in floating point instructions en kan deze die berekeningen (deels) overnemen van de CPU en deze zo ontlasten of alles een beetje versnellen.
klinkt simpel, maar is het dan niet makkelijker om gewoon ieder mobotje met 2 sockets te produceren, en als je dan zo overkill wilt, dat je er gewoon een cpu bij hangt....

het is een beetje hetzelfde idee als een physics kaart (eentje die de physics voor een spel dan zou moeten berekenen en de cpu ontlasten)... maar het heeft hetzelfde effect op performance als multithreading of een snellere cpu....

is het dan niet gewoon veel goedkoper of makkelijker meerdere of betere cpu's te ontwikkelen gebruiken?
dit gaat om wat meer specialistische toepassingen. Zo'n FP coprocessor kan echt heel veel getalletjes doorvoeren, en dat is dan ook het enige waar ie goed in is. Als je dat wil bijprikken met 'gewone' procs, dan zitten die gewone procs grotendeels te slapen omdat de rest van de architectuur (dus behalve het FP gedeelte) niet gebruikt wordt.

Op dit item kan niet meer gereageerd worden.