AMD doorbreekt teraflopsgrens met nieuwe streamprocessor

AMD heeft zijn nieuwe streamprocessor voor ppc-systemen voorgesteld. Volgens de fabrikant doorbreekt de Firestream 9250 de teraflopsbarrière op het gebied van single precision-prestaties.

De chipfabrikant introduceerde de Firestream 9250-kaart op de International Supercomputer Conference. De streamprocessor is gebaseerd op de RV770-gpu, die de consument als onderdeel van de 4800-lijn van grafische kaarten zal bereiken. De 9250 neemt één pci-e-slot in gebruik, is van 1GB gddr3-geheugen voorzien en verbruikt volgens AMD minder dan 150W. De prestaties zouden, afgezet tegen het verbruik, op acht gigaflops per watt liggen.

Net als zijn voorganger, de 9170, heeft de nieuwe Firestream-kaart hardware aan boord voor het versnellen van double-precision floating point-berekeningen en dit zou resulteren in prestaties die op 200 gigaflops liggen. AMD heeft niet bekendgemaakt hoeveel de gpgpu boven de teraflopsgrens presteert, maar volgens TG Daily zou vier kaarten in Crossfirex-opstelling bijna vijf teraflops halen. De 9170 scoorde op single precision-gebied nog 500 gigaflops. De kaart komt in het derde kwartaal van dit jaar uit en zal dan duizend dollar gaan kosten.

Reacties (41)

Rob Coops 16 juni 2008 10:47

Das allemaal best mooi maar hoeveel applicaties maken hier all echt gebruik van?

Ik heb bijna geen kennis op supercomputer gebied dus ook geen idee of het all gemeen goed is om een gpgpu (wat een nare afkorting) te gebruiken voor het versnellen van single/double precision floating point berekening, noch hoe vaak juist dit soort beperkte precision echt gebruikt wordt.
Ik heb altijd gedacht dat zeker op het gebied van supercomputers het rekenen met veel getalen achter de koma juist erg belangrijk is.

s463042 @Rob Coops • 16 juni 2008 10:53

Bij AMD geven ze wel een voorzetje aan wat voor soort applicaties je moet denken:

Accelerating data-parallel algorithms in a variety of applications
Seismic processing
Financial analysis
Engineering analysis
Rendering
Computational chemistry
Genetic research
Physics
Video editing
Security

Verwijderd @s463042 • 16 juni 2008 11:15

Dan mogen ze wel eens zo'n kaartje nemen op mijn stageplaats. Ik doe wat COSMOSWorks analyses (sterkte berekeningen aan ontwerpen) en zodra je veel met oppervlakten gaat rekenen, schiet de rekentijd omhoog (beetje complexe berekening kost zo 12+ uur). Dan zal echter COSMOSWorks dit wel moeten ondersteunen, neem ik aan.

gassiepaart @Rob Coops • 16 juni 2008 10:54

dat er nog geen gebruik van gemaakt wordt zegt niks: hoeveel desktop applicaties maken gebruiken van de 2 tot 4 cores van de intel core duo????

spNk @gassiepaart • 16 juni 2008 11:09

Vast niet veel want ik heb nog nooit een intel core duo met 4 cores gezien

Verder is dit hééél wat anders dan CPU gebruik, dit word echt niet toegepast in windows applicaties e.d. maar eerder in gespecialiseerde software die speciaal ontwikkeld voor de betreffende kaart is.

jvaneijk @spNk • 16 juni 2008 11:31

Ik weet niet hoeveel mensen gebruik maken van Photoshop CS2/CS3 maar momenteel komen er steeds meer plugins die gebruik maken van de rekenkracht van de GPU. CUDA heeft een speciale plugin die gebruikt kan worden voor PS.

Het wordt dus wel degelijk toegepast voor windows applicaties, en zal steeds meer gebruikt worden.

Teun_2 @Rob Coops • 16 juni 2008 10:53

Uiteindelijk is dit allemaal heel applicatieafhankelijk. Er zijn verschillende taken die zich lenen voor gebruik op een supercomputer, waarbij soms gewoon heel erg veel resultaten nodig zijn, die daarom niet heel erg exact hoeven te zijn. Het kraken van een rca sleutel bijvoorbeeld heeft zelfs helemaal geen floating point operaties nodig.

Verwijderd 16 juni 2008 10:40

Dat is een mooie doorbraak! Wel opvallend trouwens dat het verschil met double precision maar liefst een factor vijf is, dat gat zou (met name voor simpele bewerkingen zoals optellen) toch een stuk kleiner moeten kunnen. Aan de andere kant is het natuurlijk maar net wat je belangrijk vindt met optimaliseren...

oeLangOetan @Verwijderd • 17 juni 2008 00:46

Bij de nieuwe nvidia kaarten (GT200) is de double performance ongeveer een 1/8 van de single performance, zo slecht is het dus nog niet.

Astennu

AMD
Videokaarten

16 juni 2008 10:42

De 9170 is dus de huidige HD3870. En de 9250 is de HD4850 of de HD4870. Die laatste zou 1.2 Terraflop halen dus dan 4 in CF zit je rond de 5.

Cristan 16 juni 2008 11:01

In 2006 was een teraflop supercomputer nog onderdeel van de 500 snelste supercomputers (link). Gaat aardig snel op deze manier

Ik ben benieuwd wanneer er GPU clusters gaan komen, want als je software maakt die er goed gebruik van kan maken heb je erg snel een enorme performance voor je kiezen. Ter vergelijking: er zijn slechts 70 van deze beestjes nodig om even veel flops als de Blue Gene/L te krijgen

Okee: single precision, maar het gaat om het idee

-edit: oeps: als je googled op blue gene flop krijg je een oude link te zien. Ondertussen is er het 1 en ander bijgeprikt waardoor hij nu een stuk sneller is: During an upgrade in 2007 the performance increased to 478 TFLOPS sustained and 596 TFLOPS peak. Nogmaals: het gaat om het idee. De Blue Gene/L is nu 65.536 processors groot en dit gaat een stuk minder worden als je videokaarten gebruikt.

[Reactie gewijzigd door Cristan op 23 juli 2024 19:56]

Verwijderd @Cristan • 16 juni 2008 11:07

Dat kan al met Nvidia Tesla. Het zijn GPGPU G80s die je aan elkaar kunt linken, met 430 GFLOPS maximale rekenkracht per kaart.

http://www.nvidia.com/object/tesla_computing_solutions.html

Hou er wel rekening mee dat een GPU geen normale software kan draaien, aangezien er een hele andere verhouding rekenunits/cache geheugen is en het ontwerp gebouwd is op simpele, korte, wiskundige instructies; perfect voor grafisch werk, maar niet zo geschikt voor de taken van een CPU.

Verwijderd @Verwijderd • 16 juni 2008 11:14

Op super computers draait ook geen normale software, dus deze extreme krachten moet je sowieso in ieder zijn toepassing zien.

orange.x 16 juni 2008 10:42

Doe mij er maar 4 dan

Is er niet een mogelijkheid om dit soort kaarten ook voor consumenten betaalbaar te maken?

cyspoz @orange.x • 16 juni 2008 10:46

En wat wil je er dan mee? Dit soort kaarten bieden voor de meeste consumenten applicaties geen toegevoegde waarde. De mensen waar het wel iets voor betekend hebben waarschijnlijk een bijzondere hobby en dan ook wel het bedrag er voor over.

ronboy30 @cyspoz • 16 juni 2008 12:04

Persoonlijk denk ik eerder dat je moet denken aan het maken van wiskundige berekeningen op het gebied van vloeistofdynamiek of de annalyse van MRI scans. Het is zeker geen kaart die "leuk voor thuis" is, of je moet natuurlijk programmeur zijn en zelf onderzoek willen doen.

siepeltjuh @orange.x • 16 juni 2008 10:46

Maar wat moet een consument er mee dan?

Dergelijke berekeningen zijn meer interresant voor de (semi) profesionele computer wiskundige. Simulaties e.d. zie ik een consument echt niet doen.

fevenhuis @siepeltjuh • 16 juni 2008 23:17

Weer zo'n kip of het ei probleem.
Sommige consumenten zullen best geïnterreseerd zijn in superrekenkracht (yours truly included), maar zolang het buiten bereik van de consument blijft zullen er ook geen toepassingen voor consumenten komen.
Ik weet best genoeg leuke consumententoepassingen te verzinnen waar het heel leuk voor zou zijn, maar misschien niet zozeer in de huidige traditionele soorten software.
Een leuk voorbeeld zou zijn educatiesoftware:
virtueel natuurkundige of scheikundige experimenten uitvoeren

Al denk ik dat het voor consumenten toch logischer is om een grafische kaart alleen in bepaalde gevallen in te zetten voor berekeningen ipv een exclusieve rekenkaart.

Verwijderd @siepeltjuh • 16 juni 2008 10:54

Kan dit niet gebruikt worden om bijvoorbeeld video om te zetten naar een ander formaat? Apple is met iMovie al redelijk ver met Real-time processing, maar het zou natuurlijk nog veel beter kunnen.

Fireshade @Verwijderd • 16 juni 2008 12:35

Voor video kun je beter een Cell processor gebruiken. Is vast goedkoper, en 1 processor kan tot 4 HD-streams realtime bewerken. En verbruikt veel minder dan 150W. Toshiba heeft dit al gedemonstreerd voor de consumentenmarkt.

[Reactie gewijzigd door Fireshade op 23 juli 2024 19:56]

Verwijderd 16 juni 2008 10:41

Maar waar kunnen we deze weeral toepassen?
Weerstations? Of Physics in o.a. games?

[Reactie gewijzigd door Verwijderd op 23 juli 2024 19:56]

vladimirN @Verwijderd • 16 juni 2008 17:11

Voor bijv. stromingsberekeningen binnen de olie industrie kun je nooit rekenkracht voldoende tot je beschikking hebben.

Voorbeeldje : Als je een olie reservoir van 5km (L) bij 2km (b) bij 200m (D) zou willen modelleren met gridblokken van 1 kubieke meter heb je 2 miljard gridblokken nodig. Nu is het benodigde detail (bijv. kleine kleideeltjes van hoogstens een paar mm dikte die je doorstroming verpesten) eigenlijk nog veel fijner.
Standaard werk je tenminste met een olie, gas een water component. Dat levert je op z'n minst 3 onbekenden per gridblok op.
Ofwel 6 miljard variabelen.
Als je dit volledig impliciet zou willen oplossen - wat ze niet doen, maar wat wel het verstandigst zou zijn ;o) met betrekking tot massabehoud - zou je uiteindelijk een sparse gelineariseerde vgln moeten oplossen A*x = b waarbij A een sparse 6 miljard bij 6 miljard matrix is en x en b kolomvectoren van 6 miljard elementen.
( Nu in 3D bij 3 onbekenden en een 7 point discretisatie stencil heb je ruweg 7x3 * 6 miljard is 126 miljard matrix elementen binnen A die niet nul zijn )

De allersnelste solvers lossen meen ik momenteel Ax=b op net N*sqrt(N) , waarbij N=6miljard. dat zijn dus 460 tera-berekeningen per lineare vgln.
In single precisie (niet aan te raden !!) en met volle effecicincy(#) reken je dus al 460 sec op die superkaart voordat je een antwoord hebt voor een enkele iteratie
Nu heeft een tijdstap meerdere iteraties nodig, en bestaat je hele simulatie uit zeg een paar duizend tijdstappen ....

kortom: we zijn er nog lange niet

(#) Helaas zijn streamprocessors nog niet bepaald geschikt/geoptimaliseerd voor sparse matrix systemen .... maar daar wordt hard aan gewerkt

offtopic:
nu zullen een aantal reservoir engineers gaan roepen dat je al dat detail niet nodig hebt vanwege de onzekerheid van al je parameters, maar laat hen dan maar verklaren hoe je onzekerheid binnen je parameters en van je fysica fatsoenlijk opschaalt

[Reactie gewijzigd door vladimirN op 23 juli 2024 19:56]

Countess

@Verwijderd • 16 juni 2008 11:49

ik denk dat je workstations bedoeld?
daar kan dat zeker. in cad was de vorige gpu al gigantische goed (ivm nvidia)
maar het kan voor beide.
of in servers en zeker in supercomputers.

Abom @Verwijderd • 16 juni 2008 11:58

Supercomputers

Verwijderd 16 juni 2008 11:32

Misschien dat dit soort gpu's gebruikt kunnen gaan worden in GRID-computing (zoals WorldCommunityGrid, SetiAtHome, etc)

Dat lijkt mij voor de eindgebruiker ook wel een mogelijke / zinnige toepassing...

[Reactie gewijzigd door Verwijderd op 23 juli 2024 19:56]

jvaneijk @Verwijderd • 16 juni 2008 11:59

Lijkt mij heel erg moeilijk. De grote bottleneck is er vaak is is juist de data overdragen van RAM naar VIDEORAM. Als je dat dan ook nog eens over het internet wil pompen. Wat soms toch wel GBs aan data kunnen zijn wordt je gek.

En ik kan momenteel nog niet echt een toepassing zien waar je echt een grid nodig hebt van GPUs. Heb ze wel gezien maar die grids worden dan ingezet om meerdere verschillende applicaties te draaien, niet zozeer om 1 hele grote berekening te draaien.

langzaam @jvaneijk • 16 juni 2008 12:05

Grids worden dus al op vele projecten toegepast en de dataoverdracht is het probleem niet.
Folding@home ondersteunt al berekeningen op videokaarten en berekeingen op de PS3. Hoewel Folding hierin nog uniek is, is het dus al wel mogelijk.

jvaneijk @langzaam • 16 juni 2008 12:47

Volgens mij zijn er nog weinig grids van folding of die andere die onderling een dataoverdracht van 8 GB/s hebben. Dan is dit dus echt wel een grote beperkende factor. vooral als je een data afhankelijke applicatie hebt.

Aangezien data overdracht veel overhead met zich meebrengt, moet het aantal berekeningen groot genoeg zijn om deze overhead te kunnen hiden.

Countess

@jvaneijk • 16 juni 2008 12:05

seti en folder@home doen het beide prima op een GPU met maar hele kleine informatie pakketjes die verstuurd hoeven te worden.

bas wensveen 16 juni 2008 10:57

CUDA van NVIDIA kan ook voor dit soort systemen worden gebruikt. Door gebruikt te maken van CUDA kunnen algoritmes geschreven in C uitgevoerd worden op videokaarten uit de geforce 8 serie en hoger. Dit maakt CUDA een goedkoop alternatief. CUDA brengt wel wat nadelen met zich mee, zie http://nl.wikipedia.org/wiki/CUDA.

Countess

@bas wensveen • 16 juni 2008 12:03

ik mis eigenlijk in dit artikel wat informatie over AMD's tegenhanger van cube en het feit dat dat een open systeem is met opensource software.
ik weet niet hoe open nvidia's systeem is maar in het verleden zijn ze daar nog niet zo happig op geweest terwijl AMD juist alles wat ze zelf maken tot een openstandaard maakt.
er staat wel wat over in het bron artikel trouwens.

jvaneijk @bas wensveen • 16 juni 2008 11:29

Leuk om te zien dat mijn artikel op WIKI gelezen wordt. Ben ik erg blij om. Moet wel toegeven dat dit niet heel erg up to dat is. Met de komst van CUDA 2.0

Dit artikel is nog gebaseerd op CUDA 1.0 en er hebben sindsdien veel veranderingen plaatsgevonden.

s463042 16 juni 2008 10:45

De 9250 neemt één pci-slot in gebruik

Een pci-express slot (pci-e) lijkt me. Ik neem aan dat dit niet in een 33MHz/32bit pci slotje geperst wordt.
edit: hmmm... het staat inderdaad wel zo in het bron-artikel.
edit2: bij de FireStream 9170 gaat het inderdaad om een PCIe x16 slot, ik zou dat niet zomaar pci slot noemen in een artikeltje.

[Reactie gewijzigd door s463042 op 23 juli 2024 19:56]

speedydown @s463042 • 16 juni 2008 10:55

Daar bedoelen ze mee dat hij maar 1 uitbreidings slot gebruikt.

TERW_DAN

Videokaarten

@speedydown • 16 juni 2008 11:11

Maar een PCI slot is iets compleet anders dan een PCIe slot. Lijkt me dat het een spelfout is, maar PCI-slot klopt gewoonweg niet. Simpelweg omdat wat s463042 ook al zegt, de bandbreedte van de PCIbus is gewoon te beperkt voor dit soort fratsen.

M2M @TERW_DAN • 16 juni 2008 11:37

dat ligt er toch maar aan, enorm moeilijke berekeningen met weinig input en weinig output zou je gewoon op een normale pci bus kunnen laten doen, is er echter meer dataoverdracht nodig is pci-e natuurlijk de aangewezen keus.
Aangezien het hier gaat om een allround geval lijkt het me iig wel sterk dat het klopt.

Du-Djutz @M2M • 16 juni 2008 12:36

Volgens mij is CrossFire niet beschikbaar op PCI, of ligt dat aan mij... Dus het zou idd PCIe moeten zijn.

RatedR @Toontje_78 • 17 juni 2008 18:27

die van mij (TU/e) heeft ook 6 getallen. Maar volgens mij zijn "we" nog niet bij begingetal 6..

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (41)

Sorteer op:

Weergave: