Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

AMD toont 'kubus' van vier Vega-borden voor 100 teraflops aan rekenkracht

Door , 64 reacties, submitter: -The_Mask-

Op de AMD Tech Summit heeft Radeon-hoofdarchitect Raj Koduri een 'kubus' getoond die tot vier Vega-gpu's kan accomoderen. Deze zouden dan samen 100 teraflops aan rekenkracht hebben en onderling verbonden zijn door middel van een nog niet aangekondigde, speciale interface.

Volgens videocardz.com liet Koduri het aanwezige publiek weten dat de kubus, die nog geen officiële naam heeft, 100 teraflops bij 16fp-halfprecisionrekenwerk in huis kan hebben. De vier borden waren prototypes die nog geen gpu bevatten. De interface om de kaarten onderling te verbinden zou het nog onaangekondigde antwoord zijn op NVlink van Nvidia.

Er is een foto uitgelekt van een blijkbaar besloten onderdeel van hetzelfde evenement. Daarop is te zien dat een computer Doom draait op wat vermoedelijk een engineering sample is van een onaangekondigde AMD-videokaart. Te zien is dat deze in een 4k-resolutie draait met een stabiele framerate van 68fps. De kaart heeft 8GB aan HBM2-geheugen en de hardware-id is 687F:C1, een reeks tekens die al eerder is langsgekomen en vermoedelijk toebehoort aan de AMD Radeon RX 490.

Beeld: Videocardz.com en Golem.de

Reacties (64)

Wijzig sortering
Ik wordt steeds enthousiaster over amd, met dat Zen nieuws en nu dit. Ik wacht gewoon nog ff met een andere setup tot dit alles bekend is!

Ojeej, zit ik nu op de "hypetrain" :?

Best gezellig dan!
CHHOOO CHOOOHHH :) hahah

Zen en Vega.... hopelijk gaat AMD het maken in 2017 :D
Ik zie op de laatste foto dat er gebruik gemaakt word van Vulkan!
Is dit niet van Nvidia? Of gebruiken AMD-kaarten ook Vulkan?

Edit: Waarom word dit als Ongewenst gemod?
In de FAQ:
Het niveau -1 is het afvalputje voor reacties waarvan je liever had gezien dat ze niet geplaatst waren. In deze categorie vallen de flamebaits, trolls, doelloze first posts, zware off-topic berichten zonder enige toegevoegde waarde, misplaatste grappen, onnodig kwetsende reacties en allerlei andere reacties die een onvriendelijk karakter hebben of op andere wijze zijn bedoeld om irritatie of overlast te veroorzaken.

Ik kan me niet indenken dat mijn reactie daar onder valt, of wel soms...

[Reactie gewijzigd door qbig1970 op 14 december 2016 02:38]

Vulkan is van de Khronos Group en is een doorontwikkeling van Mantle, dat door AMD ontwikkeld is.
Alle enigzins moderne kaarten gebruiken Vulkan. Het is de API van de toekomst en vanzelfsprekend is die niet gebonden aan een fabrikant.
Was Mantle uit de hoed van Nvidia gekomen, dan had ik dat niet fabrikant gebonden nog moeten zien.
klopt heb een 980 kaart, vulkan is geinstalleerd onder programmas, weet niet waar het vandaan komt.
Ik vind je reactie ook geen min waard. Bij mij rees eigenlijk dezelfde vraag. Gelukkig wordt e.e.a door mede tweakers verduidelijkt. Maar je hebt gelijk. Soms is de beredenering van een negatieve (of te positieve) moderatie ver te zoeken. Gelukkig kloppen de moderaties meestal wel.
Dus 100 Teraflops / door 4 = 25 Teraflops per kaart of heb ik dit verkeerd?
zo exact gaat de schaling vaak niet.
Met gigaflopsen vaak wel: Dat is nagenoeg onbeperkt te paralleliseren. Het is het principe van supercomputers: 30000 GPU's die aan één probleem rekenen.
Nou , het is meer zeer paralleliseerbaar problemen , die extreem goed deel baar tot hele kleine onafhankelijke deeltjes waar shared gebruik gemeden kan worden schaalt heel goed door.

Dus waar geen afhankelijkheden zijn is schaal het goed door. Je hebt maar beetje afhankelijk heden nodig om de schaling om zeep te halen.

Het is dus meer paar miljoen of miljard kleine gelijke onafhankelijke berekeningen die gezamenlijk een groot probleem voor stellen.
Bij gigaflopsen worden ofwel het theoretisch maximum vermeld, of HPL, de benchmark om het aantal teraflopsen of inmiddels petaflopsen te berekenen. Bij de snelste supercomputers kom je nog altijd scores tegen die 80-90% van het theoretisch maximum aanlopen, dus ja HPL schaalt heel goed door. Schalen naar 100 teraflops is in ieder geval een eitje.
maar met een dergelijke dichtheid is het toch iets andere koek...
100tflop is inderdaad geen record meer.. maar qua oppervlak en perf/Watt is het erg netjes hoor...

De schalen zet jij overigens ook op 80/90% ... dit schaalt iets beter, al met al best bijzonder
Het schaalt iets beter, omdat het werk over "maar" 4 rekeneenheden, in deze de GPU's, wordt verdeeld. Hoe meer rekeneenheden (tienduizenden bij supercomputers), hoe slechter de schaling. Maar, dat gaat erg traag omlaag waardoor een supercomputer dus nog steeds 80-90% van het theoretisch maximum kan halen.
4096 * 4 .... klein verschil, de gpgpu kan je niet als slechts 1 kern zien... anders zou het namelijk een bizarre prestatie zijn met 4 rekenkernen 100tflops is behoorlijk fors 😉

het werk wordt binnen de gpu ook verdeeld en het monsterlijke schalen is dankzij de 'nog niet aangekondigde interconnect' die ze gebruiken om de 4 gpus met elkaar te verbinden.... ga je zo'n cube dan weer staken zal je inderdaad een lagere scaling ondervinden als men gebruik maakt van traditionele interconnects tussen de cubes.

mijn punt was meer dat de prestaties van AMD en ook NV beter zijn dan je het (onbewust) deed klinken.

Het aantal nodes en de connectie onderling plus het gedistribueerde platform en boven alles de workload bepalen scaling-efficientie.. je kan deze setups met 30k nodes niet echt vergelijken met deze oplossing... dit is een mini supercomputer die je thuis neer kan zetten... 100tflops aan 'normale supercomputer' ( 8)7 ) zal waarschijnlijk toch lastiger worden...
Nee, in de zin van HPL is een GPU één rekeneenheid. De matrix die berekend wordt, wordt in deelmatrrices verdeeld en die deel matrices worden aan een rekeneenheid toegewezen.

Hoe zo'n rekeneenheid die deel matrixoplost, is geheel aan hem. Een GPU kan daarvoor zijn 4096 parallelle FPU-eenheden gebruiken, een CPU-kern heeft er wat minder, met AVX2 kan een CPU 16 flops in dubbele precisie halen. Maar we spreken ook bij een CPU nog over 1 kern, niet over 16 kernen, dus de vergelijking met een GPU is niet geheel eerlijk.

De rekeneenheden van een GPU zijn niet verder op te delen, of in ieder geval is dat niet zinnig, omdat een GPU niet zelfstandig kan communiceren met de overige rekeneenheden. Daar is een CPU voor nodig.

In sommige situaties waarin HPL gedraaid wordt wel een hele losse computer als rekeneenheid ingekleed. Dan rekent de hele computer aan zo'n deelmatrix, waarbij multithreading gebruikt wordt om over meerdere kernen te verdelen. Voordeel is dat je minder communicatie hebt, nadeel is een perfecte verdeling van de werklast over al je kernen veel moeilijker wordt en dus mogelijk minder efficiënt.
de vergelijking is niet geheel juist idd, en dat is wat ik ook zeg :D volgens mij zijn we het ook eens dat de workload en (onder)verdeling over het cluster hiervan het schalen en performance voor een hpc-systeem bepaald...

maar als je het abstract gaat bekijken dan kan je stellen dat de cpu een node is in het systeem, systeem node in cluster enzovoorts. Ik had dat punt van je verhaal schijnbaar gemist O-)

De cube 'node' is wel klein.. wat het indrukwekkend maakt voor mij. Ik weet dat er sneller opstellingen zijn maar zie deze foto, en zeg me dat je 100flops daaruit niet indrukwekkend vind?!?

[Reactie gewijzigd door Atmosphere op 15 december 2016 23:23]

Het is zeker indrukwekkend, maar het gaat wel om halve preciesie, waar je op de KI na, weinig aan hebt. Niettemin is 50 teraflops in enkele precisie ook erg indrukwekkend.
mwa, ook nv vermeld het zo.. en voor diverse simulaties, detectie- of transactie-berekingen kom je er goed mee uit de voeten..

je hebt zeker gelijk met halve/single/double precision en het feit dat de prestaties effectief de 1/2 en 1/8 zijn van halve precisie.
In sommige gevallen kunnen CPU's goed meekomen of zelfs beter zijn ten opzichte van de gpu's.
En daar komt dan HSA+ van AMD om de hoek kijken...
daar heb je helemaal gelijk in alleen schijnt Vega een nieuwe prefetrch prediction en scheduler te hebben die delen van een simd cluster in kan zetten voor andere zaken.
Natuurlijk is het wel zo dat als de afhankelijkheden extreem zijn, deze zo goed als alleen serieel uit te voeren zijn. Vega heeft hier zo als ik het las wel een truck voor.. de mogelijke uitkomsten van de afhankelijkheid worden al klaar gezet in de scheduler. Hierna is het dus een kwestie van uit uitvoeren op cluster (x) op basis van de uitkomstwee (waardoor de waarschijnlijke berekening al klaar staat voor uitvoering zonder dat deze nog samen gesteld moet worden.

Bovenstaande werkt natuurlijk alleen als de gpu niet al te druk is... maar in dat geval is het hoe dan ook geen probleem :Y)
Het gaat om de ruwe hardware performance, niet om wat de software kan halen gezien je nog met overhead temaken hebt. Dus arcanekitten heeft gelijk dat elke kaart 25 TFlops haalt. Bovendien was gisteren nog het nieuws dat de nieuwe AMD Vega GPU 25 TFlops haalt in half precision floats (fp16).
nieuws: AMD kondigt Radeon Instinct-accelerator met Vega-gpu aan
Niet echt heel bijzonder naar mijn mening. Het cell-processortje van de PS3 uit 2006 was alleen al genoeg voor 2 Teraflops :Y). Een dedicated kaart anno 2016 voor 25Tf :'(
Denk dat je er een factor 10 naast zit

PlayStation 3's Cell CPU achieves a theoretical maximum of 230.4 GFLOPS in single precision floating point operations

https://en.m.wikipedia.or..._technical_specifications
Bij deze kaart hebben ze het over 16fp-halfprecisionrekenwerk. Ik weet niet wat het verschil precies is met single precision, maar deze getallen kan je niet met elkaar vergelijken.
16fp is ook wel half precision en single precision 32fp. Emuleren kan, maar de factor ligt aan de instructie. Normaal doet een GPU tegenwoordig de helft als de precisie verdubbelt. 16fp is niet echt gangbaar, maar 100 klinkt natuurlijk beter 50. Dat is waar ik op reken bij single precision.
Kunstmatige intelligentie is de nieuwe hype en voor KI is 16fp adequaat, dus lopen alle fabrikanten nu van de daken te schreeuwen hoeveel 16fp ze kunnen. 64fp, wat voor serieus rekenwerk nog altijd het meest interessant is, laten ze niet eens meer zien.
Dus 64bit is real thing en 16bit hobby?

Elk domein heeft zo zijn nukken en sommige hebben meer dan miezerige 64bit nodig.
De reden voor Math libaries die AVX512 kunnen toepassen zodat 128bit SMD toepassingen ook daar stuk sneller gedaan kunnen worden.

Maar dat maakt KI niet minder. Het is mogelijk zeer complex materie.
Neuro netwerken kunnen diep gelayerd zijn waar ingangen en uitgangangen complexe verbindingen kunnen hebben. Wij mensen hebben nogal wat zenuw en neural cellen nodig om wat netvlies opvangt tot in hogere funcies te interpreteren.

|Het is dat probleem tot in kleinste job niet hoge precisie nodig heeft maar de waarde heeft bepaalde betekenis dat een zeer subtiele invloed op de sessies die er achter komen of een zeer grote.

KI heeft theoretisch de potentie om zich tegen de mensheid te keren.

Super computer die 128bit precizie door rekend toekomstige posities van bekende sterren en hun positie in galacy heeft dat probleem dus niet.
Ik zeg niet dat 16-bit hobby is. Ik zeg dat de meeste praktsiche toepassingen 64-bit vereisen en dat uit het blikveld van GPU-fabrikanten verdwenen is. KI is een praktische toepassing die genoeg heeft aan 16-bit, maar het is één van de weinige.

Waar de huidige KI-hype voornamelijk om draait zijn meerlaags perceptrons. Die bestaan op zich al tientallen jaren, alleen zijn ze nu krachtig genoeg voor toepassingen als beeldherkenning. Een meerlaags perceptron zal zich niet tegen de mensheid keren, het heeft niets met bewustzijn te maken.
Volgens wiki is half-precision precies dat: de helft van single precision. En single precision = binary32, ook wel 32fp.

Nice reference: Nvidia Pascal in Tesla P100

Dus, om bovenstaand voorbeeld te hergebruiken: De PS3 draaide op 0,23TF en deze Vega op 12,5TF(lops). Da's dus ruim 50x zo snel. In 10 jaar tijd. Niet gek...

Volgens (de vrije interpretatie van) de Wet van Moore zou je na 9 jaar op 14,72TF moeten zitten op single precision. Dus is 12,5TF niet helemaal, maar wel in de buurt van het behoud van die wet. Maar goed, die ging eigenlijk over de verdubbeling van het aantal transistors, niet over de verdubbeling van de snelheid.
Met dat rekensommetje lijk je er een heel klein beetje naast te zitten. Maar dit soort dedicated kaarten kosten vaak enkele duizenden euro's ten opzichte van de ps3 die voor een tiende daarvan over de toonbank ging. Nou schaalt prijs niet lineair met performance, maar als ik zo mag schatten, voegt dit nog wel een factor 5 toe.

Edit: ik vermoed gezien de genoemde snelheid dat het over de accelerators gaat en niet de gpu waarop ze nu doom spelen. nieuws: AMD kondigt Radeon Instinct-accelerator met Vega-gpu aan

[Reactie gewijzigd door Eldunari op 14 december 2016 10:05]

Dat is gewoon het aantal Teraflop delen door 2, waarmee deze kaart van AMD zou uitkomen op 12.5TFlops, een kleine 14% meer dan de Titan X Pascal. Dit wil echter niet direct zeggen dat een Vega consumer kaart met 12.5TFlops ook 14% beter presteert dan een Titan X.
Mocht er een Vega consumer kaart komen met exact dezelfde chip, dan denk ik dat deze qua performance ergens tussen de GTX 1080 en Titan X in zal zitten, maar meer richting de Titan X. Echter, totdat er daadwerkelijk een Vega kaart getoond en getest wordt blijft het koffiedik kijken.
Bit logic dat 32 stuks Naast mekaar is 32bit.
double is 64bit
float 32bit
halfPresision is 16bit.

Het is dat bij bepaalde toepassing 32 bit wat overkill is als 16bit voldoet.
De hardware is zodanig uitgevoerd dat 32bit unit ook als twee 16bit unit kan werken.
En twee 32bit als 64bit unit.


Ik kan me best voor stellen dat Neuro cell object.

bin. 1011 0101 1001 1111 // 16 bits
hexdecimaal 3 C F 9 // 16bit in compactere schrijfwijze.
hexd. 1 0 F 5

als ingangen heeft en dat dat dan 5 8 0 C als uitgang geeft.

ingangen worden gewogen mogelijk als fuzzie waarde intern is het dan veel weinig 5 gradaties wat verder mee gewerkt wordt.

Zo een ingang heeft bepaalde sensor van wat waarde voorsteld en waarvoor het gebruikt wordt. Bij voorbeeld dreiging. Of temperatuur waarbij de beslissing genomen wordt bij bepaalde threshold. Daar heb je geen 32bit voor nodig.
Klopt, gaat waarschijnlijk over de accelerator die in dit artikel wordt genoemd: https://tweakers.net/nieu...tor-met-vega-gpu-aan.html
Maar dan wel in 16-bit precision en niet 32 bit.
25 TFLOP FP16-compute zijn de (geschatte) specs voor de nieuwe vega inderdaad.
Paul's Hardware en PCper melden dat het mogelijk Teraflops een single GPU is van 12,5 Teraflops. (Een Titan XP heeft 10 Teraflops).

https://www.youtube.com/watch?v=ZiYbbl6A4mw
Witte kast, streepjes, is zie daar een Xbox Scorpio :+
Achter die Corsair Carbide Air 240 ergens? :P
Samenwerking met MS, allemaal al geregeld :P
Deze uitvoering gaat geïntroduceerd worden als de Xbox Trebuchet, mark my words.
Correct. Ook tijden zo'n kast gehad. Dit is hem 100% (heeft een aantal maanden naast me staan zoemen, dus herken hem meteen).
Ik denk eerder een Scorpio op krachtvoer of met overgewicht, gezien de prestaties en formaat :P
hoe kan je zo zeker zijn? ze zijn allemaal wit met streepjes
best knap 4 high-end video kaart in een mATX kast zonder bijzondere koeling.

foto vd Carbide Series Air 240:
http://www.corsair.com/en...4389A3F80DD53B95E445.ashx

[Reactie gewijzigd door icegodd op 13 december 2016 17:09]

De vier borden waren prototypes die nog geen gpu bevatten.
Er zal best e.e.a aan koeling benodigd zijn. Mijn vermoeden is waterkoeling of een speciale heatsink met heatpipes en geforceerde luchtkoeling combo
Je haalt nu twee dingen door elkaar :).

Er worden twee dingen getoond:
De cube met 4 Vega's welke wordt vastgehouden door de Engineer.

De foto met de carbide is een systeem met de vermoedelijke rx490 die Doom draait.
Meer dan 1 kilowatt verbruik als ik de cijfers van de MI25 zo door reken. Hoe krijg je dat gekoeld in een dergelijke form-factor? (neem aan dat die eerste foto de kubus is?) Abonnement bij Air Liquide afsluiten voor LN2 oid?

[Reactie gewijzigd door eL_Jay op 13 december 2016 16:59]

1 kwh piekgebruik is met een flink koelblok wel op te vangen, de vraag is hoeveel je gemiddeld moet koelen. Stil zal het alleen niet zijn, en de kachel hoef je ook niet meer aan te zetten :P
1e foto is kubus en de foto van doom is waarschijnlijk de RX490... :D
Ik denk dan aan wat ze vaak in 19"rekken doen.
AC gekoelde ruimte
Behuizing is eigen doos duct met aan ene kant de ventilatoren.
En alles wat daar in zit heeft de koelblokken zodanig geplaatst dat de lucht mooi door de koelribben waait. En lijkt de Hardware erin passief uit te zien. Maar de actieve koeling wordt gerealiseerd door de behuizing koel fans.

Voor consument desktop was dat beetje de gedachten gang van BTX standaard.
In de slaolie. Is electrisch niet geleidend en kan goed koelen.
De onaangekondigde bus, concurrent van NVLink, moet haast wel CCIX zijn:

http://www.ccixconsortium.com/about-us.html

Deze kaarten worden later met coherent geheugen gekoppeld aan bijv. Xilinx FPGA's, Mellanox netwerk interfaces en wie weet Qualcomm-SoCs en Micron QuantX (XPoint geheugen).
Denk dit niet hellemaal ik heb hier al eens over gelezen Coherent Interconnect Fabric op http://wccftech.com/amd-c...ct-fabric-gpus-cpus-apus/

[Reactie gewijzigd door Dr_Thunder op 13 december 2016 17:34]

Wauw, veel power uit een klein bakkie. Erg mooie ontwikkelingen de laatste tijd.
Lekker klein blokje met 100Tflops... als ik daar nou de helft van in een klein PC'tje zou kunnen prikken, dan speel je Battlefield 1 op 8K met Ultra Settings op 100fps!

Grapje natuurlijk ;) Maar het zou wel érg leuk zijn kijkend naar de forse prestaties :)
Onaangekondigde interlink? Hoogstwaarschijnlijk is het CCIX. http://www.ccixconsortium.com/

Op dit item kan niet meer gereageerd worden.


Nintendo Switch Google Pixel XL 2 LG W7 Samsung Galaxy S8 Google Pixel 2 Sony Bravia A1 OLED Microsoft Xbox One X Apple iPhone 8

© 1998 - 2017 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Hardware.Info de Persgroep Online Services B.V. Hosting door True

*