Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

AMD brengt Radeon Instinct-accelerator met Vega-gpu in derde kwartaal uit

Door , 20 reacties, submitter: -The_Mask-

AMD heeft tijdens de presentatie van zijn Epyc-serverprocessors ook meer bekendgemaakt over de Radeon Instinct-accelerators voor deep learning-toepassingen. De drie modellen, waarvan de duurste is uitgerust met een Vega-gpu, komen in het derde kwartaal beschikbaar.

Uit de slides, die onder meer door ComputerBase online zijn gezet, blijkt dat bijvoorbeeld Gigabyte en Supermicro hardwarepartners zijn die Radeon Instinct-hardware gaan leveren. Verder maakte AMD bekend dat de Radeon Instinct MI25 beschikt over een Vega-gpu met 64 compute-units en dus over 4096 streamprocessors beschikt.

De kaart is daarmee goed voor 12,3Tflops bij single precision-berekeningen en 24,6Tflops bij half precision. De accelerator is voorzien van 16GB hbm2-geheugen. Wat specificaties en prestaties betreft is de kaart vergelijkbaar met de Radeon Vega Frontier Edition-videokaart. De Instinct-variant is echter geen videokaart, maar een hpc-kaart die in servers wordt gestopt voor deep learning-berekeningen. De kaart moet concurreren met Nvidia's Tesla P100 met Pascal-gpu en de nieuwe V100 met Volta-gpu.

Naast de MI25 verschijnen de MI8 en MI6, die respectievelijk over een Fiji- en Polaris-gpu beschikken. Details over deze modellen maakte AMD al eind vorig jaar bekend bij de aankondiging van de Instinct-kaarten. Toen meldde de fabrikant wel dat het topmodel voorzien zou worden van een Vega-gpu, maar specifieke details waren nog niet bekend. Nog steeds ontbreekt uitgebreide informatie over de Vega-architectuur. Die zal AMD waarschijnlijk bekendmaken bij de introductie van de RX Vega-kaarten voor gamers, eind juli.

AMD toonde bij de presentatie een 2U-serverrack met daarin een moederbord met één Epyc-processor, gecombineerd met vier MI25-accelerators. Bij half precision is die configuratie goed voor zo'n 100Tflops.

AMD Instinct-accelerators

Door Julian Huijbregts

Nieuwsredacteur

21-06-2017 • 15:37

20 Linkedin Google+

Submitter: -The_Mask-

Reacties (20)

Wijzig sortering
de Radeon Instinct-accelerators voor deep learning-toepassingen.
...
komen in het derde kwartaal beschikbaar.
Nou ben ik geen expert in deep learning, maar leg deze kaart het niet volledig af in deep learning toepassing tegen de nVidia Tesla V100 accellerator met Volta GPU die met aparte tensor cores speciaal voor deap learning bij elkaar 120 TFlops aan performance levert. De half precision performance van deze kaart met 24,6 TFlops lijkt dan in het niets te verdwijnen.
nieuws: Nvidia kondigt Tesla V100-accelerator met Volta-gpu aan

Het klinkt/lijkt hier toch dat AMD deze slag heeft verloren en het op deep learning gebied echt van een volgende generatie GPU's moet gaan hebben, ik neem aan dat AMD hier ook mee bezig is dan wel niet snel nog even 'inbouwen' in hun Vega-opvolger.
"Tesla V100 delivers industry-leading floating-point and integer performance. Peak computation rates (based on GPU Boost clock rate) are:

7.5 TFLOP/s of double precision floating-point (FP64) performance;
15 TFLOP/s of single precision (FP32) performance;
120 Tensor TFLOP/s of mixed-precision matrix-multiply-and-accumulate.
"
De AMD Radeon MI25 heeft toch echt 12,3Tflops bij single precision-berekeningen (FP32) en 24,6Tflops bij half precision-berekeningen (FP16), dus in vergelijking met de Tesla V100 is het erg close.

Juist de FP16 performance is van belang bij het trainen van neurale netwerken, daarom dat AMD ook in de slides aangeeft dat het de "world's fastest training accelerator" is.

Correct me if I am wrong, maar ik dacht dat Nvidia's Tensor berekeningen FP8 zijn en minder geschikt voor training van neurale netwerken.
De tensor cores zijn voor zover ik weet in de plaats gekomen voor de FP16 cores, daarom adverteren ze ook niet echt meer met FP16 performance maar met de tensor performance. Bovendien staan ze, de FP16 cores, ook niet meer aangegeven in het plaatje van de GPU SM opbouw van de Volta, FP64, INT, FP32 en tensor cores, die zoals jezelf al quotte mixed precision zijn van FP16 en FP32 berekeningen, dat kan je ook in dit artikel nieuws: Nvidia kondigt Tesla V100-accelerator met Volta-gpu aan zien op plaatje https://ic.tweakimg.net/ext/i/2001503389.png .
Ook op nVidia's blog https://devblogs.nvidia.com/parallelforall/inside-volta/ kan je een schema van de tensor cores zien https://devblogs.nvidia.c...loads/2017/05/image11.png .

Dat AMD stelt "world's fastest training accelerator" is mij dan een beetje een vraag wat ze daarmee bedoelen en waarmee ze dat vergelijkt hebben, misschien nog met de Pascal GPU gezien de Vega daar eigenlijk meer de concurrent van zou moeten zijn. Dat nVidia al zo snel met de Volta kwam was misschien verwacht door AMD, maar ik weet niet of ze zich bewust waren dat nVidia met tensor cores zouden komen die zoveel performances zouden leveren. :)
tensor cores zijn geen vervangen van FP16. tensor cores kunnen maar 1 soort berekening doen.

de FP16 performance van de V100 is 30Tflops.
Bedankt, ik heb het ook terug kunnen vinden in http://wccftech.com/nvidi...specifications-deep-dive/ waar wel de FP16 performance wordt genoemd, maar waar worden die FP16 berekeneingen dan op uitgevoerd? Als ik het plaatje van de GPU opbouw bekijk naar een SM dan zie ik nergens FP16 cores. Of zijn de FP32 of FP64 cores een soort van SIMD voor FP16?
als ik het goed heb kunnen de FP32 cores 2 FP16 berekeningen parallel uitvoeren.
Die tensor cores zijn precies de operatie die nodig zijn voor neurale netwerk training. Mixed FP16/FP32 FMA. Ja, je kunt met FP16 trainen, maar dan heb je meer FLOPS nodig om uiteindelijk dezelfde nauwkeurigheid te bereiken. Ja, je kunt alles in FP32 trainen, maar de precisie is niet nodig voor de Multiply in de FMA.
V100 komt pas eind 2017/begin 2018.
V100 is een chip van 815mm2 Vega zal rond de 470mm2 zitten dat verschil zorgt er voor dat AMD waarschijnlijk vier keer zoveel werkende chips kan maken als nvidia.
(Heeft te maken met hoeveel chips er passen in een waffer en per hoeveel cm2 er een defect optreed)

V100 gaat dus waarschijnlijk een heel stuk duurder zijn dan Vega en dus waarschijnlijk het overwegen waard zijn als je echt gebruik kunt maken van die Tensor cores. Maar als je daar echt gebruik van kunt maken en het geld hebt om deze kaarten te kopen, dan zit je dicht op het budget om een eigen FPGA te maken. Kortom V100 en Vega zitten niet helemaal in dezelfde markt.
Eigen FPGA? Sorry, maar dat is volstrekt niet relevant. De fundamentele operatie van neurale netwerken is een tensorvermenigvuldiging. De library heet niet voor niets TensorFlow. De V-100 is feitelijk een ASIC voor tensor-operaties, dat is significant sneller dan een FPGA.
Zover ik weet zijn de meeste frameworks ook speciaal voor CUDA (NVIDIA) gebouwd, ipv OpenGL. Dat is waarschijnlijk nog wel een groter probleem voor de adoptie.
AMD bied een eigen open source api aan, genaamd OpenGPU welke wel wat vaste grond lijkt te gaan krijgen, daarnaast hebben de grotere frameworks vaak ook een opencl implementatie, of hebben deze in de planning

NVidia had als eerste vanwege PhysX een wrapper nodig welke de PhysX api omzetten naar shader berekeningen in hun formaat,... en daar was Cuda volgens mij geboren, uit de noodzaak om via de gpu de berekeningen uit te kunnen voeren, ipv van de losse PhysX (pci) insteekkaart met daarop een asic voor golf-, deeltjes- en diverse geavanceerde wiskundige functies. De PhysX kaart had namelijk door zijn PCI bus een beperking dat de transfer-rare hooguit tegen de 120MBps zat en dat dit het aantal 3D-objects wat effect zou ondervinden van de kaart beperkte... Anderzijds zou ook als men in het framebuffer zou renderen de transfersnelheid de FPS onderuit halen, ondanks dat het dedicated hardware was.

omdat het veel voordeel had zijn er frameworks met cuda in het achterhoofd gemaakt,.. echter nu AMD een vrij goede cross-compiler heeft voor CUDA zal het nu lang duren voor er een framework komt met of support voor beide .. of opencl wat inmiddels ook door meerder accelerators ondersteund wordt...
wat echter wel gebleken is, is dat Cuda een niet echt statische library is en er soms nieuwe versie/implementaties per gpu/cuda-versie gemaakt moet worden... voor Pascal was bv een nieuwe cuda versie noodzakelijk die (deels) niet backward compatible was.. Zo was er ook Kepler waarvoor een nieuwe versie kwam waarvoor e.e.a toch opnieuw geschreven moest worden.
De ondersteuning vanuit NV schijnt echter altijd wel ok geweest te zijn,.. maar dit zorgde soms toch voor alternatieve code paden met betrekking de hardware


Het is geen grote horde meer iig.. en afhankelijk van de taken die je gaat uitvoeren kies je de hardware, het platform enzovoorts. Sommige zaken kan je beter op AMD doen en andere op NV/Cuda..
ligt aan de prijs denk ik
tensor cores kunnen maar 1 ding. Niet te vergelijken met de FP16 performance dus.
met FP16 is het verschil 25 vs 30.

(maar de nvidia chip is wel meer als de helft groter als die van AMD, en dus veel duurder om te maken.)

[Reactie gewijzigd door Countess op 22 juni 2017 14:32]

Ben wel benieuwd hoe goed die 'parrallel Mind' nou eigenlijk is.
Denk dat je ook een beetje moet kijken waar je de kaart voor inzet 8,16,32,64 bits floating point operations en de resp. prijzen die ze vragen voor deze kaarten. Bij 16 en 32 bits zal dit niet slechter zijn dan pascal kaarten en waarschijnlijk wel (behoorlijk) goedkoper. Over de prijzen van Volta durf ik nauwlijks te speculeren.
Grappig dat ze een 1,5 jaar oude chip nog weer opnieuw in productie nemen. Aan de andere kant is de volle potentie van furyx misschien nooit helemaal naar buiten gekomen.
Het lijkt me eerder dat ze de productie ervan niet hebben gestaakt. Ze hebben daarnaast waarschijnlijk hun klanten belooft Fiji gebaseerde servervideokaarten langer te ondersteunen en te kunnen leveren. Het 28nm productie procedé zal i.i.g. genoeg productie capaciteit hebben.

Op dit item kan niet meer gereageerd worden.


Apple iPhone X Google Pixel 2 XL LG W7 Samsung Galaxy S9 Google Pixel 2 Far Cry 5 Microsoft Xbox One X Apple iPhone 8

© 1998 - 2017 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Hardware.Info de Persgroep Online Services B.V. Hosting door True

*