Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

AMD introduceert Instinct MI100-accelerator voor datacenters

AMD introduceert zijn Instinct MI100-accelerator. Deze chip is gebaseerd op de CDNA-architectuur van het bedrijf en is bedoeld voor high-performance computing. AMD voorziet de MI100 van 32GB aan HBM2-geheugen en 120 compute units.

AMD voorziet zijn MI100-chip van 120 compute units, waarmee de accelerator beschikt over 7680 stream processors. Ook heeft de MI100 32GB aan HBM2-geheugen, met een theoretische bandbreedte van maximaal 1,23TB/s. De chip krijgt ook ondersteuning voor PCIe 4.0 en heeft een tdp van 300W. De fabrikant maakt de accelerator op een 7nm-procedé.

De Instinct MI100-accelerator is de eerste chip die gebruikmaakt van AMD's nieuwe CDNA-architectuur. De fabrikant maakte eerder al bekend dat het zijn gpu-architecturen zou opsplitsen in twee losse onderdelen; RDNA voor gaming en grafische workloads, en CDNA voor datacenters en andere high-performance computing-gebruiksscenario’s.

Hierom heeft AMD vrijwel alle hardware voor grafische taken weggehaald uit de CDNA-architectuur, meldt het bedrijf in een whitepaper. Zo biedt de architectuur bijvoorbeeld geen hardware voor rasterization, tessellation en blending. Ook de display engine is uit CDNA verwijderd. De MI100 ondersteunt nog wel HEVC-, H.264- en VP9-decoding, aangezien dergelijke functionaliteit van pas kan komen voor bepaalde machine learning-workloads.

Het bedrijf stelt verder dat zijn MI100-chip 'tot zeven keer beter presteert' dan de voorgaande Instinct-accelerator. AMD schrijft daarnaast dat de nieuwe MI100-accelerator ‘de eerste datacenter-gpu die de 10Tflops aan FP64-rekenkracht passeert’ is. Op zijn website claimt AMD onder andere dat de MI100 sneller is dan de A100 van Nvidia, waarvan eerder vandaag een 80GB-versie werd aangekondigd.

De single precision FP32-rekenkracht zou verder maximaal 23,1Tflops bedragen. Het bedrijf spreekt daarnaast van een Matrix Core-engine die de rekenprestaties voor HPC- en AI-workloads verder moeten verbeteren. AMD noemt verder een tweede generatie Infinity Fabric om meerdere accelerators met elkaar te verbinden. In een server kunnen op die manier maximaal twee clusters met vier gpu's met elkaar verbonden worden, zo meldt AMD.

De Instinct MI100 moet eind dit jaar beschikbaar komen voor de enterprisemarkt. Momenteel werken onder andere Dell, Gigabyte, HP Enterprise en Supermicro aan servers op basis van de nieuwe chips.

Door Daan van Monsjou

Nieuwsposter / Videostagiair

16-11-2020 • 19:44

27 Linkedin

Submitter: LongBowNL

Reacties (27)

Wijzig sortering
Heeft iemand misschien een idee over hoe AMD zich aankomend jaar gaat plaatsen in de 'hobby' machine learning market? Ik heb redelijk wat ervaring met Nvidia kaarten met CUDA en integratie met Tensorflow en Pytorch. Maar ik heb nooit echt gekeken naar wat AMD's capaciteiten hierin zijn. Ik weet van het bestaan van ROCm af, maar naar mijn weet is er nooit echt goede ondersteuning en compatibility geweest met bovenstaande platforms.

Ik wil graag een next-gen gpu kopen, maar dit is nog het enige waar ik over in dubio ben. Als het gaat om price/performance voor alleen gamen, dan ben ik vrij zeker van AMD. Maar door deze hobby neig ik toch weer terug naar Nvidia. Iemand misschien inzichten?
In het filmpje wordt gesproken van Tensorflow ondersteuning.
Ik heb hetzelfde, ik koop vooral Nvidia omdat ik ook daar goed mee kan renderen (Optix) en ML workloads kan doen. Maar wacht nog wel even op de Ti's of de Super's met meer geheugen.
Laat zeggen voor een budget tot €2.000.

Welke socket? AM4 of Threadripper? Formele announcements komen snel, wat rest zijn de leaks in aanloop nsar het product, incl. Standaarden, benchmark, linux foolchain.

Maar als je veel wilt compileren is AM4 en de Ryzen 5000 serie het neusje van de zalm. Kan zelfs met FOSS drivers en, hebben een vrij veilig en open architectuur tov Intel. Duurzaam en divers.

Verder is de marketingslogan/usp van Zen3 Integer...

Welk OS distributie wil je draaien? En voor welke userspace apps/libs zoek je nog meer zo'n kracht?

[Reactie gewijzigd door Bulkzooi op 16 november 2020 21:49]

lucade2210 heeft het volgens mij over het GPU-segment, niet CPU.
Ja? Hobby deep learning dacht ik. cuda heeft x86 of arm nodig. en python draait code op beide.

Het is dus belangrijk wat je ermee doet en hoe intensief. En het budget ofc. Wellicht wil hij in de toekomst uitbreiden naar een cluster.

En CDNA heeft zo'n jump gemaakt richting Nvidia, dat ik voor een all AMD cpu/gpu combo. zou gaan want ik zou ook wat willen gamen.

Voor ROCm had je minimaal iets pro's nodig volgens mij. Dan kan je zelfs aardig secure en foss gaan computen.

[Reactie gewijzigd door Bulkzooi op 16 november 2020 21:53]

Kijk eens naar HIP. Voor mijn team is het een low-overhead middel zonder problemen AMD te supporten, en de performance is uitstekend.
CUDA is Nvidia-only; ga je niet werkend krijgen op AMD. AMD heeft ROCm, maar dat is nog niet volwassen. Pytorch en Tensorflow werkt op deze AMD kaartjes. Hashcat ondersteunt CUDA of OpenCL, zou dus ook moeten werken.
Als je 1 GPU voor beide taken, gaming en ML, wilt hebben dan kom je denk ik toch gewoon bij nVidia uit die op de gaming kaarten ook tensor cores heeft.
Bij RDNA2 heb ik niets over ML voorbij zien komen en deze CDNA kaarten zijn niet geschikt voor gaming.
Zo biedt de architectuur bijvoorbeeld geen hardware voor rasterization, tessellation en blending. Ook de display engine is uit CDNA verwijderd.
En als je deze CDNA GPU vergelijkt met nVidia's A100 GPU dan lijken de tensor cores van nVidia toch veel meer performance te bieden dan de matrix berekeningen van deze CDNA GPU.
https://www.amd.com/syste...s/amd-cdna-whitepaper.pdf
Matrix FP16 184.6 TFLOPS.
Matrix bf16 92.3 TFLOPS.
Matrix FP32 46.1 TFLOPS.
nVidia A100:
https://www.nvidia.com/en-us/data-center/a100/
FP16 Tensor Core 312 TFLOPS | 624 TFLOPS with sparsity.
BFLOAT16 Tensor Core 312 TFLOPS | 624 TFLOPS with sparsity.
FP32 Tensor Core 156 TFLOPS | 312 TFLOPS with sparsity.
Plus dat de tensor cores nog INT8 en INT4 kunnen doen, daar zie ik geen performance van in de CDNA whitepaper.

In vector berekeningen is deze CDNA sneller:
Vector FP32 23.1 TFLOPS.
Vector FP64 11.5 TFLOPS.
nVidia A100:
FP32 19.5 TFLOPS.
FP64 9.7 TFLOPS.

Maar zoals bij gaming GPU's geldt dat de ene TFLOPS niet de andere TFLOPS is zal dat hier ook wel gelden.
Dus dit is een accelerator, maar stiekem een heel slim cluster met speciale CPU's?
Geen CPU, maar een GPU
Het is geen GPU meer.
Het is een CPU met een lichtgewicht core en een aantal gespecialeerde functies sets. Het is een CPU zonder de x86 instructieset. De CDNA uarch moet het opnemen tegen Xe en Nvidia toekomstige ARM based accelerator. AMD heeft nu twee architecturen, geheid dat Nvidia zal volgen. En Intel is bezig met het uitrol van Xe.

@Damic het is geen GPGPU. Want een CPU is een GPPU!

[Reactie gewijzigd door Amazigh_N_Ariff op 16 november 2020 20:18]

AMD noemt het zelf een HPC GPU. Dus het is een GPU maar zonder graphics output. Het is zeker geen CPU want het kan niet zelfstandig draaien, het heeft een host CPU nodig.
HPC is nog geen HSA/OpenCompute, zoals ten tijde van het Fusion platform. ROCm mag nog iets rijpen richting userspace.
Dat werk dat AMD deed rondom ARM integratie in de SoC, k9 of zo, kan ook wel weer interessanter worden. Daar zijn ze nu wel klaar voor.

Ryzen 3 werd neergezet als een Integer beast. Seems tech likes fp16 nowadays. And UTF-8 ofc.

[Reactie gewijzigd door Bulkzooi op 16 november 2020 20:52]

Werd vroeger ook wel de co-processor genoemt.
Eigenlijk ook niet want het kan geen graphics, het is een GPPU ;)
het ding is gewoon een uit de kluiten gewassen co-processor :*)

*drop mic* 8-)
Prima dat AMD zijn grafische kaarten opgesplitst heeft in gaming kaarten en data-center kaarten. Misschien is dan de kans kleiner dat ant-coin miners de hele vracht aan consumenten grafische kaarten opkopen voor hun datacenters.
Hadden ze eerder niet kunnen doen omdat er een enorme hype was, nu de hype is afgeflakt kun je lange termijn beslissingen maken en capaciteit inkopen om voldoende te kunnen produceren. Anders was het een zeer grote gok geweest waarna je met een berg kaarten had kunnen zitten zodra de hype voorbij was, wat je niet echt goed kunt schatten. Capaciteit bijkopen of een fabriek opbouwen doe je niet 1 2 3.
Ik ben bang dat deze kaarten niet geschikt zijn voor de crypto markt en als de geruchten voor de rx 6800 waar zijn maak dan je borst maar nat want die is dan superpopulair bij de miners.
70-100 Mhs is de verwachting.

[Reactie gewijzigd door Mezz0 op 17 november 2020 08:40]

Vzv ik bwgrepen had is dit gewoon gewoon n doorontwikkelde Vega. Of eigenlijk n doorontwikkelig van GCN. (Net zoals Navi ook van GCN afstamd.) GCN was sws geschikter voor compute door de bredere wavefronts. 64 daar waar nvidia doorgaans 32 heeft. Navi splitste dit op in 2x32, wat beter werkt voor renderen maar minder voor compute. Vandaar de splitsing. In theorie kan je meer werk per cycle doen met bredere wavefronts, maar dit gaan ten koste van performance in ‘kleine’ workloads die dat niet kunnen saturaten. Juist dat laatste is meer van toepassing bij rendering.
Dit is uitraard vanuitgaande dat iedere threads is altijd actief. Complexere programmas maken slechter gebruik van een bredre wavefront.

Dus wat je zegt klopt eigenlijk wel, omdat de game shaders zijn vaak wat complexer dan bijvoorbeeld een n body simulation.

[Reactie gewijzigd door Vlad86 op 16 november 2020 23:06]

delete

[Reactie gewijzigd door Amazigh_N_Ariff op 16 november 2020 23:24]

Frappant hoor.
Het videorendering compleet verwijdert (display engine) maar het hardware video decoding IP-block (media engine) laten ze zitten ivm patenten, bv. Hashing, encryption, drm terwijl er zelfs geen hdmi/displayports meer opzitten. Dus we gaan op zoek naar de default scalers, vanuit de tv business. Concureert met hdcp.
Allemaal chipset, firmware stuff. En daar hebben ze een partner voor, Asmedia, dankzij de tijd dat ze alles, incl. chipset, moesten verkopen om liquide te blijven.

[Reactie gewijzigd door Bulkzooi op 16 november 2020 21:56]

Ik gok dat ze video decoding en encoding laten zitten om ook video beelden te kunnen verwerken op de kaarten met het oog op data analyse en deep learning achtige doeleinden.
Yes, en dat raytracing nog omgebouwd moet worden, om in consumententermen te spreken.

Duidelijk verschil in deze generatie is de focus van amd op fp16 en nvidia op fp32.

Dit is overigens de reden:
5.11 kernelside, GPU accelarated h264 decoding API, ipv de x264 lib. Ffmpeg will hook in and all V4L2 drivers are supported, including MESA.

https://www.phoronix.com/...ready-to-be-deemed-stable

[Reactie gewijzigd door Bulkzooi op 17 november 2020 17:35]


Om te kunnen reageren moet je ingelogd zijn


Apple iPhone 12 Microsoft Xbox Series X LG CX Google Pixel 5 Black Friday 2020 Samsung Galaxy S20 4G Sony PlayStation 5 Nintendo Switch Lite

Tweakers vormt samen met Hardware Info, AutoTrack, Gaspedaal.nl, Nationale Vacaturebank, Intermediair en Independer DPG Online Services B.V.
Alle rechten voorbehouden © 1998 - 2020 Hosting door True