AMD Instinct MI350P heeft PCIe-formfactor en moet met Nvidia's H200 concurreren

AMD heeft de Instinct MI350P-gpu uitgebracht. Dat is een grafische kaart met een PCIe-formfactor, maar wel eentje die voor datacenters is gemaakt en bedoeld is om AI-modellen te kunnen draaien. Zo is de kaart zo ontworpen dat die makkelijk in luchtgekoelde racks kan worden geplaatst. De kaart heeft de helft van de prestaties van de MI350X.

De AMD Instinct MI350P is, net als de MI350X van vorig jaar, gebaseerd op de CDNA 4-architectuur en gemaakt op TSMC's 3nm-procedé, maar de hardware is ongeveer de helft zo krachtig als dat sterkere model. Zo heeft de MI350P de helft van het geheugen als het grotere model: de P haalt een maximale snelheid van 4TB/s. Het nieuwe model heeft ook de helft van het aantal compute-units en half zoveel L2-cache.

AMD Instinct MI340P

De MI350P is bedoeld voor AI-toepassingen en is daarom ook qua formfactor gericht op serverrackgebruik, zegt AMD. De dualslotkaart kan in racks worden gezet die door lucht worden gekoeld en is vooral een 'kosteneffectieve PCIe-kaart'.

In een enkel cluster kunnen acht MI350P's worden gekoppeld. Met een maximum van 4600tflops is de kaart voornamelijk bedoeld voor kleine tot middelgrote AI-taken, zegt AMD. De kaart kan in theorie 600W aan vermogen aan, maar kan worden teruggeschakeld naar 450W om op langere termijn beter te kunnen presteren.

Door de PCIe-formfactor heeft AMD voor het eerst een goede concurrent voor Nvidia's H200 NVL die ook voor vergelijkbare racks bedoeld is. Die heeft 141GB aan geheugen.

AMD Instinct MI325X MI350P (nieuw) MI350X MI355X
Architectuur CDNA 3 CDNA 4 CDNA 4 CDNA 4
Productieproces TSMC N5 / N6 TSMC N3 / N6 TSMC N3 / N6 TSMC N3 / N6
Compute-units 304 128 256 256
Prestaties fp16 1,3 pflops 1,15 pflops 2,3 pflops 2,5 pflops
Tdp 1000W 600W 1000W 1400W
L2-cache 256MB 128MB 256MB 256MB
Geheugen 256GB HBM3E 144GB HBM3E 288GB HBM3E 288GB HBM3E
Geheugenbandbreedte 6TB/s 4TB/s 8TB/s 8TB/s
Interface PCIe 5.0 x16 PCIe 5.0 x16 PCIe 5.0 x16 PCIe 5.0 x16

Door Tijs Hofmans

Nieuwscoördinator

08-05-2026 • 21:03

42

Submitter: CriticalHit_NL

Reacties (42)

Sorteer op:

Weergave:

Kun je met zo'n kaart nou een beetje fatsoenlijk klooie met locale AI? Of heb je daar echt per se cuda voor nodig?
Je kan tegenwoordig met AMD hardware prima werken aan AI toepassingen. Mainstream inference software zoals bijv. llama.cpp heeft gewoon support voor AMD HIP (https://github.com/ggml-org/llama.cpp).

Ook de "training" frameworks zoals Jax, PyTorch en TensorFlow ondersteunen deze AMD hardware (https://rocm.docs.amd.com/en/latest/how-to/deep-learning-rocm.html).
Ik denk dat je in een lucht circulatie systeem moet investeren, volgens mij zit hier geen fan in en is bedoeld voor server racks die zelf lucht door tunnels/kanalen en kaarten forceren.
Server fans kosten nu niet zoveel, ze maken wel veel herrie :+
Dat ligt eraan hoe groot de koelers zijn, Kleine koelers maken vaak wel veel geluid. Je hebt ook grote 9U kasten waar wel eventueel grote koelers in kunnen en dus stiller.
Zelfs de grote maken herrie :D wel minder herrie dan de kleintjes maar oh boy.
14 cm koelers maken erg weinig herrie hoor, die zijn fluister stil. Je kunt zelf wel wat koeling inbouwen in een serverrack, die groter is dan de standaard 6cm -8cm koelers.
140mm ventilatoren zijn totaal ongeschikt voor echte rack server behuizingen die hebben veel meer statische druk nodig. In server ventilatoren durf je je vinger niet te steken ;) dit is niet voor computers met een 1000 watt voeding hè, het gaat hier al snel over meer dan 2000 watt, orkaankracht is een vereiste.
Deze 14 cm zijn speciaal ontworpen voor servers...Je zou dan denken dat ze genoeg statische druk kunnen leveren.
Definieer "deze". En als jij het denkt dan weet je het dus niet, ik heb het over ventilatoren die 10.000+ RPM doen en per stuk al meer dan 20 watt verbruiken. Arctic P14's zijn statische druk variant ventilatoren maar dat is echt speelgoed vergeleken wat men gebruik in echte servers. Maar goed consumer-grade hardware in een 9U rackmount kan je prima koel houden met 140mm ventilatoren, het is alleen niet het type server waar je deze kaarten snel in zal aantreffen.
https://www.noctua.at/en/products/nf-a14-industrialppc-3000-pwm/specifications

Deze is ervoor ontworpen, een stuk of 10 van deze houd het wel koel. Een 14cm hoeft ook minder statische druk te leveren dan een 6cm of 8cm fan voor dezelfde koeling. Deze heeft ook het dubbele cfm als de normale Noctua's. Statische druk is ook 2-3 x zo hoog als bij hun normale koelers.


Maar het klopt dat je niet snel 14cm koelers vindt in een serverrack...Vaak ook gecombineert met externe koeling als airco etc.

[Reactie gewijzigd door Tourmaline op 10 mei 2026 12:48]

Industrial is iets anders dan server, ik bedoel ventilatoren in deze categorie: Arctic S8038-10K, Single Fan, 80mm: beste prijs - Tweakers daar word statische druk niet in mm's uitgedrukt maar in inches. Maar deze zie je niet echt in de losse verkoop dit hoort bij de leverancier van de server, Dell, HPE, Supermicro etc. maar het idee is hetzelfde extreem dikke super snel draaiende ventilatoren om lucht door een server behuizing heen te persen, niet om een briesje door een server te realiseren.
Weet ik, maar het zou wel moeten kunnen met een x aantal van die 14 cm koelers, zeker als je ook active koeling gebruikt op de cpu's.
Als je een server koopt, bijv. een simpele HPE DL380 gen12 en je gaat deze gebruiken voor dit soort AI toepassing, dan moet je de server voorzien van de uitgebreide koeloptie. Dan krijg je extra krachtige fans die een grote hoeveelheid lucht van voor naar achter door de server pompen. Je krijg er ook het geluid van een stofzuiger op vol vermogen voor terug. Dus succes als je hier thuis mee wilt gaan kloten.

@imqqmi Je hebt gelijk dat je in een ideale situatie een koude en warmte kant van je rack moet creëren. Kan ook zonder als je een grote ruimte hebt met veel hoogte zodat de warmte lucht ergens heen kan, maar uiteindelijk moet die warmte toch ergens heen en moet je geforceerd gaan koelen.
Je wilt dat je warme lucht niet mengt met je gekoelde lucht dus krijg je "straten" die lucht technisch van elkaar zijn gescheiden. Je server pakt dan relatief koele lucht uit de koude straat en blaast de opgewarmde lucht aan de achterkant in de warme straat. Altijd lekker om hartje zomer of in de winter achter een server rack in en datacenter te moeten sleutelen. Dan ga je van misschien -2 of 28 graden naar de koele omgeving van het datacenter van rond de 19 tot 22 graden en dan stap je daarna in de warmte van 40 tot 50 graden in een pokke herrie waarbij je jezelf amper hoort nadenken. Blij dat ik dat niet meer hoef te doen. :-)
Als je wilt "klooien" met lokale AI dan kan je beter naar de RTX 6000 pro kijken, dit is een kaart met 96gb vram die in een gewone desktop past. Kost op dit moment slechts 10.000 euro.

Verder is er van AMD de R9700 AI met 32 gb geheugen die je al voor minder dan 1500 euro in huis kan halen.

Deze Instinct kaarten van AMD zijn bij uitstek niet bedoeld om in je lokale desktop te gebruiken.
Voor Photoshop of een ander lokaal Ai programma is het wel te gebruiken. Denk trouwens dat het wel overkill daarvoor is, zeker de prijs van 10.300 euro voor de kaart.

[Reactie gewijzigd door Tourmaline op 9 mei 2026 14:36]

Met zon kaart kan je prima lokaal AI draaien. Men doet dit ook op de Arc B580 en ik draai persoonlijk zo nu en dan Gemma4 27b op mijn AMD 9070
Cuda is voor sommige toepassingen essentieel, maar die zitten meer in de development en render hoek. Het draaien van een standaard LLM (aka: inference) kan op elke architectuur wel. (Denk ook aan de Mac's die populair zijn voor AI, waar de GPU deel is van de soc en geen los VRAM in zit)

[Reactie gewijzigd door Jehare op 8 mei 2026 21:26]

De 9070 heeft maar 16GB VRAM, dus Q4 oid? Een deel in je systeem RAM dan?

Vind het zelf behoorlijk jammer dat de VSCode implementatie je geen locale modellen laat gebruiken. De Continue extensie dan wel, maar succes met het vinden van modellen die én op je hardware draaien én met tools en een specifiek formaat queries overweg kunnen.

Een beetje onzin chatten kan wel al snel op zo'n beetje elke aardappel, ollama en al dan niet met een eigen web interface.

[Reactie gewijzigd door lariekoek op 9 mei 2026 14:15]

Als je co-pilot bedoelt in vscode, dan moet je eerst dus aanmelden met je github account (ingelogged zijn) en vervolgens een extensie als LLM Gateway installeren om je eigen openai-compatible api te gebruiken.

Werkt opzich prima (gebruik zelf qwen3.6 27b Q8) maar merk dat een editor die al vanaf het begin bij de ontwikkeling rekening heeft gehouden met co-op developen (wat je min of meer doet met een agent-chat die diffs inschiet) toch prettiger werkt, en dan bedoel ik Zed.
Mooi gevonden, dank je, zo kan ik ze gebruiken 😀
Dat zou wel moeten kunnen via ollama: https://code.visualstudio.com/docs/copilot/customization/language-models#_add-a-model-from-a-built-in-provider

Daarvoor heb je enkel de gratis versie van github copilot nodig, dus effe inloggen met je github in VS Code en dat zou gewoon moeten kunnen!
Ja precies, Q4, dus weights like 13.5 GB, past net in die 16GB, zit nog wat marge op en context natuurlijk, afhankelijk van grootte context window iets meer in systeemram, maar t draait... Kaarten met meer dan 16 GB zijn aardig aan de prijs tegenwoordig... Het kleine beetje programmeren wat ik af en toe doe, gebruik ik Antigravity voor. Ook niet perfect maar ongetwijfeld beter dan wat er lokaal kan draaien op zon kaartje...
Toevallig ben ik net overgestapt van een dual gpu build 5070 ti (aider) en een 3060 12GB (voor kleine offload en desktop enviroment) naar dual 9070XT.

Heb echt niks te klagen, met llama.ccp kan ik grote modellen inladen, de offload is rap (beide PCIe lanes op 8x). ComfyUI werkt goed met parrallel workflows, en Distorch2.

32 GB VRAM, snel gebeuren en bij parrallele workflows dus een hoge bandbreedte. Desktopenviroment via igpu.een voordeel is dat de 9000 kaarten echt niet warm worden en niet heel veel stroom slurpen.

Alternatief voor consumenten is een Intel pro b70, een 3090, (24GB voor 1000 op het moment) en anders ga je al naar de 5090 / high end quadro kaarten.
Dat gaat uitstekend. Maar brengt natuurlijk wel een investering van 100.000 euro met zich mee.
Waarschijnlijk beter met een MacBook Pro met 128GB universal memory.

Kost ongeveer € 7000 maar da's minder dan zo'n kaart.
Hangt er van af. Ik heb enkel AMD hardware en doe best veel met lokale AI, maar er zijn veel toepassingen en bibliotheken die nog steeds enkel op Nvidia werken, of waarbij AMD een tweederangsplatform is.

Zo heeft hebben ikllama en SGlang geen ondersteuning voor reguliere AMD kaarten (sglang wel voor datacenter hardware van AMD, maar geen idee hoe goed dat werkt).

Bij pytorch kom je goed weg met AMD, maar sommige third party python libraries worden enkel ontwikkelt en getest met Nvidia, dus soms loop je ook daar nog vast. Vaak kan je er wel weg mee raken door de requirements.txt of pyproject.toml aan te passen, maar het is toch vaak weer dat extra beetje sukkelen en zoeken hoe het zit voor AMD.

Ook bij de software die goede AMD ondersteuning heeft, zoals llama.cpp, vllm or comfyui, merk je dat het eerste platform dat ondersteund wordt vaak CUDA is, en dat AMD voor veel ontwikkelaars een afterthought is.

Zo zie je vaak bij nieuwe releases van grote taalmodellen, dat er een update voor vLLM is, maar die is vaak pas een heel eind later beschikbaar voor AMD hardware. Bij comfyui heb je vaak "custom nodes" nodig, dat python extensies die nieuwe functies of technieken toevoegen in je workflow. Ook daar zie je vaak geen AMD ondersteuning out of the box.

Althans, dat is mijn ervaring.


Deze kaarten zullen wellicht meer dan 25k gaan kosten, dus geen idee of dat voorveel mensen AI dichter bij huis gaat brengen.

[Reactie gewijzigd door sspiff op 11 mei 2026 13:04]

Mischien een hele domme vraag, ik weet dat dit voor grote server farms is gebouwd, maar kan je dit in je desktop stoppen als je een flinke AI capable desktop wil hebben? (even los van dat ze aleen per pallet geleverd worden)
Nee de koeling is vaak niet voldoende. Ze moeten in een rackserver die met fans met zeer hoge static pressure en hoge toeren de lucht erdoorheen forceren.
Wat voor static pressure en (bijbehorende) hoge toeren moet je aan denken?

Noctua heeft een industral lijn, bijvoorbeeld de NF-A14. Gevoelsmatig zou ik zeggen dat je met 2 fans in een push-pull opzet toch een eind moet komen.
2 koelers zijn vaak voor een racksysteem niet voldoende.
Precies, daar heb je meestal heel veel (kleinere) fans op een rijtje.

Ik zat alleen in mijn hoofd te denken aan een normale case, had dat explicieter moeten vermelden.

O.b.v. het het onderstaande dat in het artikel staat en de foto zie ik het zo voor me dat je hem kan inprikken in een mITX case, aangezien het een PCIe kaart betreft met normale stekkers voor de stroomtovoer. Moet dan lukken met deze dual slot GPU :)

"De dualslotkaart kan in racks worden gezet die door lucht worden gekoeld en is vooral een 'kosteneffectieve PCIe-kaart'"
Een rij van dit soort:

https://www.dell.com/support/contents/en-do/videos/videoplayer/how-to-replace-the-ram-for-poweredge-r720-and-r720xd/6079818203001

Die fans lopen rustig 10k+ rpm en trekken 18W per stuk!

Je ziet dat in zo’n server ook de cpus enkel een passief blok hebben omdat alle lucht echt door het chassis geperst wordt.

[Reactie gewijzigd door Navi op 9 mei 2026 20:31]

En los ervan dat ze voor $30k-$40k per stuk gaan.
Haha, ja, ik ben nog niet naar paradigit gerend met mijn spaarvarken en beide nieren, ik was gewoon benieuwd.

[Reactie gewijzigd door maartenvdk op 8 mei 2026 23:11]

Als je je hypotheek openbreekt en liander nog eens terugbelt voor toch die netverzwaring naar 3x50A moet je met middagje knutzelen een hele vette lokale ai kunnen bouwen en ook gelijk je vloerverwarming van de cv kunnen lostrekken
Dan trek je warm water van de waterkoeling door je vloer ben je in de winter lekker vloerverwarming stoken.

En je hebt gratis warm water uit de kraan.spaar je dat ook weer uit..


Maar effe alle gekheid op een stokje de huis tuin en keuken gebruiker heeft daar dus niks mee het is meer voor bedrijven bedoelt die grotere websites of databases hebben draaien, en het is meer voor grotere modellen te draaien die we in het dagelijks leven van jan met de pet bijna nooi tegen komen of althans ze doen er niks mee.Plus is het zo dat die hardware mede door het duurder geworden geheugen bijna onbetaalbaar is geworden.Plus de opslag ook die ssd harde schijven zijn ook peperduur geworden,vandaar dat zo een pakket hardstikke duur is nu.

[Reactie gewijzigd door rjmno1 op 11 mei 2026 14:32]

Goed verhaal maar voor 600 watt is twee stuks Blackwell nog steeds een betere deal voor iemand/een bedrijf die lokaal modellen wilt draaien. Dit is een oplossing voor de hele grote jongens die net achter het net vistte bij Nvidia en nu bij AMD een alternatieve oplossing krijgen.
edit:
ok misschien iets te kort door de bocht maar dit zijn geen chips die je per stuk afneemt maar in bulk, waar blackwell's workstation oplossingen bied is dit overduidelijk server farm territorium.

[Reactie gewijzigd door GewoonWatSpulle op 8 mei 2026 21:42]

Betere deal wellicht, maar als ze niet op voorraad zijn heb je er ook niks aan. En je wilt het ook niet bij een 1 of andere vage webshop halen want je wilt wel goed garantie kunnen claimen bv.

[Reactie gewijzigd door Martinspire op 8 mei 2026 23:01]

Een flinke berg geheugen, echt AMD, wel gaaf apparaat hoor.
Ik mis de RTX6000 blackwell server editie in je vergelijking.
Want dat zal de kaart zijn waar de MI350P het meest in concurrentie mee zal zijn in de praktijk.
hierbij met RTX6000 en alleen FP16 flops
ook maar de Apple M5 toegevoegd
  1. AMD Instinct MI350X — ~2,400 | 288 GB HBM3E | $35,000–$60,000
  2. NVIDIA H200 — ~1,800 | 141 GB HBM3E | $30,000–$50,000
  3. AMD Instinct MI350P — ~1,200–1,500 | 144 GB HBM3E | $18,000–$30,000
  4. NVIDIA RTX 6000 Blackwell — ~600–1,200 | 48–96 GB HBM3E | $8,000–$25,000
  5. Apple M5 — ~200–600 | 16–128 GB unified RAM | $199–$2,000+
  6. NVIDIA RTX 5070 Ti — ~100–200 | 12–16+ GB GDDR6/GDDR7 | $500–$900
  7. AMD RX 9070 XT — ~75–150 | 16 GB GDDR6 | $500–$800
  8. AMD Ryzen AI MAX+ PRO 395 — ~50–200 | System RAM 16–64 GB | $400–$900
  9. Intel Core Ultra X9‑388H — ~30–150 | System RAM 16–64 GB | $300–$800
  10. Intel Arc B580 — ~10–40 | 8–12 GB GDDR6 | $200–$350

[Reactie gewijzigd door mikeoke op 9 mei 2026 00:23]


Om te kunnen reageren moet je ingelogd zijn