PCIe 5.0-lanes Intel Core Ultra 200-cpu's blijken te langzaam voor snelste ssd's

De PCIe 5.0-lanes voor de M.2-slots op Intel socket 1851-moederborden blijken te langzaam om het maximale uit de snelste PCIe 5.0-ssd's te halen. De nieuwste generatie ssd's, waaronder de Samsung 9100 PRO, haalt daardoor maar ongeveer 12GB/s leessnelheid van de mogelijke 14GB/s.

Les Tokar van de gespecialiseerde reviewsite TheSSDReview kwam het probleem op het spoor bij de zoektocht naar een geschikt Z890-moederbord voor een nieuw testplatform op basis van de Intel Core Ultra 200-processors. Tokar haalde telkens niet de snelheden die wel mogelijk waren op AMD-moederborden of Intels eigen oudere Z790-platform.

Getest: probleem speelt alleen in M.2-slot, niet met riserkaart

Tweakers heeft de bevindingen van TheSSDReview op ASRock- en ASUS-moederborden ook kunnen repliceren op een Gigabyte Z890 Aorus Master-moederbord. Op ons standaard testplatform, dat nog gebruikmaakt van een ASRock Z790 Taichi-moederbord, haalt de Samsung 9100 PRO 2TB in CrystalDiskMark 8.0.4 (defaulttest) een sequentiële leessnelheid van 14,2GB/s en een schrijfsnelheid van 12,7GB/s. Gemonteerd in het primaire M.2-slot op het Z890-moederbord, dat rechtstreeks is verbonden met de cpu zonder lanesharing, bleef van de leessnelheid slechts 12,4GB/s over. De schrijfsnelheid lag met 13,2GB/s wel iets hoger.

Intel Z890 PCIe 5.0 ssd test

Wanneer we de ssd met een riserkaart in het PCIe 5.0 x16-slot plaatsen en dus gebruikmaken van de lanes die eigenlijk voor de videokaart zijn bedoeld, worden wel de maximale snelheden gehaald. De leessnelheid is dan met 14,2GB/s gelijk aan wat we op het Z790-bord zagen, terwijl de schrijfsnelheid met 13,3GB/s zelfs nog beter is. De zogenaamde randomsnelheden, die bestaan uit lees- en schrijfacties met kleine bestanden, blijven op het Z890-platform wel consequent minder goed.

De vermoedelijke oorzaak: de oorsprong van de PCIe-lanes voor het M.2-slot

Het probleem speelt niet bij de PCIe-lanes van het x16-slot, omdat die op een andere manier zijn aangesloten. De Intel Core Ultra 200-cpu's zijn voor het eerst opgebouwd uit diverse tiles. De zestien lanes voor de videokaart zijn afkomstig uit de soctile, die een directe die-to-dieverbinding met de cpu-tile heeft. Ook de geheugencontroller zit in deze tile, waardoor er ook een snelle verbinding met het ram is. De vier extra lanes voor de ssd zijn echter afkomstig uit de kleine i/o-tile, die geen directe verbinding met de cpu-tile en het geheugen heeft.

Intel zegt in een reactie aan TheSSDReview dat dit inderdaad de oorzaak van de waargenomen lagere prestaties kan zijn. "Intel kan bevestigen dat de PCIe 5.0-lanes 21 tot 24 op de Intel Core Ultra 200-desktopprocessors een hogere latency kunnen hebben dan de PCIe-lanes 1 tot 16, vanwege een langer die-to-diedatapad. Variaties kunnen echter verschillen afhankelijk van de workload en de mogelijkheden van het aangesloten apparaat."

Intel Core Ultra 200 block diagram
Een blokdiagram van de Core Ultra 200-processors. De 16 PCIe 5.0-lanes voor de videokaart komen uit de soctile; de vier extra lanes voor het M.2-slot zijn afkomstig uit de i/o-tile, die geen directe verbinding met de cpu-tile heeft. Bron afbeelding: @jaykihn0 op X, bewerking door Tweakers

Fix lijkt onwaarschijnlijk, maximale prestaties alleen mogelijk via x16-slot

De processorfabrikant laat vooralsnog niet weten of het probleem eventueel kan worden verholpen met een firmware-update. Dat lijkt onwaarschijnlijk, aangezien de langzamere verbinding van de i/o-tile waaruit de PCIe 5.0-lanes voor het M.2-slot komen inherent is aan het hardwarematige ontwerp hiervan.

Wie op een Core Ultra 200-systeem de maximale PCIe 5.0-prestaties wil kunnen behalen, zal dus aangewezen zijn op het afsplitsen van een deel van de zestien lanes bedoeld voor de gpu. Dit kan als wanneer er geen losse videokaart wordt gebruikt met een riserkaart. Wie wel een videokaart gebruikt, kan een riserkaart plaatsen in het tweede x16-slot op moederborden die kunnen lanesplitten (x8/x8), of op een beperkt aantal high-end Z890-borden het tweede PCIe 5.0-M.2-slot gebruiken. Dit gaat dan wel ten koste van de bandbreedte die voor de videokaart beschikbaar is.

Door Tomas Hochstenbach

Redacteur

07-05-2025 • 17:06

50

Reacties (50)

50
50
29
2
0
13
Wijzig sortering
Mogen ze dit wel PCI-e 5.0 noemen als het niet de PCI-e 5.0 prestaties haalt?
Jawel. Net zoals dat een USB stick met USB3.0 ook niet de volle snelheid kan benutten, maar nog wel USB3.0 gebruikt. Zelfde als M.2 SSDs, enzovoort.

De PCIe specificatie geeft aan hoe de elektrische signalen van de lanes werken (connectors, PCB eisen, enzovoort). Hier zit een bepaalde Baud Rate aan vast die voor ons als gebruiker het meest onderscheidend is van PCIe 4.0. Zo'n baudrate geeft aan hoe snel de bits over de lanes worden gejaagd. Echter dit zegt nog niets over hoe snel de apparaten moeten zijn die hier op aangesloten zijn.

Het is echter natuurlijk wel pijnlijk als dan de host een bottleneck blijkt te zijn.

[Reactie gewijzigd door Hans1990 op 7 mei 2025 17:59]

Ik vind dat toch iets anders, dan is het eind device zoals de USB stick te traag maar heeft wel een USB 3.0 aansluiting. In dit geval is het eind device PCI-E 5.0 maar de host haalt het notabene niet, dat zou niet moeten kunnen.

De host mag zich dan geen PCI-E 5.0 noemen. (Vind ik)
Veel hardware heeft vergelijkbare I/O beperkingen. Kijk ook maar eens hoe chipsets dezelfde PCIe lanes veelvuldig opnieuw uitdelen. Met Haswell kon je zelfs met 4 SATA-600 SSDs de DMI2.0 bus voltrekken.

Maar ik zal on topic blijven: veel SSD benchmarks testen met losse sequential read/write tests. Je kan echter ook mixed read/write workloads uitvoeren, iets wat je vaker ziet voor server applicaties. Vaak zijn SSDs zelf de bottleneck, maar als we dan op de PCIe interface aankomen, dan zou je eigenlijk die sequential read/write tests tegelijk willen draaien om de full duplex capaciteiten van de PCIe bus te testen. Dan is deze CrystalDiskMark test nog veel te licht.

Met deze mindset even door: hoe weten we dat zo'n PCIe5 16x slot ook zijn volledige bandbreedte haalt? 16 lanes PCIe5 is 2x ~64GB/s, in totaal dus 128GB/s. Zet er een 6400MT/s kit in volgens spec, en de max bandbreedte is een slordige 100GB/s. Dus om die 16x lanes te satureren moet zo'n CPU heel veel data uit een hoge hoed kunnen toveren.
Gelukkig communiceren PCIe apparaten zelden op volle bandbreedte met elkaar. Als je een PCIe bandwidth monitor eens op zet (volgens mij kan OpenHardwareMonitor dat ook zien), dan zal je zelfs met het laden van een spel niet veel meer dan een paar GB/s naar je GPU gestreamed zien worden. Prestaties komen dan meer aan op korte communicatie bursts die latency gevoelig zijn.
Alleen getuige de RND4K1T tests op 16x slot in dit artikel, vermoed ik ook dat Intel's implementatie ook nog wat latency problemen heeft..

Dus al zou je aan mij vragen of Intel hier een steekje heeft laten vallen.. Ja, dit doet Intel's reputatie van goed doordachte/gevalideerde producten niet ten goede. Maar uiteindelijk heeft elke hardware z'n limieten.
Staat er in de PCI-E 5.0 specificaties minimale waardes waaraan voldaan moet worden door de host?
Waarschijnlijk niet. In dat geval kan een host die aan alle voorwaarden voldoet maar gruwelijk traag is nog steeds 5.0 zijn.
Precies dat. Volgens mij staat er altijd: "with a maximum speed of up to ..... GB/s".
Nooit: "with a minimum guaranteed speed of ..... GB/s".
Dit inderdaad. Je zou toch denken de PCI-org de boel even afcheckt voor ze het op de doos mogen zetten?
de specs leggen slechts theoretische maxima vast en technische minima. De verbinding tussen de i/o-tile en het M.2-slot zal technisch wel in orde zijn, alleen hangt het er natuurlijk van af waar de data dan naartoe moet. In een systeem zal er trouwens altijd wel ergens een bottleneck zijn.
Waarschijnlijk is de specificatie heel specifiek voor de elektrische signalering tussen de host en het apparaat. Dat zal wel helemaal in orde zijn op deze lanes. Alleen is de verdere datastroom vanaf de PCIe controller naar de CPU en het werkgeheugen dus beperkt.
Vroegah haalde je ook never nooit de geadviseerde en theoretische maximale bandbreedte van IDE interfaces of PCI busses ;)
Voor de geïnteresseerde: Dat blokdiagram ziet er in silicon zo uit.

Zoals high yield beschrijft, zijn alle tiles verbonden met foveros. Het lijkt me sterk dat foveros niet meer dan 12 gb/s aan kan, maar er zit dus ergens een bottleneck in het design. De m.2 is aangesloten op de pcie phy's die helemaal aan het einde van de IO tile zitten.

Ik ben wel benieuwd of het gebruiken van veel bandbreedte via thunderbolt of de andere pcie lanes op de IO tile de bottleneck erger maakt. Immers, met 2 thunderbolt 5 verbindingen zou 12gb/s ook niet genoeg zijn.
In het artikel gaat het over latency. Bandbreedte is natuurlijk 1 ding, maar latency over meerdere die's is wat anders. En dat kan wel degelijk de uiteindelijke bandbreedte in de weg zitten. Als de bus bezet is kan je er pas weer gebruik van maken als ie vrijkomt immers.

En ja, je kan natuurlijk problemen hebben als je data over dezelfde lanes gaat versturen. Maar PCIe is zo snel dat je wel je best moet doen om een significant verschil te maken op die overgebleven 12 GB/s (!) met een grote B. Ik bedoel, een 10 Gbit/s netwerk neemt daar 1 GB/s van af met overhead, en zelfs een display zal niet heel veel invloed hebben; PCIe is full duplex.

[Reactie gewijzigd door uiltje op 7 mei 2025 22:58]

Arrow Lake voor de desktop heeft overigens geen Thunderbolt 5, maar Thunderbolt 4 (met halve snelheid dus).
Oh je hebt gelijk. De z890 boards met thunderbolt 5 hebben daarvoor een aparte controller.

Dan is het overigens wel opvallend hoeveel van de IO uitgeschakeld is.

Op die tile zitten 8 pcie 5.0 lanes, 8 pcie 4.0 lanes en 4 thunderbolt controllers en alles is dus schijnbaar voor de helft uitgeschakeld. Bijzonder...
Het alternatief is wel heel veel moeite om maar geen AMD te nemen.
Of het interesseert je niet dat die maar 12GB/s tegenover 14GB, want alleen in hele HELE speciale gevallen ga je dat verschil merken, maar voor bv gaming ga jij dat verschil echt niet merken.
Mee eens dat je die 12GB/s vs 14GB/s lood om oud ijzer is, maar de random lees- en schrijfsnelheden zijn ook zo'n 10 tot 20% lager en dat zou je in dagelijks gebruik wèl kunnen merken (los van het feit dat het nog steeds erg snel is en je er waarschijnlijk gewoon een snel en soepel systeem aan hebt).
Sorry, maar juist bij dagelijks gebruik ga je dat niet merken 20% minder lager is nog steeds voor dagelijks gebruik razend dnel en onmerkbaar, tenzij je de hele tijd een hoop bestanden aan het rondslingeren bent, maar dan hebben we het al niet meer over dagelijks gebruik.
Mee eens hoor, wat ik ook schrijf: waarschijnlijk heb je nog steeds een soepel en snel systeem.

Ik neem aan dat als je een PCIe 5.0 SSD kiest dat je dan dagelijks wel iets doet wat veel I/O performance vraagt af en toe en dan kan je die lagere prestaties misschien wel merken. Voor gewoon een beetje gamen en office (wat voor veel mensen het gewone dagelijkse gebruik is vermoed ik) zou het me sowieso verbazen als je het verschil merkt tussen PCIe 3, 4 of 5 ssd's.
Vanzelfsprekend. Ik merk niet eens het verschil tussen een Sata SSD en een m2. Behalve dan qua formaat.
Wanneer je dit wèl belangrijk vindt, lijkt me een AMD setup wel heel veel praktischer dan die andere alternatieven.
De vervolgvraag is wat dit betekent voor moderne GPUs. Die kunnen de SSD gebruiken zonder tussenkomst van de CPU. Dan hoeft er dus ook geen data via de Soc tile naar de CPU tile.
Niet veel. Er wordt nooit op maximale bandbreedte voor games assets in het videogeheugen geladen tijdens gameplay, meer in kleine chunks.

Latency blijft key.
Die latency zal overigens ook wel hoger liggen. Maar de PCIe latency zal in het niet vallen bij de latency van de SSD (controller) dus dat zal uiteindelijk niet heel veel uitmaken (wel iets, want latency is een optelsom, throughput is meer het kleinste kanaaltje).

[EDIT] volgens het artikel is het juist de interne latency die de throughput dwars zou kunnen zitten, dus da's niet best.

[Reactie gewijzigd door uiltje op 7 mei 2025 23:00]

15% langzamer zal weinig uitmaken, is nog steeds sneller dan 99% van de systemen waar het spel voor ontworpen word.
Op zich prima. Zo kan de 'gewoon snelle' 7GB/s M.2 NVME SSD met OS erop in het M.2 slot blijven zitten, en voor high performance throughput je vier nieuwe 14GB/s SSD's op een Hyper M.2 kaart in het 2e PCI-E slot.
Natuurlijk wel jammer voor de gebruiker met twee Gen5 PCI-E GPUs
Meestal heb je hier toch niet genoeg lanes voor? Jouw setup betekent dat je je GPU moet offeren, want anders gaat alles nog steeds via die andere tile die de northbridge vervangt. Als je high performance en een GPU hebt moet je je OS op de tweede M.2 locatie zetten, en dan de eerste voor de high throughput gebruiken.

[EDIT] Volgens een artikel verderop inderdaad 20 snelle / directe lanes, de rest is dus trager. Geloof me, dat eerste SSD slot is nog steeds sneller dan het tweede PCIe x16 slot (dat meestal maar x8 doet max).

[Reactie gewijzigd door uiltje op 7 mei 2025 23:12]

Je hebt gelijk, en ik was ff vergeten dat mijn videokaart (A4000 Ampere) nog PCI-E gen 4 is, en reeds bifurcated x8 draait. Maakt het voor mij wat eenvoudiger. En die Hyper M.2 kaart zal dus ook slechts twee SSD's max speed kunnen draaien, geen vier. Maakt zo'n enkele SSD in het eerste M.2 slot dus plots minder interessant.
Hmm, ik begin de flinke prijsverlaging een beetje te kunnen plaatsen van de 200 serie processoren…
Wat zal dit betekenen voor sommige nieuwe pci-e 5 nvidia kaarten met maar 8 lanes, die al bottlenecken op pci-e 4?
Niets tenzij je die niet in het CPU connected gen5 x16 slot stopt (zoals ook in het artikel staat).
Nee omdat de x16 lanes die bedoeld zijn voor videokaarten er geen problemen hebben. Staat ook gewoon in het artikel.
Dat die een goede keus worden, omdat ze 8 lanes (9-16) overlaten voor een M.2 riser
Edit: boven mij al voldoende beantwoord

[Reactie gewijzigd door Orky Rulez op 7 mei 2025 19:00]

Lekker boeiend, voor veel is een sata ssd nog snel genoeg. Ik merk letterlijk geen enkel verschil tussen een game of programma of mijn sata ssd vs mijn nvme ssd.
Ik koop ssd dan ook op prijs en niet op snelheid.
Ik denk ook dat bijna niemand zo'n snelle NVME de komende jaren in zijn PC stopt dat 12/13 GB/s te traag is.

Het zijn heethoofden dat soort snelle NVME's.

Dit is meer een theoretisch probleem, dan dat iemand ooit het gaat merken in zijn PC.
Wees maar zeker dat er tweakers of pro´s zijn die niet kijken op €100 meer om de snelste SSD te hebben... en dat er daar ook tussen zitten met usecases waar ze dit wel degelijk merken.

Stel dat je een Ferrari koopt die volgens het boekje 320 doet en in werkelijkheid maar 280 omdat ze de brandstofleiding te smal hebben gemaakt. Zelfs als je niet elke dag 8u op het circuit zit zou ik dat toch niet slikken
Valt natuurlijk te zien wat je doet natuurlijk,

Als je zo een systeem gekocht had om "ook" video montage en zo te doen. (op zich al dom, want dan had je beter een AMD systeem genomen :) ) , dan zou het wel niet leuk zijn als dan nu plots die 100+ gig video bestanden "tergend" traag van de éné naar de andere drive gaan.

Als ik bijvoorbeeld een extra backup wil maken voor ik aan een film bestand dat ik net van een VHS band afgehaald heb begin te prutsen. (neem die op uncompressed, dus is al snel 100+ gig per uur)
dan zou ik wel geïriteerd zijn als dit dan plots 30 minuten duurt ipv 20 minuten, time is money hé :)
Als je van de ene 4x SSD naar de andere wil kopiëren heb je blijkbaar niet 16x lanes naar je GPU, maar 8x. En dan is het snel genoeg wanneer je de overige 8x snelle lanes voor 2 SSDs gebruikt.
Meestal heb je dus 20 snelle lanes: 1 x 16 lanes voor de GPU en 1 x 4 lanes voor de eerste SSD. Maar in dit geval zijn er vier ietsje trager. Die andere 8 lanes zijn op de tile door de vroegere northbridge, die weer verbonden is met de CPU. Die is nog wat trager en draait meestal op een lagere PCIe spec. Je kan ook een PCIe slot gebruiken met bifurcation als dat gesupport wordt door het moederbord. ASUS biedt dat meestal wel aan.

Ik heb een server systeempje hier staan dat "maar" PCIe v3 doet. Maar de oude XEON biedt wel 40 lanes aan :P
Uiteraard spreek je voor jezelf, zelf merk ik wel voordeel van NVME tegenover sata, zaken als response.
De oude Sata SSD,s wilde nog wel eens degraderen, zijn sowieso niet meer zo snel als ze waren bij geen gebruik van overprovision(stel regel was 10% onbenut houden anders degraderen ze snel).

[Reactie gewijzigd door mr_evil08 op 8 mei 2025 16:45]

Het probleem zit hem in de CPU en hoe die is opgebouwd uit diverse tiles. Waar de lanes voor het m2 slot een minder 'optimale' verbinding hebben. Dat lijkt mij niks te maken te hebben met het socket.
Gelukt, maar Intel kan het niet bijbenen.

Voor de gemiddelde consument of zelfs professional zal dit worst zijn en weinig relevant, van Intel kun je veel zeggen maar ze hadden I/O vrijwel altijd op orde, zelfs in het budgetsegment.
Is het heel erg? Latency is een veel belangrijkere factor imho.
En dit is ook hoger dan in de x16 slots...
Oh excuus, ik zie het nu. Slechte zaak dan inderdaad.


Om te kunnen reageren moet je ingelogd zijn