Intel brengt volgend jaar cpu met cachechiplet uit, maar nog niet voor desktops

Intel bevestigt dat het volgend jaar met een soort alternatief komt voor AMD's 3D V-Cache-chips. Een communicatiemanager van het bedrijf vertelde dat in een interview. Daarbij werd wel gezegd dat deze chip wordt gericht op datacenters en dus niet beschikbaar komt voor consumenten.

Florian Maislinger van Intel bevestigde de komst van cpu's met cache tiles in een Duitstalig interview met der8auer en Bens Hardware. De communicatiemanager zegt daarin dat Intel 'volgend jaar' een cpu uitbrengt die beschikt over een cachetile, schrijft HardwareLuxx, dat het interview heeft uitgeschreven. Maislinger voegt daaraan echter toe dat de chip niet beschikbaar komt voor desktops. In plaats daarvan wordt de chip gericht op servers, omdat de markt daarvoor groter is dan die voor gamingprocessors.

De cpu in kwestie betreft volgens de Intel-communicatiemanager 'Clearwater Forest', een volgende generatie Xeon-processor die volledig is opgemaakt uit E-cores. Deze serie beschikt over verschillende cpu-tiles, die via Foveros Direct boven op een actieve basetile worden geplaatst. De cache moet in die onderste basischiplet verwerkt worden, zo bleek eerder al uit geruchten en lijkt nu dus bevestigd te worden. Maislinger zegt niet of en wanneer Intel alsnog met een 3D V-Cache-alternatief voor desktops komt.

AMD introduceerde zijn eerste 3D V-Cache-processor twee jaar geleden in de vorm van de Ryzen 7 5800X3D. Met de techniek wordt een chiplet met 64MB aan extra L3-cache aan cpu's toegevoegd. AMD biedt zowel Ryzen-consumentenprocessors als EPYC-serverchips met deze extra L3-cache aan. Voor consumenten biedt de techniek vooral voordelen bij het spelen van games. Onlangs bracht AMD nog een Ryzen 7 9800X3D uit, die op het moment van schrijven de hoogste gamingprestatiescore haalt in onze tests.

Intel Clearwater Forest
Een render van Intels Clearwater Forest-cpu. Bron: Intel

Door Daan van Monsjou

Nieuwsredacteur

15-11-2024 • 15:26

29

Lees meer

Reacties (29)

29
29
11
2
0
10
Wijzig sortering
Een opvallende keuze denk ik.
Uiteraard is de markt voor server pc's groter dan voor gaming pc's, maar als je de kennis en techniek in huis hebt, en toch al elk jaar nieuwe processoren uitbrengt lijkt het me juist een slimme zet om toch de concurrentie weer een beetje bij te benen.

Ik heb eind 2022 nog gekozen voor intel (13600k), maar dat was toen al een twijfelachtige keuze. Achteraf gezien was AM5 + X3D wellicht een betere keuze, voornamelijk m.b.t verbruik bij gaming.
Ik begrijp eigenlijk niet je klacht mbt het verbruik met gaming. Als je deze cpu stock gebruikt is het verbruik totaal niet zo enorm. Gemiddeld 74 watt over 12 verschillende games volgens techpowerup.

Vergeet even niet dat jou I5 een stukje sneller is dan een 5800X3D of 7800X3D en ook een stuk goedkoper.

Tevens neem ik aan dat je niet 100% van de tijde aan het gamen bent. En Intel is een stuk zuiniger in Idle dan AMD. Wat eigenlijk ervoor zorgt dat je overal gezien niet eens meer zal gebruiken voor minder geld.

Game je nagenoeg enkel dan zou idd een X3D chip wellicht beter zijn. Maar de meeste mensen doen dat niet. Aangezien je geen I7 of I9 hebt die niet erg efficiënt zijn is de keuze voor je I5 volgens mij helemaal in orde.
Niet de OP, maar ik ben echt grotendeels van de tijd niet aan het gamen. Dat is echter wel de tijd dat ik daadwerkelijk de CPU & GPU gebruik. De rest van de tijd wil je gewoon een systeem dat snel reageert, maar daar is niet heel veel voor nodig tegenwoordig. Idle gebruik telt voor mij wel mee idd, daar mag AMD wel wat meer aandacht aan besteden.

[Reactie gewijzigd door uiltje op 16 november 2024 14:41]

Ik geef je daar gelijk in, ook ben ik benieuwd naar de keuze waarom juist deze markt wordt gekozen.
Uit verschillende testen blijkt dat 3D cache juist voor gaming erg veel toevoegt, terwijl workstations nauwelijks winst halen uit deze cache. Workstations zijn uiteraard geen servers, maar worden in veel situaties wel voor eenzelfde soort taken ingezet.
lees even het artikel correct door.

het gaat over e-cores, een platform dat op zich speciaal ontworpen is om het core ontwerp kleiner te maken en dit gaat ten koste van onder andere de cache size on die van de e-core, die steeds kleiner is en efficienter.

dit heeft niks te maken met desktop cpu want de p-cores hebben sowieos een sloot meer cache en het is niet eens bewezen dat de Intel P cores nog extra toegevoegde waarde hebben aan een extra sloot cache.
IBM POWER voegt meer L3 en L4 cache toe (8 GBs in een van de POWER systemen) die gedeeld kan worden en dynamisch heringericht om oa. meer cores tegelijkertijd met data te voeden.

Ik denk dat het enorm afhankelijk is van je programma's, daarom ook dat games er een relatief groot voordeel krijgen, relatief kleine programma's en er moet niet geschakeld worden tussen meerdere threads dus meer cache is beschikbaar voor 1 programma. Voor meer onafhankelijke threads zoals in servers moet je echter veel meer cache toevoegen, een MB per core is niet echt veel, echter voor vb. een webserver waar elke thread nieuwe en een klein aantal data te verwerken krijgt is het misschien beter een kleinere cache te hebben (daarmee dat ARM met <1MB/core op zulke dingen beter doet).
Bij server is van belang hoe de data onderling en compute onderling afhankelijk is van elkaar.
Goed splitsbare software probleem kan zeer goed schalen . Cinebench is daar voorbeeld van.
AMD maakt X3d voor die klanten die rekentaak uitvoeren om grote data waar elke compute afhankelijk is vanmekaar. Dat is niche en AMD leverd dat. Luistert naar de klant. Het is dus handig als al die data in L3 cache past. Dat houd in dat Data wat maximaal verwerkt kan worden met die snelheid zo groot is als de L3. Als die 1TB is dan is dat max wat die Epyc Customer in hun apllicatie als max runtime data kan kiezen. nextgen 1,5TB dan kunnen ze dat in hun software updaten naar 1,5TB.
Games zijn data driven dat houd in content en dan met name de object logic, wordt van disk als objecten ingelezen. De nadruk is daar game productie efficiënt. Als Beta stage bereikt is feature complete gaan ze profilen waar de knelpunten in de hot code zitten CPU en GPU. Daar is vanwege productie planning kosten limiteerde tijd voor, om te optimizen en deadline gehaald wordt . Maar er wordt niet ontwikkeld met prioriteit om games Engine van de grond op maximaal MT schalen, Cache vriendelijk en goed gebruik van de prefetcher. Als de run time data nodig heeft random in memory caches trashed om weer ander data nodig is. Dat is dan zo eengeval van Meer L3 minder cache misses. 3 x zoveel houd in 3 x de kans dat wat je zoekt wel in de cache zit.
Een game die goed MT en cache memory acces patern geoptimaliseerd is zal weinig hebben aan heel veel meer cache. omdat wat er al is goed gebruikt wordt. Dat is dus de reden dat sommige games enorm kunnen schalen en enkele niet. Je hebt dan voldoende cache en memory bandbreedte nodig om de Cache en prefetcher de instructies en de data te streamen.
uiteraard speelt er heel veel meer mee. En daar kan je dozijn dev boeken mee vullen.
Herb stuter C++ guru heeft een conferentie talk over cache gebeuren. Het verschil kan enorm zijn
maar als je de kennis en techniek in huis hebt, en toch al elk jaar nieuwe processoren uitbrengt lijkt het me juist een slimme zet om toch de concurrentie weer een beetje bij te benen.
Volgens mij is extra cache op hun huidige Architectuur helemaal niet nuttig

Dit kan je zien dat als je 2 Intel processoren pakt en de cores en clocksnelheid gelijk zet, mar beide hebben andere hoeveelheden cache.. dat de prestatie verschillen minimaal zijn

de Architectuur van AMD daarin tegen lijkt echt een tekort te hebben aan cache, waardoor 3D cache een flinke prestatiewist met zich mee brengt

Ik denk dat Intel hun processoren compleet anders zou moeten maken om hier ook positieve effecten van te zien
De architectuur van de CPU heeft weinig met de effictiviteit van de caches te maken, alle moderne CPU's gebruiken min of meer dezelfde cache configuraties (als je desktop vs desktop en server vs server vergelijkt tenminste), en verschillen onderling eigenlijk vooral in hoe groot elk cache level is (en of er dus wel of geen grote shared cache aanwezig is zoals bij X3D CPU's).

Hoe effectief de cache is wordt vrijwel alleen maar bepaald door de taak die je uitvoert, en de afmetingen van elk cache level (maar die verschillen weinig tussen Intel en AMD). Meer cache of een shared cache als X3D heeft voor heel veel taken geen nut simpelweg omdat de working set toch al volledig in een kleinere cache past.
Als toevoeging zou ik nog willen zeggen dat Intel in een voorgaande cpu generatie ook al de L2 cache had vergroot, omdat tegenwoordig de hoeveel code die daadwerkelijk gedraaid wordt was toegenomen de afgelopen jaren. Inmiddels is de L2 cache toegenomen tot 3 MB per performance core.
Het verwijderen van hyper-threading zal ook nog invloed hebben op het L2 cache gebruik.
De architectuur van de CPU heeft weinig met de effictiviteit van de caches te maken,
Niet mee eens, of je hebt ergens een bron die dit bevestigd?

Want als dat echt zo is, waarom is er bij Intel dan amper prestatie verschil als alleen de cache het verschil in de processor is?

YouTube: Would 3D V-Cache Help Intel CPUs? 14th-gen Cores vs. Cache

[Reactie gewijzigd door Sinester op 18 november 2024 11:59]

Niet mee eens, of je hebt ergens een bron die dit bevestigd?
De bron is simpelweg de theorie hoe CPU caches werken, daar is weinig mysterieus aan :+
Want als dat echt zo is, waarom is er bij Intel dan amper prestatie verschil als alleen de cache het verschil in de processor is?
De tests in dat filmpje zeggen letterlijk helemaal niks over de relatie tussen de CPU architectuur en de efficientie van de cache op die chips, hij vergelijkt daar een Intel CPU met 20MB L3 vs een Intel CPU met 36MB L3 cache, en concludeert dan dat omdat hij geen hogere FPS krijgt dat 'meer cache geen zin heeft' voor die CPU's. Dat is echt Jip & Janneke redeneren.

Als je cache efficiency als CPU vs taak gaat benchmarken dan is het simpel gesteld zo dat ofwel je hebt meer dan genoeg cache ofwel je hebt te weinig. Iets er tussenin is er amper of niet, cache efficiency schaalt (vrijwel) niet linear maar als een stap functie. Bij het uitvoeren van een taak op een CPU is de zogenaamde 'working set' de meest bepalende factor voor cache efficientie, de working set kan je zien als het totaal aan geheugenlocaties dat herhaaldelijk gelezen & geschreven wordt, en waarvan je dus zou willen dat ze altijd in de cache aanwezig zijn. Als je working set van (een onderdeel van) je taak veel kleiner is dan je grootste cache, dan heeft het letterlijk geen enkele zin om de cache te vergroten, want alle relevante data zal continu in de cache aanwezig blijven. Omgekeerd, als je working set _veel_ groter is dan je cache, dan maakt het ook niet heel veel uit als je de cache ietsje groter maakt, omdat nog steeds niet alles past en er dus continu relevante data uit de cache wordt geduwd. Je hit rate gaat wel ietsje omhoog maar als het eerst 50% was en daarna 60% dan heb je nog steeds een enorme bottleneck.

De meeste taken hebben over het algemeen vrij kleine working sets, bijvoorbeeld omdat ze zo kunnen worden herschreven dat data zo veel mogelijk bijelkaar wordt gezet en linear kan worden verwerkt. Games daarentegen hebben juist vaak relatief grote working sets, om verschillende redenen die ik ook niet allemaal ken maar waarschijnlijk vooral omdat ze vaak een behoorlijke diversiteit aan totaal verschillende taken tegelijk moeten uitvoeren.

Voorbeeld om op de test uit het filmpje terug te komen: been 5800X3D CPU heeft 96MB L3 cache, vs 32MB voor de niet-X3D. Dat is letterlijk 3x zo groot. De test in het filmpje test 20MB vs 36MB L3 op de Intel CPU. Het verbaast mij helemaal niks dat dat weinig verschil maakt. AMD heeft de afmeting van de X3D L3 cache natuurlijk ook niet zomaar gekozen, maar waarschijnlijk gewoon via tests vastgesteld hoe groot de working set van de meeste moderne games is, en hoeveel cache je daar tegenover moet zetten voordat het echt zinvol is.
Bij AMD is het de Latency geheugen is verder weg via interchiplet verbinding.
memory is flink stuk trager maar AMD heeft het ook wat verderweg staan dus cache mis heeft daar grotere gevolgen. intel gebruikt fevoros cache base tile wat ook anders is. het introduceert ook latency mogelijk minder dan bij chiplets. de vraag is dan of het bij de L3 erbij komt of dat verdere L4 wordt.
Ook iNtel chips hebben baad bij meer cache de cache mis hit is mogelijk stuk minder bij monolitic designs.
Dat kan met Tiles ook weer anders zijn.
Kosten. Een cache chiplet kost meer dan het tweaken en melken van cores.
Dat zou best kunnen inderdaad. De Core Ultra 9 is al belachelijk duur voor zijn prestaties en verbruik tov de concurrentie
De render laat een hele grote cache die per vier core complex dies zien, dat word dan vermoedelijk een flinke L4 cache van 256MB per cache tile; voor een totaal van 768MB L4 cache per chip. :o

[Reactie gewijzigd door emansom op 15 november 2024 16:17]

Het kan aan mij liggen, maar ik begin steeds vaker te merken dat artikelen niet echt worden ingeleid. Geen idee wat een cachechiplet is, dus het was wel fijn geweest als de eerste alinea begon met "een cachechiplet is..". En dan het nieuws.

Heb het hele artikel gelezen, nog steeds geen idee. We zijn wel tweakers, maar kunnen niet overal verstand van hebben.
"alternatief ... voor AMD's 3D V-Cache-chips...wordt een chiplet met 64MB aan extra L3-cache aan cpu's toegevoegd"

Gewoon een extra stuk aan of op de cpu geplakt voor extra cache. Simpel. Als je wil weten wat het doet, zoek "9800X3D benchmarks".
Als niet weet wat cache chiplet is of chiplet en of cache. dan heb je de vele indept 3 generaties aan x3D sku reviews overgeslagen. ik volg de tech gewoon en als goed is zal je als beetje tweaker 5800X3D 7800x3d reviews gezien ook de vele ander sites waar ze diep op deze sku lijn in gaan.
Voor 99.9% tweakers die alle x3d gens gevolgt hebben weten wat chiplet is weten wat cache is en cachechiplet is dan ook iets wat je daar uit kan halen.
Cachechiplet is chip met puur de cache taak die samen met ander chips met compute en io taken gezamelijk gebruikt worden in 1 sku CPU die met elkaar verbonden zijn.
je kan daar alinea of weer pagina aan wijden. Voor verdwaalde non techies die hele x3D gen gemist hebben. De uitleg zit zo compact al in de naam vertegenwoordig dat Cachechiplet uitleg is Chiplet pure cache functie.
Chiplet is niet volledige chip die andere parts chiplet nodigheeft om CPU te assembleren . zoiets als subchip. cachechiplet is optioneel aangezien computechiplet al basis L3 heeft. voor Core design is zelfs L3 optioneel.
Als editor zou ik 1 regel besteden aan dit. Een verwijzing naar die oer reviews van 3 gens die je dan hebt overgeslagen of gemist.
Brengt AMD niet over paar weken hun eigen 3d chips in EPYC servers?
nee, niet in Turin aangekondigd

[Reactie gewijzigd door d3x op 15 november 2024 15:44]

Wat jammer dat ze het niet voor desktops uitbrengen. Intel kan wel een win gebruiken aan de consumer hardware kant.

Ik zou zeggen: een gemiste kans, zeker nu we zien dat de nieuwe X3D-chips van AMD regelmatig uitverkocht zijn. In de Tweakers Podcast hoorde ik dat alle exemplaren die aan Nederland waren toegewezen binnen een uur verkocht waren.
inTel tile aanpak is duurder dan AMD Chiplet. Kan zijn dat het te duur is voor client.
ook de reden dat AMD geen X3d op APU plakt te duur.
intel zou met 8Pcore pure gaming versie kunnen maken. Maar wat kan kosten. ze zullen dan de kroon stevig moeten pakken iv dure Feveros cache tile en 3nm TSMC.
AMD doet het heel goed met EPYC dat is waar grote geld zit en iNtel mist dat.
Ik denk dat die 285k er wel voordeel uithaalt in games, je kan in de benchmarks zien dat sneller cu-dimm geheugen de prestaties behoorlijk verbeteren (nog niet genoeg helaas), dus zal een grotere cache daar ook aan bijdragen want minder vaak geheugen nodig.

Alleen is het wel vaak zo dat grotere cache niet alleen voordelen heeft, kleine cache is lage latency, grote cache is relatief hoge latency. dat is dan de trade-off. Ik kan mij volledig voorstellen dat Intel bij de extra cache de voordelen over het hele specrum van users en apps niet echt ziet tegenover de extra kosten om het te ontwikkelen. AMD staat daar anders in om dat hun cpu's bij gamers toch wel heel populair zijn en daar dus de ontwikkeling wel in zien zitten.
Sneller geheugen brengt prestaties mee wat afgaat aan grotere cache schaling.
als CUdimm 10% geeft en L3/L4 ook zoiets. Cache maskeert traag geheugen. Als snels buffert zal de winst ook beperkt zijn 5%
Ik denk en hoop dat Intel genoeg leert van de 285K. En dat een volgende 385K al een stuk sneller is. Het principe van de 285K is erg goed, E cores zijn veel sneller dan Hyperthreading. En E cores staan apart van de P cores, waar Hyperthreading door een P core gedaan wordt. En dat geeft extra hitteontwikkeling. Met P en E cores spreidt je het meer in de processor.

Grotere cache en snellere interne kanalen (ring snelheid) is wat de 285K wel kan gebruiken. Met goede Windows scheduling die hard het onderscheid weet tussen een P core en een E core. Veel software gaat daar nog mis en dan maakt Windows er ook een potje van.
Met goede Windows scheduling die hard het onderscheid weet tussen een P core en een E core. Veel software gaat daar nog mis en dan maakt Windows er ook een potje van.
Daar gaan de aanstaande updates voor de 200 serie ook over, het ontwerp van de 200 heeft een andere core layout dan de vorige generatie, waardoor ik denk dat windows niet de taken op de juiste cores zet. Bij games maakt dat nogal verschil, bij multitreaded taken die toch alle cores gebuiken maakt het dat deze cpu wel hele goed prestaties laat zien.

De updates voor de Intel 200 zijn bios updates voor betere instellingen, microcode updates en drivers voor het OS, ik dank dat dat nogal wat verschil gaat brengen in de meeste gevallen. Maar zal voor games er niet voor zoregen dat ze de nieuwe AMD 3dx gaan verslaan, die staat daar in eenzame hoogte.
Jammer dat het allemaal zo lang moet duren maar beter laat als afgeraffeld en met problemen. Ik denk dat intel zijn hele bedrijf even moet evalueren en kijk waar en waarom het zo vaak fout gegaan is.
De fout is pat galsinger . Misschien beter dan zijn voorganger.
Maar hij kijkt heel sterk naar succes van nVidia. AI acceleratoren GPU en CPUis iets wat die aanstuurd.
Heeft Jim Keller er uitgeschopt en goedgaande beastlake geschrapt.
En nu gaat flink stuk slechter en worden er meer projecten geschrapt.
ARM Apple en Qualcom geven het voorbeeld van Big/little op 3 / 4nm wat ergens rond de 4Ghz trekt.
6ghz is dezelfde dead-end als Netburst/Buldozer hoge kloks enorm veel stages architecturen en dikke vette hoog klokbare transistoren implementaties. Dat is nog even te doen als je op 4 cores blijft. niet voor 16 of 32 256 cores.

Op dit item kan niet meer gereageerd worden.