Door Tomas Hochstenbach

Redacteur

Intel Alder Lake Preview

'Doorbraak van het decennium in x86'

Inleiding

Deze herfst gaan we de grootste doorbraak in de x86-architectuur van dit decennium meemaken. Dat stelt althans Intel bij monde van voormalig hoofdarchitect Raja Koduri. Op de jaarlijkse Intel Architecture Day gaven Koduri en diverse andere technische Intel-medewerkers een preview van verschillende chips die in het komende jaar op de markt gaan komen. Tweakers was erbij.

Met zijn boude uitspraak doelde Koduri op de Intel Alder Lake-processors, die later dit jaar het levenslicht moeten zien. Nadat Intel voor zijn desktop-cpu's eerder dit jaar al afscheid nam van de oude Skylake-architectuur, gebeurt dat bij Alder Lake ook met het grijsgedraaide 14nm-proces. Naast een nieuw procedé, in de vorm van Intel 7, brengt Alder Lake echter ook twee nieuwe typen cores met zich mee. Twee nieuwe typen, want Alder Lake is ook de eerste Intel-processor voor reguliere laptops en desktops die gebruikmaakt van wat Intel een Hybrid CPU Architecture noemt.

In dit artikel bekijken we het hybride cpu-concept met al zijn consequenties, waarna we dieper inzoomen op de twee nieuwe microarchitecturen die Intel heeft onthuld. Vervolgens bekijken we het platform en soc-gedeelte van Alder Lake.

Naast de informatie over Alder Lake gaf Intel meer details vrij over de Xe-videokaarten voor gaming en datacenters, inclusief een roadmap voor minstens vier toekomstige generaties van de gpu-architectuur. Ook introduceert Intel een eigen tegenhanger voor Nvidia's DLSS en AMD's FSR. Verder besteden we aandacht aan Intels komende serverprocessors met de codenaam Sapphire Rapids en Ponte Vecchio, een ultieme datacenter-gpu die in totaal uit meer dan 100 miljard transistors zal bestaan.

Intel wil duizend keer betere prestaties bieden in 2025. Een belangrijk deel daarvan moet uit de microarchitectuur komen.

De Hybrid Architecture

In tegenstelling tot vrijwel alle voorgaande Intel Core-processors bevat Alder Lake niet een, maar twee typen processorkernen. Een Alder Lake-cpu bestaat uit zowel snelle Golden Cove-cores, een doorontwikkeling van wat we maar even de Core-architectuur zullen noemen, als energiezuinige Gracemont-cores. Gracemont is de nieuwste iteratie van Intels op efficiëntie gerichte cpu-architectuur die ooit zijn oorsprong vond in de Atom-lijn voor netbooks.

Hybrid Architecture wordt mainstream

Intel experimenteerde voor het eerst met het combineren van snelle en zuinige cores in de Lakefield-chip, die uiteindelijk maar in een handvol laptops is gebruikt. Waar Lakefield echter ook een eerste praktijktest voor innovatieve productietechnieken als Foveros was, is Alder Lake op dat punt een veel traditionelere, monolithische chip. Dat moet ook wel, want Alder Lake brengt alle consumentenlijnen voor het eerst in lange tijd weer samen op één technische basis. Of je volgend jaar nu een krachtige desktop of een slanke laptop aanschaft, als er een Intel-processor in zit, is dat waarschijnlijk een Alder Lake.

Eerste Intel 7-processors

De complete chip wordt geproduceerd op Intel 7, het hernoemde 10nm-Enhanced SuperFin-proces van Intel. Daarmee is Alder Lake de eerste keer sinds 2014 (!) dat de fabrikant een nieuw productieprocedé in gebruik neemt voor zijn desktopprocessors. Voor laptops was Intel al stapje voor stapje overgestapt naar eerdere generaties van zijn 10nm-node, maar tot en met de elfde generatie Core-processors die Intel dit voorjaar uitbracht, moest de desktop het nog doen met een volledig uitgeoptimaliseerd 14nm-proces.

Waarom snelle en zuinige cores in desktop- en laptop-cpu's?

Waar AMD voor desktops kan lego'en met clusters van cpu-cores, dankzij het chipletontwerp dat die chipontwerper toepast, is de flexibiliteit van Intel voorlopig beperkter. Het combineren van snelle met zuinige cores is volgens Intel de efficiëntste methode om het maximale te halen uit de beschikbare oppervlakte. Applicaties maken in toenemende mate gebruik van veel cores en threads, en Intels zuinige cores kunnen die multithreaded prestaties efficiënter bieden dan de snelle cores, die vooral zijn ontworpen voor hoge singlethreaded prestaties.

Intels Core-architect Adi Yoaz licht op vragen van Tweakers toe dat het doel van de Hybrid Architecture bij Alder Lake significant verschilt van dat van hybride concepten zoals we die kennen van smartphones, bijvoorbeeld Arm's big.Little. Hij stelt dat het belangrijkste doel van dergelijke technieken in de smartphonewereld het besparen van energie is. Dat is weliswaar een van de voordelen van Intels Hybrid Architecture, maar dankzij de hogere efficiëntie moet ook het totale prestatieniveau hoger liggen.

De zuinige en snelle cores kunnen namelijk tegelijk actief zijn. Bij een volledig multithreaded workload zullen ook de zuinige cores meerekenen. De totale prestaties van een configuratie met bijvoorbeeld acht snelle en acht zuinige cores zouden hoger liggen dan wanneer de diesize en het powerbudget van die acht zuinige cores in plaats daarvan voor nog enkele extra snelle cores was gebruikt. Hierom zullen ook veeleisende gebruikers in de praktijk profiteren van de zuinige cores, aldus Intel.

Hardware- en softwareschedulers: Intel Thread Director en Windows 11

De grootste uitdaging van de Hybrid Architecture was misschien nog wel de software-implementatie. Tot nu toe waren de mogelijkheden voor het slim toewijzen van taken aan verschillende soorten cores namelijk beperkt. Een van de weinige beschikbare datapunten was of een taak op de voorgrond of op de achtergrond werd uitgevoerd; een intensieve game draait op de snelle cores, een achtergrondtaak zoals e-mailsynchronisatie op de zuinige. De grootschalige toepassing van dit concept vraagt echter om meer data om ook in complexere situaties altijd de efficiëntste keuzes te kunnen maken.

Een voorbeeld: alle cores zijn bezet door diverse taken, die ieder een verschillende mix van instructies gebruiken. Zou het in een dergelijk geval goed zijn om een taak die op een snelle core draait, terug te plaatsen naar het zuinige cluster om een proces dat op een van de zuinige cores draait, te promoveren naar een snelle core? Kortom, profiteert de taak die nu op de zuinige core draait, misschien meer van de hogere prestaties van een snelle core dan de taak die nu al op een snelle core draait?

Om dergelijke scenario's te kunnen opvangen, heeft Intel een hardwarematige scheduler ontworpen die de instructiemix van alle huidige runtimes monitort en daarover feedback geeft aan het OS: de thread director. De softwarescheduler in Windows 11 kan die feedback interpreteren en aan de hand daarvan continu de best passende processen aan elk type core toewijzen. Een groot voordeel van deze methode is dat softwareprogrammeurs niet handmatig hoeven aan te geven welke taken door welke cores moeten worden opgepakt; de scheduler doet dat automatisch aan de hand van het type workload.

Nieuwe snelle core: Golden Cove

Golden Cove is wat we vroeger een volwaardige tock hadden genoemd: een vernieuwde architectuur. De generieke prestaties moeten hoger liggen dankzij een breder en dieper ontwerp, terwijl de microarchitectuur ook over nieuwe functies en acceleratiemogelijkheden beschikt. Zo kunnen specifieke halfprecisionberekeningen direct worden verwerkt, wat vooral AI-software moet versnellen.

Alle verbeteringen samen moeten volgens Intel leiden tot een ipc-verbetering van 19 procent, wat even veel of zelfs iets meer is dan de stap die Sunny Cove bracht ten opzichte van Skylake. In theorie moet dat zelfs voldoende zijn om de Zen 3-architectuur van de Ryzen 5000-processors van de troon te stoten; die zijn per kloktik nu nog 11 procent sneller dan Sunny / Cypress Cove.

Frontend

Als we inzoomen op de architectuurverbeteringen van Golden Cove, beginnen we natuurlijk bij de frontend. Dit deel van de core haalt x86-instructies op, die lang en ingewikkeld kunnen zijn, en hakt ze op in zogenaamde micro-ops waar de rekeneenheden daadwerkelijk mee aan de slag kunnen. In de frontend zijn er twee paden om dit doel te bereiken. Het traditionele pad haalt instructies op uit de L1-cache, zet ze in de wachtrij en decodeert ze een voor een. Het tweede en veel snellere pad kan worden bewandeld als een gedecodeerde instructie al in de micro-opcache staat. In de praktijk komen instructies vaak meer dan eens terug, waardoor telkens opnieuw decoderen niet nodig is.

Om de hitrate van de micro-opcache verder te verhogen, kunnen daarin niet langer 2250, maar 4000 micro-ops worden opgeslagen. Dat is dus bijna een verdubbeling ten opzichte van Sunny Cove, dat op zijn beurt al een veel grotere cache had dan de 1500 entries van Haswell en Skylake.

Een ander punt van aandacht was het uitvoeren van grote code. Hiertoe heeft Intel de itlb fors uitgebreid. Daarin worden fysieke, bij virtuele adressen horende geheugenlocaties gecachet. Er is ruimte voor dubbel zoveel adressen: 256 in plaats van 128 4k-adressen en 32 in plaats van 16 2m/4m-adressen. Ook de branch target buffer kan bij Golden Cove veel meer entries bevatten: 12.000 in plaats van 5000 bij Sunny Cove.

Intel Golden Cove frontend

Nu nieuwe instructies sneller kunnen worden aangevoerd, moet ook de snelheid omhoog waarmee ze gedecodeerd kunnen worden. Intel heeft dat probleem van twee kanten aangevlogen. Het aantal decoders is verhoogd van vier naar zes stuks en de lengte van de instructies die ze in een kloktik kunnen decoderen, is vergroot van 16 naar 32 bytes. Ten slotte is de wachtrij waarin de micro-ops aan het einde van de frontend terechtkomen, de micro-opqueue, licht vergroot van 70 naar 72 entries per thread. Op het moment dat er geen tweede thread actief is, bijvoorbeeld als je hyperthreading uitschakelt of als er even geen werk is voor de virtuele thread, kunnen dat er zelfs 144 worden. AMD's Zen-architectuur kon alle resources al volledig voor één thread gebruiken, maar Sunny Cove nog niet.

Backend

In de backend worden de berekeningen daadwerkelijk uitgevoerd. De out-of-order-engine haalt de micro-ops op uit de micro-opqueue en stuurt ze zodra alle benodigde variabelen bekend zijn naar de execution-units. Zowel de allocatie (van vijf naar zes) als de werkelijke executionports (van tien naar twaalf) zijn uitgebreid, terwijl de reorderbuffer een forse upgrade van 352 naar 512 entries krijgt.

Intel Golden Cove out of order

Bij de integerunits is de belangrijkste wijziging dat er een vijfde alu-poort is toegevoegd, die net als de bestaande vier poorten ook allemaal lea-instructies kunnen uitvoeren. Aan de vectorkant van de pipeline zijn twee fadd-units toegevoegd, die twee floatingpointvectors in één kloktik kunnen optellen. Bovendien zijn de fma-units geschikt gemaakt om halfprecisionberekeningen (fp16) uit te voeren.

Zoals gezegd heeft Golden Cove twee nieuwe executionports. Naast de vijfde alu-poort voor integers is ook een nieuwe loadpoort toegevoegd, waardoor het aantal load- en storepoorten niet langer gelijk is. Er zijn nu drie loadpoorten die ieder een 256bit-load kunnen doen, of samen twee 512bit-loads. De twee storepoorten zijn ongewijzigd.

Bij Sunny Cove werd de L1-datacache vergroot naar 48kB en daaraan is bij Golden Cove niets veranderd, maar die grotere cache moet nu wel efficiënter kunnen worden gebruikt. De data-tlb is vergroot van 64 naar 96 entries, het aantal fillbuffers gaat van 12 naar 16 en ook de prefetcher is geoptimaliseerd. Het aantal pagewalkers, gelijktijdige zoekopdrachten in de pagetable, is verdubbeld van twee naar vier.

Intel Golden Cove L1 cache

Bij Willow Cove maakte Intel al de stap om de L2-cache fors te vergroten, van 512kB naar 1,25MB per core. Die tussengeneratie heeft de desktop echter nooit bereikt, dus in vergelijking met Sunny/Cypress Cove in de Rocket Lake-processors is dit een vernieuwing. De Golden Cove-core die voor Xeon-cpu's zal worden gebruikt, heeft overigens nog meer L2-cache: 2MB per core. Om de vergrote L2-cache goed te kunnen benutten, is het aantal toegestane cachemisses verhoogd van 32 naar 48 en zijn er diverse optimalisaties aan de prefetcher gedaan.

Intel Golden Cove L2 cache

Specifiek de datacentervariant van Golden Cove heeft nog één extra functie die bij de consumenteneditie ontbreekt. Dat is Advanced Matrix Extensions, een hardwarematige versneller voor tiled-matrix-multiplicationberekeningen. Die worden standaard al versneld tot 256 int8-instructies per kloktik met VNNI, maar AMX verachtvoudigt dat nog eens naar 2048 int8-berekeningen.

Nieuwe zuinige core: Gracemont

Ook de architectuur van de zuinige core, Gracemont, wordt voor het eerst toegepast in Alder Lake. De nieuwste telg in de familie van zuinige cores was tot nu toe Tremont, geproduceerd op Intels reguliere 10nm-proces. Gracemont maakt vanzelfsprekend gebruik van Intel 7 - Alder Lake is immers een monolithische chip - maar bevat ook grote wijzigingen op architectuurniveau.

Doorgaans besteden we op Tweakers niet al te veel aandacht aan Intels zuinige core-types, die ooit hun oorsprong vonden in de Atoms voor netbooks en vervolgens hun weg hadden moeten vinden naar smartphones. Intels smartphoneproject faalde echter, waardoor de rol van deze op efficiëntie gerichte cores werd beperkt tot gebruik in low-end laptopchips, die als Celeron of Pentium worden verkocht.

Gracemont vs. Golden Cove

Voor wie niet helemaal is ingevoerd in de 'monts', eerst even een vergelijking tussen de monts en coves vanaf grotere afstand. De monts zijn fysiek een stuk kleiner; de verhouding met coves is ongeveer een op vier in diesize. Van oudsher zijn ze geoptimaliseerd om met een lagere spanning te werken, waardoor de kloksnelheid de 3,5GHz doorgaans niet voorbijgaat. Behalve dat de prestaties per core lager liggen, bespaarde Intel van oudsher ook ruimte, fysiek en in het powerbudget, door rekenintensieve instructie-uitbreidingen als avx niet of pas in een laat stadium op te nemen.

Van dat laatste heeft Intel bij Gracemont grotendeels afscheid genomen, omdat gelijke instructieset-ondersteuning het wisselen tussen de twee typen cores veel eenvoudiger maakt. Als een achtergrondtaak per se op de snelle cores moet draaien omdat hij toevallig een instructie gebruikt die de zuinige cores niet snappen, is dat natuurlijk geen toppunt van efficiëntie.

De tabel schetst een ruw beeld van hoe Gracemont en Golden Cove zich tot elkaar verhouden. De Gracemont-cores zijn per vier verpakt met 4MB L2-cache. De L1-cache voor instructies is groter dan bij Golden Cove, maar die voor data juist kleiner. Op veel andere punten is Gracemont simpelweg een tandje minder geavanceerd en uitgebreid.

Gracemont Golden Cove
Formaat (ordegrootte) 5mm² / 4 cores 4,5mm² / core
L1-cache (instructies) 64kB 32kB
L1-cache (data) 32kB 48kB
L2-cache per 4 cores 4MB 5MB
(1,25MB / core)
Out-of-orderwindow 256 512
Decode 8-wide 12-wide
Allocate 5-wide 6-wide
Load/store agu's 2/2 3/2

Prestaties

Volgens Intel leveren alle optimalisaties, die we hieronder uitgebreider behandelen, gezamenlijk een prestatieniveau op dat 40 procent hoger ligt dan de Skylake-architectuur bij hetzelfde stroomverbruik. Dat kun je ook andersom uitleggen; voor dezelfde prestaties heeft Gracemont 40 procent minder prik nodig dan Skylake. Het verschil in efficiëntie zou oplopen tot 80 procent bij multithreaded workloads.

Een directe vergelijking met voorganger Tremont maakt Intel niet, dus de prestatiewinst ten opzichte daarvan is nog niet duidelijk.

Frontend en backend

De frontend van Gracemont steekt significant anders in elkaar dan die van Golden Cove. Gracemont heeft geen micro-opcache en heeft daarmee twee in plaats van drie paden om micro-ops aan de micro-opqueue toe te voegen: via de branchpredictor (die gelijkaardige principes volgt als die van de coves) en via de decoders. De decoder is 6-wide verdeeld over twee 3-wide clusters, die elk aan een andere instructietak kunnen werken. Vandaar de relatief grote instructiecache van 64kB: daar putten beide decoderclusters uit.

Intel Gracemont frontend

Aangekomen in de backend zijn er in totaal zeventien executionpoorten beschikbaar, waarvan vijf voor floatingpointberekeningen, en twaalf voor integers en geheugentoegang. De out-of-orderbuffer kan 256 entries tellen, tegenover 208 bij Tremont. Elke core telt vier integer-alu's (was drie), vier agu's (was twee), twee jumps (was een) en twee storedata's (was een). Voor floatingpointwerk zijn er nog eens twee storedata's en drie alu's beschikbaar, al is de nieuwe derde alu wat functionaliteit betreft erg simpel gehouden.

De vier agu's zijn onderverdeeld in twee loads en twee stores, die schakelen met 32kB datacache en 4MB L2-cache. Er kunnen maximaal 64 cachemisses uitstaan.

Intel Gracemont backend

Onder de streep lijkt de backend een veel grotere upgrade te hebben gekregen dan de frontend, maar wat het effect daarvan in de praktijk zal zijn, valt lastig te schatten. Wellicht zal de frontend een bottleneck vormen, maar het zou ook kunnen dat die in het Tremont-ontwerp nog veel ademruimte had en wie weet is er een nog onbekende reden waarom de backend-upgrade in werkelijkheid minder groot is dan hij op papier lijkt.

Overigens heeft Intel deze gelegenheid ook aangegrepen om diverse beveiligingsfeatures toe te voegen, zoals controlflow-enforcement en VT-rp, evenals nieuwe instructietypen voor vectors (wide vector, fma, VNNI).

Alder Lake-soc: LGA1700, PCIe 5.0 en DDR5

De Alder Lake-generatie bestaat uit drie series: Alder Lake-S, -P en -M. Alder Lake-S vormt de basis van de line-up zoals we die op de desktop mogen verwelkomen, terwijl Alder Lake-P voor laptop-cpu's met tdp's tussen de 15 en 45W zal worden gebruikt. Alder Lake-M ten slotte is de zuinigste serie, bijvoorbeeld voor tablets en moderne formfactors zoals dualscreens.

Alder Lake van 9 tot 125W

Voor alle drie de varianten gebruikt Intel dezelfde bouwblokken: een wisselende combinatie van snelle Golden Cove-cores (jargon: P-cores) en zuinige Gracemont-cores (E-cores), accelerators voor bijvoorbeeld AI, een igpu, L3-cache, geheugencontrollers en i/o. Het zal je dan ook niet verbazen dat Alder Lake-M fysiek de kleinste chip is, met afmetingen van 28,5x19x1,1mm, terwijl Alder Lake-P met 50x25x1,3mm al een stuk forser is.

Alder Lake-S voor de desktop komt beschikbaar in de gloednieuwe socket 1700. Waar Intels mainstream-cpu's al sinds socket 775 vaste afmetingen van 37,5x37,5mm hadden, is socket 1700 weliswaar nog altijd even breed, maar een stuk langer: 45mm. De processor is dus niet langer vierkant, maar rechthoekig. Daarmee veranderen ook de locaties voor de koelermontage, waardoor je nieuwe mountinghardware nodig hebt om een bestaande cpu-koeler te kunnen installeren.

Het topmodel van de Alder Lake-S-generatie - laten we er maar even van uitgaan dat dat de Core i9 12900K wordt - zal beschikken over acht P- en acht E-cores, voor een totaal van zestien cores. De processor telt 24 threads; alleen de P-cores ondersteunen hyperthreading. De tdp zou ongewijzigd blijven op 125W. In totaal heeft de cpu 30MB gedeelde L3-cache.

Dezelfde igpu

Over de igpu valt niet bijster veel te melden. Dat is dezelfde Xe-videochip met 32 eu's als in de Core i9 11900K, maar dan geoptimaliseerd voor het Intel 7-procedé. Daarvan mogen we eigenlijk alleen een iets hogere klokfrequentie verwachten, want architecturele verbeteringen zijn er niet.

PCI-Express 5.0

Wel volledig vernieuwd zijn de controllers voor het geheugen en de PCI-Express-lanes. Om met die laatste te beginnen; Alder Lake biedt als eerste processor ondersteuning voor PCIe 5.0. Bij Alder Lake-S zijn zestien PCIe 5.0-lanes beschikbaar; de vier lanes die doorgaans voor een ssd worden ingezet, werken nog op PCIe 4.0-snelheid. PCIe 5.0 biedt zoals gebruikelijk een verdubbelde bandbreedte ten opzichte van zijn voorganger, resulterend in een doorvoersnelheid van bijna 4GB/s per lane. Voor zestien lanes komt de totale bandbreedte dus neer op 63GB/s. De mobiele varianten beschikken overigens niet over PCIe 5.0, maar moeten het doen met twaalf PCIe 4.0-lanes aangevuld met PCIe 3.0-lanes.

Opvallend is dat de ondersteuning voor PCIe 5.0 wel heel snel lijkt te komen, terwijl Intel pas sinds de in het voorjaar geïntroduceerde Rocket Lake-processors ondersteuning voor PCIe 4.0 biedt. Een deel van de reden is natuurlijk dat Intel daarmee gewoon erg laat was; AMD bood al vanaf zijn Ryzen 3000-processors uit 2019 support voor PCIe 4.0. Intel geeft aan inderdaad wat op de markt vooruit te lopen.

Bovendien vroegen we Intel of het niet logischer was geweest om juist de ssd-lanes van PCIe 5.0-ondersteuning te voorzien. Zelfs een RTX 3090 profiteert immers nog amper van de extra bandbreedte van PCIe 4.0 ten opzichte van PCIe 3.0, terwijl de snelste NVMe-ssd's alweer richting de x4-limiet van PCIe 4.0 (8GB/s) gaan. Hoewel hij dat niet kon ontkennen, benadrukte Ran Berenson, general manager van de Core and Client Development Group, dat je de PCIe 5.0-lanes in theorie voor elk doeleinde kunt gebruiken. Hoe dat in de praktijk werkt, zal afhangen van hoe moederbordfabrikanten de lanes verdelen over de diverse PCIe- en M.2-slots.

DDR5

Zoals we al schreven, heeft ook de geheugencontroller een belangrijke upgrade gekregen: ondersteuning voor DDR5. De standaard ondersteunde snelheid is DDR5-4800, wat de instapsnelheid is voor DDR5. Officiële DDR5-specs tot 6400MT/s zijn gepland, maar vanzelfsprekend zal het mogelijk zijn om het geheugen te overklokken. Zeker de meer op overklokgeheugen gerichte fabrikanten zullen dus ongetwijfeld snellere kits dan DDR5-4800 op de markt gaan brengen.

Alder Lake zal naast DDR5 ook nog DDR4 ondersteunen, net zoals de zesde generatie Core-processors zowel DDR3- als DDR4-support had. In de praktijk werd DDR4 toen al snel de standaard, met hooguit wat excentrieke moederbordvarianten die nog DDR3-slots hadden. Dat zou nu ook weer voor de hand liggen, al zal de prijsstelling van de eerste DDR5-modules daarin ook mede bepalend zijn. Hetzelfde geldt overigens voor laptops; Lpddr5 wordt ondersteund, maar Lpddr4x is ook nog een optie.

Xeon: Sapphire Rapids

Ook voor servers werkt Intel aan nieuwe processors. De Sapphire Rapids-generatie Xeon-processors zal fors meer cores bieden dan voorgaande series, omdat Intel vier dies of tiles combineert tot één processor. En voordat je afhaakt omdat serverspul toch vaak taaie kost is: Intel zal Sapphire Rapids naar verluidt ook gebruiken voor een nieuwe hedt-generatie voor consumenten.

De tiles waaruit een Sapphire Rapids-processor bestaat, worden geproduceerd op het Intel 7-procedé, hetzelfde productieproces als bij Alder Lake. Ook in veel andere technische opzichten zijn beide reeksen vergelijkbaar; Sapphire Rapids krijgt eveneens Golden Cove-cores, gebruikt DDR5-geheugen en ondersteunt PCIe 5.0.

Het bijzondere aan Sapphire Rapids is dat niet alle cores op één chip zitten, maar verdeeld zijn over maximaal vier tiles; AMD zou ze chiplets noemen. Hoeveel cores aanwezig zijn per tile, wil Intel nog niet bekendmaken, maar er gaan geruchten dat dat er vijftien tot twintig zijn. In theorie is dus maximaal een 80-coreprocessor mogelijk. Vermoedelijk zal Intel echter een deel van de cores uitschakelen om de yields op een gezond niveau te houden.

De tiles zijn onderling verbonden met een embedded die interconnect bridge. Daarmee is dit het eerste massaproduct waarin Intel zijn emib-integratietechniek toepast na eerdere kleinschalige experimenten zoals Kaby Lake-G. Emib heeft een veel grotere verbindingsdichtheid dan traditionele bga-interfaces, wat positief uitpakt voor zowel de bandbreedte als de energie-efficiëntie. Een bit overdragen kost met een bga 1,7 picojoule, met emib nog maar 0,5pJ. Het gaat overigens om de eerste generatie emib met een pitch van 55 micron; Intel heeft eerder al een verdere verkleining naar 36 micron in het vooruitzicht gesteld.

Volgens Intel zorgt emib voor een consistente, lage latency en een hoge bandbreedte voor de complete processor, waarbij elke core kan communiceren met elke andere core of cache, ongeacht of die zich binnen of buiten de eigen tile bevindt. Daarmee is emib hier zowel de oplossing voor de uitdaging om grote monolithische chips te produceren, als voor de uitdaging dat Intels meshcommunicatie niet naar oneindig grote hoeveelheden cores blijft schalen.

Zoals gezegd biedt Sapphire Rapids net als Alder Lake ondersteuning voor DDR5 en PCIe 5.0, waarbij het in dat eerste geval om vier controllers voor in totaal octachannel geheugen gaat. De serverprocessors beschikken ook nog over enkele specifieke interfaces. Zo wordt CXL 1.1 ondersteund, een standaard voor het aansluiten van bijvoorbeeld accelerators of zelfs extra geheugen.

Daarnaast hebben de cpu's maximaal vier UPI 2.0-interfaces van 24 lanes per stuk voor multisocketcommunicatie. Sapphire Rapids komt beschikbaar voor configuraties tussen de een en acht sockets, waarmee deze serie zowel Ice Lake (10nm, max. vier sockets) als Cooper Lake (14nm, vier tot acht sockets) opvolgt. Net als Alder Lake bij de desktop, brengt Sapphire Rapids de verschillende segmenten dus weer samen in één productserie.

Enkele varianten van Sapphire Rapids krijgen geïntegreerd hbm-geheugen dat in de package van de processor is verwerkt. Dit supersnelle geheugen kan opereren in twee modi: als aanvulling op het reguliere geheugen (flat mode) of als cache voor het dram.

Infrastructure processing units

In aanvulling op de nieuwe Xeons onthulde Intel ook enkele nieuwe infrastructure processing units, oftewel ipu's. Onder deze term schaart Intel zowel fpga's als asics die het infra-OS draaien bij een cloudprovider, zodat de volledige cpu-rekenkracht kan worden verkocht. Bovendien is het op deze manier scheiden van de gastprocessen en het OS in theorie veiliger, en kan een ipu diskless worden gebruikt, waarbij de aan het daadwerkelijke OS getoonde ssd's virtueel zijn.

Er komen drie nieuwe ipu's op de markt. Arrow Creek en Oak Springs Canyon zijn beide fpga's die twee 100Gbit-netwerkpoorten bieden. Oak Springs Canyon is voorzien van een onboard Xeon-D-soc en heeft een PCI-Express 4.0 x16-interface, terwijl Arrow Creek vooral op het ontwikkelen van accelerators wordt gericht. Daartoe heeft deze passief gekoelde insteekkaart 16GB DDR4-geheugen en nog eens 1GB DDR4 in de soc zelf. Tot slot toonde Intel Mount Evans, een specifiek voor een grote cloudprovider ontwikkelde asic die snelheden van 200Gbit ondersteunt. Mount Evans bevat zestien Arm Neoverse N1-cores, die grotendeels overeenkomen met de Cortex-A76-kernen voor smartphones, drie Lpddr4-controllers en een PCIe 4.0 x16-interface.

Xe HPG en HPC

Afgelopen maandag introduceerde Intel de naam waaronder het in 2022 gamingvideokaarten op de markt gaat brengen: Arc. Tijdens zijn Architecture Day maakte de fabrikant meer informatie wereldkundig over de achterliggende Xe HPG-architectuur en de nog krachtigere Xe HPC-architectuur die voor nog krachtigere datacenter-gpu's zal worden gebruikt.

Software: XeSS als DLSS-concurrent

Voor het aan de hardware begon, wilde Intel eerst nog even een update geven over de bijbehorende software. De afgelopen tijd heeft Intel de volledige kern van zijn gpu-driver opnieuw ontworpen, inclusief het geheugenmanagement en de compilers. Naar eigen zeggen moet dit ervoor zorgen dat de toekomstige Xe-videokaarten én bestaande igpu's beter presteren in situaties waarin de cpu een bottleneck vormt. Bovendien zouden de laadtijden van games erop vooruitgaan.

De grotere aankondiging was echter XeSS, wat staat voor Xe Super Sampling. Zoals uit de naam al blijkt, gaat het hier om een concurrent voor slimme supersampling-technieken als Nvidia DLSS en AMD FSR. Net als bijvoorbeeld TAA gebruikt XeSS voorgaande frames en de beweging van objecten om het beeld te upscalen met een zo laag mogelijke prestatie-impact.

Volgens Intel is de beeldkwaliteit van een met XeSS naar 4k-resolutie geüpscaled 1080p-beeld vergelijkbaar met een native 4k-beeld. Dat kan met behulp van de DP4A-instructies die al deel uitmaken van de bestaande Xe-LP-architectuur, maar nog sneller met de Xe Matrix eXtensions, een soort tensorcores die pas voor het eerst gebruikt zullen worden in de losse videokaarten.

XeSS en de bijbehorende sdk worden open source. De sdk verschijnt nog deze maand. De techniek werkt optimaal met Intel-hardware met Intels eigen XMX, maar kan ook door andere gpu-fabrikanten ingezet worden met de DP4A-instructies.

Xe HPG: Intel Arc Alchemist op TSMC's 6nm-node

De eerste generatie Intel Arc-videokaarten, die in het eerste kwartaal van 2022 het levenslicht moet zien, heeft de naam Alchemist gekregen. De daarop volgende generaties zullen Battlemage (Xe2 HPG), Celestial (Xe3 HPG) en Druid (Xe Next HPG) heten. Bij wie ingevoerd is in Dungeons & Dragons, zal er een belletje zijn gaan rinkelen.

Tot nu toe waren we gewend om het aantal rekeneenheden in Intel-gpu's aan te duiden met eu's, maar omdat Intels eu-ontwerp steeds groter wordt en misleidend kan zijn in een vergelijking met shadercores bij AMD of Nvidia, wil Intel die naamgeving overboord gooien. De nieuwe basiseenheid is een Xe-core, bestaande uit zestien 256bit-vectorengines en zestien 1024bit-matrixengines. In feite is een Xe-core daarmee gelijk aan zestien oude eu's.

Xe HPG Xe core

De Xe-cores worden per vier gegroepeerd in een render slice, samen met evenzoveel raytracingcores. Die kunnen onder meer het bvh-algoritme dat wordt gebruikt voor realtime raytracing versnellen, net als bij de rt-cores van AMD en Nvidia het geval is. Een gpu kan vervolgens weer uit maximaal acht slices bestaan, resulterend in een totaal van 32 Xe-cores oftewel 512 eu's. Ter vergelijking: de krachtigste geïntegreerde Xe-gpu van Intel heeft 96 eu's en is overigens alleen in laptops te vinden.

De Alchemist-gpu's worden geproduceerd op TSMC's N6-procedé, een geoptimaliseerde versie van het N7-proces waarvoor in beperkte mate euv wordt gebruikt. De dichtheid van dit proces ligt ongeveer 20 procent hoger dan die van N7. De gpu zal worden gecombineerd met GDDR6-videogeheugen.

Xe HPC

Voor servers in het datacentersegment werkt Intel aan een nog krachtigere variant van de Xe-architectuur, die Xe HPC gaat heten. Het meest tot de verbeelding sprekende product op basis hiervan is tot nu toe Ponte Vecchio, een 'videokaart' die in totaal uit meer dan 100 miljard transistors zal bestaan. De verschillende chips die deel uitmaken van Ponte Vecchio, worden in totaal op vijf verschillende productieprocessen van TSMC en Intel zelf gemaakt.

Blijkbaar waren de Intel-technici hun net bedachte naamgeving alweer zat, want de definitie van een Xe-core is bij Xe HPC verwarrend genoeg weer anders dan bij Xe HPG. Eén Xe HPC-core beschikt over acht vector-engines die met 512bit-instructies kunnen werken, plus acht matrix-engines die geschikt zijn voor 4096bit-berekeningen. De load-store-units kunnen 512bit per kloktik verwerken.

Ook Xe HPC kent slices, die uit 16 Xe-cores met in totaal 8MB L1-cache bestaan. Die komen dan weer samen in stacks, opgebouwd uit vier slices met in totaal 64 Xe-cores, een media-engine, vier HBM2e-controllers en acht Xe-links.

Vervolgens kunnen er op diverse manieren nog grotere gpu-configuraties worden gebouwd. Het is mogelijk om twee gpu's te stapelen en te verbinden met emib, waardoor je in totaal acht slices krijgt. Via Xe Link kunnen bovendien maximaal acht gpu's aan elkaar worden gekoppeld. Deze high-speedfabric zorgt ervoor dat elke gpu direct kan communiceren met elke andere gpu in de opstelling, waardoor het totale aantal verbindingen dus stijgt als je bijvoorbeeld van vier naar zes gpu's gaat.

Xe HPC Xe link

De Xe HPC-gpu voor Ponte Vecchio heeft acht Xe-cores per compute-tile, waarvan er zestien aanwezig zijn voor een totaal van 128 Xe-cores. Deze compute-tiles worden gefabriceerd op TSMC's 5nm-proces en staan met elkaar in verbinding via Intels 3d-integratietechniek Foveros. Daarvoor wordt een bumppitch van 36 micron gebruikt.

De (letterlijk) onderliggende basetiles rollen uit Intels eigen fabrieken, op het Intel 7-proces. Deze twee chips meten in ieder 640mm² en bevatten onder meer de HBM2e-controllers, een PCI Express 4.0-controller en 144MB L2-cache.

Vervolgens zijn er nog twee Xe Link-tiles gemaakt op TSMC's N7-node, elf emibtiles, acht rambocachetiles (Intel 7) en acht HBM2e-stacks, voor een duizelingwekkend totaal van 47 tiles voor de complete Ponte Vecchio-kaart. In totaal biedt Ponte Vecchio daarmee een singleprecisionrekenkracht van 45Tflops, een geheugenbandbreedte van 5TB/s en externe communicatie van 2TB/s.

Voorlopige conclusie

We kunnen het inmiddels al bijna een traditie noemen dat Intel op zijn Architecture Day meer informatie vrijgeeft over de komende architecturen voor processors en videokaarten. Dat is een fel contrast met hoe gesloten Intel pakweg vijf jaar geleden was.

Alder Lake: een bigbangrelease

Het hoofdonderwerp was vanzelfsprekend Alder Lake, de komende generatie processors voor alles van een futuristisch dualscreendevice tot een krachtige gamingdesktop. Voor de desktop betekent dat om te beginnen dat Intel na zeven (!) jaar afscheid neemt van het 14nm-proces, maar ook op veel andere vlakken is Alder Lake een mijlpaal. Intel past voor het eerst twee verschillende soorten cores toe in zijn belangrijkste productlijnen, voor zowel de Golden Cove- als de Gracemont-cores is Alder Lake het eerste product waarin ze worden gebruikt, en dan worden er ook nog eens tal van nieuwe standaarden in gebruik genomen, zoals DDR5 en PCIe 5.0. In oude Intel-terminologie zijn dit een tick en een tock in één keer; een grotere bigbangrelease kan Intel eigenlijk niet doen.

Met het opnieuw flink sneller worden van de cores - Intel belooft een 19 procent hogere ipc - zal niemand moeite hebben, maar de hybride architectuur met een hele rits zuinige cores leidde onder eerdere nieuwsberichten op Tweakers tot de nodige scepsis in de reacties. Veel tweakers zullen deze Atom-afstammelingen vooral associëren met traagheid, terwijl ook het big.Little-concept dat we kennen van de smartphonemarkt, eerder een betere accuduur dan hogere prestaties als doel heeft.

Het concept achter de hybride architectuur voor pc's is echter dat veel software steeds beter multithreaded wordt en dat een heel cluster aan zuinige cores een stuk efficiënter kan multithreaden dan een paar snelle cores die eigenlijk voor piek- en singlethreaded-prestaties zijn geoptimaliseerd. Omdat een cpu per definitie gelimiteerd is in diesize en stroomverbruik, zou een combinatie van snelle en zuinige cores weleens de ideale oplossing kunnen worden om het beste van beide werelden te bieden. Ook AMD lijkt serieus te kijken naar een hybride architectuur voor toekomstige cpu's, hoewel het op dit moment geen andere moderne core dan Zen heeft.

Intel aan de chiplets tiles

In de servermarkt staat Intel eveneens op het punt om eindelijk weer onder gelijke voorwaarden, met een modern productieproces en moderne architectuur, terug te kunnen slaan. Met de toepassing van emib in Sapphire Rapids gaat het blauwe kamp AMD achterna door chips met veel cores niet langer in één keer te bakken, maar op te splitsen in tiles. Misschien gaan we deze techniek volgend jaar ook terugzien in een nieuwe generatie hedt-processors van Intel.

Videokaarten

Tot slot gaf de processorfabrikant een sneakpeek van zijn eerste videokaarten. Er werden wat details bevestigd, zoals dat Intel zijn Arc Alchemist-videokaart voor gamers op TSMC's N6-proces gaat laten maken, maar op wat iedereen echt wil weten - hoe snel zijn ze, hoeveel gaan ze kosten - zullen we nog wat langer moeten wachten. Gebrek aan ambitie heeft Intel zeker niet, blijkt wel uit het Ponte Vecchio-project voor een videokaart bestaande uit 47 tiles gemaakt op 5 verschillende productieprocessen.

Release eind oktober?

Meer informatie over deze en andere producten kunnen we verwachten op het tweedaagse Intel Innovation-evenement, dat op 27 en 28 oktober plaatsvindt in San Francisco. Dat komt mooi uit met de belofte van Intel om Alder Lake 'deze herfst' te introduceren. Wij kunnen in ieder geval niet wachten om in de praktijk te testen of Intels mooie beloftes standhouden en of ze de fabrikant weer competitief maken met AMD.

Lees meer

Reacties (145)

145
142
83
20
0
25
Wijzig sortering
Dat de stap van wat ze hadden naar Alder lake groot is mag duidelijk zijn er zijn grote verbeteringen doorgevoerd.

Al vind ik dat ze wel iets te veel marketing praatjes hebben 1000x sneller in 2025 dan mogen ze heel hard aan het werk. In de afgelopen 10 jaar zijn ze nog niet eens in de buurt gekomen van 1000x. En nu denken ze dat in 4 jaar wel te kunnen? Misschien een hele specifieke instructie maar de rest bij lange na niet.

Ik ben benieuwd hoe Alder lake het tegen Zen3 met 3D cache gaat doen kan nog een spannende stijd gaat worden.
Ze zijn de afgelopen 10 jaar niet eens 100x sneller geworden...met alle cores erbij als je al de 2011 socket met 6 cores rekent denk ik niet eens 10x totaal...leuk dat ze sprookjes weer schrijven.

Zou mij niet verbazen als dit van die Koduri komt de man die nog nooit maar in de buurt van een belofte is gekomen. Het beste wat voor AMD is overkomen is dat hij weg is gegaan!

Ik geloof niet dat Intel überhaupt vanaf vandaag tot 2025 10x sneller zal zijn...dus allemaal mooie praatjes.
Internet en YouTube stond vol met allerlei tech sites die spraken over dubbele IPC gains en andere onzin.

Als Intel zelf met 19% aankomt zal dat in werkelijkheid meer in de buurt van 15% liggen wat nog steeds een mooie vooruitgang is!
Dat vind ik niet Raja Koduri is een van de toppers qua chip architecten. Vergeet niet dat hij in een tijd dat hij bij AMD de leiding had weinig budget had. De ontwikkeling van Vega was al gestart onder zijn voorganger. Hij heeft het begin gemaakt aan RDNA en daar zien we nu pas de verdiensten van.

Daarnaast wat Vega niet echt bedoeld als Gaming kaart die architectuur was gemaakt met het idee Datacenter first. Big Polaris is geschrapt. En Vega heeft die plek ingenomen. Het was niet de mooiste periode van AMD. Maar Vega doet het nu niet slecht tov zijn concurrent de drivers moesten alleen een stuk beter worden. RDNA kan alle shaders veel beter aan het werk houden dan GCN dat kon Vega had daar ook veel last van.

We gaan zo meteen zien wat hij er bij Intel van gebakken heeft daar heeft hij wel heel erg aan het roer gestaan van de XE chips. Maar ook die zijn wel ontworpen met het idee Datacenter first maar ook gaming beetje zoals Vega. Dus het zou mij niet verbazen als ze qua gaming maximaal rond de 3060 TI/ 3070 / 6600XT / 6700XT zitten maar in het datacenter ook redelijk presteren tov A100 en Instinct M100.

Echter zitten nVidia en AMD niet stil. Lovelace, RDNA3 en CDNA2 komen er al weer aan.

[Reactie gewijzigd door Astennu op 19 augustus 2021 21:22]

Ik denk dat 1000x ook erg overdreven is, maar ik ga er wel vanuit dat Intel niet stil heeft gezeten al die jaren. Vaak met nieuwe technologieën is het al zo dat zodra het product de consumenten bereikt het intern al een "oud" product is waar ze de r&d toch van zullen moeten terugverdienen. Intel heeft lang in een te comfortabele positie gezeten, maar dat wil niet zeggen dat ze al die jaren geen r&d hebben gedaan. Wellicht kan het zijn dat ze in huis al ver voor lopen op AMD, maar het simpelweg niet uitbrengen omdat het A nog te duur is en B ze eerst de oudere ontwikkelingen willen terugverdienen.

Ik weet niet in hoe verre chipmakers transparant moeten zijn over hun research en waar ze momenteel naar werken, maar ik gok dat dit gewoon geheim gehouden mag worden voor het publiek. Heb iemand gekend die bij Philips heeft mogen kijken op de (geheime) R&D afdeling. Die heeft daar destijds apparaten omschreven die echt pas 5 tot 10 jaar later bij de consumenten terecht kwamen. (Rolbare schermen bijvoorbeeld, transparante displays en talloze andere technieken).
En ondertussen Apple zien weglopen naar hun eigen chip? Mobiele platforms verliezen? Microsoft zien lonken naar Qualcomm? Ik denk dat innovaties die noemenswaardig zijn (en af) echt wel vlot hun weg vinden naar productie en niet jarenlang achtergehouden worden.

Overigens: 1000x meer performance kan ook zijn meer performance én zuiniger en dan relatief dus... maar een factor 1000 blijft extreem veel.

[Reactie gewijzigd door brobro op 20 augustus 2021 13:43]

Ze hebben natuurlijk jaren lang de markt als marktleider flink uitgemolken dus ze zullen alle verbeteringen en upgrades van de afgelopen pakweg 6-8 jaar wel opgespaard hebben en zullen deze in 1 keer gaan brengen. Prima; maar 1000x lijkt mij minimaal 950x overdreven. Maar goed, ik laat mij graag positief verrassen!
dersalnietemin ziet her er allemaal best goed uit.Ik zie die kleinere cores actief worden als nog wat in de pijplein hebben zitten dan hoeft dus niet zo een golden cove geactieveerd worden maar kunnen de kleinere processor cores op de achtergrond fijn alles afhandelen.Ik ben zeer benieuwd hoe deze processor gaat preseren, er zitten vele nieuwere features op.Plus ik denk ook dat deze processor meer bandbreedte heeft dan de vorige generaties processors van intel.en ook met het reken gedeelte de zogenaamde drijvende komma berekening.

[Reactie gewijzigd door rjmno1 op 19 augustus 2021 23:43]

Dat niet alleen in een keer durven ze wel kleiner te gaan en ja ze hebben te lang op 14 um gezeten.
Wat dat betrefd zijn de coffee lakes helemaal uitgemolken.
En eindelijk komen ze met iets geheel nieuws, ook met de golden coves cores en verbetrde atom processors kernen van de nieuwe opbouw van deze nieuwe cpu.Het ziet er allemaal best goed uit, maar ik ben ondertussen wel benieuwd hoe snel die nieuwe videokaart is die intel gaat ontwikkelen.stil staan is achteruitgang.Dit is een heel groot antwoord van intel ten opzichte van amd.
Enne 80 cores op een die dat wil ik wel eens zien.

[Reactie gewijzigd door rjmno1 op 7 september 2021 20:40]

Noem me wat negatief maar dit klinkt me als rooskleurige marketing in de oren.

Tot nog toe lukt het ze niet om net als AMD een efficient multicore chiplet design neer te zetten en wordt het core aantal aangevuld door zwakkere neven.

Ik vraag me ook af in hoeverre dit nut heeft voor desktops, bij een laptop en de M1 kan ik het me voorstellen maar het x86 ecosysteem leunt nog steeds zwaar op single core clocks.
Een x86 leunt maar zover op single core clock speed als dat programmeurs het verrekken om hun spul netjes parallel te bouwen, maar gelukkig zijn er steeds meer programmeurs die prachtige parallelle software schrijven.
"Verrekken" of "niet kunnen". Mijn ervaring leert dat de meeste developers toch moeite hebben om parallellisatie te doorgronden, laat staan dat ze die intuitief aanvoelen.
Parallellisatie geeft een extra dimensie van complexiteit, en wanneer fout geimplementeerd (lees: willekeurige threads die door de hele applicatie heen lopen) ook (bijna)onmogelijk om te debuggen.

Het is een enorm krachtig concept, ik heb eerder dit jaar 100.000+ mini-statemachines geparallelliseerd met GPGPU/GLSL en zonder die techniek had ik de performance er niet uit gehaald, maar de complexiteit van de software groeit er enorm door.
Daarnaast hoop ik dat meer programmeurs teruggaan naar technieken en bijbehorende mindset zoals deze hadden begin in de '90s. Tegenwoordig zijn veel programmeurs lui,schrijven code die niet optimaal is, zij het; het parallelliseren van code danwel het bewerkstelligen van dezelfde uitkomst met minder instructies. Veel programmeurs vandaag de dag leunen teveel op de compiler om instructies zo compact (geheugen) en snel (aantal instructies) mogelijk te maken.

Een bijzonder voorbeeld hiervan is bijvoorbeeld Terje Mathisen's "Inverse square root". Of uberhaupt het pipelinen danwel uitvoeren van specifieke instructies als de programmeur toch al weet wat de mogelijk in en uitvoeren zijn, en een bepaalde doelstelling heeft. Een goede ARM (Cortex-M) vergelijking zou zijn het gebruik van __uqadd8.

Ik verwacht dat alderlake met name voor software ontwikkelaars (en bij extensie voor data centra) extreem interessant zal zijn, daar veel van hun workload baat zal hebben bij de wijzigingen in de architectuur. Alderlake lijkt extreem geoptimaliseerd te zijn voor herhalende, 'semi-'korte, instructies.

[Reactie gewijzigd door un1ty op 19 augustus 2021 18:12]

Grappig, het begin van je opmerking ben ik het totaal mee eens. Niet alleen software, maar ook Games hebben hier last van. Maar ik denk dat er een wezenlijk verschil is tussen lui zijn of simpelweg te weinig tijd hebben ervoor.

In de jaren 90 was software (en games) een interessante markt, maar geen noodzakelijke markt. In de jaren 90 kwam je prima weg zonder telefoon en internet. Tegenwoordig kun je niet meer zonder.

Het feit dat het digitale tijdperk nu zo enorm belangrijk is geworden heeft het m.i. ook zo gemaakt dat programmeurs ook minder tijd krijgen om iets moois neer te zetten. Er wordt immers vaak met deadlines gewerkt. Dit was vroeger veel minder het geval en daardoor is IMHO de kans ook groter dat er meer kwalitatief spul werd geleverd.

Voorbeeld (in de game industrie):
Blizzard releases waren vroeger pas zodra de game af was. Geen release datums genoemd en moesten er ooit jaren op wachten na teasers. En dat gold voor veel games en software zo. Ik denk dat developers van Assassins Creed vh afgelopen decennium wel kunnen beamen dat ze gewoon te weinig tijd kregen. Ieder jaar moest er namelijk een nieuwe iteratie komen.
Dan kan het wel verdeeld worden over meerdere studio's zoals met Call of Duty het geval is, waar iedere studio 2 jaar kreeg voor hun versie vd game en later 3 jaar met een 3e studio omdat ook zij ervoeren dat ze gewoon te weinig tijd kregen.

Ander mooi voorbeeld zijn open world games (zoals World of Warcraft) waar jaren aan voorbij gegaan zijn alvorens de release. Nu worden veel open world games er binnen 2 tot 3 jaar uitgestampt (met dus ook de gevolgen ervan), vaak voelen de werelden grindy en leeg aan en is er weinig end game content waardoor de game binnen een jaar eigenlijk al min of meer dood bloedt. Tuurlijk zijn 200.000 spelers nog altijd veel spelers, maar niet benoemenswaardig. En waarom lukt het bijna geen MMO om een sub te hangen aan hun game zoals Wow? Ik gok gewoon gebrek aan (kwalitatieve) content, wat vaak dus een gevolg is van of te weinig (bewkaam) personeel of te weinig tijd of beide.

Door alle druk van het 'nu' en 'alles moet snel klaar zijn', denk ik dat die tijd waar je naar verlangt dat alle programmeurs weer kwaliteit schrijven, helaas voorbij is..
Beetje kort door de bocht maar 'feitelijk' kloppen beide mijn redenaties (te weinig tijd en moeite), maar de onderliggende reden is allicht anders. Dat beschrijf jij perfect en kan ik beamen. Ben zelf ook (embedded) software ontwikkelaar, en ik zie in de code implementaties veel 'shortcuts' welke niet de oorzaak bestrijden, maar puur een workaround zijn waardoor de gebruiker het niet ervaart. Product, project of financieel manager ziet alleen kosten/baten, hoeveel kost het mij nu t.o.v. hoeveel meer levert het (nu) op. Bij wijze van spreken; op korte termijn levert het 200% meer op, daarna 50%, 0% dat is een winst voor de manager/investeerder. Daarna kom je op een punt waarbij code hergebruikt gaat worden maar niet meer aan standaarden voldoet of niet meer werkbaar is en de boel ge-reworked moet worden. Dan moet je weer investeren, terwijl als het in eerste instantie goed gedaan was, dan was de inflatie lager geweest, want het werkt beter en het product is beter, en een nieuwe investering niet nodig.

Investeerders, inkopers en managers zijn doodsoorzaak nummer 1 voor een goed product.

[Reactie gewijzigd door un1ty op 19 augustus 2021 19:50]

zelf van scratch parallele software schrijven is lastig, maar libraries als openmp (www.openop.org) zijn fantastisch. Ik heb mijn software vorig jaar omgezet naar openmp en dan merk je wel verschil tussen Intel en Amd. Het was de reden dat ik een 3900x heb aangeschaft. Het maakt overigens wel verschil hoeveel reads en writes je moet doen naar memory structuren. Het lukt niet altijd om alle cores voor 100% aan het werk te zetten. Ik krijg de indruk dat de Intel cpus wat sneller zijn in read/writes naar memory maar dat kan ik niet met zekerheid zeggen. Ik zie wel dat dezelfde software gecomnpileerd op linux ongeveer 10% sneller is dan op windows.

meer on topic: ik vind het prima dat deze ontwikkelingen er zijn. Laat ze AMD maar op de hielen zitten. Wat wel vervelend is is dat voor iedere nieuwe cpu een nieuwe chipset gemaakt wordt en dan moet je dus weer alles aanschaffen, daar is amd beter in.
Het probleem met 12 cores is inderdaad dat ze al snel memory starved zijn. Vandaar Threadripper.

Het voordeel van Linux zit in 1] de ABI en 2] de scheduler.
Gewoon PHP schrijven, schaalt geweldig 8)7 O-)
Klopt, dat ligt alleen niet puur bij de programmeurs. B.v. vscode/.NET core debuggen met veel threads is onmogelijk zonder zelf te loggen. Of het is simpelweg zeer moeilijk te threaden (linking) of zeer duur/complex om van de grond af aan voor parallellisme te ontwerpen.

Daarnaast is frequency scaling ook een prima middel en parallellisme niet een heilige graal.
Goed punt. Recursieve functies debuggen is bv al een nachtmerrie, laat staan multi-threaded. My first race condition...
Dat is te ondervangen door het idee van groot naar klein (in aantal of grootte) te hanteren en de functie bij een minimum (0 of []) te laten stoppen.

Dan heb je alleen nog de stack die je kan overflowen maar dit is op te lossen met b.v. een trampoline.
Of je gebruikt gewoon een taal die daar geen last van heeft.
Of je gebruikt geen recursie (omdat dat vaak, niet altijd, maar vaak helemaal niet efficiënt is, niet goed leesbaar, en niet goed schaalbaar is). Recursie gebruik ik alleen in SQL (omdat ik weet dat het nooit 7 of 8 diep gaat).
Sommige problemen zijn het best of alleen maar oplosbaar met recursie. Sorteren, beslissingsbomen (schaken bv), parsers, multiple precision arithmetic. En natuurlijk is elke recursieve procedure iteratief te implementeren met behulp van een stack, maar dat is gewoon een niet-intuïtieve vorm van recursie.

Ik vermeed vroeger ook recursie, maar ik kan nu niet meer zonder!

[Reactie gewijzigd door xorpd op 19 augustus 2021 17:35]

Servers en dergelijke kunnen prima recursief.
Webservers en dergelijke. Geen fysieke servers. :)
Zijn webservers niet fysiek dan? 🤣
C99/gcc supports tail calls
Stuk makkelijker dan haskell code in een C library te vrotten ;)

[Reactie gewijzigd door Xander2 op 19 augustus 2021 16:52]

Tail call is een optimalisatie die alleen de laatste recursieve call omzet in een jump en daarmee de stack spaart. De andere recursieve calls gaan gewoon op de stack hoor. En dat is er nog altijd een of meer (anders kun je net zo goed een loop gebruiken).
Voor zo'n probleem moet je je recursieve calls switchen, zodat er maar één NIET de tail-call is. Dan gaat er dus nog maar één call wel op de stack.
Dat gaat alleen als je het probleem in tweeen splitst. Als je het probleem in vieren splitst heb je toch echt 3 recursive calls en 1 tail call.

Vermenigvuldigen is een goed voorbeeld.

[Reactie gewijzigd door xorpd op 19 augustus 2021 19:14]

Hangt van de compiler/compiler-opties en code af, gcc doet tail calls met -O omschrijven tot een loop en inline't indien nodig.
Een loop is nog steeds een stuk code gevolgd door een jump naar het begin.
Het probleem met recursieve functies is zelden een stack overflow (je begint altijd met een zogeheten 'terminating condition' namelijk) maar uitvinden waar je precies bent in het recursieve doolhof. Je kunt wel een breakpoint zetten maar die zijn niet diepte-specifiek.

Daarom gebruik ik asserts.

[Reactie gewijzigd door xorpd op 19 augustus 2021 16:50]

Niet alles kan natuurlijk even goed paralel
Machtsverheffen is een goed voorbeeld. Of ieder ander sequentieel algoritme, waarbij de output van de vorige berekening de input van de volgende is.
Mee eens, maar ik verwacht dat je machtsverheffen überhaupt niet wil parallelliseren, al zou het kunnen. Dit soort elementaire berekeningen gaan helemaal niet sneller als je het multithreaded zou oplossen, want de resultaten van meerdere threads samenvoegen en waardes kopieren tussen threads, of werken met thread-safe structuren, heeft al zoveel overhead dat je er niets mee wint. Dit althans op basis van mijn ervaring met C# en Dart. Misschien is het een ander verhaal in andere talen.

Als je nu miljarden getallen moet kwadrateren, dan kun je natuurlijk wel de data opsplitsen en batches in parallel uitvoeren.
Machtsverheffen?

Je kan toch 3^7 = 3^4 * 3^3 over twee cpu's laten doen?

Edit: bewust factorisatie in 2 niet-identieke delen, identieke hoeven maar 1x uitgerekend te worden.

[Reactie gewijzigd door Xander2 op 19 augustus 2021 16:39]

Dat kan, maar daar win je niets mee.

3^7 = 3^1 * 3^2 * 3^4

Om van 3^1 naar 3^2 naar 3^4 te komen moet je namelijk kwadrateren. Als je het zou uitbesteden zou je 2 threads krijgen die hetzelfde deden, met uitzondering van de laatste stap, en een extra vermenigvuldiging na synchronisatie.

Edit: in je eigen voorbeeld zijn ze toch identiek, 3^4 is namelijk 3 * 3^3.

[Reactie gewijzigd door xorpd op 19 augustus 2021 16:59]

Dat is nog wel paralleliseerbaar tot 2 threads: de eerste thread rekent 3^1, 3^2,3^4 uit en de tweede thread doet 3*9*81. Natuurlijk is in de echte wereld de thread overhead te groot in verhouding tot het vermenigvuldigen van dergelijke kleine getallen, maar als je "3" vervangt door een 100x100 matrix dan is Matrix^2 opeens niet meer triviaal.
Hoe is dit parallel? Je moet toch eerst 3^1, 3^2 uitgerekend hebben voor je 3*9 kan doen? Dus dan win je niets met parallel zijn.
Uiteraard, maar de 3*9 hoeft niet te wachten op 9*9=81.
Machtsverheffen is, indien juist geïmplementeerd, parallel niet sneller uitvoerbaar dan lineair. Je moet immers altijd wachten op een vorig antwoord.

3^9 -> ((3^2 * 3^2) * (3^2 * 3^2)) * 3^1

a = 3
b = a*a // 3^2
c = b*b // 3^2 * 3^2
d = c*c // 3^4 * 3*4
e = d*a // 3^8 * 3^1 aka 3^9
Tja, dat toont maar weer aan waarom er zoveel programmeurs moeite hebben met parallel programmeren

a = 3
b = a * a = 9
c = b * b = 81 | d = b * a = 27 <<<< parallel
e = c * d = 2187 aka 3^7

Jouw voorbeeld van 3^9 is toevallig niet paralleliseerbaar omdat 9 = 0b1001, er zitten maar twee bits in. Maar 7 = 0b111, 3 bits, en dus paralleliseerbaar. De berekening van 3^4(0b100) loopt in parallel met die van 3^3 (0b011). Het aantal threads wat je kunt gebruiken schaalt met 2log(bits in exponent).
Dus 1 van die stappen kan op papier parallel, als de compiler besluit om een boel moeite te doen, en dan waarschijnlijk alleen als de getallen op dit punt al vast stonden (of in ieder geval de exponent al). En dan kun je, in de gevallen waarbij de twee processorcores even snel lopen, inderdaad 1 instructie winnen, in theorie. Maar als je de getallen al weet, dan kun je vaak ook gewoon optimaliseren naar e=2187.

Alleen in het geval waarbij je de 7 wel weet, maar de 3 niet kun je dit soort geintjes uitvoeren.
Niet alleen op papier. Dit zijn het soort optimalisaties die commerciële compilers anno 2021 aan de lopende band doen. Al sinds de originele Pentium 1 heeft Intel superscalar processoren - je hebt niet eens een tweede processorcore nodig. Dit wordt simpelweg in parallel op 1 core geschduled. De Golden Cove big cores van Alder Lake hebben zelfs 12 instruction ports per core, dus daar moeten compilers nog veel harder zoeken/
Klopt, en daarnaast kan je ook heel goed non-floating point berekeningen doen, als er geen FPU (floating point unit) is om toch tot een floating point berekening te geraken. Floatingpoint converteren naar integer en dan bitshiften voor het aantal machtsverheffingen, beiden negatief of positief.
float naar int (2 instructies), bitshift (1 instructie), int naar float (2 instructies). En dit kan in een ALU zitten (Arithmetic Logic Unit), waardoor het eigenlijk maar een enkele instructie is.
Net zoals dat er meerdere algoritmes zijn op getallen/waarden te sorteren

(edit: verduidelijking + links)

[Reactie gewijzigd door un1ty op 19 augustus 2021 18:40]

Nou nee, dat gaat totaal niet werken. SImpel voorbeeld: pow(1.0, 2). Dat is uiteraard gewoon 1.0, maar 1 << 1 is 2.

Een floating-point getal bestaat uit een sign bit, integer mantissa en integer exponent. Je hebt een zwik branches nodig aan het begin voor denormal floating-point getallen (pow(INF,2)==INF etcetera), je moet nog de implicit-one terugstoppen in de mantissa, daarna moet je mantissa's vermenigvuldigen en exponenten optellen, het resultaat normaliseren, overflow vertalen, underflow vertalen, en dan pas heb je het FP resultaat. 5 instructies? Eerder 25.
Voor tot de macht twee is het toch gewoon 1 bij de exponent optellen? 1.0 * 2^3 is gelijk aan 1.0 * 2^4 immers.
Nee, dat is het totaal niet. 1.0*2^3 is 8, 8 kwadraat is 64 en dat is dus 1.0*2^6. Je moet dus de exponent met twee vermeigvuldigen.

Dat is het makkelijke deel. En in dit simpele voorbeeld is 1.0 * 1.0 ook simpel. Maar in het algemeen is dat neit het geval, neem bijvoorbeeld 1.5*1.5. Dat is 2.25, en dat is groter dan 2. Dan moet je dus de mantissa en exponent corrigeren.
Je baseert je verhaal op de hardware snelheid van kwadrateren.

Zelfs als de macht even is kan het dusdanig groot zijn dat distributie interessant is zodra een lookup table sneller is dan de hardware instructie.
Ik baseer mijn verhaal op algoritmiek. In dit geval een iteratieve functie.

Machtsverheffen wordt over het algemeen niet gedaan met kleine getallen, dus je kunt die lookup table en die hardware instructie wel vergeten.
Er is natuurlijk ook wel Amdahl's law.
Wel ik zie het allemaal erg positief in want in ieder geval heeft AMD er voor gezorgd dat Intel plots met meer Core CPU kwamen aandragen dan ooit voorheen en Intel ook niet langer op de verouderde architectuur kon doorborduren.
Het artikel gaat over de Intel Architecture Day, dus georganiseerd door Intel voor Intel. Als je dan een onafhankelijk en/of bescheiden verhaal verwacht ben je architect van je eigen teleurstelling. Marketing is dan ook altijd rooskleurig. Mag ik suggereren dat je wellicht bedoelt dat je de rooskleurige marketing niet overtuigend vindt?
Zeker rooskleurige marketingtaal, anderzijds heeft Intel de resources om heel hard terug te vechten. Wat dat betreft was het verbijsterend dat AMD Intel zo de loef heeft weten af te steken, ik zag eigenlijk hun lijk al drijven.

Dus ik moet het eerst zien, dan pas geloven, anderszijds is het nog veel te vroeg Intel nu al af te schrijven.
Het hele artikel leest een beetje als een gesponsord verhaal, weinig kritische noten.
Klopt, Intel blaast altijd hoog van de toren en is niet vies van een flinke draai aan de waarheid te geven. Laat ze eerst maar eens leveren, want afgelopen jaren is het vooral blabla geweest. Dit met een scheepslading zout nemen en lekker de reviews afwachten.
Het gaat ineens over de scheduler van Windows 11, maar het lijkt er op dat Intel deze functionaliteit ook implementeert in de Linux kernel: https://www.phoronix.com/...=P-State-Preps-For-Hybrid
Het zou heel raar zijn als ze dat niet zouden doen toch?
ik vraag me echt af hoe dat dan werkt...

Als ik even een applicatie schrijf maak hem even multi threaded
doe in 1 thread niet zo veel (veel IO bv)
maar in een andere thread even flink crunchen

Hoe weet Intel dan wat ie moet doen? gaat de hele app dan naar een andere core of alleen die thread? maar beide threads gebruiken wel veel shared data, dus hoe zit het dan met de caches??
Tot nu toe waren we gewend om het aantal rekeneenheden in Intel-gpu's aan te duiden met eu's, maar omdat Intels eu-ontwerp steeds groter wordt en misleidend kan zijn in een vergelijking met shadercores bij AMD of Nvidia, wil Intel die naamgeving overboord gooien.
Maar dan wel 10 nanonemeter '7' noemen en 7 nanometer '4', want... dat is niet misleidend? :+
De nanometers zijn zelf wat misleidend. Intels argument is dat de naamgeving van procedés met nanometers sinds 1997 al niet meer gaat over de daadwerkelijke afmetingen van de gate-length.

linkheidsmatig:
reviews: Het nattevingerwerk van nanometers - Met kleinere chips komen kopzorgen

reviews: Als nanometers te groot worden - Transistors op ångströmschaal
Het probleem daar is vooral dat TSMC en Samsung nm's zijn gaan gebruiken als marketing. Waar Intel altijd conservatieve naamgevingen had voor de nodes, hebben TSMC en Samsung vrijwel iedere mogelijkheid gebruikt om het getalletje steeds kleiner te kunnen benoemen.

Ian Cutress van Anand legt in dit filmpje een beetje uit waarom Intel zich hiertoe gedwongen voelt (en waarom hij er blij mee is). https://youtu.be/0PD7IJgbuWs?t=174

Ikzelf had liever gezien dat Intel dit niet zou doen, echter kan ik wel begrijpen waarom ze het doen.
Ik weet niet of ik je die naamgeving echt misleidend kunt noemen. 99.99% van de consumenten is er sowieso niet in geïnteresseerd op hoeveel nm de processor is gemaakt, die willen twee dingen weten:
  • Is hij veel sneller dan mijn oude PC?
  • Wat kost hij?
En soms, heel misschien:
  • Hoeveel energie verbruikt hij?
Dus die kijken al niet eens naar de naamgeving. Mijn auto heeft ook "450" in het modelnummer maar ik kan je verzekeren dat hij geen 450 km/u haalt... ;)
In principe heb je gelijk: al maken ze hem op honderd nanometer, als-ie snel en zuinig is, who cares? Maar de getallen zijn wel duidelijk zo gekozen dat het geen toeval meer is.
Intel blijft kampioen, in hype, marketing, claims en bla bla.
Intel belooft al meer dan 10 jaar enorme stappen vooruit, daar bleek uiteindelijk niet veel van terecht te komen.
Ook Koduri zelf heeft (destijds bij AMD) heel veel beweerd, en daar vrij weinig van waargemaakt. Ik blijf dus lekker sceptisch, vooral omdat Intel nu heel hard een financiele doorbraak nodig heeft, want ja, ze draaien nog winst (en blijven dat wel even doen), maar de winstmarge gaat al tijden omlaag, en ze hebben al lang niet meer de dominante positie die ze 5 jaar geleden hadden. Dat vinden aandeelhouders niet leuk, en _dat_ doet pijn bij management.

Van de andere kant kunnen ze het absoluut wel (zie de Pentium M destijds, met de Core architectuur die daarop verderborduurde). Maar eerst zien, dan betalen.
Pentium III :)

Er zitten ongetwijfeld zeer goede en slimme technici bij Intel.
Het bedrijf is te groot geworden.
Ze hebben inderdaad een hele historie aan goeie techniek opgebouwd, maar ze zijn niet alleen te groot, maar ook te succesvol geworden. Dat trekt snelle investeerders, en roofbouw-managers aan, en die verjagen weer de innovatieve mensen. Intel heeft jarenlang geld gehad voor ongeveer alles (en dan ook miljarden uitgegeven aan allerlei projectjes die daarna hard flopten), maar er moest vooral meer meer meer winst gemaakt worden. Innovatie op CPU-gebied kan ik ze de afgelopen 10 jaar niet van beschuldigen, en normaal betekent dat het einde van een bedrijf (overname, of verkleining), maar door gebrek aan concurrentie (AMD was blut, VIA was gestopt, en ARM kreeg geen voet aan de grond vanwege de gigantische hoeveelheid legacy-hard/software) konden ze doormodderen, en toch idiote prijzen vragen.

Als ze nu met een paar vakkundige technici op de goeie plek weer iets nieuws bakken (ik ben benieuwd of Jim Keller genoeg heeft kunnen bijsturen) dan wordt het wel weer wat. Ben vooral benieuwd naar hun innovaties op procestechnologie, want Intel is 1 van de weinigen die ook echt zelf chipjes kan bakken.
Mwah, de eerste generatie i7 was ook echt niks mis mee. Mijn i7 920(de traagste) heeft hier nog zeer lang dienst gedaan als extra gamesysteem(tot 2 jaar geleden?) en zou met de juiste videokaart nog steeds geen rare flater slaan in de Steam survey(tov laptops die gebruikt worden bijvoorbeeld). Ding is wel van eind 2008...
Ze slorpten wel veel elektriciteit ... die dingen idle'den rond de 120-150W. Nog iets erger dan AMD Bulldozer/Piledriver die toegegeven wel minder prestaties gaven. Heb destijds veel PC's mogen wegsmijten omdat door de hitte de naburige chips de geest gaven, in het bijzonder de Realtek NICs. Had natuurlijk wel verholpen kunnen worden als de grijzedoos PC bouwer die mijn werkgever gebruikte, wel deftige systeem fans en kasten gebruikte ipv de goedkoopste chieftec kast en een luidruchtige 8 cm systeemfan.

[Reactie gewijzigd door goarilla op 22 augustus 2021 17:29]

Die van mij deed idle rond de 60w of zelfs minder. Ik heb het destijds gemeten(systeemverbruik) en lijkt aardig overeen te komen met andere gebruikers: https://forums.anandtech....i7-920-idles-57w.2044470/ Weet je zeker dat je powerplan wel toestond om terug te klokken? Ik had er ook een dikke tower cooler op vergelijkbaar met de Dark Rock Pro 4 die ik nu heb, alleen dan chroom en een enkele fan(en dus ook geen gap). Hij was dus ook best stil. Heeft toch menig game gezien en het systeem doet het nog steeds prima en was toen ook niet echt bezig met case koeling. Is wat mij betreft echt het systeem geweest wat het langst up to date is geweest en heb ik ook pas een jaar of 5 later vervangen(voor een 4770k, óók dikke prima en zelfs meer dan 5 jaar mee gedaan).

Overigens heb ik voor de 920 3x AMD gehad (vanaf de Athlon 500) en nu een 3900x, dus ben niet per se Intel minded. :)

[Reactie gewijzigd door MN-Power op 23 augustus 2021 08:29]

vooral omdat Intel nu heel hard een financiele doorbraak nodig heeft, want ja, ze draaien nog winst (en blijven dat wel even doen)
Ik denk vooral dat laatste, het 'nog' in jouw post even in perspectief te plaatsen. Intel heeft inderdaad te maken met dalende marges, echter zijn die marges nog altijd flink hoger (+-57% t.o.v. +-47-48%) dan de marges van AMD, die als zeer goed gezien worden in de markt (Ik heb zelf een kleine deelneming in AMD), daarnaast zet Intel in een kwartaal nog altijd bijna 2x zoveel om dan AMD verwacht in het hele jaar om te zetten.

Intel heeft veel meer een technische doorbraak nodig dan een financiële. Ze hebben nog wel een 'warchest' de komende tijd nog wel, alleen moeten ze het weer gaan investeren waar het nodig is, namelijk aan de technische kant in plaats van aan de financiële kant, waar ze jarenlang de aandeelhouder korte termijn plezier hebben geboden met sharebuybacks, maar juist aan de technische kant steken hebben laten vallen, waardoor ze van +-3-4 jaar voorsprong qua node (op TSMC) nu 2-3 jaar achterlopen, iets dat heel lastig in te halen gaat zijn, zeker wanneer TSMC geen steken gaat laten vallen in de toekomst. Dat zal denk ik zeker bij de aandeelhouders wel even pijn doen, maar laten we eerlijk zijn, de laatste 10 jaar hebben deze aandeelhouders, mits ze het goed gespeeld hebben ook mooie runs kunnen maken in Intel.

Niet zo mooi als wanneer op tijd ingestapt in AMD, maar dat is dan ook een verhaal dat je maar zelden ziet.
Financiële en technische doorbraak hangt samen.

Zowel Cannon Lake als Ice Lake waren dusdanig financieel ramzalig, dat de kwartaal resultaten vol stonden van dat de lagere winsten kwamen door rampup van 10nm en ongekwalificeerde voorraad. Dat ging over 1 a 2 miljard per kwartaal winstderving door 10nm; laatste keer dat we dat zagen was tijdens het contra-revenue debacle van de mobiele tak.

De winstderving op 10nm kwam voort uit technische problemen; en als gevolg daarvan was het financieel niet rendabel om desktops en servers op 10nm te zetten.

Vervolgens doet TSMC 25 miljard in CapEx '21 en streeft Intel ver voorbij; en Intel kan dat niet pareren omdat 10nm praktisch geen winst maakte. Dusdanig weinig dat tijdelijk de buyback werd stopgezet. Vervolgens heeft Intel $3 miljard aan TSMC gegeven, is omdat de GPU-afdeling niet wilde wachten op een werkend 10nm proces. Dat is 3 miljard minder naar Intel zelf.

Als het goed is dan is Alder Lake dus zowel een financiële als technische doorbraak; mogelijk omdat Intel EUV inzet voor M1 en M2. Dat verhoogt de yields, dus de winst, en verlaagt het aantal nodige belichtingsstappen. En zie daar, de buyback gaat weer verder; dus het ergste 10nm-leed zal geleden zijn.
Niet zo mooi als wanneer op tijd ingestapt in AMD, maar dat is dan ook een verhaal dat je maar zelden ziet.
Ik was er destijds ... net voor Zen ook ingestapt maar toen mijn beide ouders stierven op korte termijn kreeg ik koude voeten en had ik cash nodig. Dus de grote winsten waren er niet voor mij. Doch denk ik dat het Intel en AMD verhaal een cyclisch gebeuren is. Intel heeft AMD nodig omdat het anders een monopolie wordt en daarvoor afgestraft zal worden en omgekeerd heeft AMD Intel nodig voor de x86 licenties. We zagen dit ten tijde van de AMD FX64/Opteron, dan de intel i7/Xeon, nu weer AMD met Zen/EPYC, ...
Bij 6 core laptops CPUs is AMD de duidelijke winnaar. Ook AMD Epyc servers zijn op dit moment zeer in trek.
Waarom zou Intel iemand die gefaald bij Amd - Koduri - nemen als chief architect? Het is toch niet Indiaise bedrijf (nog niet).
Dit. AMD domineert toch echt. Zo zijn er een hoop VPS providers die adverteren met Amd Epyc processors op hun servers. Dedicated servers met AMD Epyc zijn, kan ik uit ervaring zeggen, ook zéér gewild. :)
En zelfs met dat gegeven kun je zien hoe erg Intel nog domineert in die markt.

Van iedere verkochte server x86 server cpu in Q2 2021 waren er nog altijd 9 van Intel en 'slechts' 1 van AMD (Intel had nog altijd 90.5% marktaandeel in het server segment, AMD 9.5%)

https://wccftech.com/amd-...k-segments-post-big-wins/

En zelfs dat is voor AMD al heel goed te noemen, immers 5 jaar geleden bestonden ze eigenlijk niet meer in die markt.

[Reactie gewijzigd door Dennism op 19 augustus 2021 17:17]

Als je het hebt over kwantiteit, dan ja Intel domineert. AMD heeft niet genoeg capaciteit om de leider te zijn qua kwantiteit. Volgen mij debatteert niemand daar over. :)
Maar kwaliteit, prestaties en stroomverbruik? Nee. Dan domineert AMD toch echt.
als je alleen naar prestaties kijkt inderdaad wel ja. Ik vind echter als iemand met een klein belang in AMD het marktaandeel, de ASP en de gerealiseerde marges belangrijker. Goede prestaties of laag stroomverbruik alleen leveren immers niet direct geld op. Er moet ook genoeg productie capaciteit achter te zitten om juist dat marktaandeel te winnen. Marktaandeel winnen is immers lastig, zeker wanneer de concurrentie ook competitief is. Daarom is het voor AMD juist nu zaak om marktaandeel te winnen, juist nu ze ver voorlopen op Intel qua performance en efficiëntie.

Immers als Intel straks weer producten heeft die meer competitief zijn dan dat Intel nu is, zal het voor AMD veel lastiger worden om meer marktaandeel te verkrijgen en de marges te verhogen. Dat moet je juist doen wanneer de tegenstander spreekwoordelijk gezien 'knockout' is, wat Intel nu grotendeels is op technisch vlak.

[Reactie gewijzigd door Dennism op 19 augustus 2021 18:36]

Wat volgens mij gebeurt, is dat veel klanten bestaande Intel server parken van extra capaciteit hebben willen voorzien vanwege de cloud-uitbreiding in verband met de thuiswerk-golf.

Maw, het aandeel van Intel is kunstmatig hoog omdat uitbreidingen van de CPU's die 2 / 3 jaar geleden gekozen zijn (Xeons) nu domineren tov nieuwe server-parken.

En Intel heeft de 14nm Xeons enorm in de aanbieding gezet, af te lezen aan de marge-implosie van DCG.

14nm is grotendeels afgeschreven tech, de kans dat AlderLake gelijk in de uitverkoop kan en mag is kleiner. En de vraag naar 2018-Xeons zal afnemen naarmate meer mensen terugkeren naar kantoor.

Dus persoonlijk, als iemand die op dit moment even geen belangen AMD /INTC heeft, denk ik dat die 10% marktaandeel van Epyc een tijdelijke dip is.

[Reactie gewijzigd door kidde op 20 augustus 2021 00:12]

Het heeft ook wel een tijdje geduurd voor de serverfabrikanten EPYCs in hun gamma hadden. De nasmaak van het Opteron fiasco moest nog worden verteerd.
Tegenwoordig wel ja, zelfs de meelezende managers kennen de Epyc nu. Misschien kun je ze zelfs nu een Bulldozer verkopen :+
Bij Alder Lake-S zijn zestien PCIe 5.0-lanes beschikbaar; de vier lanes die doorgaans voor een ssd worden ingezet, werken nog op PCIe 4.0-snelheid.
[...]
vroegen we Intel of het niet logischer was geweest om juist de ssd-lanes van PCIe 5.0-ondersteuning te voorzien. Zelfs een RTX 3090 profiteert immers nog amper van de extra bandbreedte van PCIe 4.0 ten opzichte van PCIe 3.0, terwijl de snelste NVMe-ssd's alweer richting de x4-limiet van PCIe 4.0 (8GB/s) gaan. Hoewel hij dat niet kon ontkennen, benadrukte Ran Berenson, general manager van de Core and Client Development Group, dat je de PCIe 5.0-lanes in theorie voor elk doeleinde kunt gebruiken.
Dit vondt ik toch een slap antwoord zeg. goh in theorie kunnen ze voor alle doeleindes gebruikt worden, das toch geen antwoord op de vraag?
Zo slap is dat toch niet? Als je een GPU die de snelheid van 16x PCIE5.0 niet kan benutten dan deel te de lanes op (in 2x8 of 8x4x4) en gebruik je een aantal van die lanes voor bijvoorbeeld storage. Ik vind het op zich wel een logisch antwoord, ook wanneer je onderstaande meeneemt.

Wat rondgaat in het geruchten circuit is dat PCIE5.0 voor SSD's nog gevalideerd is / kan worden en dat daarom deze eerste generatie op het nieuwe socket nog 4.0 lanes krijgt voor de M.2 sloten. Dat Intel dat echter niet als antwoord geeft (omdat dit ook over producten van partners kan gaan) en daardoor bovenstaande als mogelijke afleiding gebruikt snap ik dan wel weer.
Zo slap is dat toch niet? Als je een GPU die de snelheid van 16x PCIE5.0 niet kan benutten dan deel te de lanes op (in 2x8 of 8x4x4) en gebruik je een aantal van die lanes voor bijvoorbeeld storage. Ik vind het op zich wel een logisch antwoord, ook wanneer je onderstaande meeneemt.
Dat is geen antwoord op de vraag die gesteld werdt. de vraag was of dat niet logischer was. en het antwoord is "het is een mogelijkheid om dat te doen". no shit, de vraag was niet OF het kon, de vraag was WAAROM daar niet voor gekozen is.
Wat rondgaat in het geruchten circuit is dat PCIE5.0 voor SSD's nog gevalideerd is / kan worden en dat daarom deze eerste generatie op het nieuwe socket nog 4.0 lanes krijgt voor de M.2 sloten.
PCI-e is toch gewoon backwards compatable? dan kan je gewoon pci-e 5 lanes geven aan een pci-e 4 ssd zonder problemen. Het maakt dan geen hol uit of je pci-e4 ssd niet gevalideert is voor pci-e5, want pci-e5 kan gewoon doen alsof het pci-4 is.
[...]

Dat is geen antwoord op de vraag die gesteld werdt. de vraag was of dat niet logischer was. en het antwoord is "het is een mogelijkheid om dat te doen". no shit, de vraag was niet OF het kon, de vraag was WAAROM daar niet voor gekozen is.
Uiteraard is het geen volledig antwoord, het is echter wel een antwoord, alleen helaas voor ons, een ontwijkend antwoord.
PCI-e is toch gewoon backwards compatable? dan kan je gewoon pci-e 5 lanes geven aan een pci-e 4 ssd zonder problemen. Het maakt dan geen hol uit of je pci-e4 ssd niet gevalideert is voor pci-e5, want pci-e5 kan gewoon doen alsof het pci-4 is.
Juist daar schijnen dus, volgens de geruchten, juist problemen mee te zijn, waarbij bestaande PCIE4.0 SSD's schijnbaar niet in alle gevallen stabiel werkten op PCIE5.0 lanes ondanks de backwards compaibilty, waardoor dus de validatie niet op tijd gereed is voor lancering van het platform. Het zijn uiteraard wel geruchten, dus er zou ook zeker een andere oorzaak kunnen zijn.
Help mij even. De meeste computers zitten op 64-bit, vanwege de 4GB RAM limitatie, oftewel x64. Waarom ontwikkelen we dan nog steeds door op x86, oftewel 32-bit? Zeer waarschijnlijk haal ik nu twee totaal compleet andere dingen door elkaar.. Maar daarom: help mij even 8)7
Alle huidige x86 processors van Intel en AMD zijn gewoon 64-bit. :)

"x86" is een overblijfsel uit de tijd dat Intel haar processors nummers gaf. Na de 486 zijn ze daarmee opgehouden en kwam de Pentium. De 32-bits instructieset van deze processors noemde men ook wel IA-32. Intel heeft daar een opvolger van proberen te maken in de vorm van de Itanium, die de 64-bits IA-64 instructieset voerde. Deze processor is nooit naar de desktop gekomen. AMD bedacht dat het een goed idee was om de IA-32 uit te breiden met 64-bits instructies. Hieruit is een instructieset ontstaan die in het begin als "AMD64" en later als "x86-64" aangeduid werd.

Deze nieuwe Intel chips draaien dus op x86-64 instructies. Ze zijn daarmee x86 en 64-bit.
Dat doen we niet hoor, we ontwikkelen tegenwoordig vrijwel uitsluitend voor x64 ;)
Als ze qua specs een marginale upgrade is, dan maar verkopen alsof het revolutionair product is?
Of bedoelen ze met deze marketing termen dat ze eindelijk van 14nm af (kunnen) gaan. Voor Intel misschien de happening van het decennium maar pffff, Intel, kom op! Snap back to reality and put your money where you waffer is.

P.s. Altijd Intel CPU's gehad, dit is geen Pro-AMD boast.

[Reactie gewijzigd door crazylemon op 19 augustus 2021 16:59]

Het is eigenlijk niet anders dan dat het tig jaar terug was toen Intel hun CPUs nog labelde met puur de kloksnelheid. Intel verkocht een "Celeron 2.00GHz" en AMD had daar een "Sempron 2000+" tegenover staan die geklokt was op 1.4GHz maar in de regel gelijke performance had.

Dat was ook een heel drama totdat er bij de techcommunity het kwartje viel dat AMD gelijk had en dat GHz tussen twee verschillende architecturen eigenlijk niet te vergelijken waren.

Nu is het Intel die af wil van het imago dat hun chips verouderd en slecht zouden zijn vanwege de "14nm++++++++" node waar AMD pronkt met 7nm. Ondanks dat er delen van een 11e generatie Intel zijn die gewoon echt kleiner zijn dat diezelfde delen van een AMD Ryzen. Of wat te denken van IBM die loopt te roeptoeteren over hun "2nm" proces, alsof dat 7x beter is dan het "14nm" proces van Intel.

Dus ja ik kan me goed voorstellen dat Intel van dat imago af wil en daarom nu met een soort "Athlon XP Performance Rating" voor hun productieproces komt. Aan het eind van de rit is de enige vergelijking die er echt toe doet alleen uit te drukken in MIPS/MFLOPS en Watts. En dan nog niet eens in Watts TDP, maar in 'echte' Watts uit het stopcontact.
Deze herfst gaan we de grootste doorbraak in de x86-architectuur van dit decennium meemaken. Dat stelt althans Intel bij monde van voormalig hoofdarchitect Raja Koduri.
Jammer dat Tweakers dit zo klakkeloos overneemt. Intel heeft gewoon de vooruitgang afgeremd toen er nauwelijks concurrentie voor ze was. Nu AMD weer goed concureert (en hun aandelenprijs razendsnel omhoog gaat) versnellen ze de vooruitgang. Wel echt bi-zar wat AMD heeft neergezet. In April was de top 20 passmark scores zelfs allemaal AMD. :D Je kwam pas de Xeon tegen op plek 21. Ondertussen staan er ook weer een paar Xeons in de top 20. :)
[...]
Jammer dat Tweakers dit zo klakkeloos overneemt.
Tweakers rapporteert letterlijk wat die hoofdarchitect zegt en vermeldt dat als zodanig, dat is was Tweakers als tech nieuws site behoort te doen.
NEE! Tweakers hoort kritisch te zijn. Intel heeft jarenlang incrementele verbeteringen doorgevoerd en nu AMD weer goed concurreert is de vooruitgang van hun technologie weer signifacanter. Dat is de crux. Dat iemand van Intel iets anders beweert doet daar niet aan af. :)
NEE! Tweakers hoort kritisch te zijn.
Waar zou de kritiek dan uit moeten bestaan? Opmerkingen zoals "dat zullen we nog wel eens zien"? In het artikel wordt die uitspraak ten minste nog gekwalificeerd met "althans". Hoe kritisch moet je zijn mbt iets wat nog niet bestaat?
Dat is de crux.
De crux hier is een aankondiging van Intel's volgende generatie CPU's. Of dat gaat presteren zoals beloofd weet nog niemand.
Zonder de concurrentiestrijd met AMD er bij te betrekken, kan dit toch een belangrijke stap zijn in de x86 architectuur. De overgang naar een hybride architectuur met zowel snelle als zuinige cores. Benieuwd hoe deze strategie uitdraait. Let ook de formulering 'x86', want Apple gebruikt ook een hybride structuur voor de M1, maar dan in combinatie met een op ARM-gebaseerde architectuur.
Een atom core integreren in normale cpu's kan ik niet echt vooruitgang noemen. Een volwaardige core met het verbruik van een atom zou pas echt vooruitgang zijn.

[Reactie gewijzigd door jbhc op 19 augustus 2021 17:32]

Dat hebben ze nu toch, verschillende instructies zou het alleen maar complexer maken staat in het artikel
Het is meer dat full core als je er te veel van hebt gewoon power sink zijn. En het kachel maakt. Met light cores kan intel mogelijk wel concurreren per hardware thread met AMD omdat AMD full cores stuk zuiniger zijn en dus kwa TDP budget meer cores kan bieden dan intel.
probleem is dat full cores SMT zijn en dus 2 threads slikken.
Non SMT cores als de code mix juist genoeg ruimte heeft om 2de tread te kunnen verwerken mis je die onbenutte idle time.
Dus kan zijn dat de win van 32thread intel vs AMD zeer programma afhankelijk is.
aandeel 10% hoger tov de high van augustus een jaar geleden.
klinkt meer als razendsnel op en neer ipv omhoog
De termijn die je hanteert is hier te kort. Waar ik op doel is dat de prijs van AMD aandelen recent van $2 naar $100 is gegaan. Dat is een factor 50. :D
Recent, over 5 jaar, wat dan niks is tegenover Tesla vorig jaar, of memestocks dit jaar.

Als je op de rand van bankroet staat en je een top product kan neerzetten en blijven ontwikkelen over 5 jaar lijkt me dat logisch dat je aandelen omhoog gaan.

[Reactie gewijzigd door Fantasma op 19 augustus 2021 16:07]

Nou en? Ik heb toch ook niet beweerd dat AMD aandelen dit jaar de snelste stijger waren? 8)7
Hebben gewoon een andere definitie voor 'recent'.
Gezien het AMD aandeel al tientallen jaren bestaat, ja dit is zeker recent.
Ik heb vorig jaar maar liefst 100% winst gemaakt op het aandeel AMD. Toen zijn ze fors gestegen.
Dus je hebt verkocht ?
Zeker. Het aandeel AMD is momenteel bijzonder overgewaardeerd, en ze moeten behoorlijk wat doen om dat waar te maken. Ik zie ze nog niet zo snel Nvidia voorbij gaan, en de kans bestaat dat Intel ze ook weer inhaalt.
Zie het heel graag gebeuren dat Intel weer flink rapper is. Op dit moment wacht ik het nog even af echter, het huidige stroomverbruik loopt de spuigaten uit.

AMD heeft wel laten zien dat je een rechtsomkeer kan maken. Veel succes Intel.
Hoezo zie je dat zo graag gebeuren als ik vragen mag?

Ik gun het AMD wel een tijdje eigenlijk, ze kunnen het nog steeds goed gebruiken volgens mij. Mochten ze nu alweer achter gaan liggen dan houdt het denk ik ook een keertje op voor AMD en dat moeten we ook niet willen lijkt mij.
Ik denk dat hij gewoon baalt van het stroomverbruik van zijn intelprocessors. En als je al intelmoederborden hebt kun je daar niet zo maar een AMD in zetten.

[Reactie gewijzigd door Nomisma op 19 augustus 2021 17:22]

Gelukkig kan je dat stroomverbruik al flink indammen door een moederbord te gebruiken dat zich aan de Intel specificaties houd (of je moederbord zo instellen dat deze de Intel specificatie volgt). De meeste DiY moederborden zijn namelijk zo ingesteld dat ze de Intel specificatie voor PL2 en Tau negeren, waardoor je inderdaad tegen enorm hoog verbruik aan kan lopen, ook bij langdurige workloads.

Uiteraard kost het volgen van de Intel spec je wel wat performance in bepaalde workloads (vooral workloads waarbij je cpu langere tijd op 100% draait, iets wat bij het gros van de consumenten weinig tot nooit gebeurt), maar over het algemeen valt dat redelijk mee, zie bijvoorbeeld de Gamers Nexus reviews die testen volgens de 'Intel Spec' en hebben daarbij ook altijd Non-Intel spec / OC resultaten waardoor je het verschil tussen stock en Non-Intel spec / OC goed kan zien.

[Reactie gewijzigd door Dennism op 19 augustus 2021 18:34]

Maar ook geen andere Intel ;) want ander socket, als je je moederbord vervangt kan je net zo goed naar AMD gaan }>

Op dit item kan niet meer gereageerd worden.

Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee