Hoe werkt de Windows 11-scheduler met Big.Little-cpu's?

Inleiding

Aan het begin van dit jaar was Big.Little nog iets voor smartphones, hooguit tablets. Intel bracht dit principe met Alder Lake naar desktops en laptops, terwijl AMD aan een compactere, zuinigere variant van zijn Zen 4-core werkt. Opeens lijken processors met verschillende soorten cores ook voor de x86-wereld de toekomst. De scheduler van Windows 11 zou zijn geoptimaliseerd om met deze hybride processors te werken. Wat is de theorie daarachter en, belangrijker, hoe werkt die combinatie van verschillende soorten cores in de praktijk?

Hoewel 'Big.Little' de term is waaronder het principe van een processor met verschillende soorten cores bekendstaat en ook de term is waarvoor we in dit artikel kiezen, heeft Arm zijn eigen techniek inmiddels officieel hernoemd naar 'DynamIQ'. Op papier is Intels Performance Hybrid Architecture redelijk vergelijkbaar met Arm's concept. De doelen waarmee ze zijn ontwikkeld, zijn dan ook identiek: maximale energie-efficiëntie en prestaties binnen de limieten op het vlak van warmteproductie en energiegebruik. In de praktijk ligt de nadruk bij Arm-chips meer op zuinigheid en bij x86-processors meer op het maximaal benutten van de beschikbare stroom- en warmteruimte, maar dat komt eerder door het type apparaten waarin beide soorten cpu's vooral worden toegepast dan door een verschil in de technische aanpak.

Om te beginnen duiken we in dit artikel in de theorie achter schedulers die geschikt zijn voor hybride processors, waarbij niet alleen de software, maar ook de hardware steeds meer een rol speelt. Daarnaast analyseren we het gedrag van x86- en Arm-processors onder Windows 11 in allerlei verschillende workloads, met speciale aandacht voor welk type cores voor welke workloads aan het werk worden gezet.

De theorie achter hybride scheduling

Een universele keuze voor het aansturen van hybride processors is dat softwareontwikkelaars niet verantwoordelijk worden gemaakt voor het verdelen van de taken. Bij zowel x86- als Arm-processors geldt dat de scheduling een samenspel is van hardware en OS. De uiteindelijke programma's zien slechts hoeveel logische rekenkernen aanwezig zijn en hebben niet of nauwelijks invloed op welke threads aan welke cores worden toebedeeld. Zo wordt voorkomen dat er in de toekomst softwareproblemen ontstaan, als bijvoorbeeld de verhoudingen tussen zuinige en snelle cores veranderen ten opzichte van de processors die er nu zijn.

Een ander uitgangspunt is dat de microarchitectuur weliswaar kan verschillen tussen snelle en zuinige cores, maar dat de instruction set architecture van alle typen cores gelijk is. Elke core kan dus elke ondersteunde instructie uitvoeren; het verschil zit 'm puur in de snelheid en efficiëntie waarmee dat gebeurt. Arm-cores gebruiken hiertoe dezelfde ISA-versie, bijvoorbeeld ARMv8-A. Intel heeft om dit mogelijk te maken diverse, eerder ontbrekende instructies toegevoegd aan zijn zuinige Gracemont-cores en AVX512 juist uitgeschakeld bij de snelle Golden Cove-cores.

Scheduling op basis van energiegebruik en prestaties

Aangezien elke core elke instructie kan uitvoeren, kan de taakverdeling volledig op basis van de kenmerken van de huidige workloads worden gemaakt. Zowel Arm als Intel monitort hiervoor continu hoe een proces zich gedraagt, bijvoorbeeld de belasting, de instructiemix en karakteristieken van het stroomverbruik. Ook gedeelde cachetoegang, zoals Intels Gracemont-cores die per vier stuks een brok L2-cache delen, kan daarbij een factor zijn.

Simpel gezegd - we gaan zo verder de diepte in - trekt de hardwarescheduler een lijn waarboven een thread aanspraak kan maken op een plekje in een snelle core. In feite zijn er twee lijnen, eentje voor promotie en eentje voor degradatie, omdat er hysterese wordt toegepast. Dit voorkomt dat een proces dat op het randje van deze lijn balanceert, continu wordt verplaatst tussen twee coretypen.

Intel focuste bij de aankondiging van Alder Lake vooral op scheduling aan de hand van het instructietype, maar dat is slechts een deel van het verhaal. Meer concrete informatie over hoe de hardwarescheduler werkt, verscheen eerder dit jaar in een door Intel gedeponeerd octrooi, met de titel: System, apparatus and method for providing hardware state feedback to an operating system in a heterogeneous processor.

In dat patent wordt een voorbeeld gegeven van de methode die Intel gebruikt om een thread toe te wijzen aan een bepaald type core. Daarvoor volgt een thread een proces dat bestaat uit vier stappen. Als het antwoord op alle vier die stappen positief is, wordt een thread toegewezen aan een snelle core.

Stroomdiagram van thread scheduling

Bepalen van het gevraagde prestatieniveau
Het gevraagde prestatieniveau wordt bepaald op basis van de verwachte tijd die een proces gaat duren, of dat proces op de voor- of achtergrond werkt, hoe latencygevoelig het proces is en wat de ingestelde prioriteit is. Al deze informatie is afkomstig van het OS.
Bepalen van threaddominantie
In de volgende stap wordt bekeken in hoeverre een thread profiteert van hoge singlethreaded prestaties. Een proces kan bijvoorbeeld een veelvoud van cores belasten, de dominante thread zijn in een beperkte verzameling of zelfs volledig beperkt zijn tot één core.
Bepalen van energie- of warmtebeperkingen
Als de processor op dit moment al met beperkingen op het gebied van stroomverbruik of warmteproductie te maken heeft, wordt sneller de voorkeur gegeven aan een zuiniger type cores.
Bepalen van schaalbaarheid
De laatste factor is de schaalbaarheid van de thread. Daarbij gaat het niet om schaling naar meer threads, maar om schaling bij het beschikbaar stellen van meer vermogen en daarmee rekenkracht. De belangrijkste informatiebron is het hardwarematige feedbackcircuit over hoe een thread de verschillende onderdelen van een core belast. Als de flessenhals zich bijvoorbeeld bevindt bij een bepaald type rekeneenheden die aanmerkelijk krachtiger zijn bij de snelle cores, dan kan dat meewegen in de beslissing om de thread te 'promoveren'.

Bij het bepalen van die schaalbaarheid heeft de processor ook informatie over de prestaties-energiegebruikcurve en spanning-klokfrequentiecurve van beide coretypes tot zijn beschikking. Niet alleen de softwarethread moet immers kunnen schalen, de hardware moet dat zelf ook kunnen. De verhouding tussen prestaties en het benodigde vermogen kan worden samengevoegd in een lijn: een zogenaamde S-curve. Het middelpunt is in theorie het ideale schakelpunt tussen zuinige en snelle cores, maar bij een goed schalende workload kan dat al eerder gebeuren, terwijl een slecht schalende workload juist langer op de zuinige cores blijft.

Hardwarematig feedbackcircuit

Dat hardwarematige feedbackcircuit, 'Thread Director' in Intels marketinguitingen, is wat de scheduling van hybride processors een stuk geavanceerder maakt dan de mogelijkheden die de softwareschedulers van bijvoorbeeld Windows en Linux tot nu toe tot hun beschikking hadden. Er is nu sprake van tweerichtingscommunicatie, doordat de software niet alleen informatie geeft over het type thread, maar ook feedback krijgt van de processor zelf over hoe die thread in de praktijk draait.

Deze feedback is afkomstig van de vermogenscontroller in de processor, die het verbruik van elke core monitort, en wordt weggeschreven naar een deel van het systeemgeheugen. Het hele proces wordt met een vaste interval doorlopen - volgens Intel kan dat iedere nanoseconde - maar het besturingssysteem leest niet elke keer alle informatie uit. Als er een significante wijziging heeft plaatsgevonden ten opzichte van de voorgaande feedbackloop, wordt een waarde aangepast zodat het OS weet dat er nieuwe informatie is. Pas dan wordt de volledige feedback uitgelezen, om deze bit daarna terug te flippen. Als dat is gebeurd, wordt het feedbackproces hervat. In theorie kan het OS de frequentie van de feedback hiermee ook beïnvloeden, simpelweg door even te wachten met het terugzetten van de bit.

Dat een processor over deze mogelijkheid beschikt, wordt aangegeven via het Cpuid-register. Het besturingssysteem leest dat uit bij het starten en onderneemt dan de vereiste stappen om het feedbackmechanisme te laten werken, zoals het alloceren van een geheugenadres.

Hardware feedback control circuit

Testmethoden

In dit artikel willen we inzicht bieden in de werking van de Windows 11-scheduler in de praktijk. De benchmarks die we daarvoor hebben ingezet, komen je waarschijnlijk bekend voor, want ze zijn voor een groot deel afkomstig uit onze testsuite voor processors. Dit keer gebruiken we ze echter niet om de prestaties te meten, maar hebben we op de achtergrond continu de belasting per core gelogd. Zo komen we erachter hoe de scheduler bij hybride processors omgaat met een keur aan workloads.

Microsoft Surface Pro X SQ2 Platina — Microsoft Surface Pro X met SQ2-processor

Windows 11 werkt niet alleen op traditionele x86-processors, maar er is ook een ARM64-versie van. Een deel van de programma's hebben we daarom ook op een Microsoft Surface Pro X gedraaid, met een door Qualcomm geproduceerde Arm-chip aan boord. Software die niet (goed) werkt op de Arm-versie van Windows of die het gebruiksdoel van deze zuinige Arm-soc ver voorbijschiet, hebben we alleen op de Intel-chip geanalyseerd.

De meeste tests hebben we uitgevoerd op een Intel Core i7 12700K-processor, een Alder Lake-cpu met acht 'snelle' Golden Cove-cores en vier 'zuinige' Gracemont-cores. Er is ook nog een i9-versie met acht zuinige cores, maar die was op het moment van testen in gebruik voor onze moederbordreviews. De rest van het systeem was identiek aan onze standaard cpu-testbench, met een ASUS ROG Maximus Z690 Hero-moederbord, 32GB G.Skill Trident Z5 DDR5-4800-geheugen en een Samsung 970 EVO 1TB-ssd. Voor de tests in games hebben we daar een AMD Radeon RX 6900 XT aan toegevoegd.

Voor de Arm-tests gebruikten we zoals gezegd de nieuwste Microsoft Surface Pro X, uitgerust met een SQ2-soc. Deze processor is geproduceerd op TSMC's 7nm-procedé en naaste familie van de Snapdragon 855-processor voor smartphones, al is hij aanmerkelijk hoger geklokt. In totaal heeft de chip acht cores: vier zuinige Kryo 495 Silver-cores op 2,42GHz en vier snelle Kryo 495 Gold-cores op 3,15GHz. De Gold-cores zijn gebaseerd op de Cortex-A76-kernen van Arm zelf, de Silver-cores kennen hun oorsprong in de Cortex-A55. Onze uitvoering van de Surface Pro X was voorzien van 16GB werkgeheugen en een 256GB-ssd.

Het loggen van de belasting per core hebben we uitgevoerd met HWMonitor Pro, dat als een van de weinige diagnoseprogramma's ook overweg kon met de Arm-processor. De actuele stand van zaken wordt twee keer per seconde weggeschreven. De snelle en zuinige cores hebben een vaste volgorde; bij de Arm-chip zijn thread 0 tot en met 3 de Silver-cores en 4 tot en met 7 de Gold-cores, bij de Intel-cpu zijn thread 0 tot en met 15 de P-cores (met hyperthreading) en 16 tot en met 19 de E-cores. Zo zie je ze dus ook terug in taskmanager. In de grafieken herken je de snelle cores altijd aan de kleur goud en de zuinige cores aan de kleur zilver, zodat je in een oogopslag weet met wat voor cores je te maken hebt.

Waar komt elk deel van de prestaties vandaan?

Voordat we het gedrag van de processors in diverse programma's gaan bekijken, beginnen we onze praktijkervaringen met de vraag waar elk deel van de prestaties van de processors vandaan komt. Links in rood zie je de scores van beide processors in Cinebench 23 MT, rechts zie je de scores die we halen als we die test door middel van core-affinity uitsluitend op een bepaald type cores laten draaien. De zilveren balkjes horen bij de zuinige cores, de gouden balkjes bij de snelle cores. Die kleurcodering houden we in dit hele artikel aan.

Hoewel de prestatieniveaus van de Microsoft SQ2 en de Intel Core i7 12700K natuurlijk totaal verschillen, gaan de meeste constateringen voor beide processors op. Zo zijn de losse scores van de snelle en zuinige cores in beide gevallen hoger dan de totaalscores wanneer we alle cores benutten. Overige achtergrondtaken kunnen bij een gedeeltelijke belasting immers op de onbelaste cores draaien, zodat ze niet een klein beetje van de Cinebench-prestaties afsnoepen.

Ook de relatieve bijdrage van beide soorten cores aan de totale score is redelijk vergelijkbaar. Bij de SQ2 komt 14,6 procent van de prestaties uit de zuinige cores en 85,4 procent uit de snelle cores. Bij de 12700K hebben de zuinige cores met 16,5 procent een marginaal groter aandeel. Nu bestaat er natuurlijk ook nog een Core i9 12900K met acht in plaats van vier zuinige cores, maar evenveel snelle cores. Als we er voor het gemak even van uitgaan dat het prestatieniveau van de zuinige cores daarmee verdubbelt, stijgt hun bijdrage aan de totaalscore dan naar 28,3 procent.

Wat we hieruit natuurlijk ook kunnen afleiden, is dat de zuinige Intel-cores relatief gezien een stuk sneller zijn dan de zuinige Arm-cores. Bij de SQ2-soc zijn er immers vier zuinige en vier snelle cores; 50 procent van de cores levert daar dus amper 15 procent van de prestaties. Bij de 12700K leveren vier van de twaalf cores, dus 33 procent van de cores, ongeveer diezelfde 15 procent.

Analyse: Arm- versus x86-cpu

In het eerste deel van onze analyse richten we ons op programma's die ook (goed) werken op de SQ2-soc. Op deze pagina vind je Adobe Photoshop, de Jetstream-benchmark in de Edge-browser, een programmastarttest en de renderbenchmark van CoronaRender. De eerste drie programma's draaien native op de Arm-chip, CoronaRender is een x86-programma en wordt dus geëmuleerd.

Adobe Photoshop

We trappen af met Photoshop, waarvan zoals gezegd een native Arm-versie beschikbaar is. Onze benchmark bestaat uit het uitvoeren van diverse effecten, zoals vervagingen, verscherpingen, het wijzigen van het formaat en artistieke filters.

SQ2 - Belasting per type core
SQ2 - Aantal cores per type

Op de SQ2-chip zie je heel duidelijk de verschillen tussen de diverse bewerkingen die we uitvoeren. De vervagingen aan het begin weten vrijwel alle cores goed te belasten, maar daarna komen er diverse effecten bij die slechts een, twee of drie snelle cores bezighouden en de zuinige cores helemaal met rust laten. Aan het einde wordt er wel weer beter gemultithread; in elk geval de snelle cores worden dan volledig aan het werk gezet.

12700K - Belasting per type core
12700K - Aantal cores per type

Dezelfde test weet op de x86-processor veel consistenter alle beschikbare cores te gebruiken, waarbij opvalt dat er nauwelijks verschil is tussen hoe de snelle en hoe de zuinige cores worden ingezet. Alleen naar het einde toe worden er minder snelle cores en nauwelijks nog zuinige cores gebruikt.

CoronaRender

Zoals de naam al zegt, is CoronaRender een renderbenchmark, die doorgaans erg goed schaalt naar veel cores en threads.

SQ2 - Belasting per type core
SQ2 - Aantal cores per type

Op de SQ2 weet CoronaRender alle cores continu volledig te belasten.

12700K - Belasting per type core
12700K - Aantal cores per type

Ook op de 12700K is dat het geval; alle vier de zuinige cores en de zestien threads van de snelle cores worden continu volledig gebruikt. Deze test maakt overigens ook het snelheidsverschil tussen beide processors mooi inzichtelijk. Op de SQ2 duurt de benchmark ruim 12 minuten, op de 12700K is het rekenwerk al na 46 seconden voltooid.

Jetstream / Edge

Normaal gesproken draaien we de Jetstream-benchmark, die vooral JavaScript- en WebAssembly-tests bevat, in Chrome. Alleen van Edge is echter een native Arm-versie beschikbaar, dus hebben we de test dit keer in Microsofts Chromium-uitwerking gedaan.

SQ2 - Belasting per type core
SQ2 - Aantal cores per type

Op de Arm-chip worden vrijwel alleen de snelle cores aan het werk gezet tijdens Jetstream, met uitzondering van een kleine deeltest die alle threads belast. Een groot deel van de tijd wordt er zelfs maar één snelle core voor meer dan de helft gebruikt.

12700K - Belasting per type core
12700K - Aantal cores per type

Door het grote aantal cores van de 12700K stelt het gebruik van de volledige cpu weinig voor. De zuinige cores blijven zelfs bijna volledig idle, terwijl een snelle core het grootste deel van de taken op zich neemt. De deeltest die wel kan multithreaden, zien we ook hier duidelijk terug, maar gemiddeld worden de cores ook dan maar voor rond de 70 procent belast.

Programma's starten

Voor dit artikel hebben we een extra test uitgevoerd waarin we diverse programma's achter elkaar starten. Daarvoor hebben we alleen software uitgekozen waarvan ook een native Arm-versie beschikbaar is, zodat we een appels-met-appelsvergelijking kunnen maken tussen de SQ2 en de 12700K. Die programma's zijn, in volgorde: Edge, Windows Verkenner, Excel, Cinebench 23 en Adobe Photoshop.

SQ2 - Belasting per type core
SQ2 - Aantal cores per type

Edge en Verkenner staan op de Surface Pro X binnen een mum van tijd op het scherm. Excel starten duurt iets langer; alle cores worden daarvoor aan het werk gezet. Cinebench en Photoshop hebben meer tijd nodig, waarbij die eerste alleen op de snelle cores leunt. Bij het starten van Photoshop worden zo nu en dan ook de zuinige cores betrokken.

12700K - Belasting per type core
12700K - Aantal cores per type

Het starten van software doet de 12700K in vergelijking met de SQ2 natuurlijk met twee vingers in zijn neus. De belasting van de snelle cores, die het merendeel van het werk voor hun rekening nemen, komt in totaal nooit boven de 20 procent uit. Alleen Photoshop belast tijdens het starten een tweetal snelle cores voor meer dan de helft.

Analyse x86: compileren, compressie en cryptografie

De applicaties op deze en de volgende pagina's werken niet op de Arm-processor of gaan volgens ons verder dan de gebruiksdoelen waar de SQ2-soc in de Surface Pro X voor is bedoeld. Daarom bekijken we hier alleen het gedrag van de Core i7 12700K-processor.

MozillaBuild compileren

MozillaBuild is een pakket dat alle tools bevat die je nodig hebt om zelf de Firefox-browser te compileren, met behulp van Visual C++.

12700K - Belasting per type core
12700K - Aantal cores per type

Het compileren van Mozilla Firefox bestaat uit diverse taken, waarvan de meeste prima schalen naar een veelvoud aan cores. Aan het begin, op ongeveer twee derde en aan het einde worden echter ook processen uitgevoerd die alleen op een klein aantal snelle cores draaien.

7-Zip

We gebruiken 7-Zip om 4GB aan data in te pakken. We kiezen voor inpakken omdat dat grotendeels afhankelijk is van de processor, terwijl de bottleneck bij het uitpakken vrijwel altijd bij de opslag ligt.

12700K - Belasting per type core
12700K - Aantal cores per type

7-Zip is een schoolvoorbeeld van een volledige multithreaded workload; zowel de snelle als de zuinige cores worden volledig gebruikt gedurende het hele proces.

AIDA64

We draaien de AIDA64-benchmarksuite integraal. Daarin komen diverse soorten computeworkloads en encryptiemethoden voor. Waar mogelijk worden instructiesetuitbreidingen als SSE en AVX ingezet. Verder meet dit programma hoe snel SHA-3-hashes kunnen worden berekend.

12700K - Belasting per type core
12700K - Aantal cores per type

De verschillende algoritmen die deel uitmaken van AIDA64, blijken uitstekend in staat om alle cores, de snelle en de zuinige, volledig te benutten.

Analyse x86: video-encoding en -bewerking

Op deze pagina analyseren we de scheduling in programma's die te maken hebben met videobewerking.

Adobe Premiere Pro

In Adobe Premiere Pro renderen we een echt project van een Tweakers Tech Hub-aflevering. We exporteren de video in 4k-resolutie.

12700K - Belasting per type core
12700K - Aantal cores per type

Premiere Pro kan aardig schalen, maar de zestien threads van de snelle cores worden niet consistent volledig belast. Zeker in het begin zitten er wat dips in de grafiek van het aantal cores dat voor minstens de helft in gebruik is. De zuinige cores rekenen ook een beetje mee, maar worden duidelijk minder zwaar belast dan de snelle cores.

X264-encoding

Met behulp van de x264-codec converteren we een mp4-video met 1080p-resolutie en een framerate van 60fps.

12700K - Belasting per type core
12700K - Aantal cores per type

De x264-codec kan in theorie veel cores belasten, maar in de praktijk verloopt de belasting wat grillig. Opvallend is dat de zuinige cores minder snel en significant dippen dan de snelle cores. Omwille van de efficiëntie lijkt de scheduler de zuinige cores dus voorrang te geven.

X265-encoding

We zetten het videobestand nog eens om, maar nu doen we dat met de nieuwere x265-codec.

12700K - Belasting per type core
12700K - Aantal cores per type

X265 heeft nog wat meer moeite om alle cores continu te benutten dan x264. Ook hier zien we echter weer dat de saturatie van de zuinige cores gemiddeld wat hoger is en bovendien beter op peil blijft.

Analyse x86: games

Tot slot hebben we ook het cpu-gebruik van twee games in kaart gebracht. Games hebben doorgaans een typisch gebruikspatroon, dat zeker niet naar heel veel cores schaalt en afhankelijk is van een dominante thread: de renderthread. In zijn handleiding voor gameontwikkelaars adviseert Intel dan ook om die vooral op een van de snelle cores te laten draaien, terwijl asynchrone, niet-kritieke berekeningen zoals AI, animatie, physics en geluidseffecten prima op de zuinige cores kunnen draaien.

F1 2021

In F1 2021 rijden we tweemaal een rondje op het circuit van Zandvoort, in zowel voor de rijders als voor je hardware uitdagende, regenachtige omstandigheden. De eerste keer doen we dat op Medium-settings, de tweede keer met Ultra-settings.

12700K - Belasting per type core
12700K - Aantal cores per type

Het laden van de spelwereld neemt kort alle cores in beslag, inclusief de zuinige, maar in het verdere verloop spelen de zuinige cores amper nog een rol. Tijdens het gamen worden zelfs lang niet alle threads van de snelle cores benut. In het eerste rondje op Medium-settings zijn dat er nog regelmatig acht, waarbij nadere inspectie van de data ons leert dat er steeds keurig een thread wordt overgeslagen om alleen de fysieke (en niet de virtuele, hyperthreaded) cores te gebruiken.

In het tweede rondje op Ultra-settings wisselt dat tussen de twee en zeven threads. Op Ultra-settings verschuift de bottleneck immers (nog) meer richting de videokaart.

Metro Exodus

Metro Exodus heeft een ingebouwde benchmark, die we voor deze test hebben gebruikt.

12700K - Belasting per type core
12700K - Aantal cores per type

Ook in Metro Exodus zien we dat het laden de cpu flink belast, de zuinige cores zelfs nog iets meer dan de snelle. Tijdens de rest van de benchmark spelen de zuinige cores een stabiele, maar beperkte rol. Tussen de twee en zes threads behorende bij de snelle cores worden voor meer dan de helft benut.

Conclusie

Het was maar goed dat Intels previewsessie over Alder Lake deze zomer uitsluitend uit slides en spraak bestond. Menige doorgewinterde hardwarejournalist kon een lichte grijns namelijk niet onderdrukken toen de processorfabrikant vertelde dat de scheduler in Windows 11 volledig zou worden geoptimaliseerd voor hybride processors, oftewel cpu's met verschillende soorten cores in een package.

Dergelijke beloften worden eigenlijk al sinds het begin van multicoreprocessors gedaan. Bovendien bleek het toepassen van hyperthreading/smt of het 'snelste core'-principe in de voorbije jaren steevast een garantie voor schedulerheisa. Tot op de dag van vandaag wordt menige game ietsje sneller als je hyperthreading uitzet en draait een singlethreaded workload soms nukkig op een core die volgens de steraanduiding niet de snelste is. Kortom, goede scheduling is makkelijker gezegd dan gedaan.

Goede scheduling was cruciaal voor Alder Lake

Nu ligt normaal gesproken niemand wakker van enkele procenten verlies door suboptimale scheduling, maar voor Alder Lake was goede scheduling opeens cruciaal. De bijna oneindige verzameling Windows-software was natuurlijk niet geschreven met hybride cpu's in het achterhoofd en het is niet moeilijk om de rampscenario's te bedenken waartoe dat had kunnen leiden: zware programma's die vastzaten op de langzame, zuinige cores en virusscanners die nodeloos een onzuinige snelle core wakker hielden.

Die rampscenario's hebben zich niet of nauwelijks voorgedaan; een bokkend drm-systeem van oude games bleek in de praktijk het grootste probleem. Dat is niet alleen te danken aan de naar eigen zeggen vroegtijdige en innige samenwerking tussen Intel en Microsoft, maar ook aan het hardwarematige feedbackmechanisme in Alder Lake. De processor geeft aan de hand van allerlei factoren advies aan het OS over op welke core een thread het beste kan draaien. Wat met 'beste' wordt bedoeld, kan bovendien weer worden aangepast aan de actuele omstandigheden. Je zou kunnen zeggen dat de scheduler er met deze toevoeging een aantal zintuigen heeft bijgekregen.

Belangrijkste conclusies uit de analyse

Het is lastig om harde conclusies te trekken over hoe anders Windows 11 omgaat met de Big.Little-structuur van Arm-processors, omdat de SQ2-chip al snel een factor tien langzamer is dan de geteste x86-processor. Dat feit alleen kan natuurlijk al tot ander schedulinggedrag leiden, maar vooral op basis van de Photoshop-test lijkt de scheduling bij de Arm-soc wat meer te sturen naar de snelle cores dan bij de Intel-processor het geval is. Dat lijkt logisch, want het prestatieverschil tussen de snelle en zuinige cores is bij de SQ2-soc een stuk groter dan bij de Intel-processors.

De scheduling van de x86-processor hebben we veel uitgebreider kunnen analyseren. Het simpelst te duiden is het gedrag in taken die goed schalen naar heel veel threads. Die belasten doorgaans gewoon alle cores, van welk type ze ook zijn. Voorbeelden zijn CoronaRender, 7-Zip en AIDA64. Taken die juist primair singlethreaded zijn, zoals het starten van de meeste software en de Jetstream-browsertest, worden consistent aan een of hooguit enkele snelle cores toebedeeld.

Echt interessant wordt het pas bij taken die daar ergens tussenin zitten, of uit subtaken bestaan die afwisselend wel of niet goed multithreaden. Dat zien we bijvoorbeeld terug bij het compileren van software en videorendering. De scheduler lijkt daar echt andere keuzes te maken op basis van de hardwarefeedback; tijdens het compileren worden de zuinige cores al snel afgeschakeld zodra er geen werk voor ze is, maar tijdens het coderen van video met de x264- en x265-codecs lijken ze juist de voorkeur te krijgen boven de snelle cores als niet alle cores volledig kunnen worden gesatureerd. Games gebruiken de zuinige cores om bepaalde niet-kritieke taken uit te voeren en om de laadtijd te versnellen, maar het belangrijkste, latencygevoelige werk wordt uiteraard op de snelle cores uitgevoerd.

Vooruitblik

Scheduling kreeg lange tijd niet de aandacht die het verdiende, terwijl het in een wereld met steeds meer cores en threads een almaar belangrijkere functie kreeg. Alder Lake lijkt een breekpunt te zijn geweest, want de vernieuwde scheduler in Windows 11 met ondersteuning voor feedback vanuit de hardware lijkt zijn werk heel aardig te doen. Bovendien bleven grote compatibiliteitsproblemen rond de release uit. Als er vooraf te lichtzinnig over deze fundamentele wijziging in de opbouw van processors was gedacht, was dat ongetwijfeld heel anders verlopen.

Intussen lijkt de complete markt het erover eens te zijn geworden dat hybride processors de toekomst hebben. Op Intels roadmap voor de komende jaren zijn geen consumentenchips zonder Big.Little te vinden en ook de komst van een compacte variant van AMD's Zen-core kan, hoewel officieel alleen nog aangekondigd voor servers, moeilijk los van deze trend worden gezien.

Met die informatie is het in elk geval goed om te weten dat de software er klaar voor is. Om de comments van onze trouwe schare Linux-gebruikers voor te blijven; soortgelijke optimalisaties voor dat OS zijn er inderdaad nog niet. Vooralsnog lijkt Intel daar zelfs meer stuk te maken dan te verbeteren. Uit technisch opzicht zal het echter geen zware kluif zijn. Arm-processors met een Big.Little-opbouw werken immers al bijna een decennium vlekkeloos onder Linux, dus als Intel dat wil, kan het dat ook.

Inhoudsopgave

1. Inleiding
2. De theorie achter hybride scheduling
3. Testmethoden
4. Waar komt elk deel van de prestaties vandaan?
5. Analyse: Arm- versus x86-cpu

6. Analyse x86: compileren, compressie en cryptografie
7. Analyse x86: video-encoding en -bewerking
8. Analyse x86: games
9. Conclusie
30Reacties

Multipage-opmaak

Big.Little en de Windows 11-scheduler

Inleiding

De theorie achter hybride scheduling

Scheduling op basis van energiegebruik en prestaties

Hardwarematig feedbackcircuit

Testmethoden

Waar komt elk deel van de prestaties vandaan?

Analyse: Arm- versus x86-cpu

Adobe Photoshop

CoronaRender

Jetstream / Edge

Programma's starten

Analyse x86: compileren, compressie en cryptografie

MozillaBuild compileren

7-Zip

AIDA64

Analyse x86: video-encoding en -bewerking

Adobe Premiere Pro

X264-encoding

X265-encoding

Analyse x86: games

F1 2021

Metro Exodus

Conclusie

Goede scheduling was cruciaal voor Alder Lake

Belangrijkste conclusies uit de analyse

Vooruitblik

Inhoudsopgave

Lees meer

AMD Zen 4c en Intel E-core

De nieuwe cpu's en gpu's van Arm

Processor Best Buy Guide

Intel 12th Gen 'Alder Lake' Review

Arm's next-gen cpu- en gpu-cores

Reacties (30)

Inleiding

De theorie achter hybride scheduling

Scheduling op basis van energiegebruik en prestaties

Hardwarematig feedbackcircuit

Testmethoden

Waar komt elk deel van de prestaties vandaan?

Analyse: Arm- versus x86-cpu

Adobe Photoshop

CoronaRender

Jetstream / Edge

Programma's starten

Analyse x86: compileren, compressie en cryptografie

MozillaBuild compileren

7-Zip

AIDA64

Analyse x86: video-encoding en -bewerking

Adobe Premiere Pro

X264-encoding

X265-encoding

Analyse x86: games

F1 2021

Metro Exodus

Conclusie

Goede scheduling was cruciaal voor Alder Lake

Belangrijkste conclusies uit de analyse

Vooruitblik

Inhoudsopgave

Lees meer

AMD Zen 4c en Intel E-core

De nieuwe cpu's en gpu's van Arm

Processor Best Buy Guide

Intel 12th Gen 'Alder Lake' Review

Arm's next-gen cpu- en gpu-cores

Reacties (30)

Sorteer op:

Weergave: