Door Willem de Moor

Redacteur

Arms nieuwe mobiele platform

Meer cores, meer rekenkracht en zuiniger

29-05-2023 • 02:30

87

Multipage-opmaak

Focus op mobiel

Traditiegetrouw hield Arm zijn jaarlijkse Tech Day, waar het bedrijf zijn nieuwe platform voor mobile computing uit de doeken doet. In de voorgaande jaren werden tijdens dat event onder meer de overstap naar Arm v9 bekendgemaakt en toonde Arm zijn eerste X-cores. Dit jaar staat in het teken van nog meer rekenkracht, nog meer cores en, misschien nog wel belangrijker, Arm hamerde op nog minder energie. Overal waar mogelijk probeert het zijn processors, gpu's en socs nog zuiniger te maken. Want wat heb je aan alle rekenkracht ter wereld als je accu binnen no-time leeg is.

Voor we dieper op de nieuwe cores en nieuwe gpu's die Arm aankondigde, ingaan, even een klein overzicht van Arm en zijn producten. Die laatste zijn er fysiek eigenlijk niet, want Arm maakt geen hardware. Wel ontwerpt Arm hardware, of eigenlijk de bouwstenen daarvoor. Dat intellectual property, of IP, wordt via licentiemodellen aan bedrijven verkocht, die ermee aan de slag gaan om system-on-chips voor bijvoorbeeld smartphones, tablets, laptops of zelfs servers te maken. Ook zitten Arm-cores in te veel microcontrollers om op te noemen, van ssd-controllers tot Arduino's. Dikke kans dat als je elektronica een microcontroller heeft, daar iets van Arm in zit. De Tech Day draaide echter om de consumententak, en dan vooral de bouwstenen die Arm voor je telefoon, tablet of laptop ontwerpt.

Het hart van Arms IP-aanbod zijn de Total Compute Solutions, inmiddels aangekomen bij TCS23. Daarmee krijgen hard- en softwareontwikkelaars alle tools en bouwstenen in handen om eigen socs te ontwikkelen en daar ook de benodigde softwarestacks omheen te schrijven. In een notendop bestaat TCS23 uit een basis van de Arm v9-architectuur, met daarbovenop de soc-componenten als gpu- en cpu-cores, modems en interconnects, met als afdeklaag software en tools. In dit achtergrondstuk kijken we vooral naar de bouwstenen voor de hardware: de nieuwe cpu-cores en de gpu van TCS23, en de verbindende elementen als de dsu en Corelink Interconnect.

Arm Tech Day 2023: TCS23

Cpu-cores: de Cortex-X4

Cortex

De cores met Arm-IP worden Cortex-cores genoemd en voor mobiele platforms zijn daar drie families relevant. Dat zijn de krachtigste X-cores, de midcores in de A7xx-serie, en de kleine, zuinige cores in de A5xx-serie. Het huidige platform, TCS22, maakt gebruik van achtereenvolgens de Cortex-X3, Cortex-A715 en Cortex-A510. Die cores zijn voor het nieuwe platform TCS23 flink aangepakt en kregen de aanduidingen Cortex-X4, Cortex-A720 en Cortex-A520. We lopen de grootste veranderingen in die cores even door. Kloksnelheden zijn natuurlijk sterk afhankelijk van de configuratie van de socs, maar Arm geeft de volgende richtlijnen door. De X4-core zou op ongeveer maximaal 3,4GHz moeten werken, de A720-cores op 2,5GHz tot 3GHz en de A520-cores zouden onder de 2GHz moeten blijven.

Arm Client Tech Day 2023 - cpu-coresArm Client Tech Day 2023 - cpu-coresArm Client Tech Day 2023 - cpu-cores

Cortex-X4

We beginnen natuurlijk bij de krachtigste core, de X4. Waar de X1 nog op de oudere Armv8-architectuur gestoeld was, waren de X2- en X3-cores op de nieuwe v9-architectuur gebouwd. De X4-core is een doorontwikkeling daarvan, maar maakt gebruik van de v9.2-architectuur, net als de andere twee, kleinere cores overigens. Eventueel zijn de oude v9- en nieuwe v9.2-cores te combineren in een soc, maar ze kunnen dan geen threads onderling delen, wat het hele 'big-little'-concept geweld aandoet. Je wilt immers je processen optimaal over krachtige en minder krachtige cores verdelen en ze migreren als dat vanuit een energie-efficiencyoogpunt logisch is. Als voorbeeld zou je op je telefoon de applaunch op de X-cores kunnen laten plaatsvinden, zodat je app lekker snel opstart, om het proces vervolgens over te dragen aan de midcores, die dan het normale gebruik voor rekening nemen.

Arm Client Tech Day 2023 - X4-coreArm Client Tech Day 2023 - X4-core

De X4-core moet een flinke stap vooruit in performance opleveren. De core is, met alle parameters als cache, procedé, kloksnelheden, hetzelfde, ongeveer 15 procent sneller dan de X3-core. Hij is dan ook, zoals net aangegeven, gemaakt om kortstondige, rekenintensieve taken snel te volbrengen. De ipc-winst komt door verbeteringen in de front- en backend van de core, en in de out-of-orderexecutionunits. De L2-cache mag groter dan bij de voorgaande X-cores zijn: de X4-core ondersteunt L2-caches van 2MB. Dat moet vooral in realworldtaken voordeel opleveren: die hebben vaak uitgebreidere instructies dan bijvoorbeeld benchmarks, waardoor de winst vooral in de praktijk merkbaar moet zijn.

In de frontend van de core is vooral gewerkt aan de instructionfetch: die heeft meer bandbreedte gekregen, waardoor tien instructies verstuurd kunnen worden naar de core, waar dat er bij de X3-core nog zes of acht waren. Ook is de 'penalty' voor het verkeerd voorspellen van een instructie iets verbeterd, waardoor minder tijd kwijtgeraakt wordt als de branchpredictor fout zit. Aan die branchpredictor is niet veel veranderd: dat was al de focus van de verbeteringen aan de X3-core, maar ook bij de X4-core is daaraan gewerkt.

Arm Client Tech Day 2023 - X4-core

De instructies worden door de frontend naar de daadwerkelijke core gestuurd, waar de berekeningen of operaties plaatsvinden. De out-of-ordercore van de Cortex-X4 heeft flink meer rekenkracht gekregen. Hij heeft een kwart meer alu's, meer branchunits, twee in plaats van één mac en een pipelined floating point divider. De out-of-orderbuffer, het aantal instructies waaruit de core kan putten, is uitgebreid van 320 naar 384 instructies. Sommige van die onderdelen waren bij de stap van de X2- naar de X3-core overigens ook al verbeterd.

Core

Cortex-X4

Cortex-X3

Cortex-X2

Cortex-X1

Alu's

8

6

4

4

Branchunits

3

2

2

2

Integer mac

2

1

1

1

MCQ/ROB

384x2

320x2

288x2

224x2

L2-cache

2MB

1MB

1MB

1MB

iFetch (instructies/klok)

10

6

5

5

De backend ten slotte zorgt dat de resultaten van de executiecores worden weggeschreven. Daartoe heeft de X4-core een extra Load/Store-generator, een verbetering van 25 procent. De L1-tlb-data is verdubbeld van 48 naar 96 entries. Ook de grotere L2-cache van 2MB, zonder extra latency overigens, zorgt ervoor dat meer data sneller kan worden weggeschreven.

Arm Client Tech Day 2023 - X4-core backend

De 15 procent ipc-winst is één kant van de medaille; je kunt de core, mede dankzij de verbeteringen in vooral caches en energiebesparingen, namelijk ook als een veel zuiniger core benutten. Bij gelijke prestaties, en weer met alle andere eigenschappen gelijkgetrokken, is de X4-core tot 40 procent zuiniger dan een gelijkpresterende X3-core. Zo kun je dus nog beter de soc configureren om ofwel zuinig, ofwel snel te zijn, of een mooie balans daartussen te zoeken.

De Cortex-A720 en A520

A720

Voor de midcores, ofwel de A720, heeft Arm zich voornamelijk op de efficiency gericht, met als doel dus het energiegebruik te reduceren. Dat wil niet zeggen dat de prestaties niet verbeterd zijn, maar omdat de midcores de werkpaarden van een mobiele soc zijn, is het belangrijk ze zuinig te krijgen.

Arm Tech Day 2023: energiebesparing A720

De verbeteringen van de A720 zitten in de frontend, waar de penalty voor brachmispredictions voortaan elf cycles kosten, in plaats van twaalf bij de A715. Ook dit zou bij benchmarks weer niet zo'n verschil maken, maar wel in de praktijik, zo benadrukt Arm.

In de ooo-core heeft het A720-team de pipelined fdiv/fsqrt-unit overgenomen, wat bepaalde floatingpointberekeningen aanzienlijk moet versnellen zonder een grotere core nodig te hebben. Ook de issuequeues, zeg maar de wachtrij met instructies voor de core, en de executionunits waar die instructies verwerkt worden, zijn verbeterd zonder een toename van die-oppervlak.

Arm Client Tech Day 2023 - A720-coreArm Client Tech Day 2023 - A720-coreArm Client Tech Day 2023 - A720-coreArm Client Tech Day 2023 - A720-core

Ten slotte is de latency voor toegang naar de L2-cache verlaagd van tien naar negen kloktikken en is het prefetchen van data uit die L2-cache verbeterd, weer met dank aan het Cortex-X-team. Dat alles zorgt ervoor dat de A720-core op vrijwel alle fronten een stukje beter presteert én zuiniger is dan de A715-core. De performancewinst en energiebesparingen zijn afzonderlijk met een procent of 4 of 5 niet zo imposant als bij de X-cores, maar toch zorgen alle verbeteringen samen voor een efficiëntieverbetering van 20 procent.

A520

De kleinste cores zijn de A520-cores. Anders dan de X-cores en A720-cores zitten die twee aan twee in een cluster. De twee cores delen sommige componenten, waaronder de L2-cache. Ze zijn vooral bedoeld voor achtergrondtaken, als je telefoon in je zak zit bijvoorbeeld, zoals periodiek berichten checken. Een zuinige A5xx-core is dus belangrijk voor een lange accuduur van je telefoon. Ook voor andere apparaten, bijvoorbeeld smartwatches, zijn deze cores van groot belang.

Arm Client Tech Day 2023 - A520-core
Arm Client Tech Day 2023 - A520-coreArm Client Tech Day 2023 - A520-coreArm Client Tech Day 2023 - A520-coreArm Client Tech Day 2023 - A520-core

Arm heeft de A520 dan ook vooral zo zuinig en klein mogelijk geprobeerd te maken. De prestatiewinst van de A520 moet daarom komen van handelingen die niet veel energie kosten, zoals het prefetchen van data en de branchpredictionunit. Verbeteringen daarin, en in bijvoorbeeld de issue-engine van de executioncore, moeten andere energiebesparende maatregelen compenseren. Zo verwijderde Arm een van de drie alu-pipelines van de A510, zodat de A520 er nog twee heeft. Toch presteert de A520 nog altijd 8 procent beter dan de A510, terwijl het complex toch zo'n 3 procent zuiniger is. Dat levert bij gelijke prestaties een vermogenswinst van 22 procent op.

De DSU-120

We schreven aan het begin al dat Arm een Total Compute Solution biedt. Een integraal onderdeel daarvan is de DynamIQ Shared Unit, ofwel de DSU. Die doet dienst om de verschillende cpu-cores aan elkaar te knopen door een dubbele (bidirectionele) ringbus, maar bevat daarnaast ook een interface naar de CoreLink-interconnect, diverse poorten voor onder meer accelerators en last but not least: de L3-cache.

Cache neemt altijd flink veel oppervlakte van een chip in beslag en met 24 of zelfs 32MB L3-cache is de DSU-120 behoorlijk groot. Dat brengt echter ook het nodige energiegebruik met zich mee, en dat probeert Arm juist zoveel mogelijk te beperken, zo ook bij de DSU. Ten eerste wordt het actieve stroomverbruik gereduceerd dankzij verbeteringen in de cachestructuur en de logica erachter. Zo is het actieve verbruik, of de dynamicpower, 7 procent lager dan in voorgaande generaties en kosten cache misses 18 procent minder energie.

Arm Client Tech Day 2023 - DSU-120
Arm Client Tech Day 2023 - DSU-120Arm Client Tech Day 2023 - DSU-120

Een grote winst zit in het powermanagement van de cache; hij is namelijk gedeeld tussen alle Cortex-cores, maar hij is niet monolitisch opgebouwd. In plaats daarvan is hij in maximaal 8 slices, een soort compartimenten, georganiseerd, die ieder afzonderlijk een snoop filter, die helpt bij de cache misses, en energiebeheer hebben. Zo kunnen cacheslices geheel of gedeeltelijk in slaapstand gezet worden, waarbij hun inhoud bewaard blijft. Ze kunnen ook geheel uitgeschakeld worden, waardoor ze nog minder stroom verbruiken. Dat levert een heel fijnmazige regulering van het verbruik van de cache op, waarmee zo'n 18 procent energie bespaard wordt.

Als die L3-cache zo groot is en energie kost, waarom maakt Arm hem dan zo groot, vraag je je wellicht af. Dat is omdat cache nog altijd veel zuiniger is dan helemaal naar het systeemgeheugen uitwijken om data op te halen of weg te schrijven. Door dat zoveel mogelijk te voorkomen, kan het TCS23-platform veel meer energie besparen dan het aan caches besteedt. En door de caches selectief uit te schakelen, kunnen de kleinste cores nog steeds over wat L3-cache en bijbehorende data beschikken, zonder dat het dram wakker gemaakt hoeft te worden.

Socs bouwen

Met de vernieuwde, verbeterde bouwstenen in de vorm van de Armv9.2-cores, de vijfde generatie gpu's en de verbeterde DSU-120, kun je bijna een soc bouwen. Waar de DSU-120 de verschillende cores met elkaar verbindt, doet de CoreLink CI-700, of de andere variant interconnect, dat voor de rest van de soc. Dat betekent dat een soc, voor zover die enkel met Arm-IP wordt gebouwd, uit een corecomplex van DSU-120 met een mix van X4-, A720- en A520-cores bestaat. Een 5th Gen-gpu wordt via de CI-700 met het complex verbonden, en met andere randapparatuur als een geheugencontroller.

Arm Client Tech Day 2023 - DSU-120 overzicht

Het computecluster met DSU-120 en de Arm-cores beschikt niet alleen over meer gedeelde L3-cache, maar kan ook meer cores bevatten. Waar de DSU-110 van de vorige TCS22-generatie met maximaal 12 cores overweg kon, is dat voor deze generatie 14 cores. Arm laat klanten uiteraard vrij in hun configuratie, maar raadt een aantal configuraties aan. Zo zou een cluster van 1 X4-core, 3 A720-cores en 4 A520-cores een combinatie zijn die tot 33 procent betere prestaties leidt dan de TCS22-1+3+4-configuratie. Omdat de midcores krachtiger én zuiniger gemaakt zijn, zou een TCS23-1+5+2-cluster net zo zuinig zijn als een TCS22-cluster met 1+3+4-configuratie, maar wel 27 procent beter presteren.

Arm Client Tech Day 2023 - DSU-120 configsArm Client Tech Day 2023 - DSU-120 configsArm Client Tech Day 2023 - DSU-120 configs

Desgewenst zouden klanten er echter ook voor kunnen kiezen 14 X4-cores bij elkaar te prakken, al zou dat niet de meest logische configuratie zijn, ook niet voor laptops. Overigens kunnen ook meerdere clusters gecombineerd worden, zodat nog grotere socs met nog meer cores gemaakt kunnen worden. Ook dat is grotendeels theoretisch, want van de huidige generatie worden veelal combinaties van een of twee X-cores gebruikt, aangevuld met enkele midcores en twee tot vier kleine cores.

De gpu: de vijfde generatie

De vierde generatie Arm-gpu's luisterde nog naar de codenaam Valhall, maar voor de vijfde generatie is de Noorse mythologie achterwege gelaten: de vijfde generatie is simpelweg de 5th Gen GPU Architecture. Die vijfde generatie moet de rekenkracht leveren voor games die steeds complexer worden wat geometrie, textures en belichting betreft. De G720 Immortalis-gpu moet dan ook, vergeleken met de G715, 15 procent beter presteren, twee keer de hdr-renderkracht krijgen en 15 procent meer performance per watt leveren.

Arm sprak eigenlijk alleen over het topmodel, de Immortalis-G720. Dezelfde vijfdegeneratiearchitectuur wordt ook in de kleinere gpu's, de Mali-G720 en de Mali-G620, gebruikt, maar dan met minder cores. De Immortalis-G720 moet ten minste 10 cores hebben én de raytracingcores ingeschakeld hebben. De Mali-G720 heeft die laatste eis niet, maar moet wel 6 tot 9 cores bevatten. De kleinere Mali-G620 mag het met 5 of minder cores doen.

Waar de cpu-cores al extra cache kregen om het energiehongerige pad naar het systeemgeheugen zo veel mogelijk te beperken, is dat bij de gpu nog belangrijker. Al die complexe textures vergen natuurlijk flink wat ruimte en een aanzienlijk deel van het powerbudget van de Arm-gpu's gaat dan ook op aan geheugentoegang. Bij de G715 was ongeveer een derde van het powerbudget voor geheugentoegang, terwijl dat bij de G720 nog maar een kwart is. Samen met de andere optimalisaties moet dat voor grote energiebesparingen zorgen, maar betere graphics opleveren.

Een van de belangrijkste vernieuwingen in de vijfde generatie gpu's is deferred vertex shading, of dvs. Dat is grotendeels verantwoordelijk voor de reductie in geheugentoegang. Voorheen werden vertices en fragments met forward vertex shading na elkaar van kleur en helderheid voorzien, waarbij er relatief veel tijd zit tussen beide. Daarom moet relatief veel data gebufferd worden in het geheugen. Met deferred shading worden die berekeningen tegelijk uitgevoerd, zodat data in lokale buffers en niet in het dram opgeslagen kan worden.

Een andere vernieuwing is een efficiencyverbetering bij het genereren van polygonenlijsten door de tiler. Die kan slimmer selecteren welke triangles wel en niet berekend moeten worden en overbodige triangles weggooien. Ook het versturen van die informatie naar de shaders verloopt efficiënter en de tiler heeft grotere tiles, zodat de data minder versnipperd is. Verder zijn er nog tal van kleinere verbeteringen, onder meer in de snelheid waarmee variable rate shading verloopt en nieuwe shaderinstructies die offloads naar het geheugen moeten voorkomen.

De ray tracing units hebben in Gen 5 een eigen powerisland gekregen, zodat ze volledig uitgeschakeld kunnen blijven wanneer ze niet gebruikt worden. Dat levert weer een stroombesparing op. Ook heeft de nieuwe generatie gpu's eigen, dedicated hardware om antialiasing voor rekening te nemen.

Alle verbeteringen en wijzigingen samen moeten voor een gpu zorgen die, uiteraard met alle variabelen verder hetzelfde, 15 procent hogere piekperformance en 15 procent hogere continue prestaties biedt. Daarbij zou de geheugentoegang tot 40 procent gereduceerd kunnen worden, afhankelijk van de workload.

Tot slot

We hebben het voornamelijk over de hardware van het nieuwe TCS23-platform gehad. De nieuwe cores zijn echter gebouwd op de vernieuwde v9-architectuur, Armv9.2. Die architectuur heeft aanpassingen om de prestaties, vooral op het vlak van machinelearning, te verbeteren, moet vooral voor bufferoverflowkwetsbaarheiden veiliger zijn en niet onbelangrijk: developers worden nog meer geholpen met softwaretools.

Software

Om met dat laatste te beginnen: Arm maakt het dankzij extensies in Armv9.2 makkelijker om software te optimaliseren voor de hardware, om zo extra prestaties eruit te persen. Daartoe zijn trace buffer extensions en embedded trace extensions sinds Armv9 ingebouwd, zodat traces zonder softwareoverhead gemaakt kunnen worden. Die traces worden dan met profile guided optimization gebruikt om de code te optimaliseren. Een ander voorbeeld betreft de SVE2-engine, die vooral voor beeldverwerking gebruikt wordt. SVE2 is aanzienlijk sneller dan voorganger Neon.

Arm Client Tech Day 2023 - softwareArm Client Tech Day 2023 - software

Arm werkt ook samen met onder meer Google, dat het Android Dynamic Performance Framework ontwikkelde. Dat is sinds Android 12 beschikbaar en is vanaf Android 14 verplicht om te gebruiken. Dat framework wordt onder andere gebruikt om workloads te voorspellen en cores op tijd wakker te maken of juist sneller te laten slapen, zodat clockcycles niet verspild worden. Ook bevat het een 'thermal api' die voorkomt dat de soc en het apparaat te warm worden en de gamemode van ADPF zorgt voor vloeiend draaiende games waarvan de framerate niet na korte tijd instort als de soc te warm wordt. Dat levert én betere prestaties én een lager verbruik op.

Armv9.2 en veiligheid

Tot slot nog een belangrijk punt: beveiliging. Arm v9.2 is een volledige 64bit-architectuur en Arm is al zo'n tien jaar bezig om de migratie van 32bit naar 64bit te bewerkstelligen. Inmiddels is het overgrote deel van apps in alle appstores 64bit, en het volgende target is de migratie naar 64bit van apparaten als tv's en settopboxen.

Arm Client Tech Day 2023 - beveiligingArm Client Tech Day 2023 - beveiliging

Armv9.x maakt gebruik van memory tagging om adressen in die 64bit-adresruimte te markeren. Een op die manier getagd adres kan niet door een ander proces gebruikt worden. Samen met twee andere technieken, pointer authentication, of pac, en branch target identification, of bti, moeten de meeste kwetsbaarheden het hoofd geboden kunnen worden. Dat zijn namelijk veelal bufferoverflows, die met pac en bti niet mogelijk zouden zijn. Beide technieken zitten inmiddels in Chromium, de basis voor de meeste webbrowsers, ingebakken, net als in de veelgebruikte Unity Game Engine. Mte wordt nog niet veel gebruikt, al heeft fabrikant Honor het wel in gebruik, net als Unity.

Armv9.2 in het wild

Wanneer er precies apparaten met de nieuwe X4-cores, of met de andere cpu-cores en de Immortalis-gpu op de markt verschijnen, is nog niet bekend. Arm geeft geen details over de toekomstplannen van zijn klanten. Na de introductie van de vorige generatie TCS22 duurde het tot eind van het jaar voor de eerste producten daarmee verschenen. Zo kwam Vivo in november 2022 met de Vivo X90 in China, maar moest de rest van de wereld daar tot februari op wachten. Oppo bracht de Find X6 in maart in China uit, maar de rest van de wereld moet nog wachten. Beide modellen zijn met een Dimensity 9200-soc uitgerust, met aan boord 1x Cortex-X3, 3x Cortex-A715 en 4x Cortex-A510. Het lijkt op basis daarvan aannemelijk dat smartphones en andere producten met TCS23-hardware pas eind dit jaar of in de eerste helft van volgend jaar verschijnen.

Arm Tech Day 2023: roadmap

Overigens staat de volgende generatie uiteraard al in de steigers. TCS24 moet worden opgebouwd uit de DSU-120, maar dan met Blackhawk als krachtigste core, Chaberton als opvolger van de A720-midcores en Hayes als kleinste core. De gpu heeft vooralsnog codenaam Krake gekregen en de CI-700 en NI-700 interconnects worden opgevolgd door een interconnect met codenaam Tower. Over TCS24 horen we ongetwijfeld volgend jaar meer.

Reacties (87)

87
86
35
4
0
46
Wijzig sortering
Zou toch graag meer push zien naar ook desktop capabele architectuur.

Apples M serie is indrukwekkend
En in server is ARM ook hard aan de weg aan het timmeren
Maar ik zou graag zien wat ARM kan doen met zeg 100w desktop.

Zou me niet verbazen als AMD Intel het daar goed moeilijk mee zouden hebben.
Wat de ontwikkelingen nu laten zien is dat het hebben van een SOC en een OS die volledig voor elkaar geoptimaliseerd zijn en het overboord gooien van zoveel mogelijk legacy veel zin heeft qua prestaties. Dit is het belangrijkste concurrentievoordeel van Apple. Een computer opgebouwd uit generieke componenten met een generiek OS dat vele hardware types en smaken ondersteunt is nooit zo efficiënt en snel als een dedicated platform met een horizontaal geïntegreerd OS. Ik zie MicroSoft of Google als kanshebbers als ze hun eigen HW architectuur gaan ontwikkelen.
Dit zal echter volume vergen en de SW industrie zover krijgen dat ze hun platform ondersteunen. Het is veel meer dan het bouwen van een snelle CPU.


Als je kijkt naar wat Apple de afgelopen jaren heeft gedaan, dan is dat iets waar de concurrentie heel hard voor zal moeten werken om dat in te halen

- Een eigen SOC ontwerpen, met een eigen GPU Architectuur, een eigen NPU, Video encoding en decoding in de hardware, shared RAM op de SOC (zodat er bijv. geen data van en naar CPU/GPU hoeft te gaan maar beide gewoon direct dezelfde data kunnen aanspreken) en nog veel meer slimme dingen. Gewoon de ARM SoC nemen is niet genoeg, omdat deze generisch is, om gelijk te trekken met Apple moet je Hardware en OS geheel op elkaar optimaliseren.
- Een keuze die Apple maakte was alleen ondersteuning van Metal in de GPU, geen ondersteuning van andere API's zoals OpenGL of Vulcan en daardoor een verdere optimalisatie mogelijk maken, geen noodzaak om de hardware aan te passen om andere API's te herbergen.
- Apple heeft alle ondersteuning voor 32 Bit al enkele jaren geleden weggegooid, alles is 64 Bit, Legacy software draait gewoon niet meer. Legacy ondersteuning is als het fokken van snellere paarden in plaats van het bouwen van auto's. Stop ermee en je kunt je ontdoen van de stallen, het voer, etc etc. Of bij een computer, minder complexiteit, minder vierkante mm.
- Hun verschillende besturingssystemen zijn de afgelopen jaren naar elkaar toegegroeid, en is nu op het punt waar iOS software op MacOS draait (vanuit een architectuur standpunt)
- OS en HW zijn geoptimaliseerd op elkaar, ondersteunen zeer weinig Hardware en wanneer over 5-6 jaar of zo de ondersteuning stopt voor Intel CPU en AMD GPU alleen hun eigen SOC. Nog slankere code, nog meer optimalisatie mogelijk
- Rosetta II is 64 Bits en vertaald alle x86 64Bit software naar ARM 64 Bit, waardoor software met legacy x86 code zeer snel draait op hun M series
- Omdat ze één SOC-architectuur hebben voor smartphone, tablets, horloges, Set Top enz. worden de overheadkosten van het ontwikkelen van de kernen erin en de verdere functionaliteit verspreid over een ongelooflijk aantal SOC. Hierdoor zijn de marges hoger dan bij de concurrentie en kan Apple vooraf enorme productiecapaciteiten kopen van TSMC op hun nieuwste fabricageproces, waarschijnlijk zelfs TSMC financieren om zo nog meer concurrentievoordelen te bieden
- En heel belangrijk, veel software ontwikkelaars meegekregen naar het nieuwe platform, MS, Adobe, Affinity, Black Magic, om er maar een paar te noemen.

[Reactie gewijzigd door Jan Onderwater op 24 juli 2024 09:59]

De grote vraag is of dit alles de moeite waard is...

Immers Microsoft verdiend goed aan hun Windows licenties en als je alle legacy spullen overboord gooit mis je de hele grote markt met commerciele gebruikers van je OS en moet je het alleen hebben van de consumenten. Nu is een van de redenen waarom Microsoft zo succesvol is in de commerciele markt dat iedere consument met Windows kennis van school komt met word, excel en powerpoint kan werken en het bedrijfsleven ze dus meteen aan het werk kan zetten of alleen de interne tools moet leren gebruiken maar niet van af nul hoeft te beginnen.
Als je een succesvol consumenten OS op de markt zet en dus het kennis niveau bij de nieuwe werknemers sterk verminderd dan maak je geen vrienden in het bedrijfsleven omdat zij nu eenmaal decennia aan legacy code hebben draaien die je niet zo een twee drie even over kan zetten naar een ander OS. En kijkend naar hoe moeilijk het Wine project het nog steeds heeft met applicaties die dingen op een niet juiste manier doen (ondanks dat het wel werkt) is even een emulator schrijven die ook nog eens goed presteert echt niet zo maar even een klusje voor een zondag middag of zo.
Daar naast als ik als bedrijf me gedwongen zie om een nieuw OS te kiezen dan kan ik ook overwegen om een niet Microsoft OS te kiezen en licensing kosten achterwegen te laten bijvoorbeeld.

Dus ik waag het te betwijfelen of er binnen Microsoft ooit een echte push zal zijn om een geheel nieuw OS te maken dat diepe integratie met de hardware heeft om zo het maximale uit de hardware te halen.

Google is een ander verhaal die zouden dit eventueel wel kunnen, maar Google heeft ook meer dan eens bewezen dat consumenten hardware maken niet hun sterkste kant is. Voor hen die nu denken ja maar Nest dan, dat is gekocht en in middels op sterven na dood binnen Google. Dat neemt niet weg dat ze een poging zouden kunnen wagen. Maar Google heeft naast het niet erg sterk zijn in consumenten hardware ontwerp een ander probleem en dat heet ChromeOS en Android maar ook Fuchsia. Al deze OS'en zijn bedoeld voor generieke hardware en hebben op Fuchsia na een flinke install base en bestaande partners.
Kijk eens naar wat er met andere consumenten hardware producenten gebeurde toen ze gingen concurreren met hun partners door zelf met hardware op de markt te komen... dat zorget er voor dat partners vertrekken dat de huidige cashcow Android flink zal krimpen in markt aandeel en dat het kwakkelende eendje ChromeOS vrijwel onmiddellijk zal sterven.
De kans dat je zo wel Apple als Microsoft zal verslaan is zeker niet meer dan 50% ook niet als je Google bent want net als Google hebben deze bedrijven eindeloos diepe zakken en kunnen een OS oorlog erg lang volhouden. Kijk naar het succes van Microsoft om de mobiele OS markt te betreden... je kunt nog zo veel geweldige engineers hebben, decennia aan OS kennis en alle geld van de wereld het is verdraaid lastig om in de OS markt voet aan de grond te krijgen laat staan om echt een flink stuk van de markt naar je toe te trekken.
Ik kan me dus niet voor stellen dat Google dit echt zal doen simpel weg omdat de kans op success erg klein is en relatie met Android en ChromeOS partners in gevaar gebracht zal worden.

Als er een bedrijf is dat het zou kunnen proberen omdat ze geen verlies zullen leiden in bestaande product lijnen of partnerships etc, is Amazon. Nu kan ik me niet voorstellen dat ze dit ook echt aan zullen durven, er is weinig winst te maken zeker niet het OS steeds minder belangrijk is en net als de onderliggende hardware naar de achtergrond begint te verdwijnen. Maar goed ze hebben ook ooit een telefoon gemaakt en tablets waar nooit echt iets van geworden is dus eventueel een eigen chip (ze hebben de kennis in huis) en een eigen OS ze hebben geld zat om te kopen wat ze nodig hebben en de juiste mensen aan te trekken om er wat van te maken. Maar goed wat is de echte markt en wat is het voordeel voor Amazon als zij de leverancier zijn van 90% van de door mensen gebruikte OS'en? Ja de licentie fee's maar ook hier zit je weer met de legacy code binnen bedrijven het risico dat veel naar Linux verhuisd en natuurlijk de noodzaak om te integreren met al die legacy rommel want dat is echt niet van de een op de andere dag vervangen door een nieuwe moderne oplossing.

Met andere worden ik ben bang dat er in middels weinig meer te halen valt binnen de OS markt, in ieder geval niet voor de grote spelers. Een kleine nu nog onbekende groep zou een poging kunnen wagen maar de kans op success en dus funding is erg klein. Een self funded OS inclusief hardware maken is simpel weg niet mogelijk dus ik denk dat we het bij Microsoft, Apple, Linux en Android zullen houden binnen de consumenten wereld (ja ChromeOS maar dat markt aandeel is zo klein dat ik het gewoon maar niet mee reken).
Allemaal hebben ze een geheel eigen niche die maar weinig overlappen en zo lang ze allemaal netjes binnen de lijntjes blijven kleuren zullen ze geen van alle met elkaar in conflict komen.
Immers Microsoft verdiend goed aan hun Windows licenties
Had juist begrepen dat ze vooral verdienen aan de online dienstverlening waar ze direct in het OS geintegreerd mee adverteren. En dat Windows zelf meer een soort van loss leader is geworden.
Kijk eens om je heen hoeveel bedrijven ken jij die helemaal geen Windows licenties afnemen? En kijk nu eens naar hoeveel bedrijven er zijn alleen in jouw directe omgeving al. Als je dat opschaalt naar de rest van de bedrijven op deze planeet dan moeten dat toch wel erg veel licenties zijn 1.4 miljard volgens Microsoft.
De distributie kosten zijn nagenoeg nul die eenmalige download is echt niet zo duur dat het de licentie kosten volledig opslokt.

Je kunt mij vertellen wat je wil maar als ik uitga van een gemiddelde prijs van $25 per installatie (bulk kortingen en andere discounts) dan is dat: 35 miljard aan licentie kosten. Voor dat geld kun je vast en zeker wel een nieuwe versie van het OS ontwikkelen eens in de zo veel jaar. En er toch nog een leuk zakcentje aan over houden.

Dat het misschien geen vetpot meer is zou heus wel waar kunnen zijn maar verlies zullen ze er echt niet op draaien dat maak je mij niet wijs.
Ik vraag me ook af hoeveel ze krijgen voor die "planned obsolescence" actie met Windows 11...
Aan inkomsten op nieuwe OEM Windows licenties gekoppeld aan nieuwe hardware-verkopen omdat de huidige hardware die mensen thuis hebben staan, niet aan de vereisten voldoet? Ja - dat kan nog wel eens interessant zijn.
Het is niet de eerste keer dat men dat doet Vita was een mooi voorbeeld en ook Win95 had eisen die de meeste thuis computers niet zo maar aan konden. En alles dat er gebeurde is dat veel mensen het tijd vonden om hun oude computer te upgraden naar een systeem dat het nieuwe OS kon draaien.

Ik weet nog wel dat ik 4MB extra ram kocht zodat Win95 veel beter zou werken met wel 8MB aan werkgeheugen. Ook met Vita was er zo'n moment en nu is het al weer een flinke tijd geleden dat het nieuwe OS veel mensen zal dwingen tot een upgrade wat helemaal niet zo slecht is.

Het probleem met altijd maar de oude rommel ondersteunen zou leiden tot mensen die nu nog steeds een 486DX met 8MB werk geheugen zouden draaien. Gewoon omdat er geen enkele reden is om te upgraden...
Nu is dat wel heel erg extreem maar je begrijpt denk ik wel waarom het gezond is om mensen een reden te geven om te upgraden. Dat kan zeker niet met elke nieuwe versie van het OS maar zo af en toe is het simpel weg nodig om de meerderheid van het publiek van een beter systeem te voorzien zodat je meer kunt doen binnen je OS omdat je er van uit kunt gaan dat een normale PC waar je OS op draait bepaalde minimale hardware heeft zodat je daar voor de toekomst op door kunt bouwen.
De betere hardware moet uit zichzelf reden genoeg zijn. Dat alles sneller gaat bijvoorbeeld.
Of dat het écht incompatibel is. 64 versus 32 bits bijvoorbeeld.
Maar niet een quad-core compatibel vinden en een wat oudere 16 core niet.
ideo encoding en decoding in de hardware, shared RAM op de SOC (zodat er bijv. geen data van en naar CPU/GPU hoeft te gaan maar beide gewoon direct dezelfde data kunnen aanspreken)
Hebben AMD, Arm en Intel toch ook gewoon?
Shared RAM op de Apple Mx manier is niet echt een ding voor AMD/Intel, en bij mijn weten 'vanilla' ARM ook niet.
Shared RAM op de Apple Mx manier is niet echt een ding voor AMD/Intel, en bij mijn weten 'vanilla' ARM ook niet.
shared RAM op de SOC (zodat er bijv. geen data van en naar CPU/GPU hoeft te gaan maar beide gewoon direct dezelfde data kunnen aanspreken)
Dit hebben alle systemen met een APU of SoC.
Het zit misschien niet op de package maar daar had Jan het niet over.
Shared RAM != gedeelde poel. AMD en Intel SoC's/APU's (en alle andere ARM SoC's die ik ken trouwens ook) hebben geen shared memory access voor GPU en CPU, ze gebruiken gewoon dezelfde poel (voor GPU's relatief langzame) RAM. Bij AMD/Intel SoC/APU-systemen reserveer je X ram voor de GPU, de rest is voor de CPU. Dus als je GPU niks doet, ben je die RAM wel kwijt aan je GPU, en voor software zijn dit twee eilanden waar niet tussen gedeeld kan worden. Daarnaast is de geheugensnelheid van Apple's Mx-chips is redelijk wat hoger, en daarnaast is de architectuur efficienter.

Dus als een AMD/Intel systeem iets wil delen tussen CPU en GPU, moet het opnieuw gekopieerd worden; je software kan niet zeggen: GPU, je moet data X hebben, die heeft de CPU al beschikbaar, dus die staat daar-en-daar. Je moet dan opnieuw de data kopieren naar RAM, maar dan voor de GPU, omdat die zijn eigen gereserveerde RAM heeft in de poel. Met de UMA die Apple gebruikt, kan de software wel dezelfde RAM-data delen van CPU naar GPU, en kan je als je weinig GPU-dingen doet, meer RAM gebruiken voor je CPU.

De voordelen zijn dus hogere bandbreedte en een efficientere architectuur, het nadeel is dat upgraden inderdaad geen ding is.
Je hebt ook een platform / OS nodig die dit in een generieke omgeving supporteerd... (lees apple eigen OS...). AMD en Intel hebben beide al enkel van deze oplossingen voor specifieke doeleinden in portfolio of in roadmap.

AMD is daar al een tijdje aan het bouwen met hun unified bus en chiplets, het zit echter nog niet in de consumenten markt maar dat is kwestie van tijd. https://www.anandtech.com...transistors-shipping-h223
En dat zou het ook niet moeten zijn.
On-chip integratie betekent nl. dat je je GPU ook niet meer los kunt upgraden van je CPU.
En dat je het wss. ook wel kunt vergeten om je RAM upgradeable te maken. (Tenzij je bijv. naast dat speciale ingebakken unified RAM nog wat expansie-slots voor 'gewoon' RAM aanhoudt.)

Maar goed; upgraden ligt in hetzelfde kamp als repareren. Daar heeft Apple ook een broertje dood aan. Alles zoveel mogelijk verlijmen, etc. Het is maar goed dat er wetgeving aan zit te komen die repareerbaarheid en vervangbaarheid van onderdelen afdwingt.

[Reactie gewijzigd door R4gnax op 24 juli 2024 09:59]

Ik ben ook niet persé voor, maar ik wilde dat feitje even rechttrekken.
En dat zou het ook niet moeten zijn.
On-chip integratie betekent nl. dat je je GPU ook niet meer los kunt upgraden van je CPU.
Upgraden van een integrated GPU of een laptop GPU is toch al niet mogelijk.
En dat je het wss. ook wel kunt vergeten om je RAM upgradeable te maken. (Tenzij je bijv. naast dat speciale ingebakken unified RAM nog wat expansie-slots voor 'gewoon' RAM aanhoudt.)
Het blijft een afweging, je levert waarschijnlijk performance in.
Als prijzen van meer RAM bij Apple niet zo hoog waren, was het waarschijnlijk een non-issue.
Het is niet puur nadeel het is ook voordeel.
Ja ruk niet upgradeble maar ja met M1ultra heb flinke igpu aan low latency 400gb/s memory bandwide waar ook de cpu van geniet. Dus je krijgt er efficienter performance voor terug.
Alleen als bij aanschaf rekening houden dat uitvoering pakt met voldoende memory voor jouw use case.
Het is niet puur nadeel het is ook voordeel.
Ja ruk niet upgradeble maar ja met M1ultra heb flinke igpu aan low latency 400gb/s memory bandwide waar ook de cpu van geniet. Dus je krijgt er efficienter performance voor terug.
Alleen als bij aanschaf rekening houden dat uitvoering pakt met voldoende memory voor jouw use case.
En zodra die igpu niet meer voldoet?
Juist ja: alleen nog nadeel.
Dan mag je het hele apparaat wegkeilen of hopen dat je het nog tweedehands kwijt kunt.

Wat in Apple's geval nog een kluif wordt om veilig te doen; want was het niet zo dat hun laptops allemaal verlijmde SSDs hebben tegenwoordig? En je dus de SSD niet er uit kunt halen en kunt vernietigen?
Moet je er maar vanuit gaan dat er een secure wipe technologie beschikbaar voor is...
Hoe update je normaliter een onboard videokaart in een laptop?
Maakt in een laptop idd. weinig uit; want daar kun je het toch niet.
(Nou ja tenzij je nog een model hebt waar er bij toeval een expansie-slot is voor een dedicated graphics card; bijv. omdat de laptop fabrieks-af in twee uitvoeringen beschikbaar is: met en zonder. Gebeurt zakelijk nog wel eens.)

Maar de start van deze draad reacties ging over een push van dezelfde unified memory APUs naar desktop architectuur; waar het momenteel heel gewoon is om die dingen wel los uitwisselbaar te hebben. En we denk ik liever niet gaan zien dat alles vastgesoldeerd zit op één SoC board en je het allemaal tegelijk weg mag doen.
GPU upgraden is iets voor een hele kleine markt. Zelfbouwers doen dat regelmatig al moet ik zeggen dat toen ik nog zelf bouwde na een upgrade van een component in een paar maanden tijd toch ook de rest ging upgraden.
Maar zakelijke gebruikers en de gemiddelde consument doen dat sowieso niet.
Hebben AMD, Arm en Intel toch ook gewoon?
"Als je kijkt naar wat Apple de afgelopen jaren heeft gedaan"
Eh, ja, Apple heeft dat toch ook al gewoon jaren?
[...]

Hebben AMD, Arm en Intel toch ook gewoon?
Niet voor het veel door Apple en videocamera fabrikanten gebruikte ProRes formaat.

En voor het perspectief: voor de Intel MacPro's zonder die hardware ProRes versnelling kan je een losse PCI kaart kopen die dat wel doet. Kosten van deze Afterburner: 2300 euro...
Apple heeft de DRAM direct op de SOC. Dus geen printplaat er tussen, en geen dure pins.
Dus kan je veel meer bandbreedte hebben. Zoals bij HBM op videokaarten.
Maar je hebt dan geen uitbreidbaarheid meer.
En voor 16 GB snel geheugen op de CPU en 32 GB "normaal" geheugen gecombineerd, daar zijn onze applicaties en OS-en helemaal nog niet klaar voor.
Verwijderd @sympa29 mei 2023 13:05
Dat kan gewoon in het os, veel gebruikt geheugen verplaatsen naar de snelle variant, standaard plaatsen in het normaal geheugen of werken met een treshold. Daar zijn vast wel algoritmes voor.
Een OS doet dat nog niet "gewoon", maar goed, er kan met paging en performance counter wel e.e.a. gebeuren.
Wel is het heen en weer slepen van geheugeninhoud tamelijk kostbaar.
Misschien dat er toch maar een vlaggetje aan malloc() moet worden toegevoegd.
Wat de ontwikkelingen nu laten zien is dat het hebben van een SOC en een OS die volledig voor elkaar geoptimaliseerd zijn en het overboord gooien van zoveel mogelijk legacy veel zin heeft qua prestaties.
Ben het in heel je betoog volledig met je eens, al zou ik prestaties vervangen door efficiëntie. (Wellicht bedoel je het ook zo.)

Wat M1/M2 vooral beter doet is meer werk verzetten met minder vermogen. Echt wat pure rekenkracht betreft per core zijn ze erg goed maar spelen ze de concurrentie niet op een hoopje.

Wat ik ook opmerkelijk vind is dat hun SOC ontwerp heel schaalbaar is. Een M2 ultra of een gewone M2 is iets heel anders wat efficiëntie en kracht betreft.

Om de M2 zuinig te maken heeft Apple ook fel ingezet in het uitschakelen van chiponderdelen als die niet gebruikt worden. Het OS zorgt er dan weer voor dat ze niet gebruikt hoeven te worden. Dat heeft idd weinig te maken met ARM aan zich. Het is een complete waslijst van systeemintegraties die afgestemd zijn op efficientie.

Ik heb zo’n vermoeden dat Apple met een soort ultieme zuinigheidsmodus gaat komen soort van Ipad OS modus.

Dan schakel je MacOS ‘uit’, start je bijv enkel Safari, limiteert het geheugenverbruik, enkel de efficiënte cores, dark mode, geen background services, apps in achtergrond volledig freezen.

Ik vermoed dat die optie zal samenvallen met de introductie van microled in 2025 aangezien schermen nu relatief veel verbruiken zou zo’n modus nu nog weinig uithalen.

Ook opmerkelijk is dat meer en meer fabrikanten ‘efficientie en zuinigheid’ ook belangrijk vinden ipv enkel prestaties. Vooral in de mirange cpu’s en gpu’s kan de consument mss wel meer waarde hechten aan batterijduur ipv pure kracht. En dat terwijl telefoons of tablets niet dikker worden.


Tot voortkort kocht je geen midrange omdat die zuiniger was, mss draait dat nu om. Om je minder gaat betalen is een andere zaak :)

[Reactie gewijzigd door Coolstart op 24 juli 2024 09:59]

Wat ik ook opmerkelijk vind is dat hun SOC ontwerp heel schaalbaar is. Een M2 ultra of een gewone M2 is iets heel anders wat efficiëntie en kracht betreft.
Ook qua prestaties in benchmarks schalen hun SOCs heel goed mee. De M1 Ultra is letterlijk 2x zo snel als de M1 Max. Dat zie je bij Desktop grade CPU's niet heel vaak. Deze prestaties schalen alleen in real world workloads niet meer mee na een bepaalde tijd. Ik heb zelf thuis een Mac Studio met de M1 Max en op kantoor een Mac Studio met de M1 Ultra en de Ultra doet echt niets sneller dan de M1 Max. Je ziet hier vooral dat MacOS de limiterende factor is. Vooral omdat veel hardware gewoon niet aangesproken wordt.

Ik ben dan ook benieuwd hoe ze dit willen doen met de Mac Pro. Meer Cores er in stampen heeft weinig zin zolang MacOS er niet mee om kan gaan.
Om te variëren op een hardware feature is slechts 1 extra switch. Dus het is onzin om te zeggen dat het langzamer is. Het ligt aan de implementatie en dat hoeft helemaal geen merkbaar verschil te zijn.
Eerlijk gezegd zie ik het niet snel gebeuren, al zou ik het ook wel willen. Het probleem is dat het gewoon een grote partij vergt om in ene een omslag te forceren. Apple heeft een vrij groot marktaandeel voor laptops en beheert zowel het OS, belangrijke software voor dat OS, en de hardware.

Je ziet dat Microsoft het wel probeert af en toe maar te klein is. Andere grote OEMs proberen het ook wel maar gaan niet in ene hun hele aanbod op ARM zetten. Zolang het bij een paar lijnen blijft haal je de investeringen die nodig zijn voor het ontwikkelen van high-performance ARM CPU's er niet uit. Misschien als Microsoft de handen ineenslaat met de grote OEMs dat windows 12 vanaf de release 'ARM first' wordt, dan zou het kunnen gebeuren.

Er was ook goede potentie voor desktop ARMs geweest als Nvidia destijds ARM had overgenomen, maar dat is weer niet wenselijk om heel andere redenen.

Lenovo bezit trouwens zo'n 25% van de OEM markt voor PC's, en China zou maar wat graag een volwassen RISC-V platform zien dat niet gevoelig is voor westerse sancties. Dus daar ligt ook nog wel een kans op een X86 alternatief voor desktops ooit.
en toch, zeker nu voor de apple vrijwel alle belangrijke software voor de m geoptimaliseerd is, kan het ook voor een win op arm geoptimaliseerd worden. En meer en meer software gaat via de browser, dus dat is ook geen probleem. Maar intel en MS zullen onderling ook wel wat dealtjes hebben, waardoor MS het niet al te hard pushed.
Er zijn dealtjes tussen MS en Intel nodig. MS heeft het "nadeel" dat ze bijna oneindig veel verschillende systemen moeten ondersteunen, ook van leveranciers die ze helemaal niet kennen. Dat maakt het een stuk moeilijker dan voor Apple om ARM groots te ondersteunen. Met de introductie van ARM hoefde Apple maar een handjevol verschillende Intel en ARM systemen te ondersteunen.
De end-user ARM computers lopen ver achter. Ik zou de specs van mijn 2 jaar oude Galaxy wel als ATX-chipset willen hebben voor een markt-conform bedrag...
Wat is achterlopen….op het werk is het M1 en M2 dat voor de centen zorgt. Die end-user apparaten zou ik niet ‘achter’ vinden lopen.
Dat is toch wel onder heel specifieke omstandigheden dat een M1/M2 daadwerkelijk nut heeft voor een end-user. Maar voor iedereen die niet beeldbewerking doet in specifieke packages heeft weinig baat bij een M1 en veel meer met een laatste gen intel/amd. En dit is toch wel een steeds terugkomend fenomeen voor Apple hardware.

Voor een gewone gebruiker zoals mezelf die met grote data-sets werkt kom ik enkel weg met intel/amd, er is gewoon niets qua arm architectuur waar ik baat mee heb. En al zou Apple een nieuwe gen releasen, is het nog maar de vraag of die ook zo revolutionair is en wederom of doorsnee gebruikers daar iets aan hebben.
Welke
heel specifieke omstandigheden
heb je het over? Ik draai hier een M2 max voor mijn development werk en dat ding is sneller, stiller en zuiniger dan welke intel dan ook.
Wat voor development, want je hebt development en je hebt development...
Full-stack, complexe java backends met typescript frontends en mssql backends. Voor een andere klant golang met een postgresql database en een svelte frontend.

edit: Oh en ik kom net van een intel i9 met 64GB geheugen en die is niet zo snel als deze M2 max met 64GB.

@nr12 ik vergelijk hier een macbook pro met een M2 max met een macbook pro met de top configuratie i9.

[Reactie gewijzigd door Keyb op 24 juli 2024 09:59]

'edit: Oh en ik kom net van een intel i9 met 64GB geheugen en die is niet zo snel als deze M2 max met 64GB."

Intel i9 zegt niet zo veel. Want binnen die category i9 kan je heel verschillende snelheden terug vinden. Denk dat de langzaamste en de snelste i9 misschien een kleine factor 3 van elkaar verschillen.
Let ook op dat een intel vaak windows domain joined is waar een apple dat niet is.

Domain joied met corp managed kost je vaak enorme performance hit.

Mijn eigen desktop zit al in windows terwijl de lenove laptop nog niet door zijn boot is. Daarna inloggen duurt nog eens 2 min tot hij goed reageerd en op papier is hij sneller dan mijn desktop.

Bios van enterprise windows is ook vaak anders dan een apple.
Mijn eigen desktop zit al in windows terwijl de lenove laptop nog niet door zijn boot is.
Opstarttijd is toch nauwelijks relevant voor algemene performance?
nee maar dat geeft wel heel goed weer hoeveel overhead verschil er zit in prive VS enterprise overhead.

Dus als je een non Windows non enterprise gaat vergelijken met een windows managed dan ben je appels en peren aan het vergelijken.

Daarnaast de laptop voelt ook gewoon een heel stuk trager aan, alles wat je doet is gewoon een stuk trager omdat alles door een hele hoop lagen heen moet, DLP, AIP, Defender AIR, IRM, PRIVA, en alles moet geloged worden.

Al die extras kosten CPU en IO en dat merk je gewoon.
Op mijn werk een quad-core laptop. Ding voelt als een 286, met al die meuk die er op staat. Venstertjes van Team die een seconde doen om te openen, dat werk. Stroperig.
Wat voor laptop is dat dan als het zo traag js? Of staan er veel bedrijfsspecifieke dingen op?
Ja securityspul, alles door het bedrijf ingericht. Maar bij MSteams het meest opvallend.
Een gewone gebruiker die met grote datasets werkt?

Klinkt mij niet als een gewone gebruiker. M1 of M2 of menig low/mid range CPU van AMD of Intel is prima voor een gewone gebruiker (e-mail, katfilmpjes, etc). Wellicht dat een Apple wel minder geschikt is omdat die meer qua prijs begint bij mid range en niet een echt budget niveau heeft. En als je een beetje (simpel) gamed lang niet alles draait op macOS.
Het lage energieverbruik is wel iets waar een gewone gebruiker voordeel van heeft. Ik heb een vrij nieuwe HP waar ik ca 4 uur zonder lader mee kan werken. Een collega met een Macbook Air doet gewoon de hele dag zonder lader. En heeft ook nog eens een betere performance.
Voor een gewone gebruiker zoals mezelf die met grote data-sets werkt kom ik enkel weg met intel/amd, er is gewoon niets qua arm architectuur waar ik baat mee heb.
Ik ben een data analyst en ik gebruik met name R en Python. Ik voer ongeveer 2x zo snel code uit onder R bij de Mac als bij de nieuwe core i9. Ik verwacht dat dit voor een deel ligt aan het feit dat alles zo is geïntegreerd en de bandbreedte en niet puur en alleen rekenkracht. Desondanks, de prestaties liegen niet. Waarbij ik dan ook nog werk in complete stilte t.o.v. die straalmotoren die actief zijn bij de i9.

Voor reguliere taken voelt de Mac snappier en reageert het gevoelsmatig sneller dan Windows, maar dat kan te maken hebben met software optimalisatie. In ieder geval is Edge op de mac sneller dan in de Windows bak 8)7
Voor reguliere taken voelt de Mac snappier en reageert het gevoelsmatig sneller dan Windows, maar dat kan te maken hebben met software optimalisatie. I
Ik moet eerlijk zeggen dat ik dat dat idee onder OSX-Intel ook al had(zakelijk+prive). Ik zit al weer een jaar of 5 super-tevreden op Wintel (zakelijk+prive). Met name sind W10 en W11 vind ik de gebruikerservaring prima, maar zoals je zegt, OSX voelt snappy aan. Overigens zie ik dat ook bij Ios versus Android. Android is prima, maar IOS is net wat vloeiender. Ik vraag me net als jij af of dat pure paardenkracht is, of toch de optimalisatie met een beperkt hardware landschap is.
Goed punt, al kan ik wel daadwerkelijk onderbouwen dat mijn Wintel machine met i9 toch wel een kleine 23% langer moet doorrekenen op hetzelfde R script als de M1 Max.
Hier kunnen wel enkele zaken aan ten grondslag liggen. Zo heb ik multicores aanstaan en via het Microsoft R project worden die cores aangesproken. Daar kan iets van verschil in zitten, al denk ik wel dat de i9 in termen van pure rauwe kracht toch sneller zou moeten zijn.
Een tweede zaak kan zijn dat de bandbreedte van de M1 max ervoor zorgt dat het sneller door de instructies gaat.
Dus ja, voor een deel de snappyness, maar een deel kan ik ook gewoon aantonen door hetzelfde script te runnen op beide machines en de tijd tot voltooiing bij te houden. Overigens is in dit geval die 23% slechts een halve minuut, maar het bouwt zich natuurlijk steeds verder op naar gelang het aantal scripts en de complexiteit ervan.
Ik twijfel daar geen seconde aan, al was het maar vanwege de benchmarks. Zoals ik zei, ik was heel tevreden met het Apple ecosysteem en hoewel ik net zo tevreden ben over Wintel (kosten prive en zakelijk zelfde eco systeem als mijn huidige werkgever) weet ik heel goed waarom Apple zoveel aanhangers heeft. Ik doe gewoon geen hele spannende dingen waarbij de cpu heel hard loopt te stampen en ik kan blijkbaar vrij snel van UI wisselen zonder daar in te blijven hangen (en dat is voor iedereen anders, geen oordeel).

Mijn vrouw als video-edito/animatorr doet overigens ook alles op Wintel, enerzijds met een paar (oudere) workstations parallel en op haar i7 surface pro (en die is zeker niet snel tov een desktop of een M2). Rendertijd is volgens haar meer een "prettige" factor dan een must-have. Zoals ze zelf zegt, het is niet alsof een gemeente of een gemiddeld bedrijf Dreamworks kwaliteit wil (of uberhaupt budget heeft). Meeste opdrachten zijn infomercials etc. die online gaan. Nu Blender eindelijk ook geoptimaliseerd is voor de M serie is het nu wel een stuk interessanter, maar ik zie haar niet wisselen.

Dus ik kan het me absoluut voorstellen dat het voor jouw werk ook echt een doorslaggevend verschil is. Mij maakt het gewoon te weinig uit, ik red me overal wel mee :+

[Reactie gewijzigd door roffeltjes op 24 juli 2024 09:59]

1. Eerst zeggen dat Apple chips enkel nut hebben onder specifieke omstandigheden om dan vervolgens een heel specifieke omstandigheid te geven waarvoor je een X86 denkt nodig te hebben.

En 2: Een gewone end users die met grote datasets werkt :) Ik leer elke dag bij :)
Maar voor iedereen die niet beeldbewerking doet in specifieke packages heeft weinig baat bij een M1 en veel meer met een laatste gen intel/amd. En dit is toch wel een steeds terugkomend fenomeen voor Apple hardware.
Huh, ik die niks in beeldverwerking, enkel door grote datasets heen walsen. Ook voor development is het heerlijk werken met een M1. Lange accu duur, licht en snel. Mijn ‘kantoor’ is vaak een lekkere loungebank in ee schaduw van de bomen.

Met een intel had ik al gauw een stopcontact nodig gehad.
(Bron: wij beheren ongeveer 160 lenovo laptops voor onze afdeling en men smeekt letterlijk om Macbook Airs voor het dagelijks werk, helaas kan dat niet voor iedereen gezien de heterogene financierings structuur)
Waar heb je het over? Develop hier full time Kotlin applicaties en de M1 Air rend rondjes om mijn Macbook Pro i7. Je denkt veel teveel vanuit je eigen beperkte kadertje en extrapoleert dat naar de rest van de wereld. “Een gewone gebruiker die met grote data sets werkt….” Right.
Develop hier full time Kotlin applicaties en de M1 Air rend rondjes om mijn Macbook Pro i7.
Dat komt omdat je nu een 5nm chip met een 14nm chip vergelijkt, dus dat is gewoon een debiele vergelijking. De vergelijking moet je doen tussen moderne chips, en daar is het verschil simpelweg veel en veel kleiner.

Het helpt ook niet dat apple bewust onvoldoende koeling inbouwde in hun laatste intel machines. Je zou bijna denken dat ze wilden dat die slecht presteerden zodat de generatie erna beter uit de verf kwam ;)
In welke zin dan? In office openen hoef je echt geen M1 chip te hebben.

M1 is goed voor bepaalde taken meer niet. En dan is het rendement met usecase/price dus al niet meer relevant.
Leg eens uit, welke taken? IO of CPU intensief? Want in beide gevallen zijn ze erg snel en zuiniger dan x86/amd64 varianten.
Rendement is uitstekend. Ik doe nu ruim twee jaar met een M1 macbook, niks spannends en nog lang niet aan vervanging toe. De 2023 lenovo’s met meer geheugen en snellere ssd zijn ronduit traag voor dezelfde prijs. ( ik moet ze helaas supporten voor ons personeel)

Taken: Julia, python, R development. Tensorflow test pipelines ( het echte werk loopt op A100’s), office werk en database management.

Al met al, prima investering
Dat is niet anders dan smartphones. Je koopt een GUI. Wat voor hardware daar achter zit kan op geen manier relevant zijn. Het enige wat je merkt is de snelheid.
Chromebooks draaien toch op ARM en kosten geen drol dacht ik?
Chromebooks zijn behoorlijk duur geworden.
Bijna. Beetje jammer dat het met een verplichte malware komt.
Klopt maar naar wat ik hoor van veel mensen kunnen ze ook bar weinig en eindigen ze veel sneller op de plank als out dated dan windows/Mac laptops. Maar dat is dan ook deels te wijten aan de lage hardware specs en de software support die stopt.
Ik begreep juist dat Chromebook veel langer updates biedt dan Android?
But Can It Run Crysis?
Hoeveel jaar loopt dit nog achter op PC of console?
Heel eerlijk denk ik niet dat die markt heel interessant is voor ARM.
Mischien, maar wie dat voor melaar krijgt kan intel’s amd’s plekken innemen.

Waarom denk je dat nvidia ARM wilde kopen…

Niet alleen desktop space maar compute dominantie.
Dan zouden er het komende jaar chips moeten verschijnen met minstens 8 Cortex-X4 (en 4 Cortex-A720) cores om het een beetje interessant te maken om zo'n systeem aan te schaffen. Eigenlijk wil ik niet een 100W desktop, maar een van 10-25W vanwege hitte en stroomgebruik. Dat is ook de reden dat ik al mijn oude x86 desktops met pensioen heb gestuurd.

Op de server is Ampere met Altra en Ampere1 natuurlijk goed bezig. Deze zijn uiteraard goedkoper in aanschaf en gebruik dan x86 processoren voor de cloudtoepassingen waar deze voor ontworpen zijn. Persoonlijk kijk ik vanwege de aanschafkosten eerder uit naar Milk-V Pioneer en de tegenhanger van Sipeed, hoewel het nog een tijd kan duren, voordat deze daadwerkelijk op de markt komen.
De Apples M serie is indrukwekkend

Maar ik zou graag zien wat ARM kan doen met een 65W of 120W desktop, zoals we die van AMD en Intel gewoon zijn geraakt.
Eigenlijk wil ik niet een 100W desktop, maar een van 10-25W vanwege hitte en stroomgebruik.
je beschrijft een laptop...

@freaq
Heb je de Mediatek dimension 9300 gezien?
nieuws: Gerucht: MediaTek Dimensity 9300-soc heeft geen lichte, zuinige kernen

ik zie de volgende Mediatek SoC, de 9400 of zo, wel als 3nm TSMC masslaunch-combo met de nieuwste ARM componenten. Dan kan Mediatek nog eens focussen op shrinking, en dan hetzelfde Cortex-X4 complex (Armv9.2 architecture) met daaromheen een x-aantal chiplets, zoals de Cortex-A720 en Mali G720 GPU clusters (of Nvidia RTX-chiplet) en dan die aan elkaar glue'en, naar een powerbudget van 65W of zo. Hup, zo de SoC in met die rekenkernen. Da's de M-itx form factor in desktop termen.

Maar een 28W hybride mix van ultrabook of chromebook hoort al eerder tot de mogelijkheden, zeker met distro's als Deepin en die Nvidia RTX-gpu chiplets. Samen seamless en responsive en zo. En een ~40W voor de stx form factor behoort ook tot de mogelijkheden.

Total efficiency bangers, en ideaal voor studenten en academici. En dat met een aangekleedde & opgetuigde mid-range mobile chip.

Leuker nog:
220V compute wordt overbodig, behalve voor industriele toepassingen die vergunningen nodig hebben. 12 volt will do for 98.75% of the use cases.

[Reactie gewijzigd door Bulkzooi op 24 juli 2024 09:59]

Ja ben benieuwd.
Schijnt dat windows nu ook goed draait op apples M1 met emulatie,
Dus dat is imho het openings schot voor quallcomn en mediatek en nvidia mogelijk on toch eens te gaan pogen naar de “personal computer” markt.

Ik kijk ernaar uit iig
je beschrijft een laptop...
Een desktop hoeft helemaal niet 100W te verbruiken, mits je SoC's met zuinige cores gebruikt. Volgens mij is 100W of meer eerder iets voor een workstation of een server. Maar dat ligt er maar net aan waar je de grens trekt. Eigenlijk vind ik de traditionele desktop tegenwoordig overbodig geworden, want die hardware kan net zo goed in het formaat van een SBC gestopt worden, zoals een Mac Mini M1/M2 of een minder krachtige Orange Pi 5 (Plus/Max).
Een desktop hoeft helemaal niet 100W te verbruiken, mits je SoC's met zuinige cores gebruikt. Volgens mij is 100W of meer eerder iets voor een workstation of een server. Maar dat ligt er maar net aan waar je de grens trekt.
de voormalige chipsets en de indeling van product assortiment van de grote jongens Intel, AMD en Nvidia is voldoende indicatief.

multi-core was dus al gemeengoed. Alternatief kan je ook uitgaan van het acpi-space en de pci standaard.

[Reactie gewijzigd door Bulkzooi op 24 juli 2024 09:59]

Er zijn al verschillende programma's native geschreven voor Apple's M1 en M2 soc. Als ARM groot zou worden op Windows, is software die al native op de Apple soc's draait dan snel om te zetten naar Windows soc? Of valt dat mee vanwege toch andere architectuur en besturingssysteem?
Veel code wordt niet native geschreven maar gecompileerd. Om van de Intel macs naar de M macs te gaan hoefde je vaak weinig tot niks te doen.

Het is eerder de gebruikte (system) libraries. Zo heb je AppKit voor macOS (UIKit voor iOS) als je Apple’s standaard libs gebruikt. Die zijn er niet op Windows. Dus die applicaties kun je niet zomaar omzetten.

Als je dan weer het in bijvoorbeeld Java hebt geschreven hoef je het wellicht alleen opnieuw te compiler (of niet eens). Hangt dus enorm af van technische keuzes die in een (veel) eerder proces gemaakt zijn.
Als je dan weer het in bijvoorbeeld Java hebt geschreven hoef je het wellicht alleen opnieuw te compiler (of niet eens). Hangt dus enorm af van technische keuzes die in een (veel) eerder proces gemaakt zijn.
Dat hoeft niet, Java source code wordt (normaal gesproken) gecompileerd naar bytecode die onafhankelijk is van de gebruikte processorarchitectuur, en die bytecode wordt pas tijdens runtime naar native code omgezet (door de JIT = just-in-time compiler) voor de CPU waar het op draait.
Ik blijf hopen dat RiscV de vloer zal aanvegen met ARM binnen een jaar of 10.
Ben ik de enige die dat opgevallen is?
Arm hamerde op nog minder energie. Overal waar mogelijk probeert het zijn processors, gpu's en socs nog zuiniger te maken. Want wat heb je aan alle rekenkracht ter wereld als je accu binnen no-time leeg is.
OK dat is een keuze en zeker geen slechte.

En dan gaan ze raytracing ondersteunen, al is dat dan ook kennelijk aan het topmodel voorbehouden? Zo ongeveer de aller- aller- aller -rekenintensiefste manier om beelden weer te geven, en waarmee je met wat hogere resoluties ook een 400W 4090 nog op de knien kunt krijgen?
ray-tracing op de doos van je product (smartphone, tablet, Handheld) kunne zetten, is vermoedelijk vooral voor de marketing afdeling interessant.
Of dat voor deze devices veel nut heeft/veel toevoegt maakt voor marketing vermoedelijk niet veel uit.
Precies, kon op mijn 486 ook (povray), was alleen rete traag
Ha, dat waren tijden! Gaf ook mooie beelden, maarre bepaald geen 120 Hz, eerder 0.000000120 Hz!
Softwarematige Raytracing is zeer zwaar, daarom is de graal hardwarematige Raytracing, wat erg lastig is, maar mogelijk. Apple faalde daarmee met hun nieuwe GPU, daarom heeft Apple Silicon nog steeds de "oude" GPU. (tenminste dat zeggen de lekkers).
Voor degenen die ook niet alle termen van CPU architectuur direct paraat hebben: de Integer MAC gaat over waarschijnlijk over de Multiply-ACcumulator.
Toch blijf ik mij af vragen wat nu het werkelijke nut ervan is dat mobiele socs steeds sneller en sneller worden met steeds meer cores. Zeker als je naar de laatste jaren kijkt dat de verschillen tussen nieuwe en oudere socs steeds minder voelbaar zijn. Ja op papier en in theorie worden de getallen wel hoger maar mij gaat het veel meer om de praktijk.

Eigenlijk zie je nu een beetje terug wat fabrikanten eerder deden met de resolutie die ook alsmaar hoger en hoger werd op mobiele devices. Er werd totaal niet er naar gekeken of het in de praktijk ook daadwerklijk nut had voor de uiteindelijke gebruiker. Velen die dan een smartphone hebben met 4K werken uiteindelijk toch gewoon op b.v. Full HD. Deels dan voor beperken van energieverbruik maar deels ook omdat het verschil gewoonweg te klein is op een klein scherm.

Zeker mooi dat energieverbruik bij ARM ook bovenaan staat maar ik denk dan van werk dan voorgaande socs met minder cores eens nog beter uit. Méér cores vergt meer energie dus minder cores vergen minder energie en die dus nog zuiniger gemaakt kunnen worden.
Zeker mooi dat energieverbruik bij ARM ook bovenaan staat maar ik denk dan van werk dan voorgaande socs met minder cores eens nog beter uit. Méér cores vergt meer energie dus minder cores vergen minder energie en die dus nog zuiniger gemaakt kunnen worden.
Die mobile benadering was het hele idee van ARM, t.o.v. industry bullies op de x86 architectuur, Intel, AMD en Nvidia.

Eeuwig zonde dat de Casio chips niet wat verder pioneerden met de Atari concepten.

Hoe meer taken per seconde, hoe beter zeg ik altijd maar.

[Reactie gewijzigd door Bulkzooi op 24 juli 2024 09:59]

Op dit item kan niet meer gereageerd worden.