Door Willem de Moor

Redacteur

Arm's next-gen cpu- en gpu-cores

Bouwstenen voor de socs van morgen

25-05-2021 • 15:00

26

Singlepage-opmaak

De Cortex-A710- en A510-cores

De Cortex-A710

De A710-core, of de 'big' core, is het werkpaard van de Arm-processor. De cores zijn geoptimaliseerd voor langdurige, zware taken zonder het stroomverbruik te veel op te schroeven. Sterker nog, het rendement is ten opzichte van de A78-cores met 30 procent verhoogd, met 10 procent prestatieverbetering en opnieuw dubbele ML-prestaties. Uiteraard heeft de A710 weer de Armv9-architectuur aan boord. De belangrijkste verbeteringen zijn de toevoeging van SVE2-instructies met een vectorlengte van 128bit. Voor de ML-prestaties zijn ook bfloat en int matmul toegevoegd. Vergeleken met de A78-core zijn de cacheafmetingen niet veranderd.

Arm Tech Day 2021: Cortex-A710Arm Tech Day 2021: Cortex-A710Arm Tech Day 2021: Cortex-A710Arm Tech Day 2021: Cortex-A710Arm Tech Day 2021: Cortex-A710Arm Tech Day 2021: Cortex-A710Arm Tech Day 2021: Cortex-A710

Aan de frontend is net als bij X2 de branch prediction verbeterd, met onder meer verdubbelde buffers voor de branch predictor en een 50 procent grotere tlb-cache. Een stapje verder in de core is, opnieuw zoals bij X2, de pipeline met één stap verkort tot tien stappen. De parallelliteit van de core is gereduceerd van zes naar vijf, wat de cores energiezuiniger maakt. Ook het ophalen van data van gedeelde caches of geheugen is verminderd, wat ook weer tot zuiniger cores leidt.

De Cortex-A510

De A510 blijft omwille van de energie-efficiëntie nog steeds een in-order architectuur, maar de core is desondanks behoorlijk snel. Met A55 vergeleken zou de A510 35 procent ipc-winst bieden, 20 procent zuiniger zijn en drie keer de machinelearningprestaties bieden. Arm vergelijkt de A510 met de vier jaar oude A73-core als voorbeeld. De in-order Little-core komt inmiddels aardig in de buurt van die OoO-core, met een ipc-verschil van minder dan 10 procent en een verschil in kloksnelheden tot 15 procent, terwijl het verbruik toch 35 procent lager is. Bovendien is de A510 nog maar de eerste kleine core; toekomstige iteraties moeten uiteraard nog meer prestaties bij lagere energie leveren.

De Cortex-A510 is een in-order core, net als de A55. Waar de A55 echter nog twee instructies per klok aankon, is de A510 een 3-wide design geworden. Dat betekent dat in de front-end en de executiecore drie instructies per kloktik verwerkt kunnen worden. Dat moet een flinke boost in prestaties geven, maar nog steeds een zuinige core mogelijk maken. Om de prestaties verder op te schroeven, zijn onder meer de branch prediction en data prefetch van de Cortex-X-serie aangepast aan de A510.

Arm Tech Day 2021: Cortex-A510Arm Tech Day 2021: Cortex-A510Arm Tech Day 2021: Cortex-A510Arm Tech Day 2021: Cortex-A510Arm Tech Day 2021: Cortex-A510Arm Tech Day 2021: Cortex-A510Arm Tech Day 2021: Cortex-A510Arm Tech Day 2021: Cortex-A510Arm Tech Day 2021: Cortex-A510Arm Tech Day 2021: Cortex-A510Arm Tech Day 2021: Cortex-A510Arm Tech Day 2021: Cortex-A510

In de load/store-pipelines is ook een flinke verandering doorgevoerd. De A510 heeft net als de A55 twee pipelines, maar die zijn voor de A510 van 64bit naar 128bit vergroot. Bovendien kunnen beide pipelines nu een load-operatie uitvoeren, waar dat bij de A55 slechts een van de twee was. Dat levert tot vier keer zoveel cachebandbreedte op, zodat de core voldoende gevoed kan worden.

De grootste verandering is echter dat twee A510-cores voortaan als complex uitgevoerd worden. De twee cores in zo'n zogeheten Merged Core Microarchitecture delen onder meer hun L2-cache, L2-tlb-cache en vectorlogica, wat een flinke oppervlaktereductie van zo'n complex oplevert ten opzichte van twee losse cores. De cores blijven verder wel volledig uitgevoerd, met eigen L1-caches en execution-units. Ook is het mogelijk slechts één core in zo'n complex te bouwen, wat de kleinste bouwsteen oplevert. De toegang tot de gedeelde vectorunit in een complex is configureerbaar en zou geen performancehit op berekeningen moeten geven.

Lees meer