Inleiding
Tijdens een update van Intels Data Platforms Group, de businessunit die verantwoordelijk is voor onder meer Xeon-processors en Optane-storage, deed Intel uit de doeken hoe het de nieuwe strategie implementeert. In januari kondigde de Data Platforms Group namelijk een 'realignment' aan, wat je zou kunnen interpreteren als een reorganisatie. De nieuwe strategie moet de groep onder meer beter laten inspelen op toekomstige eisen van zijn klanten.
Binnen de groep vallen onder meer voornoemde Xeon-processors, maar ook netwerkapparatuur, fpga-hardware, gpu-accelerators en machine-learninghardware. Onder de divisie vallen dus ook Intels recentere acquisities, zoals Habana (2019), en iets oudere, zoals Altera (2015) en Movidius (2016).
Volgens Intel vormen enkele ontwikkelingen in de komende tijd een drijvende kracht voor het bedrijfsonderdeel: de adoptie van 5g-netwerken, kunstmatige intelligentie, 'de cloud' en rekenkracht juist voor de cloud: de zogeheten 'intelligent edge'. Daarbij wordt data lokaal verwerkt en wordt alleen relevante data naar de cloud gestuurd. Voor veel van die toepassingen is kunstmatige intelligentie, of 'deep & machine learning', een belangrijke factor.
De productaankondigingen die de Data Platform Group naar buiten bracht, reflecteren dan ook die focus op machine-intelligence. Daarbij zijn voor Intel drie pijlers van belang: een is de communicatie tussen hardware, van netwerken tot silicon photonics, twee is rekenkracht in de vorm van Xeons, accelerators en fpga-processors, en drie is opslag met Optane en gewoon nand.
/i/2003669630.png?f=imagearticlefull)
Derde generatie Xeon Scalable
Processors behoren tot de kernproducten van Intel en krijgen voor het datacentrum een update. De Data Platforms Group introduceert de derde generatie Xeon Scalable-processors. Deze Xeons zijn bedoeld voor datacentra en zouden met vier tot acht stuks in een server geprikt moeten worden.
Tot zover weinig nieuws onder de zon, maar deze derde generatie Xeons heeft een nieuwe instructieset, speciaal voor deep-learningtoepassingen. De instructie heet bfloat16, of bf16 in het kort, en moet neurale netwerken versnellen. Specifiek moet het trainen van zo'n netwerk worden versneld zonder dat het netwerk veel aan nauwkeurigheid inboet. Vorig jaar, met de introductie van de tweede generatie Xeon Scalable, voegde Intel de int8-instructie toe, eveneens voor neurale netwerken. Waar int8 echter alleen geschikt is voor inference, de resultaatstap dus, is bf16 geschikt om het netwerk te trainen. Daarvoor wordt tot dusver volgens Intel vooral fp32 gebruikt, wat nauwkeuriger is, maar ook langzamer. Met bf16 zou zowel het trainen als de inferencestap van een neuraal netwerk met bf16 ongeveer 1,9 maal zo snel zijn als met fp32.
Ook vergeleken met avx-512, de fp32-instructie die bij de eerste generatie Xeon Scalable voor neurale netwerken wordt gebruikt, is bf16 veel sneller. Net als int8 maakt ook bf16 deel uit van de features die Intel onder de noemer DL Boost schaart.
Het platform voor deze derde generatie Xeon Scalable heet Cedar Island en de processors staan onder de codenaam Cooper Lake bekend. Later dit jaar komt Intel nog met het Whitley-platform dat op Ice Lake wordt gebaseerd en voor kleinere servers met een of twee sockets is bedoeld. Volgend jaar moet het Eagle Stream-platform met Sapphire Rapids-Xeons volgen. Dat platform moet verenigend werken; het is geschikt voor een tot acht sockets en krijgt bovendien weer een verbetering in DL Boost met de AMX-instructie. Intel meldde dat het de zogeheten 'power on'-test voor Sapphire Rapids succesvol heeft voltooid.
Model |
Cores/threads |
Baseclock |
Max turbo (1 core) |
Tdp |
Cache |
Geheugensnelheid |
Max geheugen |
Sockets |
Xeon Platinum 8380HL |
28/56 |
2,9GHz |
4,3GHz |
250W |
38,5MB |
ddr4-3200 (1dpc) ddr4-2933 (2dpc) |
4,5TB |
4s / 8s |
Xeon Platinum 8380H |
28/56 |
2,9GHz |
4,3GHz |
250W |
38,5MB |
ddr4-3200 (1dpc) ddr4-2933 (2dpc) |
1,12TB |
4s / 8s |
Xeon Platinum 8376H |
28/56 |
2,6GHz |
4,3GHz |
205W |
38,5MB |
ddr4-3200 (1dpc) ddr4-2933 (2dpc) |
4,5TB |
4s / 8s |
Xeon Platinum 8376H |
28/56 |
2,6GHz |
4,3GHz |
205W |
38,5MB |
ddr4-3200 (1dpc) ddr4-2933 (2dpc) |
1,12TB |
4s / 8s |
Xeon Platinum 8354H |
18/36 |
3,1GHz |
4,3GHz |
205W |
24,75MB |
ddr4-3200 (1dpc) ddr4-2933 (2dpc) |
1,12TB |
4s / 8s |
Xeon Platinum 8348H |
18/36 |
2,5GHz |
3,8GHz |
150W |
24,75MB |
ddr4-3200 (1dpc) ddr4-2933 (2dpc) |
1,12TB |
4s / 8s |
Xeon Gold 6348H |
24/48 |
2,3GHz |
4,2GHz |
165W |
33MB |
ddr4-2933 (2dpc) |
1,12TB |
4s |
Xeon Gold 6328HL |
16/32 |
2,8GHz |
4,3GHz |
165W |
22MB |
ddr4-2933 (2dpc) |
4,5TB |
4s |
Xeon Gold 6328H |
16/32 |
2,8GHz |
4,3GHz |
165W |
22MB |
ddr4-2933 (2dpc) |
1,12TB |
4s |
Xeon Gold 5320H |
20/40 |
2,4GHz |
4,2GHz |
150W |
27,5MB |
ddr4-2666 (2dpc) |
1,12TB |
4s |
Xeon Gold 5318H |
18/36 |
2,5GHz |
3,8GHz |
150W |
24,75MB |
ddr4-2666 (2dpc) |
1,12TB |
4s |
Fpga's en opslag
De Stratix 10 NX-fpga
Zoals bekend heeft Intel in 2015 een astronomisch bedrag betaald voor Altera en de nieuwste fpga uit die stal is de Stratix 10 NX. Omdat fpga's flexibel zijn wat hun hardwareconfiguratie betreft, kunnen ze onder meer worden gebruikt voor toepassingen waarbij snelle innovatie nodig is. En omdat fpga's in de regel over uitgebreide interfaces met de buitenwereld beschikken, kunnen ze veel data parallel verwerken.
/i/2003669632.png?f=imagenormal)
Zo beschikt de nieuwe fpga in de Stratix-serie, dankzij pam4-receivers en Intels eigen ethernetcontrollers, over 57,8GB/s aan netwerkbandbreedte en zijn er chiplets aanwezig voor custom i/o-verbindingen. De 10 NX heeft bovendien een blok hbm-geheugen dat met een brede bus kan worden benaderd. Al die onderdelen worden via Intels emib-technologie met de fpga zelf verbonden.
/i/2003669634.png?f=imagenormal)
Die processor wordt op 14nm geproduceerd en heeft een sterk uitgebreid tensorblok voor ai-toepassingen. Tensorhardware wordt onder meer in neurale netwerken gebruikt. Zo heeft Nvidia tensorcores in zijn gpu's voor neurale netwerken in zowel consumenten- als acceleratorkaarten. De 10NX heeft een tensorblok met dertig multipliers en dertig accumulators, waar voorganger 10 MX over twee multipliers en twee accumulators beschikt. Daarmee zijn int8-berekeningen tot vijftien maal zo snel op de nieuwe fpga. Ook vergeleken met accelerators als Nvidia's V100-kaart zou de 10NX ruim twee tot bijna vier keer zo snel zijn met bijvoorbeeld spraakverwerking en de integratie van grote hoeveelheden data. In de loop van dit jaar moeten de eerste testexemplaren van de fpga beschikbaar komen.
Opslag: Optane- en Arbordale-ssd
Op het gebied van opslag heeft Intel twee opties: Optane- en nand-ssd's. Van beide worden nieuwe series geïntroduceerd met de Optane Persistent Memory 200-serie aan de ene kant en twee nand-ssd's in de vorm van de D7-P5500 en P5600.
De Optane PMem-modules zijn in capaciteiten van 128GB, 256GB en 512GB verkrijgbaar, en zijn uiteraard geschikt voor de derde generatie Xeon Scalable-systemen. Per geheugenkanaal kan een Optane-module in de ddr4-slots geprikt worden. Ten overvloede: het voordeel van Optane-geheugen is het behoud van data zonder spanning. Anders dan ram blijft data in het Optane-geheugen bewaard bij een herstart van de server. De modules kunnen worden ingezet als gewoon geheugen met snelheden tot 2666MT/s of als aparte opslaglaag in App Direct Mode.
/i/2003669636.png?f=imagenormal)
De nieuwe generatie nand-ssd's, met de D7-5500 en D7-5600, zijn tlc-nand-ssd's die sterk op elkaar lijken. Beide series zijn als u2-drives verkrijgbaar. De capaciteit van de D7-5600-serie is iets lager, maar dat gaat gepaard met een hogere endurance. Het nand bestaat uit 96 lagen tlc en de controller ondersteunt nvme 1.3c en pci-e gen4 met vier lanes. Overigens heeft Intel nog geen processors of chipsets die pci-e gen4 ondersteunen; ook het nieuwe Xeon Scalable-platform moet het met gen3 doen.
Beide drives halen sequentiële snelheden tot 7000MB/s voor lezen en 4300MB/s voor schrijven, en combineren dat met respectievelijk 1 miljoen en 130.000 iops voor 4k-random lezen en schrijven. De 5500-serie is in capaciteiten van 1,92TB, 3,84TB en 7,68TB verkrijgbaar; de 5600-serie heeft capaciteiten van 1,6TB, 3,2TB en 6,4TB. Beide series verstoken tijdens activiteit maximaal 20W en idle is dat 5W. Op de 5500-serie kan dagelijks eenmaal zijn volledige capaciteit geschreven worden, terwijl de endurance van de 5600-serie drie keer zo hoog is.
Tot slot
Om het plaatje voor het datacentrum compleet te maken, ontwikkelt Intel ook de inmiddels welbekende Xe-gpu, die als accelerator kan worden gebruikt. Uit de stal van het eerder genoemde Movidius komt in aanloop naar een introductie, voor sommige klanten een derde generatie Movidius VPU, of visual processing unit, als sample beschikbaar. Ten slotte zijn ook de Gaudi- en Goya-chips van Habana, respectievelijk chips voor het trainen van ai's en een inference-accelerator, als beperkte samples verkrijgbaar. Daarmee heeft Intel een uitgebreid portfolio in hardware om samen met zijn software, api's en het complete ecosysteem van klanten en leveranciers, slimmere netwerken te bouwen.