Door Willem de Moor

Redacteur

Intel Data Platforms-update

Vol inzetten op deep learning en ai

Inleiding

Tijdens een update van Intels Data Platforms Group, de businessunit die verantwoordelijk is voor onder meer Xeon-processors en Optane-storage, deed Intel uit de doeken hoe het de nieuwe strategie implementeert. In januari kondigde de Data Platforms Group namelijk een 'realignment' aan, wat je zou kunnen interpreteren als een reorganisatie. De nieuwe strategie moet de groep onder meer beter laten inspelen op toekomstige eisen van zijn klanten.

Binnen de groep vallen onder meer voornoemde Xeon-processors, maar ook netwerkapparatuur, fpga-hardware, gpu-accelerators en machine-learninghardware. Onder de divisie vallen dus ook Intels recentere acquisities, zoals Habana (2019), en iets oudere, zoals Altera (2015) en Movidius (2016).

Volgens Intel vormen enkele ontwikkelingen in de komende tijd een drijvende kracht voor het bedrijfsonderdeel: de adoptie van 5g-netwerken, kunstmatige intelligentie, 'de cloud' en rekenkracht juist voor de cloud: de zogeheten 'intelligent edge'. Daarbij wordt data lokaal verwerkt en wordt alleen relevante data naar de cloud gestuurd. Voor veel van die toepassingen is kunstmatige intelligentie, of 'deep & machine learning', een belangrijke factor.

De productaankondigingen die de Data Platform Group naar buiten bracht, reflecteren dan ook die focus op machine-intelligence. Daarbij zijn voor Intel drie pijlers van belang: een is de communicatie tussen hardware, van netwerken tot silicon photonics, twee is rekenkracht in de vorm van Xeons, accelerators en fpga-processors, en drie is opslag met Optane en gewoon nand.

Update-overzicht Data Platforms Group

Derde generatie Xeon Scalable

Processors behoren tot de kernproducten van Intel en krijgen voor het datacentrum een update. De Data Platforms Group introduceert de derde generatie Xeon Scalable-processors. Deze Xeons zijn bedoeld voor datacentra en zouden met vier tot acht stuks in een server geprikt moeten worden.

Tot zover weinig nieuws onder de zon, maar deze derde generatie Xeons heeft een nieuwe instructieset, speciaal voor deep-learningtoepassingen. De instructie heet bfloat16, of bf16 in het kort, en moet neurale netwerken versnellen. Specifiek moet het trainen van zo'n netwerk worden versneld zonder dat het netwerk veel aan nauwkeurigheid inboet. Vorig jaar, met de introductie van de tweede generatie Xeon Scalable, voegde Intel de int8-instructie toe, eveneens voor neurale netwerken. Waar int8 echter alleen geschikt is voor inference, de resultaatstap dus, is bf16 geschikt om het netwerk te trainen. Daarvoor wordt tot dusver volgens Intel vooral fp32 gebruikt, wat nauwkeuriger is, maar ook langzamer. Met bf16 zou zowel het trainen als de inferencestap van een neuraal netwerk met bf16 ongeveer 1,9 maal zo snel zijn als met fp32.

Ook vergeleken met avx-512, de fp32-instructie die bij de eerste generatie Xeon Scalable voor neurale netwerken wordt gebruikt, is bf16 veel sneller. Net als int8 maakt ook bf16 deel uit van de features die Intel onder de noemer DL Boost schaart.

Het platform voor deze derde generatie Xeon Scalable heet Cedar Island en de processors staan onder de codenaam Cooper Lake bekend. Later dit jaar komt Intel nog met het Whitley-platform dat op Ice Lake wordt gebaseerd en voor kleinere servers met een of twee sockets is bedoeld. Volgend jaar moet het Eagle Stream-platform met Sapphire Rapids-Xeons volgen. Dat platform moet verenigend werken; het is geschikt voor een tot acht sockets en krijgt bovendien weer een verbetering in DL Boost met de AMX-instructie. Intel meldde dat het de zogeheten 'power on'-test voor Sapphire Rapids succesvol heeft voltooid.

Model Cores/threads Baseclock Max turbo (1 core) Tdp Cache Geheugensnelheid Max geheugen Sockets
Xeon Platinum 8380HL 28/56 2,9GHz 4,3GHz 250W 38,5MB ddr4-3200 (1dpc)
ddr4-2933 (2dpc)
4,5TB 4s / 8s
Xeon Platinum 8380H 28/56 2,9GHz 4,3GHz 250W 38,5MB ddr4-3200 (1dpc)
ddr4-2933 (2dpc)
1,12TB 4s / 8s
Xeon Platinum 8376H 28/56 2,6GHz 4,3GHz 205W 38,5MB ddr4-3200 (1dpc)
ddr4-2933 (2dpc)
4,5TB 4s / 8s
Xeon Platinum 8376H 28/56 2,6GHz 4,3GHz 205W 38,5MB ddr4-3200 (1dpc)
ddr4-2933 (2dpc)
1,12TB 4s / 8s
Xeon Platinum 8354H 18/36 3,1GHz 4,3GHz 205W 24,75MB ddr4-3200 (1dpc)
ddr4-2933 (2dpc)
1,12TB 4s / 8s
Xeon Platinum 8348H 18/36 2,5GHz 3,8GHz 150W 24,75MB ddr4-3200 (1dpc)
ddr4-2933 (2dpc)
1,12TB 4s / 8s
Xeon Gold 6348H 24/48 2,3GHz 4,2GHz 165W 33MB ddr4-2933 (2dpc) 1,12TB 4s
Xeon Gold 6328HL 16/32 2,8GHz 4,3GHz 165W 22MB ddr4-2933 (2dpc) 4,5TB 4s
Xeon Gold 6328H 16/32 2,8GHz 4,3GHz 165W 22MB ddr4-2933 (2dpc) 1,12TB 4s
Xeon Gold 5320H 20/40 2,4GHz 4,2GHz 150W 27,5MB ddr4-2666 (2dpc) 1,12TB 4s
Xeon Gold 5318H 18/36 2,5GHz 3,8GHz 150W 24,75MB ddr4-2666 (2dpc) 1,12TB 4s

Fpga's en opslag

De Stratix 10 NX-fpga

Zoals bekend heeft Intel in 2015 een astronomisch bedrag betaald voor Altera en de nieuwste fpga uit die stal is de Stratix 10 NX. Omdat fpga's flexibel zijn wat hun hardwareconfiguratie betreft, kunnen ze onder meer worden gebruikt voor toepassingen waarbij snelle innovatie nodig is. En omdat fpga's in de regel over uitgebreide interfaces met de buitenwereld beschikken, kunnen ze veel data parallel verwerken.

Zo beschikt de nieuwe fpga in de Stratix-serie, dankzij pam4-receivers en Intels eigen ethernetcontrollers, over 57,8GB/s aan netwerkbandbreedte en zijn er chiplets aanwezig voor custom i/o-verbindingen. De 10 NX heeft bovendien een blok hbm-geheugen dat met een brede bus kan worden benaderd. Al die onderdelen worden via Intels emib-technologie met de fpga zelf verbonden.

Upgraded tensorblock

Die processor wordt op 14nm geproduceerd en heeft een sterk uitgebreid tensorblok voor ai-toepassingen. Tensorhardware wordt onder meer in neurale netwerken gebruikt. Zo heeft Nvidia tensorcores in zijn gpu's voor neurale netwerken in zowel consumenten- als acceleratorkaarten. De 10NX heeft een tensorblok met dertig multipliers en dertig accumulators, waar voorganger 10 MX over twee multipliers en twee accumulators beschikt. Daarmee zijn int8-berekeningen tot vijftien maal zo snel op de nieuwe fpga. Ook vergeleken met accelerators als Nvidia's V100-kaart zou de 10NX ruim twee tot bijna vier keer zo snel zijn met bijvoorbeeld spraakverwerking en de integratie van grote hoeveelheden data. In de loop van dit jaar moeten de eerste testexemplaren van de fpga beschikbaar komen.

Opslag: Optane- en Arbordale-ssd

Op het gebied van opslag heeft Intel twee opties: Optane- en nand-ssd's. Van beide worden nieuwe series geïntroduceerd met de Optane Persistent Memory 200-serie aan de ene kant en twee nand-ssd's in de vorm van de D7-P5500 en P5600.

De Optane PMem-modules zijn in capaciteiten van 128GB, 256GB en 512GB verkrijgbaar, en zijn uiteraard geschikt voor de derde generatie Xeon Scalable-systemen. Per geheugenkanaal kan een Optane-module in de ddr4-slots geprikt worden. Ten overvloede: het voordeel van Optane-geheugen is het behoud van data zonder spanning. Anders dan ram blijft data in het Optane-geheugen bewaard bij een herstart van de server. De modules kunnen worden ingezet als gewoon geheugen met snelheden tot 2666MT/s of als aparte opslaglaag in App Direct Mode.

Optane en nand-ssd's in storage-hierarchie

De nieuwe generatie nand-ssd's, met de D7-5500 en D7-5600, zijn tlc-nand-ssd's die sterk op elkaar lijken. Beide series zijn als u2-drives verkrijgbaar. De capaciteit van de D7-5600-serie is iets lager, maar dat gaat gepaard met een hogere endurance. Het nand bestaat uit 96 lagen tlc en de controller ondersteunt nvme 1.3c en pci-e gen4 met vier lanes. Overigens heeft Intel nog geen processors of chipsets die pci-e gen4 ondersteunen; ook het nieuwe Xeon Scalable-platform moet het met gen3 doen.

Beide drives halen sequentiële snelheden tot 7000MB/s voor lezen en 4300MB/s voor schrijven, en combineren dat met respectievelijk 1 miljoen en 130.000 iops voor 4k-random lezen en schrijven. De 5500-serie is in capaciteiten van 1,92TB, 3,84TB en 7,68TB verkrijgbaar; de 5600-serie heeft capaciteiten van 1,6TB, 3,2TB en 6,4TB. Beide series verstoken tijdens activiteit maximaal 20W en idle is dat 5W. Op de 5500-serie kan dagelijks eenmaal zijn volledige capaciteit geschreven worden, terwijl de endurance van de 5600-serie drie keer zo hoog is.

Tot slot

Om het plaatje voor het datacentrum compleet te maken, ontwikkelt Intel ook de inmiddels welbekende Xe-gpu, die als accelerator kan worden gebruikt. Uit de stal van het eerder genoemde Movidius komt in aanloop naar een introductie, voor sommige klanten een derde generatie Movidius VPU, of visual processing unit, als sample beschikbaar. Ten slotte zijn ook de Gaudi- en Goya-chips van Habana, respectievelijk chips voor het trainen van ai's en een inference-accelerator, als beperkte samples verkrijgbaar. Daarmee heeft Intel een uitgebreid portfolio in hardware om samen met zijn software, api's en het complete ecosysteem van klanten en leveranciers, slimmere netwerken te bouwen.

Reacties (26)

26
25
13
2
0
10
Wijzig sortering
Waarom zou je een Xeon (en dan specifiek de nieuwe instructieset) willen gebruiken voor deep learning? Een GPU met zijn duizenden compute units is daar toch veel praktischer voor? Het gebruik van FPGA's kan ik nog begrijpen, maar in software machine learning doen op de CPU lijkt me heel onpraktisch. Ook zijn de Xeons met FPGA's best duur vergeleken met de grafische kaarten die tegenwoordig gebruikt worden. Heel leuk dat het nu sneller is op de CPU, maar investeren in een nieuwe CPU voor machine learning lijkt me kapitaalvernietiging.

Ik mis ook een beetje een omschrijving van wat de concurrentie doet. Hoeveel sneller zijn de nieuwe Xeons tegenover een gelijkgeprijsde EPYC (of Threadripper)? Hoe vergelijken de nieuws SSD's met hun PCIe4 concurrentie?

Ik vind het vreemd om een artikel in de categorie "achtergrond" te zien waar alleen het Intel-aanbod wordt besproken. Als het nou over de FPGA in de Xeons ging, had ik het nog logisch gevonden bij Intel te blijven omdat ze daarin uniek zijn, maar snelle SSD's kan Samsung ook maken.
CPU code debugged een heel stuk makkelijker. En als die CPU dezelfde bfloat16 gebruikt als de GPU is het nog makkelijker vergelijken. Maar performance maakt inderdaad niet uit voor dat soort toepassingen. Mijn laptop heeft nu een 1060; de echte netwerk training hier draait op een setje 1080Ti's. En als je geen AI code zelf schrijft maar alleen Tensorflow gebruikt, dan maakt het al helemaal niet uit.

Intel's FPGA's zijn best wel leuke dingen, maar volstrekt ongeschikt voor AI. FPGA's bieden nog meer flexibiliteit dan CPU's, maar dat heb je niet nodig. AI is voor 99% een kwestie van Fused Multiply and Add (FMA), vandaar dat er wordt verwezen naar "30 multipliers, 30 accumulators". Niet dat dat heel erg veel is, overigens. Een quadcore Xeon-D heeft 512 van beiden.
@Willem de Moor: Ik kan me heel goed in de feedback van GertMenkel vinden wat betreft 'achtergrond'. Vind je dit zelf een 'achtergrondwaardig' artikel/onderwerp? Kun je je vinden in onze roep om meer context? Hoezo "vol inzetten op deep learning en AI"?
// verder een prima artikel hoor, dank daarvoor. Ik vind jouw uitleg aanzienlijk leesbaarder dan het persbericht van Intel en kan me dan ook niet vinden in de opmerkingen over dat dit artikel een advertorial zou zijn.

@MSalters Zelf duik ik dan graag de reacties in om me door ervaringsdeskundigen op mijn plek te laten zetten wat betreft relevantie/context. Herhaaldelijk kom ik dan bij jou terecht, wederom bedankt voor je bijdrage. Ik waardeer het enorm dat je jouw ongezouten, en voor zover ik kan inschatten objectieve, visie deelt op niveau.
Ik zou je op mijn knietjes danken als je soms net iets meer context zou bieden bij jouw ervaringen. Ik kan je bijvoorbeeld goed volgen in de eerste alinea, maar bij de tweede verlies ik je: is dit een reactie op het gebruik van FPGA's in zijn algemeen, de FPGA's van Intel of een vergelijking met FDGA's icm een AMD CPU? En hoezo is dat niet veel?

Vindt jij deze 'nieuwe' release innovatief of is het meer van hetzelfde maar dan een tandje sneller/groter? Wanneer moet je z'n ding hebben in plaats van een oudere variant of iets van de concurrent? Heb je iets te zeggen over de 'realignment', als in: vindt je de realignment gewoon een kwestie van winstmaximalisatie of geloof je in het beter bedienen van de afnemer?
Intel FPGA's zijn net zoals alle FPGA's ongeschikt voor AI, maar ik neem specifiek Intel op de korrel omdat ze hier een "AI Tensor Block" claimen.

Kijk, Intel hééft serieuze AI producten, zoals die Movidius VPU. Die hebben we hier ook op kantoor liggen. Enigzins irritant daaraan is dat het alleen een camera-aansluiting heeft en geen microfoon, maar goed, niet iedereen doet audio-AI. Wij wel, en dan is het irritant dat die Movidius een langzame bus richting host-PC heeft.
Die 30 multipliers en accumulators zitten in een klein blokje waar voorheen de DSP blokken zaten. Zo'n Stratix 10 heeft vervolgens weer duizenden van die blokjes.

De lastigheid zit hem in het efficient inzetten van deze rekenkracht. Dat is bij een GPU gewoon eenvoudiger en bij de FPGA moet je zelf de data flow architectuur nog opzetten. Ook daar zal Intel wel iets voor maken, maar dat is vaak niet one-size-fits-all.
Ik kan nergens een onderbouwing vinden van die "duizenden" blokjes. De vrijheid om zelf je dataflow op te zetten is wel zo handig, zeker voor de wat experimentelere architecturen. (zoals Neuroevolutionaire netwerken)
Klopt, heb er ook even naar gezocht, maar van de DSP blokken die ze vervangen bij de NX zitten er echt duizenden in.

Een top-range GX 2800 (kwa DSP compute power) heeft er bijvoorbeeld 5760.

Dat de getallen nog niet bekend zijn heeft te maken met dat er nog geen tape-out is geweest gok ik. Ze zijn nog aan het puzzelen hoeveel er op passen of de informatie is nog te competitie gevoelig volgens Intel Marketing.

[Reactie gewijzigd door kdeboois op 19 juni 2020 10:09]

er is wel een case voor FPGA voor AI. Die doen het zeker beter voor inference buiten een computerkast. Zoals voor < 30Watts. En daar zijn die veel krachtiger dan embedded CPUs of GPUs.

Efficiëntie is veel hoger, en je kan het aanpassen aan het specifiek net. Of de nieuwste netten toch ondersteunen (tegenover een custom ASIC).

Het lastige: dat ding programmeren :-)

FPGAs hebben ook massieve bandbreedtes en onboard caches/SRAMs. Zoals in dit voorbeeld, HBM ernaast.

GPUs en CPUs zijn ook niet zo goed in het gebruik van hun multipliers. Er zijn nog veel cycles waar ze niet bezig zijn. Daarom die tensorcores bijvoorbeeld. Je moet de data aanleveren/terug uithalen.

En voor toepassingen (dus niet training), is een computerkast niet zo handig: in zelfrijdende autos, ...

Ik vermoed ook dat ze meer als 1 blokje "30 multipliers/accumulators" erin zetten. In FPGAs heb je al jaren duizenden multipliers!
Het leest een beetje als een advertorial maar toch ook weer niet helemaal, is het een advertorial?

[Reactie gewijzigd door Jonathan-458 op 18 juni 2020 15:50]

Het is meer een advertorial dan een achtergrondartikel. Bij een achtergrondartikel zou ik meer algemene informatie over andere implementaties van deep learning en AI (ontwikkeling) verwachten.
Dit artikel had ik geschreven naar aanleiding van een call (online persconferentie dus) van Intels data platforms group. Omdat er best een en ander aangekondigd werd, leek het me interessanter om er een iets langer stukje over te schrijven dan simpelweg een nieuwsje. Ja, het gaat om diverse nieuwe producten van Intel, maar als dat een advertorial is, dan zou elke productaankondiging volgens die redenatie marketing zijn :)
Mijn alternatieven als artikeltype waren
review - sowieso niet
preview - lijkt me ook niet
benchmark - nope
best buy guide - nope
handson - nope
koophulp - nope
roundup - ook niet (volgens onze definitie)
of
achtergrond en overig. Overig vind ik een hele gekke die bij mijn weten nog nooit gebruikt is, dus bleef achtergrond over.
Het leek mij interessant een overzicht te geven van intels stappen (zeker gezien de 'realignment' van de divisie recent), maar als jullie in het vervolg dat als korte nieuwsitems willen lezen is dat ook (y) natuurlijk :)
Ik zou jullie wel toegang kunnen geven (@Schiphol en remote) tot hardware met dual Intel 6230R en AMD 7702P als dat interessant is. Ice Lake heb ik nog niet, dat heeft ook pas zin als ze released zijn.
@willemdemoor Ik denk dat een achtergrond artikel wel het leukste is gezien er toch wel wat te vertellen is. Alleen wat hier mist denk ik is de vergelijking met andere producten, en dan bedoel ik niet persé benchmarks, maar gewoon uitleg kwa concepten die juist wel/niet concurrenten toepassen etc.. Nu is het meer een etaleer artikel en dat lijkt erg op een advertorial ;) .

In iets andere woorden: Meer iets in de richting van een state-of-the-art artikel met waar verschillende FPGA fabrikanten staan nu bijv.

[Reactie gewijzigd door svenk91 op 19 juni 2020 17:06]

Goed punt. Dit was meer een (uitgebreidere) nieuws-insteek, maar volgende keer probeer ik meer het umfeld mee te nemen :)
Dank voor je reactie & toelichting.
Een advergrondartikel.
Je hebt helemaal gelijk, maar ben ook zeer benieuwd naar de schrijver’s gedachte.


Gebruikt Tweakers overigens de tag Advertorial?

[Reactie gewijzigd door Jonathan-458 op 18 juni 2020 16:57]

Naja, ik had een commentaar gepost over xilinx versal en die is weggemod ofzo... en een paar reacties zijn ook spoorloos van anderen

Edit: dan neem ik mijn woorden terug 8)7 8)7

[Reactie gewijzigd door WienerBlut op 18 juni 2020 18:07]

Nee, die reactie heb je geplaatst onder het nieuwsbericht over de nieuwe Xeons en die staat er gewoon. Waarschijnlijk vind je daar ook de andere reacties die je kwijt bent ;) WienerBlut in 'nieuws: Intel presenteert derde generatie Xeon Scalable-server...
Het onderwerp begint met 'Intel'...

Zou betere achergrond-info bij dat onderwerp niet zijn, dat Intel een kwart tot een derde van het 'Data Center Group'- personeel heeft ontslagen voor deze 'realignment' en waarom?

https://semiaccurate.com/...s-at-intel-happening-now/
Daarmee heeft Intel een uitgebreid portfolio in hardware om samen met zijn software, api's en het complete ecosysteem van klanten en leveranciers, slimmere netwerken te bouwen.
Bedoel je dat zoiets als dit als reclame klinkt?

Hoe kom je erbij! :+
Het lijkt echt alsof Intel laat aan tafel schuift. Net als met hun CPU ontwikkelingen, hebben ze te lang de ontwikkelingen in de markt genegeerd?
En juist over die timing en de huidige concurrentie zou ik iets verwachten/hopen bij een achtergrondartikel...
Of het nu een "artikel" is of een advertentie, in beide gevallen ben ik niet onder de indruk van de marketingpraat. Geen moment dat ik dacht "goh, interessante stappen zetten ze". Het is gewoon net allemaal iets meer dan de vorige generatie(s).
Ik lees regelmatig het woord "processor" in de alinea over de FPGA. Maar FPGA's en processors zijn technologies totaal verschillende dingen, je kunt een FPGA geen processor noemen.

Op dit item kan niet meer gereageerd worden.

Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee