Cookies op Tweakers

Tweakers is onderdeel van DPG Media en maakt gebruik van cookies, JavaScript en vergelijkbare technologie om je onder andere een optimale gebruikerservaring te bieden. Ook kan Tweakers hierdoor het gedrag van bezoekers vastleggen en analyseren. Door gebruik te maken van deze website, of door op 'Cookies accepteren' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt? Bekijk dan ons cookiebeleid.

Meer informatie

Cerebras presenteert op 7nm gemaakte Wafer Scale-chip met 850.000 cores

Cerebras heeft de tweede versie van zijn Wafer Scale Engine gepresenteerd. Het gaat om een chip die een volledige 7nm-wafer van TSMC in beslag neemt. De chip heeft 2,6 biljoen transistors en 850.000 eenvoudige cores voor AI-berekeningen.

Net als bij de eerste Wafer Scale Engine, die op 16nm werd gemaakt, is iedere core voorzien van 18KB aan sram. Daarmee bevat de nieuwe chip in totaal 40GB aan sram. De geheugenbandbreedte en interconnectbandbreedte is door het toegenomen aantal cores ook veel hoger.

Omdat de yields van TSMC's 7nm-procedé zo goed zijn, gaat Cerebras uit van een yield van 100 procent, schrijft AnandTech. De chip is zo ontworpen dat de werking van eventuele niet-functionele cores opgevangen kan worden door de omliggende cores.

Cerebras kondigde vorig jaar al aan met een opvolger van zijn Wafer Scale Engine te komen, maar toen waren nog niet alle details bekend. De eerste versie werd in 2019 gepresenteerd en werd op 16nm gemaakt. Daarbij pasten 400.000 cores op hetzelfde chipoppervlak.

De eerste versie is volgens de makers bij diverse supercomputerlabs ingezet en vanuit diezelfde hoek is er interesse in het nieuwe model. Cerebras maakt ook een volledig systeem waar de chip in zit. Voor de nieuwe chip is dat de CS-2-computer, met twaalf 100Gbit/s-ethernetaansluitingen. Dat systeem is in het derde kwartaal van dit jaar beschikbaar en kost 'meerdere miljoen dollars'. Bij de eerste versie werd een prijs van 2 tot 3 miljoen dollar genoemd.

Chip Cerebras Wafer Scale Engine (2e generatie) Cerebras Wafer Scale Engine (1e generatie)
Procedé 7nm, TSMC 16nm, TSMC
Formaat Hele wafer (300mm)
21,5x21,5cm (462,3cm²)
46.225 mm2
Hele wafer (300mm)
21,5x21,5cm (462,3cm²)
46.225 mm2
Transistors 2,6 biljoen 1,2 biljoen
Aantal cores 850.000 400.000
Sram 48KB per core, 40GB totaal 48KB per core, 18GB totaal
Geheugenbandbreedte 20PB/s 9PB/s
Interconnectbandbreedte 220Pb/s 100Pb/s
Verbruik (chip/systeem) 15kW / 20kW 15kW / 20kW

Wat vind je van dit artikel?

Geef je mening in het Geachte Redactie-forum.

Door Julian Huijbregts

Nieuwsredacteur

21-04-2021 • 17:43

51 Linkedin

Reacties (51)

Wijzig sortering
Ik lees nergens in het artikel terug wat de architectuur van deze chip is. Ik het ARM gebaseerd, x86 of een geheel eigen architectuur? En wat is de use-case en wie zijn de klanten? Zonder deze informatie zie ik toch vooral een mooie technische prestatie om een hele wafer tot chip om te toveren maar niet meer dan dat.
Op de website van Cerebras staat:
Cerebras CS-2 is purpose-built to accelerate AI applications.
The Cerebras CS-2 is built from the ground up to accelerate deep learning in the data center.
hij moet dus in een data center AI/deep lerning dingen gaan doen.

verder staan hier voorbeelden met TensorFlow en PyTorch, allebei python library's. ik ben geen python-expert, maar ik denk dat hij op ARM of x86 draait, omdat ze anders nog python moeten laten werken op hun eigen architecture, net zoals een OS.
Denk niet dat de x86 of ARM architectuur een noodzaak is, volgens mij hebben zij dit afgevangen met een eigen compiler.
De compiler van Cerebras zet TensorFlow- en Pytorch-modellen voor deeplearningberekeningen om in machinetaal, zodat de engine deze kan verwerken, en libraries met microcode verdelen de rekentaken verder over het netwerk,
https://tweakers.net/nieu...tors-en-400000-cores.html
hem aansturen in python != python draait op de 850.000 cores zelf.

Je stuurt dat ding van buiten af, via het netwerk. Dus de python draait op je eigen computer ernaast.
verder staan hier voorbeelden met TensorFlow en PyTorch, allebei python library's. ik ben geen python-expert, maar ik denk dat hij op ARM of x86 draait, omdat ze anders nog python moeten laten werken op hun eigen architecture, net zoals een OS.
Alleen al het feit dat Tensorflow ook gebruik kan maken van nVidia's CUDA cores of Google's eigen Tensorcores weerspreekt je uitspraak....
Het is een eigen architectuur, een super simpele met wat slimme adressering en scheduling hardware voor subroutines. Ook niet zo heel erg wijd, in tegenstelling tot zeg Tensor cores, waardoor het beter geschikt is om sparse matrix vermenigvuldigen te implementeren.

Hier is een artikel die omschrijft hoe het systeem geprogrammeerd werd voor het oplossen van PDEs voor vloeistof simulaties. Een hoop puzzelwerk om deze machine efficiënt te programmeren, kan wel vergeten om een high level language te gebruiken.
Dit kun je denk ik eerder vergelijken met een ASIC.
Vanuit hun promo-materiaal lijkt het een AI-accellerator te zijn, en daarmee is het dus niet een (volledige) implementatie van de standaard CPU-architecturen. Vergelijkbaar met hoe NVIDEAs GPUs een eigen instructieset hebben die niet vergelijkbaar is met die van standaard CPUs.

[Reactie gewijzigd door Mattashii op 21 april 2021 18:17]

Alles wat je vraag staat in het artikel of dan wel in de links van het artikel. Qua architectuur is het dus geoptimaliseerd voor TensorFlow en Pytorch. Denk dat de ASIC vergelijking het dichtstbijzijnde vergelijkingsmateriaal is.
Er staat nu bovenaan dat het op AI toepassingen is gericht
Zal vergelijkbaar zijn met Nvidia's Tensor cores en Apple's Neural engine. Die doen alleen vector en matrix berekeningen.
Lees ik dat goed, 15kW voor de chip alleen ? En 20kW voor het het systeem? Holy crap :)
Die 15kW zal toch niet voor die ene chip zijn denk ik, ondanks 40GB sram...
56W 0.017W per core, klinkt mij niet heel vreemd. á 850.000 cores resulteert dat in een aardig vermogen.
Als je de behuizing bekijkt is dat ook een monster van een koelsysteem.

Edit. Foute berekening.

[Reactie gewijzigd door lulkoekje op 21 april 2021 19:04]

15kW = 15000W, en 850.000cores: ik kom op 0.017W/core uit.
bij 20kW kom ik op 0.0235W/core.

Die cores zijn ook heel klein, en doen voornamellijk convoluties ("AI operaties").

Andere berekening:
2.6mijlard gates voor 850.000 cores, da's +/- 3000 gates per core... da's weinig...

Er staat ook niets over frequentie bij.

[Reactie gewijzigd door bjp op 21 april 2021 19:11]

2.6 biljoen (eens geen vertaalfout dit keer) transistoren, dus 2600 miljard. 3 miljoen per core dus.

[Reactie gewijzigd door Raafz0r op 21 april 2021 21:02]

oeps :) klinkt al beter.
Oei.. Ik heb inderdaad overduidelijk zitten blunderen met die rekensom.. :o
Een 5950X verbruikt 6,5W per core ... ook op 7nm en ook TSMC, 56W geeft een meltdown bij die cores dan toch :)
Ik vermoed dat het sram gedeelte veel stroom neemt, wegens hoge refresh om data te bewaren, maar ik kan mis zijn, zoveel ken ik nu ook niet van CPU's
Ik vermoed dat het sram gedeelte veel stroom neemt, wegens hoge refresh om data te bewaren
SRAM (Static RAM) heeft geen refresh nodig, je bent in de war met DRAM (Dynamic RAM).
Yup, verward met SDRAM , je hebt gelijk
Sorry hoor maar wat?
15.000W voor 850.000 cores, dat is 0.018W per core.
Hoezo niet? Deze chip is zo groot als m'n ontbijtbord. Dus makkelijk 100x meer oppervlak dan een Ryzen chip op hetzelfde proces. Ook niet gek dan dat er 100x zoveel stroom doorheen gaat.
Sterker nog, exact zo groot als de (ouderwetse) LP. Dat komt meer in de buurt van een bord voor de warme maaltijd.
Mijn ontbijtborden zijn best flink van formaat :+
Het verschil is dat die Ryzen processor met een grote koeler in zijn eentje op een moederbord zit.
Die 15kW in dit geval komt uit een oppervlak net iets groter dan een enkel Mini-ITX bord. Dat is toch wel koeling van een andere orde.
Qua transistordichtheid is de stap naar 7nm vrij teleurstellend, je zou een verbetering van 5,22 verwachten (16/7)^2 maar de werkelijke verbetering t.o.v. 16nm is slecht een factor 2,167 wat je eigenlijk al op 11nm moet kunnen bereiken.
sommige zaken zoals I/O schalen slecht is me verteld speelt dat mogelijk hier een rol?
Ik verwacht dat er ook veel meer traces bijkomen om dat dubbele aantal cores van stroom en data te voorzien.
Die nemen ook oppervlakte in zonder echt in de transistor count te verschijnen.

Daarnaast gaat de 16nm vs 7nm puur alleen om het formaat van een transistor gate. Die eerder genoemde traces kunnen bijvoorbeeld niet echt verkleind worden omdat je dan teveel weerstand krijgt in de power rails, en zo zullen er nog meer dingen zijn die niet 1op1 mee kunnen schalen.
Van de vorige keer :)
Qua transistordichtheid misschien maar kijkend naar de ruimte voor sram en de interconnects, die je ook ergens kwijt moet, is het een prima prestatie.
Niet alle elementen van de transitor hebben die afmeting. Dit geldt alleen voor de kleinste onderdelen ervan.
Daarmee kan het ook niet schalen op die manier.
Maar de vraag is:

“Can it play crysis?”
Als je Crysis weet te porten naar high parallel code en het weet te compilen op die architectuur, have fun!
Je volgt hem niet helemaal, normaal roept men bij super computers “But does it run Crysis?”.

Omdat het hier om een specifieke artificial intelligence chip gaat: run -> play.

Woordspeling grapje.
Ah... uh... *duh*. Het was duidelijk te laat voor me, gisterenavond. _/-\o_
Maar de vraag is:
Ik zou eerder verwachten "Does it blend?" ?
Beetje jammer van de 0, hij is toch in-topic zou ik zeggen. Can it play?, Chip in gebruik voor AI :)
Gewoon +1 hoor, voor mij was dit het eerste waar ik aan dacht. Helaas is er nog geen antwoord op deze vraag. ;)
Offtopic maar... die koeling van dat systeem! prachtig! O+
Lijkt me helemaal on topic. :-)
kijk da's nog eens wat je een supercomputer kan noemen :9~ ipv de clusters die ze voor het gemak zo noemen. :O
en je kan er bovendien zelfs nog meerdere van in je rack duwen 8-)

gewoon ff zien dat je de lokale hoogspanningsleiding kan aftappen :+
Kijk dat is nog eens een cpu hahaha
Het is niet echt een CPU. Eerder een coprocessor om je neurale netwerken door te jassen.
Cerebras Mining edition :P
Is een prima vervanger voor mijn i5 6500.
Je kan er alleen geen hol me als je iets anders wil dan waar die specifiek voor bedoeld. Ik noem even iets exotisch als een operating system booten. ;)
past net op een mATX bordje ;)
oeps, het is al laat, ik las mATRIX bordje met al die AI functionaliteit

Op dit item kan niet meer gereageerd worden.


Apple iPad Pro (2021) 11" Wi-Fi, 8GB ram Microsoft Xbox Series X LG CX Google Pixel 5a 5G Sony XH90 / XH92 Samsung Galaxy S21 5G Sony PlayStation 5 Nintendo Switch Lite

Tweakers vormt samen met Hardware Info, AutoTrack, Gaspedaal.nl, Nationale Vacaturebank, Intermediair en Independer DPG Online Services B.V.
Alle rechten voorbehouden © 1998 - 2021 Hosting door True