Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Cerebras onthult CS-1-computer met enorme chip die 400.000 cores bevat

Cerebras kondigt de CS-1 aan, een computer die is voorzien van zijn eerder gepresenteerde Wafer Scale Engine. Dat is een chip van 21,5x21,5cm die 400.000 cores en 18GB sram bevat. Het systeem is bedoeld voor berekeningen voor kunstmatige intelligentie.

Wafer Scale Engine naast Nvidia-gpu

De Cerebras CS-1 is 445x1005mm groot en weegt 254kg. Het systeem kan in een serverkast geplaatst worden en neemt dan net zoveel plek in als vijftien rack units. In de CS-1 zit de Wafer Scale Engine, die Cerebras in augustus aankondigde. Het is een chip die is opgebouwd uit 1,2 biljoen transistors en praktisch een hele wafer in beslag neemt.

In de CS-1-computer zit één Wafer Scale Engine. Het systeem heeft maximaal 20kW aan stroom nodig en is voorzien van twaalf 4000W-voedingen. Daarvan is de helft actief, de andere zes zijn aanwezig als back-up. Ook de koeling is hot swappable uitgevoerd. Het systeem heeft intern vloeistofkoeling in een closed loop en de pomp is redundant uitgevoerd. Er zijn vier ventilators aanwezig, waarvan er een redundant is. Het systeem heeft twaalf 100Gbit-ethernetpoorten.

De Wafer Scale Engine in de CS-1 bevat in totaal 400.000 cores en 18GB sram. Het geheel heeft een geheugenbandbreedte van 9,6PB/s en de bandbreedte tussen de cores is 100Pbit/s. De grote chip is opgedeeld in 84 tegels, in een raster van 7 bij 12. Iedere tegel bevat 4800 cores en iedere core is voorzien van 48 kilobyte sram.

TSMC maakt de gigantische chip op zijn 16nm-procedé. Omdat de chip vrijwel de hele wafer in beslag neemt, treden er onherroepelijk foutjes op waardoor sommige cores defect raken. De chip is zo ontworpen dat de werking van niet-functionele cores opgevangen kan worden door de omliggende cores.

De Sparse Linear Algebra Cores op de chip zijn speciaal ontworpen voor ai-berekeningen en het systeem werkt met standaard machinelearningframeworks zoals TensorFlow en PyTorch. Volgens Cerebras kan een CS-1-systeem een opstelling van 'tientallen' serverracks met gpu's vervangen. Wat het CS-1-systeem kost, is niet bekendgemaakt.

Door Julian Huijbregts

Nieuwsredacteur

19-11-2019 • 15:32

47 Linkedin Google+

Reacties (47)

Wijzig sortering
The cores are fully independent and are fully programmable – they are designed to execute their own instruction stream independently of whatever goes on around them. Since the field is evolving, the core design is said to be flexible enough to accommodate new functions and new operations that might be desired in the future. For that reason, the ISA designed by Cerebras comprises both general-purposes operations such as load/store, branch, and arithmetic, as well as a set of tensor operations. The general-purpose operations are your standard CPU operations. Beyond those, Cerebras added native tensor operations that operate on tensor operands. Tensors are first-class citizens on the WSE. In other words, the tensor opcodes accept 2D and 3D tensors directly just like you’d specify registers on a traditional CPU. Bron.
Wat bijzonder interessant is dat al deze cores dus alle instructies uit kunnen voeren die een traditionele CPU ook uit kan voeren, en dat dan ook nog eens volledig onafhankelijk van elkaar. Hiermee is het echt een ander product dan een GPU of NPU die enkel tensor-operaties uit kan voeren, deze chip draait op zichzelf en heeft dus geen aansturende CPU nodig, zoals een GPU dat wel nodig heeft.
"alle instructies" ? Dat lijkt me overdreven; de claim gaat over generieke reken-instructies. Een CPU heeft veel meer instructies dan dat, om een OS te kunnen draaien en hardware aan te sturen.

Je ziet dat ook terug aan "execute their own instruction stream". Enkelvoud, dat wil dus zeggen, één stream. Elk modern OS is multi-tasking en heeft instructies om van stream (thread) te switchen, en meestal dan ook van memory space (programma).
Ik denk dat er bedoelt werd dat dit een mimd architectuur is een geen simd zoals de meeste gpus.
Wat versta je onder CPU dan? Neem aan dat het meer op ARM (RISC) lijkt dan x86_64 gezien die laatste een nogal uitgebreide instructieset heeft.
Turing completeness: https://en.wikipedia.org/wiki/Turing_completeness
Je hoeft niet "alle" instructies te ondersteunen (MMX, AVX, ..) om toch hetzelfde te doen. Zolang je turing complete bent, kun je alles "nabootsen" met je eigen instructies.

n.b. je hebt geen speciale instructies nodig voor multithreading. Meestal OS (software) of hardware (interrupts).

Concept is trouwens niet nieuw: https://en.wikipedia.org/wiki/Trilogy_Systems maar wel gaaf om te zien. Nog gaver zou het zijn als ze deze kunnen opstapelen (https://en.wikipedia.org/wiki/Through-silicon_via) en je zo een kubusje CPU kan bouwen :9

[Reactie gewijzigd door BoozeWooz op 19 november 2019 17:18]

Dank voor de toelichting. x86_64 is echter wel het beeld wat de meesten bij een CPU hebben denk ik vandaag de dag.

En je kunt alles op een Turing complete als het moet, maar bijv. x265 coderen is wellicht niet aan te raden als je wat om je tijd geeft :). Nu heeft deze wel heel veel cores, dat scheelt met goede software wellicht een hoop, maar dan nog zal het qua energieverbruik ws niet bepaald efficiënt zijn.
Mensen hebben echt geen beeld bij een CPU, de gemiddelde mens heeft amper idee wat dat is. Heb je wel een beeld van instructiesets of zelfs maar platform, dan zijn ARM-CPU's toch ook al wel behoooooorlijk in beeld de afgelopen decennia.
In de podcast 'Nerdland' episode oktober van Lieven Scheire ging het over deze chip. Interesante podcast als je er meer over wil weten.

Grootste voordeel is dat de afstand tussen cores en geheugen en cores en cores veel korter is. Met tussen cores en cores bedoel ik dat deze chip anders uit tig aantal chips zou bestaan en dat de afstand tussen de ene chip in het ene rack naar de andere chip in het andere rack veel groter is dan wat men hier heeft.

Zoals in het artikel vermeld heeft men ook voorzien dat er een aantal cores niet zouden werken en dit wordt dan opgevangen door andere cores / lanes.
Komt deze CPU ook met zo'n spuitje koelpasta, of mag je met een mengbak en spatel aan de slag?
Eerder een betonmolen me dunkt :+
je krijgt er ook een stel oostblokkers bij met stuc skills waar je u tegen zegt
Hebben ze zelf al tests gedraait voor de performance? Zeer benieuwd hoe het performt.

En hoeveel chipswafers zouden ze afgenomen hebben? :)
Geen idee maar ze zullen we theoretische berekeningen gemaakt hebben van de verwachte snelheid.

Maar vraag me af waarom op 16nm en niet op 10 of kleiner bij tsmc. kleiner betekend toch minder verbruik en nog meer cores op een wafer.

Het is al knap om van een oppervlak van 21,5x21,5 20kw aan warmte af te voeren. Je kan het ding wat dat betreft ook vergelijken met een electrsiche doorstroomwarmteboiler.
Ik vermoed dat het lastig is om de fields op de wafer met elkaar te verbinden bij gebruik van kleinere patronen. Je kan immers niet in 1 keer zo'n 21x21cm image 'afdrukken' op een wafer, dat gaat in kleinere stukjes die dan perfect op elkaar aan moeten sluiten. Ik denk ook dat de machines waar dit op gemaakt wordt, veel hogere resolutie kunnen halen dan de 16nm die gebruikt wordt.
of ze gebruiken gewoon de 16nm omdat het een bekend proces is met weinig fouten. Oudere machines, afgeschreven dus lagere productiekosten.
inderdaad opmerkelijk dat ze bij TSMC terecht kunnen, wat wil zeggen dat ze wel voldoende wafers hebben gevraagd om er een lijn voor op te kunnen laten zetten. Dat het op 16nm is, maakt het misschien makkelijker, aangezien de kleinere procédés enkel in de nieuwste fabs kunnen worden gebruikt en diens capaciteit zal voor grote klanten gereserveerd zijn.
Qua specificaties en opgenomen vermogen is dit helemaal niet zo'n gek apparaat denk ik. Hangt natuurlijk een beetje van de prijs af, maar als ik kijk naar wat we hier doen ...

Op dit moment draaien we op een Gen9 Synergy blade van HP zo'n 50 werkstations. 12 Blades in een chassis is dus 600 VDI werkplekken.

We hebben 3500 werkplekken nodig ongeveer. Dat zijn zeker zes chassis dus. Uitgaande van 6x 2800watt voeding in zo'n chassis ...

Ik zie wel een case :)

-edit-

Ok, dit was misschien een beetje ongenuanceerd neergezet, ik doelde meer op raw processing power :P

[Reactie gewijzigd door WhizzCat op 19 november 2019 18:49]

Dit artificiële systeem vervangt ook je gebruikers, dus je kunt verder bouwen aan je case.
Wat is het doel ervan? In een AI-systeem dynamisch zoveel en snel mogelijk threads managen? Het lijkt mij dat dat winst is omdat fysieke afstanden gewoon kleiner zijn...
De setup net zoals Amazon met AWS schaalbaar verhuren? Genoeg toepasbare taken verspreid over de wereld om dit apparaat 24/7 met winst te laten draaien lijkt me.
Je weet het niet? :+
20kW voor 400.000 cores, dat is 50mW per core, _maximaal_.
Met zo'n TDP zal de singlethread performance voor desktops ws tegenvallen.
Tja, als je x86 gaat emuleren op je GPU gaat je singlethreaded performance voor desktops ook tegenvallen. Maar dan komt de echte vraag: wat is het punt daar ook van?
Het idee van deze chip is dat je er één AI workload op draait. Met 15U kun je ongeveer 3 van deze apparaten per rack kwijt, dus voor 3500 AI developers heb je 1167 racks nodig. Dan heb je dus ook 42,000 100G Ethernet poorten nodig. Je kunt ook meteen bij Tennet een nieuwe hoogspanningsaansluiting aanvragen, want die 3500 systemen á 20kW hebben samen 70 MW nodig.
Waar haal je op korte termijn 3500 AI developers vandaan?
Met zulke aantallen denk ik aan de dierentuin:1000 apen en voldoende tijd leveren ook het werk van Shakespeare op.
Nou ja, zó random komt het werk van Shakespeare nou ook weer niet op mij over hoor. }:O
Als jullie VDI's puur en alleen voor AI gebruikt worden heb je idd een case. Als je VDI's als VDI's gebruikt worden zal het obv de huidige OS'en nooit een case worden :p
Is de kans op failures dan ook niet veel groter?
Maar kun je er ook een beetje op gamen?
Crysis schijnt er net op te draaien :9
Ach, voor crysis heb je tegenwoordig geeneens meer een GPU nodig. Die kan je ook volledig software matig laten renderen! Niet dat het aan te raden is maaaaar... proof of concept.
Maar de AI van de tegenstanders is dan natuurlijk wel vreselijk goed :-)
Ja maar niet alles op high, videokaart kan helpen om dat probleem te verhelpen
Geinige muismat
Klinkt niet zo heel erg groen dit....

Op dit item kan niet meer gereageerd worden.


Apple iPhone 11 Nintendo Switch Lite LG OLED C9 Google Pixel 4 FIFA 20 Samsung Galaxy S10 Sony PlayStation 5 Apple

'14 '15 '16 '17 2018

Tweakers vormt samen met Hardware Info, AutoTrack, Gaspedaal.nl, Nationale Vacaturebank, Intermediair en Independer DPG Online Services B.V.
Alle rechten voorbehouden © 1998 - 2019 Hosting door True