Cerebras presenteert 5nm-Wafer Scale-chip met 900.000 cores

Cerebras heeft de derde generatie van zijn Wafer Scale Engine gepresenteerd. Het betreft een chip die ditmaal wordt geproduceerd op een 5nm-node van TSMC. De Wafer Scale Engine 3 beschikt over 4 biljoen transistors en 900.000 cores die geoptimaliseerd zijn voor AI-berekeningen.

Cerebras schrijft in een persbericht dat de Wafer Scale Engine 3 beschikt over 900.000 cores 'die zijn geoptimaliseerd voor AI-berekeningen'. Volgens de fabrikant kan de WSE-3 daarmee tot 125 petaflops aan rekenkracht leveren. De voorgaande chip van Cerebras, de WSE-2, kon tot 62,5 petaflops leveren. Die voorgaande processor werd gemaakt op 7nm.

De nieuwe WSE-3-chip heeft een oppervlak van 46.225mm², zo meldt het bedrijf op sociale media. De chip is daarmee exact even groot als zijn voorgangers. De processor beschikt daarnaast over 44GB sram; dat is 48kB per core. De geheugenbandbreedte ligt op 21PB/s en interconnectbandbreedte ligt volgens Cerebras op 214Pbit/s.

Cerebras claimt dat de Wafer Scale Engine dubbel zo krachtig is als zijn voorganger, maar dat het energieverbruik op hetzelfde niveau blijft. Uit de berichtgeving over de tweede generatie Cerebras Wafer Scale Engine blijkt dat die chip ongeveer 15kW gebruikt. De Wafer Scale Engine 3 is gericht op de bedrijfswereld en op organisaties met hyperscale computing-toepassingen zoals cloudbedrijven.

De Wafer Scale Engine 3-chips worden gebruikt in de CS-3-'supercomputers' van Cerebras. Er kunnen 2048 van dergelijke CS-3-systemen aan elkaar gekoppeld worden, voor een totaal van ruim 1,8 miljard cores en een rekenkracht tot 256 exaflops.

De Wafer Scale Engine 3 is de opvolger van de Wafer Scale Engine 2 uit 2021. Die chip werd op een volledige 7nm-wafer van TSMC gemaakt en bevat 2,6 biljoen transistors. De tweede versie van de Wafer Scale Engine beschikt over 850.000 cores voor AI-berekeningen en kreeg in totaal 40GB aan sram mee.

Cerebras Wafer Scale Engine 3 - Bron: Cerebras
Cerebras Wafer Scale Engine 3 - Bron: Cerebras
Chip Cerebras Wafer Scale Engine (2e generatie) Cerebras Wafer Scale Engine (3e generatie)
Procedé 7nm, TSMC 5nm, TSMC
Transistors 2,6 biljoen 4,0 biljoen
Aantal cores 850.000 900.000
Sram 48kB per core, 40GB totaal 48kB per core, 44GB totaal
Geheugenbandbreedte 20PB/s 21PB/s
Interconnectbandbreedte 220Pbit/s 214Pbit/s
Verbruik (chip/systeem) 15kW / 20kW 15kW / 20kW (vermoedelijk)

Door Jay Stout

Redacteur

13-03-2024 • 16:03

67

Reacties (67)

67
66
28
0
0
25
Wijzig sortering
Begrijp ik het nu goed dat die afbeelding 1 chip is? Dat is wel even een bizar ding dan!
Volgens mij wel. Heeft wel een hele tube Colgate koelpasta nodig denk ik _/-\o_
Kan wel kloppen. 46.225mm2 is een vierkant met zijden van 21,5cm
Volgens mij klein rekenfoutje.
Oppervlak is lxb voor vierkant dus l².
1 zijde is dus wortel uit 44.225 en komt op ong. 6.8 mm
Ja. Het heet niet voor niets WaferScale :)
Hoe gaan ze om met de wafer yields en eventuele 'binning' van beter presterende cores?
Kijkende naar het vorige model, gaan ze uit van 100% yield, maar er zit wel een failsafe in de chip, zodat mocht een core een defect hebben andere cores dat over kunnen nemen. Immers een van deze chips beslaat een hele wafer. Eerst hadden ze een error marge van 1.5% extra cores, maar dit zou 'teveel' zijn, grote kans dat dit dus nu minder gemaakt is. Ze gebruiken ook altijd een node die al wat ouder is, en dus over het algemeen minder defecten heeft.
The cores are connected with a 2D Mesh with FMAC datapaths. Cerebras achieves 100% yield by designing a system in which any manufacturing defect can be bypassed – initially Cerebras had 1.5% extra cores to allow for defects, but we’ve since been told this was way too much as TSMC's process is so mature. Cerebras’ goal with WSE is to provide a single platform, designed through innovative patents, that allowed for bigger processors useful in AI calculations but has also been extended into a wider array of HPC workloads.
Zie: https://www.anandtech.com...ion-transistors-100-yield
Wafer yields: De chip is defect-tolerant ontworpen, de kapotte cores kunnen ze gewoon uit zetten. Bij een defect in een interconnect kan er omheen geroute worden.

Binning: De hele chip draait op een vrij lage frequentie, dus dat is eigenlijk geen probleem. Je moet hier onthouden dat stroomverbruik (en warmteproductie) exponentieel groeit, en een monster van 15-20kW is al moeilijk genoeg om te voeden en koelen. De winst zit in het hebben van 900.000 cores, niet in de per-core prestaties. Kloksnelheid is daardoor grotendeels irrelevant.
Puur gekeken naar de flops zou dit equivalent zijn aan 1250 keer de RTX4090. Zo simpel werkt dat niet natuurlijk, maar geeft wel een idee.
Dat is inderdaad niet zo mooi te vergelijken, maar het transistor aantal wel :).

Een 4090 heeft "76 billion transistors" = 76*10^9
Deze heeft 4*10^12 = 4000*10^9 transistors.

Een stuk of ~ 53 RTX4090 die's in grootte dus :).
Iets eerlijker vergelijk.
~53 RTX4090 heeft een TDP van bijna 24kW, dus nog steeds een stuk efficiënter. Helemaal als het ook nog eens meer flops doet dan een 4090...

Dit is gewoon een stukje heel specialistische hardware met beperkte functie, een 4090 is wat flexibeler.
53 kaarten nemen ook een hoop rackspace in. Als je dezelfde racks vult met deze krengen dan haal je een stuk hogere compute density.
Ik dacht eerst dat de 4 biljoen een vertaal fout was... maar de bron heeft het inderdaad over "4 trillion transistors" in het Amerikaans systeem van tellen
De korte schaal is meer dan Amerikaans. Het wordt in nagenoeg alle Engelstalige landen gebruikt. Probleem is dat het dezelfde terminologie gebruikt als de lange schaal en je dus in feite de culturele achtergrond van de schrijver moet weten om te bepalen welk getal er wordt bedoeld.
Of misschien.kun je gewoon de taal als basis nemen. Maar inderdaad is 4 biljoen hier (als grote uitzondering) eens geen vertaalfout.
15 kW? Soort van lastrafo als voeding en waterkoeling met hoge druk?

[Reactie gewijzigd door thunder7 op 24 juli 2024 14:08]

Waterkoeling? Waterkoker zul je bedoelen. Of direct aansluiten op je espressomachine.
15kW is een doorstroomboiler waar je net een beetje leuk mee kan douchen. Om het in wat perspectief te plaatsen.
Een kop koffie kun je in milliliters uitdrukken, douchen in liters. Met 15kW kun je heel wat kopjes koffie/espresso verwarmen. Komt nog bij dat ik op kantoor geen douche nodig heb, daar waar koffie/espresso een randvoorwaarde is om überhaupt naar kantoor te rijden.
Volgens mij praten jullie langs elkaar heen. Jij begint ineens over een waterkoker, terwijl hij het over koeling heeft als in hoe moet die 15/20 kW gekoeld worden.
Een cpu zo groot als n koekenpan. 900000cores, 125PetaFlops, 15000Watt, 44GBCache, 21PetaByte/s.

Damn!

Dat zijn ongeveer 10.000 tot 100.000 keer de specs van de snelste consumenten cpu's...(met de nadruk op ongeveer). Getallen waar je als leek/consument gewoon geen voorstelling van kunt maken...

En dat alles met maar zo'n 50 keer het stroomverbruik ?
Zo groot als een koekenpan, een eitje bakken moet ook lukken!
Een heel gerecht ook, meer capaciteit dan een oven + kookplaat+ waterkoker+magnetron bij elkaar.
CPU of GPU? Want ik denk niet dat deze dingen de instructieset van een CPU gaan hebben, meer een uitgeklede GPU die enkel maar tensor-berekeningen kan doen.
Van 850.000 cores in de WSE-2 naar 900.000 cores in de WSE-3, terwijl de performance is verdubbeld. Jammer dat er weinig wordt verteld hoe dit gerealiseerd is, maar vermoedelijk dan in de performance per core.

Er wordt vooral geschreven over de AI performance, maar ik kan mij herinneren dat de WSE-2 ook voor bepaalde GPGPU taken geschikt was, hoe is dat toegenomen in performance?
Crisis! Wat zal de yield zijn bij deze chip? Als dit echt monolithisch is, dan zou één defect zomaar kunnen leiden tot een complete scrap van de hele wafer, tenzij je slim een paar kernen uit kan zetten. Maar echt, de procescontrole moet echt waanzinnig zijn om zoiets met een redelijke yield te kunnen produceren.
Ik vermoed dat in de chip submodules zitten die kunnen worden uitgeschakeld en gebypassed wanneer er een defect is. Ik ga er van uit dat 900.000 hun target is maar dat er bijvoorbeeld 1.000.000 cores op de die zitten, waarvan er dan 10% defect zijn bvb.

Zo gaat het bij andere chips toch ook?
Dat zou inderdaad kunnen. Wat ik wel weet is dat de fouttolerantie bij logic echt nihil is. Als je één defect hebt, kan het zijn dat je hele chip niet werkt. Als je slim cores kan uitschakelen en het defect zit op een core, dan zou het misschien niet tot een defecte chip hoeven te leiden. Maar als die ergens anders zit, kan het zomaar zijn dat je geen redundancy hebt, en je je chip weg moet gooien. In die gevallen zijn fouttoleranties van kleiner dan 1E-12 niet raar, dat is meer dan 7 sigma. Bij geheugen zit dat wat makkelijker, omdat je heel makkelijk één geheugencel kan uitzetten zonder je hele geheugenchip te verliezen.
Ik meen ooit eens te hebben gelezen dat je mede daardoor zoveel verschillende processor varianten hebt. Geen idee of het klopt maar ergens lijkt het me wel logisch dat een 6 core processor eigenlijk gewoon een 8 core processor is waar 2 cores zijn uitgeschakeld vanwege productie problemen
Er is inderdaad een tijd geweest dat dat zo was. Maar de laatste jaren niet meer, en zeker met de komst van chiplets is dat niet meer nodig. Dan maak je gewoon een hele wafer met core-chiplets, waarna je zoveel cores plaatst als dat je hebt ontworpen.
Niet helemaal hetzelfde; een 8 core chip met één kapotte core zal dan verkocht worden als een 6 core chip van een serie lager.
Dat kan bij deze chip niet, want ze maken maar één versie.
Ja, maar ze produceren ook lagere volumes en op een meer volwassen en doorontwikkelde node. Dus de verliezen zijn kleiner, maar ik gok dat z'n nog steeds areas van de die zullen moeten uitschakelen.
Ze gaan zelf uit van 100% Yield :) Dit moet ook wel, immers beslaat de chip een hele wafer, ze doen dus niet zoals Intel of AMD tientallen tot honderden chips uit een wafer halen en binnen. Zie ook mijn post hier: Dennism in 'Cerebras presenteert 5nm-Wafer Scale-chip met 900.000 cores' en het Anand Artikel over hun 2de generatie chip: https://www.anandtech.com...ion-transistors-100-yield

Maar 100% yield wil in dit geval dus niet zeggen dat iedere core het goed, daar hebben ze wat marge voor ingebouwd. Al vonden ze dus de 1.5% marge in de 2de generatie teveel, omdat de node al zo volwassen was.

[Reactie gewijzigd door Dennism op 24 juli 2024 14:08]

Ah okay. Dus ze hebben wel in hun ontwerp rekening gehouden met printfouten. Dat moet ook wel inderdaad, anders lijkt het me niet dat je ook maar één werkende chip uit dit proces haalt.
Het zal hier dan ook niet om massaproductie gaan. Dus ik kan me voorstellen dat je dan ook keuzes kan maken om het productie proces wat trager te laten verlopen om een beter yield te krijgen. Hoewel ik me inderdaad niet kan voorstellen dat je ooit alle fields foutloos kunt krijgen. Zelfs niet met 100% rework.
Rework? Op een 5nm proces? Hoe had je dat voor je gezien? Een soldeerbout gaat niet werken.

Realistisch is het enige wat chipproducenten doen een hele core uitzetten. Dat kan relatief eenvoudig: je maakt een e-fuse waar de voeding van die core doorheen moet, en die e-fuse kun je uitschakelen.
Nadat een wafer uit het apparaat van ASML komt kun je meten of dit goed is gegaan. Mocht je niet tevreden zijn met het resultaat kun je de die laatste laag van de wafer verwijderen en die productie stap opnieuw uitvoeren. Dat is dan 'rework'. Die rework stap gaat meestal beter omdat je eigenlijk al weet wat er fout zal gaan en dat kun je proberen te voorkomen.
Op je wafer zitten ook fysieke meetpunten waar je stukken van je chip kunt doormeten. Maar daarvoor moet een groot deel van je chip eigenlijk al geproduceerd zijn en daardoor kun je niet meer corrigeren. Wil de de hoogste kwaliteit transistoren hebben zul je dus tijdens de productie correcties moeten aanbrengen. Dit is mogelijk omdat je nog een meting kunt doen tussen het aanbrengen van het gewenste patroon en het permanent vast leggen hiervan. Hierdoor heb je nog een kans om het productie proces bij te sturen en een iets hogere kwaliteit te halen.
Als je massaproductie draait is die manier van werken eigenlijk niet rendabel, je doet namelijk een productie stap dubbel en wafers doormeten kost relatief veel tijd. Meestal gebruik je dus correcties alleen voor echt kritische punten. Zodat je werkende chips op de goedkoopste manier kunt produceren.
Wat de EUV machine doet is de photoresist belichten. Pas als je die wegetst en de doping doet krijg je een structuur op de chip, en dat is dan een deel. Je moet een hele zwik lagen aanbrengen. Pas bij de metaallagen kun je gaan meten, en dan kun je geen fouten in een eerdere laag meet corrigeren.
Je kunt je belichting in je resist meten na een hard-bake en dus niet alleen na etching. Daar zijn meerdere producten voor en zelfs ASML heeft hier iets voor.
It targets after-develop (post-exposure) metrology for processes monitoring and control as well as for lithography system stability and matching.
https://www.asml.com/en/p...on-systems/yieldstar-380g
Dat zijn optische metingen. Mocht je een scanning electron microscope (SEM) willen gebruiken zul je inderdaad al een metaalstructuur moeten hebben. Bij CPU's heb je al vrij snel je eerste metaallaag te pakken. Voorbeeld: https://www.iue.tuwien.ac.at/phd/rovitto/node10.html
Proces monitoring, ja. Dat is dus geen rework. Die wafer met een fout kan in de prullenbak, het doel is om te voorkomen dat je volgende wafer óók in de prullenbak kan.
Als het resultaat van je meting laat zien dat je belichting niet goed was kun je de resist strippen van de wafer voordat je gaat etchen. Dat is rework. Daarna kun je de belichting opnieuw uitvoeren met de kennis van de vorige belichting. Het liefst wil je zo'n stap niet standaard in je productie proces opnemen omdat het relatief duur is, maar voor productie fouten maken ze soms een uitzondering. Mocht je heel graag een hogere kwaliteit hebben zou je dit ook kunnen inzetten. Zodra je een etch stap uitvoert is je patroon pas permanent en mocht dat fout zijn gegaan gaat de wafer inderdaad de prullenbak in.

Over rework kon ik niet zo snel een mooie bron vinden maar die zullen vast ook bestaan.
Defective wafers are often seen during the semiconductor manufacturing process. Technically, there is no known remedy for a detective wafer. However, at the photolithography phase of semiconductor manufacturing, the defective wafers can be reworked to reduce the manufacturing cost significantly.
https://www.researchgate....he_photolithography_stage
Ik denk niet dat je zomaar het hele proces om kan gooien zodat het wat langzamer gaat. Laat staan of her daar direct beter van wordt. Een brood vier uur gebakken op 100 graden is niet persé beter dan een op 200 graden gebakken, twee uur lang. Ze zullen dan eerder TSMC meer betalen per goede wafer en dat TSMC achter de schermen vaker test en wafers halverwege schrapt.
Het is goed mogelijk dat het goedkoper is om er veel achter elkaar te maken; zodat je uiteindelijk een paar goede er tussen hebt zitten. Maar je kunt ook per wafer correcties doorvoeren, 100% van de wafers doormeten, en indien nodig rework uitvoeren. Dat is dan meer maatwerk dan de reguliere massaproductie.
Goed dat je dat zegt. Dat klopt inderdaad. Had ik nog niet aan gedacht.
Als een chip links onderaan iets diagonaal moet gaan communiceren naar de chip rechtsbovenaan dan is dat relatief gezien toch best wel een eindje fietsen voor de elektronen?
Yup. Maar dit is voor AI, lees neurale netwerken. Die zijn in nodes geporganiseerd, en typisch zijn die nodes weer in lagen opgedeeld. Het is dus de uitdaging om verwante nodes uit je neurale netwerk ook fysiek bij elkaar te houden.
Met zoveel cores en vermoedelijk chiplets is het een kwestie van slim schedulen denk ik. Daar zijn nog steeds aardige winsten te behalen heb ik het idee.
Geen chiplets, alle cores op één hele grote chip. Vandaar "wafer scale"; 1 wafer = 1 chip.
20 kW = 50.000 keer elektrisch scheren
Nee, dat is 20kWh. Dus wat je verbruikt hebt als je deze chip een uur op vol vermogen zou draaien.
20kW = meer dan een Tesla Model X maximaal via AC van het net kan trekken. Of meer dan 10 elektrische kachels.

[Reactie gewijzigd door BeefHazard op 24 juli 2024 14:08]

Oh bedankt,
Blijft enorm veel.
Nadruk ligt niet op minder energiegebruik wat ik jammer vind.
Dat deze chip veel energie gebruikt, wil niet zeggen dat deze niet zuinig/efficiënt is. Voor de hoeveelheid rekenkracht is het waarschijnlijk (geen zin om na te rekenen) efficiënter dan het equivalent in kleinere chips met bijbehorende hardware. Een beetje alsof je een cv-ketel met een elektriciteitscentrale op gas vergelijkt en zegt dat de nadruk bij de gascentrale niet op minder verbruik ligt.
Ja ik begrijp het.

Men maakt iets efficiënter maar kan dan opschalen naar b.v 2048 stuks.
Waarmee ik bedoel te zeggen dat volgens mij het *totale* energieverbruik
voor b.v AI alleen maar toeneemt.

Op dit item kan niet meer gereageerd worden.