Samsung gaat hbm2-chips van 24GB maken die uit twaalf lagen bestaan

Samsung heeft een techniek ontwikkeld om met through silicon via's dram-chips te maken die uit twaalf lagen bestaan. Het huidige maximum ligt op acht lagen. Samsung gaat de technologie onder andere gebruiken in hbm2-chips.

Volgens Samsung maken de nieuwe chips voor het eerst gebruik van tsv's met twaalf lagen. Samsung gebruikte al tsv's voor zijn hbm2-geheugen, maar daarbij was het maximaal tot nu toe acht lagen. Met dies van 16Gbit per stuk leverde dat tot nu toe een maximale capaciteit op van 16GB per package. Door twaalf lagen te gebruiken wordt dat nu maximaal 24GB.

Samsung behoudt met zijn nieuwe twaalflaags-tsv-chips een hoogte van 720 micrometer. De huidige dram-chips van Samsung met acht lagen zijn even hoog. Samsung gaat de nieuwe techniek in eerste instantie toepassen bij de productie van hbm2-chips met een capaciteit van 24GB. Momenteel produceert Samsung hbm2-chips met een capaciteit van maximaal 16GB. Dit geheugentype wordt met name gebruikt in high-end videokaarten voor servers.

Samsung 12-layer-3d-tsv

Het stapelen van chips wordt gedaan om ruimte zo efficiënt mogelijk te benutten. Een van de technieken die fabrikanten kunnen toepassen om de geheugendichtheid in chips op te voeren, is het stapelen van dies. Daarmee neemt de geheugencapaciteit toe en blijft de benodigde ruimte gelijk.

Anders dan bij wire bonding, waarbij de chips via bedrading aan de geheugencontrollers worden aangesloten, loopt de verbinding bij tsv-technologie door de chips heen. Dit gaat via miniscule kanalen, waarvan de nieuwe twaalflaags-chips er 60.000 bevatten. Dit staat gelijk aan 5000 kanalen per laag.

Samsung Wire Bonding

Door Daan van Monsjou

Nieuwsredacteur

07-10-2019 • 13:27

35

Submitter: Jermak

Reacties (35)

Sorteer op:

Weergave:

High end videokaarten in servers?
Wie weet hier een voorbeeld van?
Wij gebruiken NVIDIA Tesla kaarten voor Virtual Desktop Infrastructure (VDI) implementaties bij voornamelijk ziekenhuizen. Die NVIDIA Tesla kaarten worden 'in stukjes geknipt' waardoor je tot wel 100 VM's op één fysieke server kunt laten landen. Elke VDI-werkplek kan gebruik maken van de capaciteiten van de tot wel 6 dikke videokaarten in een VM Host.

Gebruikers van die VDI-werkplekken kunnen 3D applicaties gebruiken en video encode en decode processen worden hardwarematig afgehandeld door de GPU's. De gebruikers ervaring is hierdoor zoveel beter dan bij gebruik van de 'softwarematige video-oplossing'.

[Reactie gewijzigd door Abom op 23 juli 2024 14:02]

Wij gebruiken NVIDIA Tesla's voor Virtual Desktop Infrastructure (VDI)
Kost dit veel om dit te implementeren? Ik neem aan dat het per gebruiker gaat.

En kan je misschien uitleggen, hoe dit gaat?

[Reactie gewijzigd door Berlinetta op 23 juli 2024 14:02]

Het is een beetje off-topic, dus even kort. Je installeert vGPU management software op de host en NVIDIA Windows drivers in het golden image. vGPU management zorgt voor het verdelen van de fysieke videokaarten over de tientallen virtuele machines.
Wat je in principe doet is het partitioneren van het video-geheugen (elke sessie krijgt 1GB videogeheugen toegewezen), dat is ook je harde limiet voor wat betreft het maximum aantal VDI-sessies. De GPU(s) worden time-sliced aangeboden aan de gebruikers.
Naast de 3D-render mogelijkheden hebben de GPU's ook hardwarematige versnellers voor video encoding en decoding (NVENC en NVDEC). NVDEC maakt het mogelijk om hardwarematig bijvoorbeeld YouTube af te spelen. NVENC maakt het weer mogelijk om het remoting protocol van de VDI-suite te versnellen.
Normaal gesproken wordt dit allemaal softwarematig gedaan (dus door de CPU), waardoor er minder rekenkracht over is voor overige zaken. Het verschil in gebruikerservaring is echt gigantisch, je kunt gewoon full-hd YouTube bekijken in je VDI-sessie.

Het is niet goedkoop. In het geval van NVIDIA heb je naast de dure videokaarten ook nog licenties per actieve gebruiker nodig.

Ik ken ook implementaties waarbij ze bovenstaande combineren met hetgene wat Umbrah hieronder beschrijft. Overdag worden de GPUs gebruikt om de gebruikerservaring te verbeteren en 's avonds worden dezelfde GPUs ingezet voor GRID-computing (een soort van super-computer) voor bijvoorbeeld het analyseren van radiologische beelden of andere high-tech medische toepassingen.

[Reactie gewijzigd door Abom op 23 juli 2024 14:02]

Normaal gesproken wordt dit allemaal softwarematig gedaan (dus door de CPU), waardoor er minder rekenkracht over is voor overige zaken. Het verschil in gebruikerservaring is echt gigantisch, je kunt gewoon full-hd YouTube bekijken in je VDI-sessie.
Bedankt voor deze uitleg, ik begreep al niet waarom ik op werk geen FHD filmpjes kon afspelen. Als ik het probeer, speelt het echt af alsof het een PowerPoint is.
Als je na gaat wat er allemaal gebeurt om dat beeld op jouw apparaat te krijgen, is het best indrukwekkend.
In het datacenter, waar jouw sessie leeft, draait een virtuele machine waarvan alles softwarematig wordt berekend en dat ook nog eens gevirtualiseerd. De virtuele CPUs van jouw VM zijn niet alleen bezig met het softwarematig afspelen van jouw filmpje, de CPU is ook bezig met het emuleren van een videokaart, vervolgens wordt het beeld gecaptured en gecomprimeerd, over de lijn gestuurd en op jouw apparaat wordt die stream weer decode en weergegeven.
Stel je dan voor dat één server bijvoorbeeld 64 sessies draait.

Door het afspelen van het filmpje, het weergeven en het comprimeren uit te laten voeren door de GPU, die specifieke hardware heeft om dat allemaal razendsnel te doen, loopt niet alleen alles veel vloeiender maar heeft de CPU ook ruimte om andere taken uit te voeren. Het mes snijdt dus aan twee kanten.

Tegenwoordig kunnen we zelfs VMotions uitvoeren van VMs met vGPUs. Dat is het verplaatsen van een VDI-sessie van de ene fysieke server naar een andere server, terwijl de gebruiker doorwerkt.
Dankjewel voor de uitleg.

Ik was er al bang voor dat het veel gaat kosten.
Weet je ook hoeveel het ongeveer kost per gebruiker?
Dat is niet zo makkelijk te berekenen. Dat ligt aan de organisatie, de eisen en hoeveel hardware je tegelijk koopt.
Als je op Google zoekt naar NVIDIA T4 16GB kom je prijzen tussen $2000 en $5000 tegen. Op één zo'n kaart kun je 16 gelijktijdige gebruikers laten werken. Daar komen de licenties voor NVIDIA GRID nog bij.

Het is een lucratieve business voor NVIDIA, ze hebben hier nog minder concurrentie van AMD of Intel.
16 sessies op 2000$ is alsnog 125 $ aan grafische hardware per gebruiker. Waarom voor dat geld niet gewoon een 1660 ti oid?
Een 1660ti? Complete overkill. De iGPU's van Intel zijn tegenwoordig ruim goed genoeg voor 4K video. En de besparing is nog groter dan $125 want je hebt ook nog eens minder bandbreedte nodig vanuit je servers naar de werkplek.
Een 1660ti is een consumenten videokaart en is bedoeld voor een enkele PC.

Meteen een antwoord op jouw andere vraag hieronder:

Veel zorgpersoneel loopt de hele dag door het hele ziekenhuis en die gaan echt niet de hele dag een laptop mee sleuren. In plaats daarvan geef je iedereen de mogelijkheid om op elke willekeurige werkplek, hun virtuele werkplek in het datacentrum over te nemen.

Heb je wel eens een poli bezoek gehad, dan je even langs moet voor controle? Vaak wordt je even in een ruimte gezet door een assistent(e) en komt de arts een paar minuten later, praat even met jou, kijkt even in het systeem en dan kun je weer gaan. Voor dergelijke afspraken hebben ze vaak maar 5-15 minuten. Als zo'n arts dan 2 minuten moet wachten om in te loggen en jouw dossier erbij moet zoeken, is dat een kostbare aangelegenheid en daarbij vrij frustrerend om te wachten op het systeem.

Daarnaast werken er veel part-time medewerkers in ziekenhuizen, gemiddeld 1 FTE staat tot 2 medewerkers.

Bepaalde aspecten van het beheer worden makkelijker. De infrastructuur wordt voornamelijk complexer, maar ook betrouwbaarder, flexibeler en voorspelbaarder.
Waarom wil je dit gevirtualiseerd en remote? Een i5 gpu is snel genoeg om 1080p youtube kijken. Vanuit beheerperspectief?
Wij gebruiken ze op Azure voor een paar ML-achtige scenario's. Wat je daar heel erg ziet is dat je één fysieke kaart (of meer fysieke kaarten) kan splitsen per machine/samenvoegen. Technisch gezien zit er namelijk op die kaarten dezelfde interface als op de RTX-series (nvlink), alleen is hij daar níet technisch geknepen, waardoor shared memory per kaart zowaar mogelijk wordt (genoeg bandbreedte...). De consumentenkaarten bij nvidia zijn heel vaak kunstmatig geknepen en bieden daardoor alleen SLI, bijvoorbeeld. In datacenters kun je soms bijna lineaire schaling krijgen in compute/machine learning/etc...

Bij ons zijn ze dus tweeledig: desktop accelleratie, én machine learning zaken.
Dankjewel voor de uitleg, ik heb er nu een beter beeld bij.
Level1Techs heeft er wel een paar leuke videos over gemaakt:
https://www.youtube.com/watch?v=rvHJCOLggfk
Hix zeker? Ik ken geen EPD die meer resources vreet dan Hix.
Het probleem met HiX is dat het (volgens mij) voornamelijk single threaded is en omdat de mensen bij Chipsoft meer van zorgprocessen weten dan van software development/IT infrastructuur.

Maar in principe zou HiX niet veel voordeel hebben bij het gebruik van vGPU.

[Reactie gewijzigd door Abom op 23 juli 2024 14:02]

High end videokaarten in servers?
Wie weet hier een voorbeeld van?
Wat dacht je van cloud gaming? Dat is iets wat komende jaren echt wel flink uit de grond gaat komen.
Het kan zijn dat er soms een dergelijke kaart wordt gebruikt voor cloud gamen maar ik kan mij niet voorstellen dat er veel gebruikt gaan worden. Kaarten als deze zijn veel en veel duurder dan consumenten versies terwijl voor gamen er vaak weinig op verbeterd. Je kan een kaart met 4x 24GB HBM VRAM pakken, maar tenzij je het ook daadwerkelijk kan gebruiken is het even snel als dezelfde kaart met 8GB GDDR6 oid. Google Stadia draait op een versie van de Vega 56 kaarten voor zover ik weet. In de meeste gevallen is dat efficient en snel genoeg en scheelt het een heel stuk in de kosten.
AuteurAverageNL Nieuwsredacteur @sjonie1007 oktober 2019 13:42
De Tesla V100 van Nvidia is één van de betere voorbeelden. De Radeon Pro V340 heeft ook hbm2.
En de Xeon Phi uiteraard.
Amd FirePro's, nvidia tesla..
Render farms denk ik zo. Denk aan server die aan video rendering doen, of 3d modeling renders vanuit Blender.
Denk ook aan zaken als fluid dynamics, weersvoorspelling, machine learning, eigenlijk allerlei zware rekentaken die je niet praktisch op je desktop machine kan uitvoeren.
AMD Radeon PRO bijv (WX series geloof ik). Maar HBM wordt ook gebruikt bij Nvidia Tesla Kaarten. Kan zijn zelfs dat de high end AMD kaarten voor desktop ook HBM krijgen
Er zijn AI achtige toepassingen waar HBM gebruikt wordt. Hoe dan ook blijft het een smak geld in vergelijking met GDDR, dit zul je alleen zien als het ergens ook echt nodig is.
Gaat dit alleen maar om ruimte of ook om zo kort mogelijke verbindingen te hebben? Ruimte lijkt me niet direct een probleem toch?
Ruimte en afstand doen er wel degelijk toe voor geheugen op een snelheid als HBM. Voor toepassingen waar je niet weg kan komen met een groot aantal GDDR chips op enige afstand is dat een waardeerbare eigenschap.
Maar dat gaat dan toch om korte verbindingen? Niet om ruimte? (maar dat zal wel een semantisch vraagstuk worden zonder kleine componenten geen korte verbindingen, maar is er echt ruimte te kort m.a.w. als je even korte verbindingen kon hebben (kan niet maar stel dat zou kunnen) dan zou een mm dikker toch niet uitmaken)

[Reactie gewijzigd door bosbeetle op 23 juli 2024 14:02]

5000 via's is makkelijker te realiseren dan 5000 verbindingen aan de zijkant van een die. In 3 dimensies heb je nu eenmaal meer mogelijkheden.
Daar komt inderdaad de afstand nog bij; kortere afstand is lagere latencies.
Anders dan bij wire bonding, waarbij de chips via bedrading aan de geheugencontrollers worden aangesloten, loopt de verbinding bij tsv-technologie door de chips heen. Dit gaat via miniscule kanalen, waarvan de nieuwe 12-laags-chips er 60.000 bevatten. Dit staat gelijk aan 5000 kanalen per laag.
Ik snap de techniek en ik vind het extreem interessant. Maar als ik het mij probeer te visualiseren dan gaat het mij gewoonweg duizelen.
Niet alleen dat, maar ik kan me ook gewoon niet meer voorstellen met wat voor machines we zulke complexe techniek überhaupt maken.
Ga eens bij ASML op bezoek, ze leggen het graag uit ;) (zonder de operationele details te geven, want de concurrent luistert mee)
Maar ja, dit is gruwelijk complex, en het blijft leuk om te zien wat voor oplossingen ze bedenken voor natuurkundige grenzen.
Nieuwe Titan V super :P

Op dit item kan niet meer gereageerd worden.