TSMC: tekort van AI-datacenter-gpu's van Nvidia houdt nog tot eind 2024 stand

De AI-videokaarten van Nvidia blijven nog minstens tot eind 2024 schaars. Dat stelt TSMC-voorzitter Mark Liu in een interview met Nikkei. Liu wijt de gpu-schaarste aan een tekort aan Chip-on-Wafer-on-Substrate-packagingcapaciteit.

TSMC verwacht dat het tekort nog zo'n achttien maanden blijft aanhouden, omdat de vraag naar de AI-gpu's blijft stijgen, terwijl de capaciteit van TSMC's CoWoS-packagingtechniek slechts zeer langzaam wordt uitgebreid. Lui laat aan Nikkei weten dat de capaciteit naar verwachting binnen anderhalf jaar voldoende is uitgebreid om dan aan de volledige vraag te kunnen voldoen. Momenteel kan TSMC naar eigen zeggen zo'n tachtig procent van de vraag aan.

TSMC fabriceert als enige partij de H100- en A100-AI-datacenter-gpu's van Nvidia. Deze hardware wordt gebruikt om vele AI-toepassingen, waaronder ChatGPT, aan te drijven. Net als de meeste AI-chips wordt voor deze twee Nvidia-gpu's gebruikgemaakt van CoWoS. Het bedrijf beweert dat de vraag naar producten met deze geavanceerde packagingtechniek vorig jaar onverwacht de lucht in schoot en nu ongeveer drie keer zo hoog is als dezelfde periode vorig jaar. TSMC zegt dat het nieuwe tools aan het installeren is bij zijn bestaande packagingfabrieken om de capaciteit op te voeren, maar dat dit tijd nodig heeft.

Nvidia H100
Nvidia H100

Door Kevin Krikhaar

Redacteur

08-09-2023 • 14:45

38

Lees meer

Reacties (38)

38
37
14
0
0
20
Wijzig sortering
Dan zit er helaas ;) niets anders op dan de algoritmes dan maar efficiënter te maken, zodat je per request minder GPU nodig hebt, zodat er virtueel meer capaciteit vrij komt en je met de zelfde hoeveelheid GPU's meer requests per seconde kan afhandelen.

[Reactie gewijzigd door djwice op 23 juli 2024 07:20]

there's an AI for that :+ :/
Zit te denken om een nas te bouwen om lokaal wat met ai te spelen (en heb nog een verzameling beeldmateriaal dat wel wat upscaling kan gebruiken). Welke kaart geeft me de beste prijs/kwaliteit verhouding? Het liefst zou ik voor ongeveer 750 eur klaar willen zijn, maar dat vind ik zelf nog lastig: wenslijst: Nais
Er is momenteel een enorme gekte gaan rondom de krachtigste kaart, de H100. Dat is evenwel niet de kaart die je moet kopen als je de meeste KI-rekenkracht voor je geld wilt, dan kun je beter de L40 kopen. En dat is geen kwestie van een paar procent, het scheelt enorm.

Nu, met €750 wordt je hard uitgelachen, dan kun je niet in de huidige gekte meespelen. Je koopt dan een licht consumenten-GPU'tje, en daar kun je wat persoonlijke KI mee doen, maar niet meedoen in de huidige wapenwedloop.
Ik hoef niet met de markt mee te spelen of mee te doen in de ai-wedloop, gewoon wat hobby thuis. Dus ik ga zeker niet 10x zoveel besteden aan zo een kaart.

Hier een benchmark van SD, Wat in ongeveer 3 seconden een plaatje oplevert, wat voor mij snel zat is: https://www.tomshardware....-diffusion-gpu-benchmarks
Kan je misschien beter cloud computing huren als dat je budget is.
Nee, want met die hardware kan ik meer doen. Plus ik wil het bewust lokaal houden.
Ik heb een 3060 12gb vram, en ik kan ongeveer elke 6 seconden beeldmateriaal genereren dat als je het niet weet dat het gegenereerd is, de meeste gewoon denken dat dit een echte foto is. (20-30 steps sdxl base(of alternatief+5-10 stappen met de refiner er over als dit nodig is...) Let wel op die 6 seconden zijn als het model eenmaal ingeladen is. Als je een model laad en dan sampled om dan terug de refiner te laden en dan misschien nog een upscalewithmodel er bij heb ongeveer elke 20 seconden 4 beelden als je alles wilt opslaan van tussenstappen.

Als ik textgeneration aanzet neem ongeveer voor een 30 seconden voor de basic html+css+javascript boilerplate volledig uitgelegt en code commented.
Zelfde tijd ongeveer voor een webscraper in python. Hierbij moet je wel rekening houden dat het boilerplate is die je nog moet aanpassen naar je behoeften. Mocht het model toevallig een geupdate versie van de website in zen dataset staan hebben kan het zijn dat het mogelijk is dat ie het in 1 keer juist is. Maar meestal is het maar de selectors aanpassen om de content die je nodig hebt te fetchen.

Ik merk wel 12gb is vrij weinig want her kan bij grote outputs wel eens gebeuren dat er niet genoeg geheugen is. Maar ik heb mijn kaart destijds 299 betaald en met jou budget kan je zeker wat beter halen.

Ik amuseer me rot met een 3060 12 gb vram maar ik ben enorm gelimiteerd hiermee. Maar het kan je een beeld geven van wat het kan en wat niet.
Thanks, Ik zat ook aan een 3060 te denken. De kaarten met meer dan 12gb zijn ook direct meer dan 1000 euro, dus dat is wel wat ver over het budget...
Volgens mij heb je min. 24 GB nodig (4090), als je de normale variant wil draaien. Met 16 GB of zelfs 8 kun je een 4bit versie draaien, maar volgens mij zijn die niet zo spectaculair. Wellicht huren in de cloud een optie. Ikzelf wil iets maken cpu only, heb dan 96 GB ram met eventueel dubbel zo veel swap.
Wat bedoel je met 'de normale variant'? Hier een benchmark van SD op consumentenhardware, Wat in ongeveer 3 seconden een plaatje oplevert, wat voor mij snel zat is: https://www.tomshardware....-diffusion-gpu-benchmarks
Ik bedoel niet stable diffusion . Ik bedoel het taalmodel van facebook
Ik wil dus meer met image processing doen, ipv taal gebaseerde dingen.
Ik heb eigenlijk nog niet geprobeerd wat cpu geeft met llama, als je wil kan ik het wel even inladen maar ik heb maar 32 gig ram. Het is eigenlijk de grote van het model dat in het geheugen moet passen voor zover ik door heb.

Meestal draai ik wizard-vicuna 13b de 13b modellen zitten meestal tussen de 6-8gb en dan de 33b ongeveer rond de 15gb ik weet dat ik een 33b model niet op men gpu met maar 12 gb ram kan laden maar als mijn theorie klopt moet ik die wel in het gewoone ram geheugen kunnen draaien. Eventueel splitsen gaat ook.

Ik zal even uittesten hoe welk llama model ik geladen krijg en wat de output is.
Ben benieuwd
Heb zelf voor die prijs een bak vol M60’s staan 10 stuks,
Vreet stroom, maar stuk goedkoper dan een L40 van vergelijkbare perfomance voor realesrgan
Misschien leuk om eens naar te kijken is een coral TPU als toevoeging aan je AI systeem.

https://coral.ai/products/

Ik gebruik zelf de USB TPU voor Frigate NVR
https://frigate.video/

[Reactie gewijzigd door drdextro op 23 juli 2024 07:20]

Lezen we mee, Van Dale? Ik wil graag Chip-on-Wafer-on-Substrate-packagingcapaciteit nomineren voor Woord van het Jaar.
Vanavond potje Scrabble doen?
Wat mensen er dan niet bij zeggen,is dat met die enorme tekorten, kleinere bedrijven dus nu al aan het shoppen zijn voor consumentenkaarten die wellicht het niet zo efficient kunnen, maar wel kunnen.
Die AI modellen hebben vooral veel en snel (V)RAM nodig toch, dus dan zullen ze inzetten op de 4090 hoofdzakelijk met diens 24GB nu als hoogste?
Nee, De consumer GPU's hebben een andere processorarchitectuur die minder geschikt is voor AI-deep learning. Wil je echt met AI aan de slag dan heb je daar een gespecialiseerde chip voor nodig.

De site van run:ai geeft best goede informatie over de te gebruiken hardware. Dit is wel specifiek op hun software gericht, maar gaat eigenlijk ook voor de concurrentie op.
Consumer-Grade GPUs

Consumer GPUs are not appropriate for large-scale deep learning projects, but can offer an entry point for implementations. These GPUs enable you to supplement existing systems cheaply and can be useful for model building or low-level testing.

NVIDIA Titan V—depending on the edition, this GPU provides between 12GB and 32GB of memory and between 110 and 125 teraflops of performance. It includes Tensor Cores and uses NVIDIA’s Volta technology.
NVIDIA Titan RTX—provides 24GB memory and 130 teraflops of performance. It includes Tensor and RT Core technologies and is based on NVIDIA’s Turing GPU architecture.
NVIDIA GeForce RTX 2080 Ti—provides 11Gb memory and 120 teraflops of performance. It is designed for gaming enthusiasts rather than professional use and is also based on NVIDIA’s Turing GPU architecture.
https://www.run.ai/guides/gpu-deep-learning

Afhankelijk van het AI-model kunnen er andere randvoorwaarden zijn. Tijdens de training kunnen die bovendien anders zijn dan in actieve dienst. ChatGPT heeft in actieve dienst veel minder processorkracht nodig, maar is wel afhankelijk van een snelle verbinding met het opgeslagen "geheugen" en het internet.
Dat lijken wel oude modellen op die site? Turing is al vanuit 2018 en rtx2080. Inmiddels is het alweer de Ada lovelace architectuur . Bij de 4090 staan heel andere getallen vanuit Nvidia:
4th Generation Tensor Cores
NVIDIA Tensor Cores enable and accelerate transformative AI technologies, including NVIDIA DLSS, which is available in 216 released games and apps, and the new frame rate multiplying NVIDIA DLSS 3. Millions of GeForce RTX and NVIDIA RTX users also leverage Tensor Cores to enhance their broadcasts, and video and voice calls, in the free NVIDIA Broadcast app.
Ada’s new 4th Generation Tensor Cores are unbelievably fast, with an all new 8-Bit Floating Point (FP8) Tensor Engine, increasing throughput by up to 5X, to 1.32 Tensor-petaFLOPS on the GeForce RTX 4090.
Ja, het zijn juist de oudere modellen die meer geschikt zijn voor AI-training.

De nieuwere grafische kaarten zijn verder geoptimaliseerd voor beeldrendering, maar dat houdt niet in dat ze ook voor andere taken beter gaan presteren. In dit geval werkt de oude architectuur dus beter dan de nieuwe. De nieuwere kaarten presteren voor AI-training marginaal beter. De kosten voor aanschaf van de nieuwere kaarten ligt wel hoger en daarbij gebruiken de nieuwe kaarten ook meer energie. De energie weegt best zwaar mee, want juist die kosten zijn bij AI-training erg hoog. Uit kostenoogpunt zijn dus juist die oudere generatie kaarten het meest interessant.

Voor consumenten is dit gunstig. De prijs van oudere kaarten zal wel iets stijgen, maar de nieuwe kaarten zullen nauwelijks in prijs stijgen.
Kunnen ze niet die gpu's daarvoor gebruiken?
De cryptominers hebben toch minder te doen, dus dan maar naar de nieuwe "the next thing" overstappen.
Is chatgpt data van recent?
Hangt af van de versie. Gratis versie neen. Enterprise ja
Heeft AMD en Intel geen concurrent voor de kaarten?
AMD heeft ook Enterprise GPUS (MI200X, MI300X) die zelfs meer memory dan NVIDIA kunnen voorzien per kaart.
Nadeel is echter dat de meeste libraries enkel Nvidia ondersteunen, zij die wel beide ondersteunen maken het zichzelf moeilijk om de beste op beide te zijn. Hierdoor is Nvidia over verloop van tijd als grootste begonnen en blijven ze dit nog wel even. Hun Infiniband features en andere zorgen er ook voor dat hardwarematig een duidelijk voordeel kan aangeboden worden voor gebruikers.
AMD wordt wel ondersteund in Linux OSen met ROCm. Duurt niet lang meer of het komt ook stabiel naar andere OSen.
ROCm is niet eens stabiel onder linux. AMD is helaas echt geen serieuze concurrent op het gebied van AI, op dit moment.
Hopelijk tijd genoeg voor AMD om met een deftige concurrent te komen. Net zoals op de consumentenmarkt.

Gebrek aan concurrentie is gebrek aan innovatie.
Ik zou niet enkel op amd rekenen, ik ben net ergens een model tegengekomen da t naar het schijnt mobile zou kunnen draaien.(staat klaar om morgen eens verder te lezen)

JE hoeft geen gpu met x aantal gb vram te hebben er zijn modellen die even snel output kunnen geven en geladen worden via de cpu. Maar een gpu helpt wel en zeker in groote van get model ik kan een 13b model laden maar daarboven moet ik niet proberen.

Voor mijn doel als hobbyist is dit voorlopig genoeg al wil ik wel dingen proberen en heb ik ideeen om zelf modellen in elkaar te proberen flatsen vrees ik dat dit voorlopig nog even moet wachten.
Had ik niet bij stilgestaan. Inderdaad, andere apparaten, afmetingen, en dergelijke, zijn ook mogelijk.
Het goede nieuws is dat dit niet gebruikt wordt voor de game-kaarten, waardoor dit in principe niet zal zorgen voor tekorten. Tenzij men natuurlijk massaal game-kaarten voor AI gaat kopen.

[Reactie gewijzigd door Ludewig op 23 juli 2024 07:20]

Ja, gelukkig dat dit keer de gaming kaarten eens een keertje niet het slachtoffer zijn.

Ik denk ook niet dat men videokaarten gaat kopen hiervoor want die van Nvidia hebben simpelweg niet genoeg geheugen. LLM's zijn de meest populaire AI soort momenteel en die slurpen geheugen.

ATI heeft wel een gaming kaart die 48GB heeft, dat komt al een beetje in de buurt. Maar ATI is niet bepaald populair op AI gebied.

[Reactie gewijzigd door GekkePrutser op 23 juli 2024 07:20]

Zou dit dan eindelijk het moment zijn dat er opencl implementaties van die AI libraries gemaakt worden? Ik werk in data science, en de CUDA implementaties zijn soms echt retesnel vergeleken met CPU implementaties. Je zit echter altijd vast aan het beschikbaar zijn van een NVIDIA GPU om analyses te doen, of om te testen+developen.

Op dit item kan niet meer gereageerd worden.