Intel, AMD en techbedrijven gaan samenwerken aan alternatief voor Nvidia NVLink

Een consortium van techbedrijven, waaronder AMD, Intel en HPE, gaat samenwerken aan een alternatief voor Nvidia's NVLink-interconnects. De nieuwe standaard heet Ultra Accelerator Link en moet de dataoverdracht tussen gpu's in AI-netwerken versnellen.

Het samenwerkingsverband bestaat uit AMD, Broadcom, Cisco, Google, Hewlett Packard Enterprise, Intel, Meta en Microsoft. De bedrijven gaan werken aan een standaard waarmee data kan worden uitgewisseld tussen gpu's in datacenters, specifiek gpu's die bedoeld zijn voor AI-toepassingen. Ultra Accelerator Link, of UALink, moet een tegenhanger worden van Nvidia's NVLink, dat nu veel voor die toepassingen wordt gebruikt. De technologie maakt directe dataoverdracht mogelijk tussen geheugenmodules, waarmee gegevens veel sneller kunnen worden overgedragen dan bij bijvoorbeeld met PCIe-verbindingen.

Veel specificaties over de standaard zijn nog niet bekend. De bedrijven verwachten in het derde kwartaal van dit jaar een 1.0-versie van de specificatie te hebben. Rond die tijd kunnen de eerste bedrijven UALink ook gaan gebruiken. De bedrijven zeggen dat die specificatie het mogelijk moet maken om 1024 accelerators aan elkaar te koppelen binnen een cluster.

De bedrijven die nu samenwerken, bouwen allemaal hun eigen onderdelen van AI-infrastructuur, zoals servers en chipsets. De accelerators die bedrijven als AMD nu maken, werken nog niet goed samen met de hardware van andere bedrijven, terwijl Nvidia met NVLink en zijn eigen infrastructuur wel een compleet eigen ecosysteem heeft. Door een eigen standaard te ontwikkelen hopen de bedrijven beter te kunnen concurreren met Nvidia, dat op AI-gebied de concurrentie ver achter zich laat.

Door Tijs Hofmans

Nieuwscoördinator

31-05-2024 • 14:35

34

Submitter: TheVivaldi

Reacties (34)

Sorteer op:

Weergave:

Blijft toch verwonderlijk hoe een bedrijf als Meta in die lijst verzeild raakt...
Waarom? Meta is een miljardenbedrijf dat veel vingers in de pap wil houden om een miljardenbedrijf te kunnen blijven. Zie ook Zuck's grote push naar de "Metaverse" toen VR hip was -- nee, daar loopt niemand warm voor behalve Meta zelf, maar het toont wel aan dat ze bereid zijn op elke golf mee te varen. AI is de meest recente golf. Vooraan zitten bij een nieuwe spec (en proefkonijntje willen spelen als afnemer) en zo een voordeel halen op de implementatie ten opzichte van concurrenten is dan nooit verkeerd.
Omdat ze zelf nu niet echt de grote, vooruitstrevende chipmaker zijn.
Dat is dan ook uiteraard niet de insteek. Meta zit er niet bij om input te geven over de fijnere technische details (althans, waarschijnlijk niet, ik weet niet hoeveel diepe techneuten ze bij Meta rond hebben lopen) maar meer als potentiële grootafnemer van de nieuwe technieken. Die zullen wel enige feedback willen en kunnen geven over wat het moet kunnen en kosten ten opzichte van Nvidia.
Meta zit erbij omdat ze heel veel data en cloud hebben en dus liever eigen AI server en software stack in beheer hebben dan zwaar overpriced AI supercomputer op nvidia basis. Voor Meta is de AI softwarte stack en data niet probleem maar die dure AI server hardware als voor 100miljoen AI reken supercomputer kan bouwen met X reken kracht heb je bij nV kwart ervan. Je mist dan wel voordeel van door ontwikkelde software stack van nV maar zulke bedrijven zijn daar ook goed in die software kant dus dat is inhaal slag wat gedaan moet worden. Denk dat Meta daar wel in geloven.
(althans, waarschijnlijk niet, ik weet niet hoeveel diepe techneuten ze bij Meta rond hebben lopen)
Meer dan je denkt, Meta doet best wel wat in hardware (ontwikkeling).
https://www.metacareers.com/jobs?q=hardware
Ze ontwikkelen hun eigen infra en servers. Daarnaast hebben ze een berg server farma wereldwijd en spenderen miljarden in AI. Zou me eerder verbazen dat Meta juist niet een van de leading bedrijven is als het op AI en CPU ontwikkeling aankomt. Uiteindelijk bevind Meta zich niet voor niets in dit lijstje en zullen de mede consortium collegas geen trek in een blok aan hun been hebben.
Zal je nog tegenvallen denk ik. Meta laat chips voor zichzelf maken voor AI, op maat gemaakte chips voor servers, aangepaste switches, etc.
Bedrijven als Facebook kopen hun servers echt niet bij Dell, hoor. Ze zijn groot genoeg dat alle hardware semi-custom is - en op zo'n megaschaal bestel je gewoon chips met de door jou gewenste aanpassingen.

Sterker nog, Facebook ontwerpt zijn eigen AI accelerators! Je kan ze als consument of bedrijf niet kopen, maar dat maakt hun niet minder relevant in de chipwereld. Toepassingen als dit zijn dus nou juist precies de doelgroep van zo'n standaard als UAL.
In 2020 is Meta begonnen met hun Meta Training and Inference Accelerator (MTIA) ASICs om GPUs in (specifieke) ML taken te vervangen. In 2023 is de eerste versie daarvan 'uitgekomen', en vorige maand hebben ze een nieuwe versie aangekondigd: Introducing Our Next Generation Infrastructure for AI.
  • We’re introducing the next generation of Meta’s custom-made chips designed for our AI workloads.
  • This latest version significantly improves performance compared to the last generation and helps power our ranking and recommendation ads models on Facebook and Instagram.
  • These chips are part of our growing investment in our AI infrastructure and will enable us to deliver new and better experiences across our apps and technologies.
Ik snap goed dat zij in een lijstje van chip fabrikanten staan die voor AI accelerators interconnects willen maken.
Voor je Meta beeld;

Meta AI heeft PyTorch ontwikkeld. Inmiddels een zeer populaire machine learning library.

Wikipedia: PyTorch

Via dat bedrijf ontwikkelen ze LLama.

Wikipedia: Llama (language model)

En MTIA v1 was hun eerste hardware ai chip dat middes tsmc op 7nm werd gebakken. Deze versie is inmiddels alweer 'oud' en zijn er nieuwere versies.

https://ai.meta.com/blog/...ence-accelerator-AI-MTIA/

En om je AI te voeren hebben je bakken met data nodig, laat Facebook nou eens dat aanleveren aan Meta AI.

En voor de Metaverse of Mixed/Augmented Reality headset heb je goede computer vision modellen en hardware nodig. Laat computer vision nou toevallig ook een onderdeel van het AI spectrum zijn.

[Reactie gewijzigd door morrowyn op 22 juli 2024 18:13]

Blijft toch verwonderlijk hoe een bedrijf als Meta in die lijst verzeild raakt...
Dat is niet zo vreemd als je weet hoeveel ze uitgeven aan Nvidia:
https://tweakers.net/nieu...met-350000-h100-gpus.html

350k x $30000 = 10 miljard dollar

En dit is natuurlijk geen eenmalige uitgave; de consensus begint toch wel te worden dat met AI veel geld verdiend kan blijven worden de komende jaren zo niet decennia, dus moet er ook geïnvesteerd blijven worden om als bedrijf relevant te blijven in de tech/AI sector.

Dit is dus een zeer logische gezamenlijke poging de hegemonie van Nvidia te doorbreken en volledig te verwachten gezien de bizarre uitgaven die al gedaan worden aan AI hardware en gezien de concurrentie nog niet in de buurt is.

AMD heeft best een mooie chip met de MI300, maar nog lang niet het ecosysteem zoals Nvidia dat wel heeft.

[Reactie gewijzigd door A Lurker op 22 juli 2024 18:13]

https://about.fb.com/news...cters-and-creative-tools/


Meta's Ai bedrijf. Voor facebook toepassingen en dergelijke super interessant. En omdat de AI chips met elkaar moeten kunnen communiceren, en de data snel geraadpleegt moet worden is een snelle verbinding broodnodig.
Goed initiatief.
Zeker omdat zoveel gerenommeerde bedrijven meedoen.
Hopelijk wordt dit dé standaard. Beter dan 1 bedrijf dat de wereld dicteert
Beter zou wellicht zijn dat NVLink een open standaard word. Waarom het wiel opnieuw uitvinden. Straks weer een onderlinge patent oorlog, een half bakken concurrent als je pech hebt.... Nvidia heeft de techniek al en de ervaring.

Maar goed wellicht is Nvidia niet bereid tot zoiets...

Wat dat betreft dat een groep bedrijven aan iets werkt wil niet zeggen dat het de standaard of zelfs maar een standaard word. Kan heel goed een gesloten proprietary ding zijn.

edit: ik vind statements als deze online op verschillende plekken:
With 97% of GPU accelerator revenue in 2023, Nvidia dominated this segment of the data center market. Its rivals AMD and Intel represented the remaining 3% of GPU accelerator revenue

sommigen maken het 98% om 2%, maar dat maakt weinig uit. Enige kans is denk ik Nvidia zo ver krijgn om nvlink open te maken. Mogelijk via een anti monopolie zaak/overheid.

[Reactie gewijzigd door bzuidgeest op 22 juli 2024 18:13]

Maar goed wellicht is Nvidia niet bereid tot zoiets...
Zie nvidia en Apple toegang geven tot drivers/silicon.
En waar moet ik dat zien? Is dat een tweakers artikel titel? Want als ik er op zoek vind ik niets.
Ik heb geen idee hoe je dan zoekt, dit dekt het wel zo'n beetje en is letterlijk de eerste hit.
Google en tweakers zijn zoekmachine. Je specificeert niet en dus zijn dat de twee meest voor de hand liggende plekken.

Die reddit link gaat overigens over consumer hardware en drivers. Niet over de server/cluster dingen waar NVLink zijn plek vind. Ik zie de relatie niet echt. Hele andere belangen.

Het is ook nog eens reddit een shit bron, puur opinie van willekeurige mensen mogelijk allemaal half of totaal ongeïnformeerd. Niet te bepalen

[Reactie gewijzigd door bzuidgeest op 22 juli 2024 18:13]

Ik haalde Apple erbij omdat nvidia notoir geen speelgoed deelt met concurrentie en daarbij rustig procenten beperkt toegang geeft tot techniek. De link was gevonden met Google. Er zit geen causaal verband in, het is een illustratie hoe nvidia zijn dominantie gemiddeld beschermd.
En dus beantwoord het mijn vraag niet.

Een simpel statistiekje:
Can AMD, Intel meaningfully challenge Nvidia? With 97% of GPU accelerator revenue in 2023, Nvidia dominated this segment of the data center market. Its rivals AMD and Intel represented the remaining 3% of GPU accelerator revenue

Lijkt mij dat de enige kans die ze hebben is nvidia overtuigen zijn houding te veranderen, evt met behulp overheid/monopolie positie aanvechten.
is er al, gewoon een licentie op ARM nemen en je bent er zowat al.
Beter zou wellicht zijn dat NVLink een open standaard word. Waarom het wiel opnieuw uitvinden. Straks weer een onderlinge patent oorlog, een half bakken concurrent als je pech hebt.... Nvidia heeft de techniek al en de ervaring.

Maar goed wellicht is Nvidia niet bereid tot zoiets...

Wat dat betreft dat een groep bedrijven aan iets werkt wil niet zeggen dat het de standaard of zelfs maar een standaard word. Kan heel goed een gesloten proprietary ding zijn.
Of NVidia kijkt zo lang mogelijk de kat uit de boom.
Als de nieuwe standaard concurrend lijkt te worden kunen ze altijd nog NVLink opengooien en hebben ze direct weer een voorsprong.
Als de nieuwe standaard dan nog steeds succesvol is kunnen ze ook nog zelf overstappen naar de nieuwe standaard.
Als het geen mooie standaard is dan blijft NVidia lekker bij NVLink.

Het enige risico zou zijn dat als de nieuwe standaard gesloten is er een fors prijskaartje aan hangt om later in te stappen. NVidia bulkt van het geld en heeft een stevige onderhandelingspositie. Als ze bereid zijn hun eigen standaard op te geven en wat techniek bijdragen mogen ze vast wel instappen bij de nieuwe standaard.

Deze standaard zal ook tijdelijk zijn. Uiteindelijk evolueert iedere netwerkverbinding richting ethernet/ip-networking (misschien dat het in de toekomst USB-C wordt).

[Reactie gewijzigd door CAPSLOCK2000 op 22 juli 2024 18:13]

Ze hebben een marktaandeel van 98% of zo, ik zie het wel gebeuren dat ze onder anti monopolie regels gedwongen worden tot openstellen.

Ik zou denken dat dit aanmoedigen via overheden/klachten indienen en betere kans heeft dan een nieuw techniekje dat die paar overige procenten van de markt kan gebruiken. Iedereen die spul van nvidia wil gebruiken heeft niets aan het nieuwe ding.

Ik denk overigens niet dat elke verbinding richting ip / Ethernet gaat. Veel te veel overhead voor high-speed point to point.
Misschien soortgelijke signalering als er achter usb ligt, maar ook daar zit veel control overhead in. Een high speed serial connection is zo generiek dat je het niet aan iets specifiek als usb kan toewijzen. Er zijn tal van voorbeelden van.
Er staat in dit artikel dat ze niet voor PCIe gaan, omdat dat te langzaam gaat.
Waarom zouden ze dan voor een ethernet, ip-network of USB type gaan die nóg veel langzamer is? :?

Ik denk eerder dat ze de AMD Infinity fabric gaan gebruiken of daar een variant op bouwen.
Er staat in dit artikel dat ze niet voor PCIe gaan, omdat dat te langzaam gaat.
Waarom zouden ze dan voor een ethernet, ip-network of USB type gaan die nóg veel langzamer is? :?
Nu is het nog te langzaam, maar in de toekomst komt er een punt dat een standaard-oplossing snel genoeg is. Dan vallen de speciale systemen weer weg en is het goedkoper om de standaard techiek te gebruiken.
Nvidia en open standaarden, die zullen ze nooit zelf maken. Aan open standaarden met software dragen ze al vrij weinig bij.
Nvidia en open standaard? Droom verder. Als ik CEO was van bedrijf dat markt totaal overheerst even open standaard maken. Dat is zo non commercieel gedachte.
Wat wel kantekening is dat MSRP van die pro artikelen zo etxreem hoog is dat veelvoud winstmarges erop dat loont voor grote klanten om eigen AI compute te ontwikkelen . NVidia wil het zo dicht timmeren en intergraal maken dat je gebonden ben niet alleen aan de hardware maar ook ver ontwikkelde software stack.

Dat switch naar de latere competitie een grotere brug wordt en dus meer MSRP voor hun pro spul kunnen blijven vragen.

Dat google hun eigen AI ontwikkeld in hardware en sofware stack is omdat ze groot genoeg zijn en vooral ook software kant sterk zijn. Een Inel en AMD zijn meer hardware gericht en hoe goed de hardware ook uiteindelijk wordt. Die software stack zal langer achter lopen op nVidia en wereld heeft daar al veel geïnvesteerd. Is meer hoe zat zijn corperaties de prijzen van nvidia.

Nvidia heeft grote omzet en winsten gemaakt langdurig enw aren daar vroeg bij. INtel en AMD hun vet pot is te klein om dezelfde wiel alleen te ontwikkelen dus een industrie standaard maakt de investering schappelijker en mogelijk ook grootschaligger en sneller van de grond. Want hou langer competitie weg blijft de dieper nvidia zich in de markt ingraaft en klanten in wurg greep bind.
Totaal overheersen van een markt stelt je als bedrijf open voor beschuldiging van monopolie en bedrijven met een monopolie krijgen nog wel eens speciale regels opgelegd. Iets waar ze niet op zitten te wachten. Zo een maatregel kan bijvoorbeeld gedwongen openstellen zijn.

Er is zeker een zaak te maken om te zorgen dat je als bedrijf groot maar niet te groot bent. Dat houd marktauthoriteiten en overheden uit je business.
Maar goed wellicht is Nvidia niet bereid tot zoiets...
Zonder mijzelf heel erg in de materie te verdiepen, heb ik een gevoel dat Nvidia zelden technieken wil delen. Voor zover ik weet moeten andere bedrijven telkens weer tegendruk geven met nieuwe initiatieven, opensource etc. vóórdat Nvidia de klant zogenaamd enigzins tegemoet komt...
Ze laten een standaard of techniek eerder "doodgaan dan die te delen. Gsync, NVlink etc...
Hun goed recht, maar bij iemand zoals ik wordt er geen goodwill gekweekt op die manier. Ik denk er wel 100x over na voordat ik een stukje hardware van Nvidia in huis haal als er een redelijk alternatief is. Maar ja... wie ben ik nou voor Nvidia?

[Reactie gewijzigd door Obfzk8R op 22 juli 2024 18:13]

wie ben ik nou voor Nvidia?
Tja, als genoeg klanten dezelfde dingen belangrijk vinden, word het heel belangrijk voor NVidia. Consumenten individueel stellen niets voor voor zo een bedrijf, maar een wereldwijde verandering in het koopgedrag van consumenten valt toch echt op.
Probleem is dat er zelden een grote groep mensen is, die bereid is voor hun principes iets als een beetje extra performance op te geven...
Het begint altijd bij jezelf en je eigen principes, wacht niet op een ander.

[Reactie gewijzigd door bzuidgeest op 22 juli 2024 18:13]

Persoonlijk denk ik dat dit ook een behoorlijke kans van slagen heeft om de dominante standaard te worden.
Met Microsoft (ApenAI), Google, en Meta als grote bedrijven die waarschijnlijk ontzettend veel investeren in dit soort hardware.
HPE als een van de grootste spelers op de servermarkt
Broadcom als eigenaar van VMware....
Met HPE, Broadcom en Cisco die allemaal ook in netwerkmarkt wat betekenen, zal er misschien ook op specifieke switches rekening gehouden worden met deze interface.

Als al deze bedrijven gezamenlijk besluiten alleen nog hun eigen standaard te gaan gebruiken, verliest Nvidia een ontzettend groot marktaandeel. Hiermee zal Nvidia bijna gedwongen worden om ook gebruik te gaan maken van deze standaard (al wilt dat uiteraard niet zeggen dat ze hun eigen NVLink hiermee los zullen laten).

Zeker de samenwerking van Intel en AMD hierin, waarmee straks waarschijnlijk alle Serverplatformen die voor deze doeleinden bedoeld zijn automatisch voorzien zullen worden van deze interface op bijvoorbeeld het moederbord, zal Nvidia sterk moeten zijn om de meerwaarde van hun dure standaard nog te kunnen wegzetten.
Volgens mij heeft het als einddoel de kunstmatige markt overeind te houden. Het gaat om AI-infrastructuur, oftewel parallelle rekenkracht als schaalbaar produkt buiten bereik van de consument te houden omdat straks anders niemand een van de partijen nog nodig heeft. Kansen voor Chinese spullen, maar hoe lang nog?
Broadcom, vooral als maker van PCIe- en Ethernet-switches in deze.

Op dit item kan niet meer gereageerd worden.