Microsoft Azure: Splitwise-tech verlaagt stroomvereisten llm's met 20 procent

Microsoft Azure heeft een techniek ontwikkeld waarbij large language models naar eigen zeggen 20 procent efficiënter output kunnen genereren. Bij de techniek worden het verwerk- en het generatieproces opgesplitst over verschillende systemen.

De Microsoft-afdeling legt in een blogpost uit dat llm's die gebruikmaken van Splitwise, de prompt- en tokenfase van een opdracht opsplitsen. Bij de eerstgenoemde fase wordt een prompt van een gebruiker verwerkt en bij de tokenfase worden antwoorden gegenereerd, waarbij iedere outputtoken normaliter sequentieel gegenereerd wordt. Door deze fases over verschillende gpu-clusters te verdelen, beweert Microsoft een 1,4 keer hogere doorvoersnelheid van llm-opdrachten met 20 procent minder stroomverbruik te kunnen bereiken. Bij hetzelfde stroomverbruik moeten llm's 2,35 keer zoveel kunnen verwerken in dezelfde tijd.

Er wordt ook nog een derde poel gebruikt met een mix van prompt- en tokengeneratie voor mixed batching. Dit cluster moet dynamisch in real time geschaald worden op basis van de rekenkrachtvereisten. Splitwise maakt voortaan deel uit van het vLLM-opensourceproject en kan volgens Microsoft daarom in andere frameworks geïmplementeerd worden.

Microsoft SplitwiseMicrosoft Splitwise

Door Yannick Spinner

Redacteur

08-01-2024 • 13:07

22

Submitter: TheVivaldi

Reacties (22)

22
21
4
1
0
1
Wijzig sortering
Op de laatste Ignite is er een zeer goede sessie geweest van Mark Russinovich, ooit de ontwikkelaar van de gekende Winternals tools. Destijds overgenomen door Microsoft en ondertussen opgeklommen tot CTO van Azure. Deze vrij technische sessie geeft een goed en diepgaand overzicht van hoe Microsoft AI draait in Azure. .

Paar leuke feitjes: als Microsoft de opgebouwde AI compute power zou registreren als een supercomputer, zouden ze op plaats 3 komen in de wereld. Dit gebruiken ze dus enkel voor AI toepassingen! Een kleine 14.400 H100 GPU's van NVIDIA worden daarin gebruikt.

Ze kunnen de volledige GPT-3 training van 175 miljard parameters doen in 4 minuten met een 10de van de huidige hardware, namelijk 1.344 NVIDIA H100's. Er werd geschat dat in 2020 OpenAI 34 dagen nodig zou hebben gehad om die te compilen op de toen aanwezige infrastructuur, ook van Azure! Op drie jaar tijd is dus van 34 dagen naar 4 minuten gegaan! Hoe hard kan het gaan!

Eén van de betere sessie die ik gezien heb, al ben ik niet met alles mee: https://www.youtube.com/watch?v=c4SUhWBybXo

Mark Russinovich heeft nog een andere leuke sessie, waarbij hij via TaskManager Pong speelt op de Mega-Godzilla hardware die in het Azure Datacenter staan. Deze heeft 1792 cpu cores en 29,7TB aan RAM: https://www.youtube.com/watch?v=DlTgscTVvCs

[Reactie gewijzigd door tc982 op 23 juli 2024 00:39]

Misschien een idee om even erbij te zetten wat llm betekent ? Niet iedereen is al thuis is deze materie.
verkeerde reactie

[Reactie gewijzigd door Cyw00d op 23 juli 2024 00:39]

Er staat LLM, niet LIM. Large Language Model dus.
vraag het niet aan Bing Chat want die weet je dit te vertellen
Een LLM, of LL.M., staat voor Legum Magister in het Latijn, wat zich vertaalt naar meester in de rechten1. Het is een graad in het bachelor-masterstelsel. Deze graad wordt gebruikt om aan te geven dat de drager ervan aan een universiteit een eenjarige of tweejarige initiële masteropleiding heeft afgerond in de rechtsgeleerdheid1.
Als je input dom is moet je niet raar kijken dat je output net zo dom is.
what does LLM mean in the context of MS Azure?

Searching for: LLM MS Azure

Generating answers for you…

LLM stands for large language model, which is a type of artificial intelligence system that can generate natural language text based on a given prompt. MS Azure is a cloud computing platform that offers various services and tools for building and deploying AI applications, including LLMs.

In the context of MS Azure, LLM refers to the feature that allows users to access and use widely used LLMs such as OpenAI or Azure OpenAI Service for natural language processing tasks.
Als de vraag aan bing chat is “what is LLM” zou hij alle antwoorden moeten geven, domme vragen bestaan niet, alleen domme antwoorden.
Mwah, als je dat vraagt zou je verwachten dat er een vraag terug komt om wat duidelijkheid proberen te geven. Wat je ook kunt doen is natuurlijk gewoon de Copilot knop in Edge aanklikken en dan daar vragen 'Wat wordt er in dit artikel bedoelt met LLM. Dan krijg je namelijk precies het antwoord wat je zoekt.

Zoals je hier ook kunt zien : https://tweakers.net/i/Zm...A7dtUlln.png?f=user_large

[Reactie gewijzigd door TheVMaster op 23 juli 2024 00:39]

Tuurlijk bestaan domme vragen wel. Ik kom ze alle dagen tegen.
Mee eens - als juist een systeem dat alle(!) mogelijkheden bekijkt (want dat doet een mens juist niet zo makkelijk) dan mag je meer verwachten. Context geven is natuurlijk altijd handig maar welke context dan?
"Op tweakers hadden ze het om LLM, wat is dat?"

Een AI zou bij gebrek aan context juist moeten doordenken - wat mensen overigens ook doen - al dan niet door extra info te vragen of - jawel - meerdere antwoorden te geven....

Maar stellen dat de input dom is, is pertinent de omgekeerde wereld.
Domme vragen bestaan niet, wel domme mensen die de vragen stellen...
Definieer dom, als iemand iets niet weet is ie dan dom? dan is het toch begrijpelijk dat diegene vragen stelt.
Vervang 'dom' met 'lui' en we komen ergens ... ;)
Vraag het anders eens aan ChatGPT. Als LLM zijnde, weet GPT hier vast een goed antwoord op te geven ;-)

[Reactie gewijzigd door Ruuddie op 23 juli 2024 00:39]

Toegevoegd!
Dat valt mij vaker op bij artikelen. Een heel stuk technische tekst die voor niet ingewijden dus abacadabra is. Een korte eenvoudige verklaring zou idd gewenst zijn.
Anoniem: 80910 @paulwump8 januari 2024 14:00
Een technisch woordenboek had ik vroeger ook nodig bij mijn opleiding. Waar ik me aan irriteer is, een afkorting heeft vaak meerdere betekenissen en overal maar een afkorting van maken om dat het kan...
Gebeurt in de gezondheidszorg ook en daarom worden er stricte regels gehanteerd zoals weinig mogelijk afkortingen gebruiken. Uitschrijven kost geen papier of inkt en met een eigen woordenboek in Word zo verholpen.
Ik dacht heel even dat het relatie had tot https://www.splitwise.com/ :P
Waren er vroeger niet bij nieuwartikelen, dat als er een afkorting er stond je eroverheen kon gaan met je cursor en je dan een verklaring kreeg? (Waren dacht ik stippellijntjes onder de woorden.)

Op dit item kan niet meer gereageerd worden.