Microsoft Azure heeft een techniek ontwikkeld waarbij large language models naar eigen zeggen 20 procent efficiënter output kunnen genereren. Bij de techniek worden het verwerk- en het generatieproces opgesplitst over verschillende systemen.
De Microsoft-afdeling legt in een blogpost uit dat llm's die gebruikmaken van Splitwise, de prompt- en tokenfase van een opdracht opsplitsen. Bij de eerstgenoemde fase wordt een prompt van een gebruiker verwerkt en bij de tokenfase worden antwoorden gegenereerd, waarbij iedere outputtoken normaliter sequentieel gegenereerd wordt. Door deze fases over verschillende gpu-clusters te verdelen, beweert Microsoft een 1,4 keer hogere doorvoersnelheid van llm-opdrachten met 20 procent minder stroomverbruik te kunnen bereiken. Bij hetzelfde stroomverbruik moeten llm's 2,35 keer zoveel kunnen verwerken in dezelfde tijd.
Er wordt ook nog een derde poel gebruikt met een mix van prompt- en tokengeneratie voor mixed batching. Dit cluster moet dynamisch in real time geschaald worden op basis van de rekenkrachtvereisten. Splitwise maakt voortaan deel uit van het vLLM-opensourceproject en kan volgens Microsoft daarom in andere frameworks geïmplementeerd worden.