Grote taalmodellen zoals GPT-4 vereisen doorgaans veel rekenkracht en geheugen, maar AI-onderzoekers van Apple stellen dat ze een efficiënte manier gevonden hebben om llm's te implementeren op iPhones en andere Apple-apparaten met relatief beperkt intern geheugen.
De onderzoekers stellen in een researchpaper dat zij een oplossing gevonden hebben om large language models die de beschikbare dram-capaciteit overschrijden uit te voeren op mobiele apparaten, zoals een iPhone. Dit zou mogelijk zijn door de modelparameters op te slaan op het flashgegeheugen en deze wanneer nodig naar de dram te sturen.
Om de doorvoer te maximaliseren geven de auteurs aan gebruik te maken van 'recycling' door een deel van de verwerkte gegevens door een AI-model te hergebruiken. Hierdoor zou het niet nodig zijn om voortdurend geheugen op te halen, wat voor een soepeler proces moet zorgen. Daarnaast zeggen de onderzoekers dat door grotere stukken data te groeperen, gegevens sneller kunnen worden gelezen. Dit moet ook tot snellere verwerking en reacties door het AI-model leiden.
De twee methoden moeten het mogelijk maken om AI-modellen uit te voeren die tot twee keer de grootte van de beschikbare dram in beslag nemen en over maximaal 5 en 25 keer zo hoge inferentiesnelheden beschikken ten opzichte van het rechtstreeks laden in de cpu en gpu.
Het efficiënter werken van llm's op iPhones zou onder meer mogelijkheden kunnen bieden voor geavanceerde Siri-opdrachten, realtime taalvertaling en het implementeren van AI-functies in fotografie. Apple werkt naar verluidt al aan een eigen groot taalmodel, dat door medewerkers zou worden aangeduid als 'AppleGPT'. Ook zou het bedrijf generatieve AI willen toevoegen aan Siri, Xcode en Keynote.