Voor wie geïnteresseerd is waarom dit van belang is, behalve dan: "nieuw model", hier wat versimpelde achtergrondinformatie zoals ik het begrijp:
Voor LLMs zijn grofweg twee dingen van belang: rekenkracht en geheugen (en de uitwisseling tussen die twee). De rekenkracht is ofwel de GPU of de CPU en het geheugen het VRAM of RAM. Wanneer een gebruiker een vraag stelt, wordt deze opgeknipt in stukjes (tokens) welke vervolgens in het werkgeheugen worden opgeslagen om snel geraadpleegd te worden.
Rekenkracht is nodig om data te verwerken. Deze tokens worden gescoord op basis van mate van statistische overeenkomst met andere data (de andere data tijdens het trainen, de invoer van de gebruiker en externe data tijdens het gebruik) door de indexer. Deze deepseek versie gebruikt hiervoor een nieuwe "lightning indexer".
Daarnaast "zoekt" een model naar de statistisch meest overeenkomende andere tokens welke vervolgens daarna weer om worden gezet in tekst om aan de gebruiker getoond te worden (hoe dit gedaan wordt is een vorm van "attention").
Werkgeheugen is nodig omdat naast het naast het gekozen model, overige informatie zoals de instructies dat het model heeft meegekregen voor hoe het zich moet "gedragen" en eventuele informatie die opgezocht is, ook in het werkgeheugen staat om snel te raadplegen, bovenop de tokens die eerder in het gesprek zijn gemaakt.
Wanneer het gekozen geheugen vol raakt zal de rol overgenomen worden door het andere geheugen (offloading wordt dit doorgaans genoemd). De uitwisseling tussen deze twee soorten geheugen is doorgaans zeer laag, wat een flinke vertraging in het gebruik oplevert. Wanneer dit allemaal te groot wordt, zal je een out-of-memory fout krijgen.
Deze deepseek versie gebruikt de nieuwe "lightning indexer" voor een voorselectie van welke data relevant is en geïmplementeerd/doorzocht dient te worden. Vervolgens selecteert het "fine-grained token selection mechanism" enkel die aangewezen tokens om verdere statistische berekeningen op los te laten. Hierdoor neemt het geheugenverbruik en benodigde rekenkracht af.
Zo te zien is het resultaat dus vooral te merken in efficiëntie, zowel tijdens het trainen als in het gebruik.Of het model ook beter presteert, kan ik nog niet zeggen.
Los daarvan heeft een efficiënter (getraind) model de eigen gevolgen. Zo heeft Deepseek al
eerder voor een aardige opschudding in het AI landschap gezorgd door middel van efficiënter een model te trainen.
Zie hier een kort paper van Deepseek AI over het model:
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
[Reactie gewijzigd door Thonz op 29 september 2025 20:28]