DeepSeek komt met AI-model dat efficiënter lange teksten verwerkt

DeepSeek heeft V3.2-Exp gepresenteerd, een AI-model dat voor het eerst werkt met DeepSeek Sparse Attention. Daardoor moet het AI-model efficiënter lange stukken tekst kunnen verwerken dan voorgaande versies.

V3.2-Exp is een tussenstap naar een volledige V3.2, zegt DeepSeek. De experimentele versie scoort hetzelfde op benchmarks als V3.1, maar tegen aanzienlijk lagere kosten, claimt het bedrijf. Dat is vooral goedkoper voor gebruiksscenario’s waarbij klanten lange teksten in het AI-model gooien.

Sparse Attention werkt met een combinatie van technieken, waarbij het model groepen woorden samenvat en vervolgens de belangrijkste woorden en woordgroepen kiest om te verwerken, in plaats van de hele tekst. Huawei gaat de nieuwste versie ondersteunen op zijn hardware.

DeepSeek

Door Arnoud Wokke

Redacteur Tweakers

29-09-2025 • 18:12

10

Reacties (10)

Sorteer op:

Weergave:

Weet iemand ook of ik deze LLM lokaal kan laten draaien en mijn computer volledig kan laten indexeren (trainen?) met al mijn bestanden (foto, video, pdf en tekstdocumenten etc) om die vervolgens via DeepSeek te “beheren”?
DeepSeek is veel te groot. Tenzij je je huis verkoopt voor de hardware. Maar de eerste DeepSeek had ook "distill" versies waarbij een soort mini deepseek was gemaakt op basis van llama en qwen. Die zijn lang niet zo goed als de echte maar je kan ze wel lokaal draaien.

De latere versies hebben ze volgens mij niet gedestilleerd. Helaas. Van V2 heb ik die nooit gezien.

[Reactie gewijzigd door Llopigat op 29 september 2025 18:54]

Maak daar maar een woonwijk van lol
Het daadwerkelijk trainen van een LLM (dus de weights veranderen etc.) gaat niet op consumenten hardware kunnen.

Wat jij bedoelt met tekstdocumenten etc. is dus niet een model trainen.

Maar waarom zouden jouw tekstdocumenten doormiddel van RAG niet werken op huidige modellen dan?
Ik denk dat je de termen als RAG wat beter moet uitleggen. Maar idd, RAG werkt goed. Ik gebruik het zelf met Llama 3.1 en qwen3-embedding voor mijn Obsidian database <3

[Reactie gewijzigd door Llopigat op 29 september 2025 18:55]

Dit Deepseek model heeft ruim 600 miljard parameters. Tenzij je thuis een half datacentrum hebt staan ga je daar qua finetunen niet ver mee komen.

Bij vorige versies van Deepseek werden ook 'distilled' modellen uitgebracht. Dat zijn kleinere modellen die zijn getrained met outputs van het grote model. Die kleinere modellen kan je prima op consumentenhardware runnen (en zelfs finetunen). De kwaliteit van die kleinere modellen is logischerwijs wel minder.

Als je die kleinere modellen lokaal wilt finetunen kan ik Unsloth (https://unsloth.ai/) aanraden. Die bieden een open-source library aan waarmee je slechts een gedeelte van een model kan trainen waardoor je niet zoveel computerkracht nodig hebt.

Vereist alsnog wel de nodige technische kennis, maar mocht je daar niet bang voor zijn is het zeker een interessante bezigheid :D
Ik denk dat het goed is om eerst duidelijk te stellen wat je doel is. Namelijk: wat bedoel je precies met het beheren van je bestanden? Welke handelingen wil je met het LLM uitvoeren en welk doel wil je bereiken met het indexeren van de bestanden op je PC?

Je zou eens kunnen kijken of RAG een oplossing voor je is. Sterk versimpeld is dit een techniek warmee je een "kennisbank" opstelt welke je vervolgens kan raadplegen tijdens het gebruik van het LLM.
Ik zie in je bericht niet de aanname staan dat dit niet zou werken met huidige modellen dus wellicht is dit iets wat je zou kunnen proberen.

Je kan inderdaad ook "finetunen" zoals @rutgerdj aangeeft, maar gezien je vragend bent over de terminologie lijkt me een eenvoudigere mogelijkheid als RAG beter voor je.

[Reactie gewijzigd door Thonz op 29 september 2025 19:09]

Typisch maak je een LoRa (weight fine tuning), Graph (steek woorden relatie zoeken) of een RAC (delen van tekst vinden) voor content die je post-training wilt ontsluiten.

Maar dit model zelf vereist behoorlijk wat VRAM, meer dan typisch in een goede game PC zit (600+ GB).
Wat voor texten? Zijn er zoveel verschillende: proza maar ook tech related.
Voor wie geïnteresseerd is waarom dit van belang is, behalve dan: "nieuw model", hier wat versimpelde achtergrondinformatie zoals ik het begrijp:

Voor LLMs zijn grofweg twee dingen van belang: rekenkracht en geheugen (en de uitwisseling tussen die twee). De rekenkracht is ofwel de GPU of de CPU en het geheugen het VRAM of RAM. Wanneer een gebruiker een vraag stelt, wordt deze opgeknipt in stukjes (tokens) welke vervolgens in het werkgeheugen worden opgeslagen om snel geraadpleegd te worden.

Rekenkracht is nodig om data te verwerken. Deze tokens worden gescoord op basis van mate van statistische overeenkomst met andere data (de andere data tijdens het trainen, de invoer van de gebruiker en externe data tijdens het gebruik) door de indexer. Deze deepseek versie gebruikt hiervoor een nieuwe "lightning indexer".

Daarnaast "zoekt" een model naar de statistisch meest overeenkomende andere tokens welke vervolgens daarna weer om worden gezet in tekst om aan de gebruiker getoond te worden (hoe dit gedaan wordt is een vorm van "attention").

Werkgeheugen is nodig omdat naast het naast het gekozen model, overige informatie zoals de instructies dat het model heeft meegekregen voor hoe het zich moet "gedragen" en eventuele informatie die opgezocht is, ook in het werkgeheugen staat om snel te raadplegen, bovenop de tokens die eerder in het gesprek zijn gemaakt.

Wanneer het gekozen geheugen vol raakt zal de rol overgenomen worden door het andere geheugen (offloading wordt dit doorgaans genoemd). De uitwisseling tussen deze twee soorten geheugen is doorgaans zeer laag, wat een flinke vertraging in het gebruik oplevert. Wanneer dit allemaal te groot wordt, zal je een out-of-memory fout krijgen.

Deze deepseek versie gebruikt de nieuwe "lightning indexer" voor een voorselectie van welke data relevant is en geïmplementeerd/doorzocht dient te worden. Vervolgens selecteert het "fine-grained token selection mechanism" enkel die aangewezen tokens om verdere statistische berekeningen op los te laten. Hierdoor neemt het geheugenverbruik en benodigde rekenkracht af.

Zo te zien is het resultaat dus vooral te merken in efficiëntie, zowel tijdens het trainen als in het gebruik.Of het model ook beter presteert, kan ik nog niet zeggen.
Los daarvan heeft een efficiënter (getraind) model de eigen gevolgen. Zo heeft Deepseek al eerder voor een aardige opschudding in het AI landschap gezorgd door middel van efficiënter een model te trainen.

Zie hier een kort paper van Deepseek AI over het model: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

[Reactie gewijzigd door Thonz op 29 september 2025 20:28]


Om te kunnen reageren moet je ingelogd zijn