De CPU had ik nog niet eens over nagedacht. Ik hoop mijn LLMs virtueel te draaien, heb jij hier ook ervaring mee? en hoe belangrijk is de cpu (gebruik zelf de 5600g voor virtualisatie)?
Nee ik draai ze niet virtueel maar aangezien je LLM toegang nodig heeft tot de GPU (voor serieuze prestaties) kan je dat al niet echt virtualiseren (GPU's kan je niet virtualiseren, alleen via vt-d aan een virtual machine aanbieden). De CPU was voor mij vooral belangrijk voor energieverbruik en text to speech performance. Ik had eerst de 2600 (die ik nog had liggen) en dat scheelde toch 5 watt standby en bovendien is text to speech een stuk sneller.
Maar je doet een lokale server vooral voor de snelheid en dan zou ik geen technieken als virtualisatie gebruiken eigenlijk. Al kan je de meeste tools wel in docker draaien en dat doe ik ook, met uitzondering van ollama die ik wel lokaal draai.
AMD wil ik voor AI helaas niet aan beginnen (geprobeerd werkend te krijgen met een Vega 56 maar dat is dus niet gelukt).
De Vega 56 wordt misschien niet ondersteund door ROCm. Nvidia ondersteunt zo'n beetje alle kaarten met CUDA. AMD helaas niet. Voor mijn kaart worden er ook geen verdere optimalisaties aangebracht voor ROCm helaas. Het is niet anders. Het is inderdaad geen geweldige optie. Maar ik had gewoon heel toevallig die kans omdat deze kaart toevallig uit de verkoop liep en daardoor voor een belachelijk lage prijs te krijgen was (nieuw was hij rond de 2500 euro). Voor de hardware die je krijgt was het een enorm goede deal. En ja voor Stable Diffusion en dergelijke heb je volgens mij ook CUDA nodig.
Context is de prompt die je er in stopt. Dat gaat in tokens, dat zijn delen van woorden. Hoe lang die precies zijn hangt af van het woord, het is niet 1:1 vergelijkbaar met bytes. Llama3.1 heeft bijvoorbeeld een maximale context grootte van 128k tokens. Dat is behoorlijk veel, dus je kan er een compleet document in stampen. Helaas loop je dan dus wel gauw uit je geheugen. Ik kom tot ongeveer 80k tokens, daarna gaat hij uit zijn geheugen lopen en moet hij het werkgeheugen gaan aanspreken waardoor alles enorm traag wordt.
Met een 12GB kaart zal je veel minder context kwijt kunnen omdat het model even groot blijft, tenzij je model flink gaan quantiseren waarbij de prestaties achteruit gaan. Als je het precies wil weten kan je deze calculator bekijken:
https://huggingface.co/sp...LLM-Model-VRAM-Calculator
Llama 3.1 8b met 8 bit quantisatie is daarmee dus wel mogelijk maar je zal het bij kleine contexts moeten houden. Ga je hele discussies houden met over en weer vragen of documenten uploaden dan zal je uit je VRAM lopen. Het hangt daarmee heel erg van je gebruik af. Niet elke usecase heeft veel context nodig.
Met Phi-4 heb je nog een stuk meer dan 16GB nodig om er echt goed gebruik van te maken met een grote context. Gebruik je korte prompts dan kan het wel op zich.
En ja ik kan SearXNG aanraden. Ik draaide het al en het was bovendien de eerste metazoekmachine waar OpenWebUI mee kon praten. Ik krijg ongeveer dezelfde kwaliteit antwoorden als met Kagi (betaalde metazoekmachine) en dat vind ik erg netjes.
[Reactie gewijzigd door Llopigat op 18 januari 2025 20:52]