Zelf converseer ik altijd in het Engels met lokale LLMs, dat zal ik maar als eerste vermelden.
Falcon-h1r-7b, dat is het model waarop je kunt zoeken in LM Studio. Het is een redenering-model en zeker niet een van de snelste. Nu heb ik een testset aan vragen verzameld. Daarin zitten ook een paar logische vragen, die voor een mens in 1 oogopslag correct worden beantwoord.
Echter, veel lokale LLMs in de 1b tot 14b reeks komen niet tot de correcte conclusie. Een paar komen wel tot de correcte conclusie, maar de uitleg is te onlogisch.
Falcon-h1r-7b viel op met het juiste resultaat en uitleg. Het ondersteund helaas geen 'vision' of 'tools', Maar als het dat deed, dan was het mijn favoriete model. He model Is van origine gemaakt door de UAE.
Daarna komt model LFM2.5-VL-1.6b (q8), flink wat rapper, ook flink wat kleiner. Deze ondersteund echter wel 'vision' en 'tools'. Dus heb ik wat MCP servers gekoppeld aan LM Studio om daar gebruik van te maken. Elke lokale LLM met 'tools' ondersteuning kan nu gebruik maken van het internet. En dat scheelt een heleboel in kwaliteit van antwoorden, zowel voor als na de "cut-off date" van elk (lokaal) model.
Nu zijn de antwoorden van LFM2.5-VL-1.6b van zichzelf al behoorlijk competent, als je met de modelomvang rekening houdt, Nu dat het ook het internet op kan, is het een lokale LLM waarmee het behoorlijk prettig is om mee te werken.
qwen3-deepseekv3.2-8b-especiale-distill, ook een model dat redeneert en simpele werkende code oplevert. Heeft ook 'tools'-ondersteuning, dus internet toegang en alle voordelen die daarbij horen.
Dat zijn de laatste 3 modellen waarvan ik onder de indruk was. Zeker op mijn beperkte hardware (AMD Ryzen 5 2400 (APU), 32 GB RAM (2x(2x8 GB)) 3200 DDR4, Kingston SSD (2,5 inch variant) en AMD RX580 met 16 GB VRAM).
LM Studio "ziet" mijn GPU alleen via Vulkan, wat het toch wel een stuk slomer maakt dan NVidia's CUDA. Begrijp me goed, de LM Studio software is een mooi pakket dat het werken met LLMs op een heleboel manieren makkelijker maakt. Maar het is niet de snelste vorm voor het werken met LLMs via llama.cpp.
Wil je dat wel, dan moet je terugvallen op de llama.cpp software zelf (
github) en de Windows Terminal/PowerShell interface. Op de github pagina kan je dus Windows biaries downloaden, welke je niet eens hoeft te installeren (als je dat niet wilt of mag). Archief in zijn geheel uitpakken in een folder naar keuze. Navigeer naar deze folder in Terminal/PowerShell, dan type je: llama-cli -m C:\\pad\\naar\\je\\favoriete\\model.gguf
Even wachten tot alles is geladen en dan merk je wel dat deze spartaanse manier van werken flink wat rapper is op dezelfde hardware in Windows. Draai je echter op Linux, dan steek tijd in vLLM. Bij lange na niet zo gebruiksvriendelijk, maar blaast alle software gebaseerd op llama.cpp (Ollama, LM Studio) compleet uit het water.
Je kan via de llama.cpp documentatie op heel veel manieren "spelen" met modellen die je al hebt gedownload. Vereist wel wat zelfstudie, maar je zal na wat experimentatie ook een 30b LLM redelijk werkend kunnen krijgen in een hardware setup als de mijne. 70b LLMs als je meer/betere hardware tot je beschikking hebt. Heb je genoeg hardware om 70b LLM vlotjes te laten werken, dan zul je het verschil tussen cloud-LLMs en lokaal nog steeds opmerken, maar lokale LLMs zul je niet meer aanmerken als 'dom'.