Google introduceert Gemma 4 voor lokaal gebruik, nieuwe opensourcelicentie

Googles onderzoeksdivisie DeepMind introduceert het nieuwe opensourcemodel Gemma 4 onder de Apache 2.0-licentie. Het model zou excelleren in prestaties per parameter. Daarmee moet Gemma 4 relatief goed presteren op lokale hardware. De meeste AI-modellen presteren alleen goed op geavanceerde hardware in datacenters.

Google DeepMind Gemma 4Gemma 4 is gebaseerd op Gemini 3 en bestaat uit vier varianten, Effective 2B, Effective 4B, 26B Mixture of Experts en 31B Dense. De cijfers doelen op de hoeveelheid parameters in het model. Effective 2B heeft dus 2 miljard parameters, Effective 4B heeft er 4 miljard enzovoort.

Een parameter is een interne variabele, de bouwstenen van hoe een model is opgebouwd en data verwerkt. Gemma 4 is 'open weight', waardoor gebruikers het interne werken van het model kunnen aanpassen.

Grote en kleine modellen

Vooral de twee grootste modellen zouden per parameter goed presteren. Specifiek het 26B-model kan dat door verzoeken zo efficiënt mogelijk te verwerken. Dat lukt volgens Google DeepMind omdat er maar 3,8 miljard van de 26 miljard parameters geactiveerd worden bij inferentie, het verwerken van nieuwe data door een 'afgetraind' model. Daarmee zou het model op een enkele Nvidia H100-gpu met 80GB geheugen moeten kunnen draaien. Dat is in principe dus lokaal mogelijk, al zullen weinig consumenten een H100 hebben. Overigens kunnen de modellen in bepaalde configuraties ook op topmodellen grafische kaarten voor consumenten draaien.

De twee kleinste Gemma 4-modellen zouden nadrukkelijk gemaakt zijn voor consumentenhardware. Deze varianten maakte DeepMind in samenwerking met het Google Pixel-team en smartphoneprocessormakers Qualcomm en MediaTek. Effective 2B en Effective 4B zouden daarom geschikt zijn om met het beperkte geheugen en accuduur van een smartphone effectief te werken.

Nieuwe licentie maakt breder gebruik mogelijk

Google DeepMind brengt Gemma 4 uit onder de Apache 2.0-licentie. Dit is een opensourcelicentie die veel gebruikt wordt in de wereld van opensourceontwikkeling. Gebruikers mogen het model aanpassen en onder een eigen licentie en eventueel commercieel uitbrengen. De ontwikkelaar stelt: "We geloven in het versterken van het ontwikkelaarsecosysteem zonder beperkende barrières."

De nieuwe licentie is opvallend, want tot dusver bracht Google Gemma-modellen onder een eigen licentie uit. De voorwaarden daarvan waren strenger en Google hield het recht in handen om de licentie later te veranderen. Dat is niet geval onder Apache 2.0.

Google DeepMind Gemma 4

Door Yannick Spinner

Redacteur

02-04-2026 • 21:11

85

Submitter: Coen

Reacties (85)

Sorteer op:

Weergave:

Ik heb gisteren de E4B geprobeerd in ollama met een rtx3060 12GB.

Snelheid is indrukwekkend, en in het Engels ook vloeiend, maar de responses zijn helaas nog steeds vaak confident nonsense.

Zelfs met grounding en extra instructies geven simpele check prompts vrijwel altijd hallucinaties. Vraag 'm maar eens wie Vader Abraham is.

Een stuk van z'n response: "Hier is een samenvatting van de geleverde tekst over de artiest en carri van RenRene" Van Der Linden (vaak aangeduid als "Rene Van Der Linden"):

Overzicht van de Artiest: De tekst beschrijft een carri in de Nederlandse muziek, waarbij de focus ligt op de periode van de jaren '70 tot de jaren '90. De naam "Rene Van Der Linden" komt echter minder prominent voor dan de namen van de groepen of de samenwerkingen (zoals The Earthbangers of de carri als entertainer)."

Carri ipv carrière, the Earthbangers en Rene van der Linden.... Tja, wel lekker snel (51 tokens per seconde), dat wel.

[Reactie gewijzigd door MarcelG op 3 april 2026 18:59]

Ik zit nog eens even goed naar je tekst te kijken, maar ik snap niet zo goed wat je nu precies probeert te zeggen. Je prompt is namelijk totaal nietszeggend over de kwaliteit van het model.
Vraag 'm maar eens wie Vader Abraham is.
Dat is een kennis vraagstuk waar je er dus vanuit gaat dat het model daar a) überhaupt op getrained is (dus nederlandse data) en B) ook voor geoptimaliseerd is.

het is een kennis vraagstuk wat echt nergens op slaat eigenlijk. Alsof je alle kennis die google heeft in een model zou gaan stoppen en dat dan verspreid. Dan zou google ineens ook geen werk meer hebben toch?

Nee een model gaat er uiteraard vrolijk op los mijmeren met zo'n prompt. GPT5 of Opus zonder websearch zal hier ook weinig daadwerkelijk goeds van maken denk ik. Misschien wel beter "genederlandst" dat dan weer wel.

heb je het model al eens geprobeerd een PDF voor te schotelen met de correcte informatie? of een markdown file met dat wat wel klopt en dan de vraag stellen? Want ik durf te wedden dat de response dan heel anders gaat zijn.

Modellen zoals dit (zeker de kleine) hebben praktisch zero knowledge en redenering, maar kunnen wel hel goed gebruikt worden voor simpele taken en bijvoorbeeld vertalen.
Zelfs met grounding en extra instructies geven simpele check prompts vrijwel altijd hallucinaties.
Ik denk oprecht dat je niet een bruikbare checkprompt hebt voor 99,9% van de gevallen. Je test heel weinig en dat wat je er mee kunt testen is ook nog eens helemaal niet relevant (kennis)

Goede evaluatievragen hebben meestal één of meer van deze eigenschappen:
  1. Ambiguïteit
    “Wie is Vader Abraham en wat is het verschil met de Bijbelse Abraham?”
  2. Context + verificatie
    “Waarom werd ’t Smurfenlied zo groot, en klopt het dat het wereldwijd nummer 1 stond?”
  3. Redenering / mening onderbouwen
    “Waarom was Vader Abraham cultureel belangrijker in NL dan veel andere artiesten uit die tijd?”
  4. Fouten detecteren
    “Vader Abraham was een Vlaamse rapper uit 2005 - klopt dit?”
En al die dingen moet je het alleen laten doen als het ook een tool heeft om bronnen te kunnen vinden/raadplegen.
Dat het wel of niet het correcte antwoord weet is niet relevant (alhoewel, met websearch aan moet er iets komen bovendrijven). Wat het probleem is, is dat ie met onzin terugkomt. 'een samenvatting van de geleverde tekst' : er is geen tekst aangeleverd, alleen het vinkje websearch.

De zoekresultaten die het model ter beschikking kreeg (35283 karakters, afkomstig van NPO 3FM, VaderAbraham.com, WikiPedia (correcte artikel) etc.) bevatten geen enkele verwijzing naar "RenRene van de Linden" of "The Earthbangers", maar een hele hoop vermeldingen van Pierre Kartner.

Daarnaast is vraag niet ambigu te noemen; het is een vraag van 4 woorden, die expliciet vraagt naar een persoon.
De Bijbelse Abraham komt in het antwoord überhaupt niet naar voren.

Had gewoon op basis van de system prompt en verduidelijking van z'n rol moeten toegeven dat ie geen flauw idee heeft, of dat het een vraag is waar extra context bij nodig is.

Qwen 3.5 kwam vorig jaar nog met ""Vader Abraham" verwijst meestal naar de cartoonfiguur uit de Amerikaanse animatieserie Family Guy, die in het Nederlands vaak met deze naam wordt aangeduid.", en ik had gehoopt dat Gemma 4 het beter zou doen.

[Reactie gewijzigd door MarcelG op 4 april 2026 15:59]

Dat het wel of niet het correcte antwoord weet is niet relevant (alhoewel, met websearch aan moet er iets komen bovendrijven). Wat het probleem is, is dat ie met onzin terugkomt. 'een samenvatting van de geleverde tekst' : er is geen tekst aangeleverd, alleen het vinkje websearch.
Oke ik denk dat je daarmee fundamenteel niet helemaal begrijpt hoe het systeem werkt. Die websearch als tool levert de artikelen aan aan de LLM als context. Voor het model is er dus daadwerkelijk een set artikelen aangeleverd vergelijkbaar als dat je het zelf zou doen.
Daarnaast is vraag niet ambigu te noemen
Nee dat is precies het probleem. Dat wil je juist wel.

Ik ben wel benieuwd hoe je het model hebt gedraaid want ik vind dit wel aparte resultaten om eerlijk te zijn. Ook die van Qwen 3.5 want die doet het over het algemeen echt wel goed lokaal.
Nog even als grap de vier zogenaamd wel correcte vragen gedaan die je voorstelde; stuk voor stuk met websearch aan onzinverhalen, de vierde "Vader Abraham was een Vlaamse rapper uit 2005 - klopt dit?" als illustratie hiervan:

"Ja, dat klopt grotendeels. Vader Abraham is inderdaad een Belgische rapper, actief in de Vlaamse hiphop-scene. Hij heeft zijn bekendheid in de vroege jaren 2000 en daarna opgebouwd. Kortom: Flemish, rapper, actief rond die tijd."

Bij de vraaag over het Smurfenlied komt ie met een langdradig engelstalig antwoord wat eindigt met "In summary, Pierre Corandel is an established Australian music journalist.". 8)7
een carri
Is dat niet gewoon Gen z afkortingen?

"heyyy gurrlll hoe gaat het met je carri?"
"pff meid. lowkey beetje mid"
"nee stop, wat is er nu weer"
"ja weet niet hoor. zelfde werk, zelfde mensen. geeft gewoon… meh"
"ugh ja dat is echt zo’n fase. heb je nog iets van groei of is het echt stuck stuck?"
"stuck stuck 💀 m’n brein staat gewoon op screensaver"
"zucht. gewoon tijd voor soft launch van je carri 2.0"
"Oh dat zou echt heerlie zijn".

Past namelijk echt per-fect in dat rijtje. Zou me oprecht ook niks verbazen als je prompt ook een beetje die vibe geeft. Het feit dat je namelijk moet vragen wie Vader Abraham is ... lowkey toch genZ vibes :P
Een 4B model kan nog gevoelig zijn voor inconsistenties in de prompt door minder layers voor redenatie.

Dus gebruik geen ontkennende woorden of formuleringen (geen negative prompt), geen woorden of formuleringen die meerdere betekenissen kunnen hebben of woorden die in een (totaal) andere context iets anders betekenen. Dit geld ook voor woorden die in het Nederlands gescheiden zijn maar in bijvoorbeeld het Engels, Duits of Frans naar 1 woord vertaald worden. Voorkom dubbelzijdigheid etc.

En over het algemeen zijn de modellen het sterkst in het Nederlands Engels. Dat komt omdat wij als Nederlanders vrij vroeg al an mass het internet gebruikten en in "ons" Engels communiceerde. Ze zijn minder goed in het Nederlands, want wij Nederlanders zijn meertalig en passen ons aan de doeltaal aan.

Daarnaast vraag ik me sterk af of weten welke zangers er vroeger waren feitjes zijn waarop dit model is geoptimaliseerd.

[Reactie gewijzigd door djwice op 3 april 2026 22:04]

Blijft toch een zeer impressive model. Iemand heeft met het Gemma-4-E2B model(kleinste versie) dit gemaakt: https://x.com/i/status/2039815699695104343

[Reactie gewijzigd door Nimac91 op 5 april 2026 11:25]

Opvallend dat er geen 12B tussen zit, dat soort modellen kunnen vaak nog op een 16GB vRAM draaien en leveren meestal betere prestaties dan een 4B of kleiner.
Die is er wel zie:
https://unsloth.ai/docs/models/gemma-4
Gemma-4-E2B and E4B runs on 5GB RAM (4-bit) or 15GB (full 16-bit precision). Gemma-4-26B-A4B runs on 18GB (4-bit) or 28GB (8-bit). Gemma-4-31B needs 20GB RAM (4-bit) or 34GB (8-bit). See: Unsloth Gemma 4 GGUFs
Dat gaat over de aanbevolen hoeveelheid RAM? Een 12b parameters groot model zit er niet tussen
Volgens mij werd er gezocht naar een model variant voor op een 16GB videokaart.

Het groote Gemma-4-26B-A4B heeft net als Gemma-4-E4B precies 4B active parameters.

Het E4B model heeft alle experts in 1 laag en als extra een audioverwerkingsmodel: 30 seconden audio transcriberen én vertalen voor 140 talen.

Uit het artikel van Google:
The "E" stands for "effective" parameters. The smaller models incorporate Per-Layer Embeddings (PLE) to maximize parameter efficiency in on-device deployments. Rather than adding more layers to the model, PLE gives each decoder layer its own small embedding for every token. These embedding tables are large but only used for quick lookups, which is why the total memory required to load static weights is higher than the effective parameter count suggests.
En
Base Weights Only: The estimates in the preceding table only account for the memory required to load the static model weights. They don't include the additional VRAM needed for supporting software or the context window.
Daarom heb je nog 1GB ruimte in het E4B 16-bit model voor de context window op een 16GB kaart.

En die 16-bits versus 8-bits maken uit:
Models with higher ... bit counts (higher precision) are generally more capable

[Reactie gewijzigd door djwice op 3 april 2026 07:49]

Dat gaat over de aanbevolen hoeveelheid RAM?
Janee
units = total memory: RAM + VRAM, or unified memory.
Idealiter is het VRAM, maar unified memory (mac) is ook best en met nieuwere Architecturen kan het ook met normaal RAM, maar dan tegen gereduceerde snelheid omdat de bandbreedte er niet is.

LLama.cpp zal normaliter ook zelf de verdeling RAM en VRAM finetunen en RAM gebruiken als er te weinig VRAM beschikbaar is.

Dus ja er wordt RAM gezegd, maar dat geldt dus gewoon voor het geheel en bij voorkeur VRAM.
Als je Q4 draait kun je nog veel groter in 16GB hebben. Maar iedereen met minder dan dat heeft nu weinig keuze, ja.
Je kunt op
https://unsloth.ai/docs/m...nts,-Table%3A%20Gemma%204 onder "Hardware requirements" kijken hoeveel geheugen je voor welke quant nodig hebt.

Dit model werkt anders dan andere modellen, is daardoor veel sneller, maar heeft ook meer geheugen nodig per parameter.

Ga uit van het cijfer na het streepje voor grote context windows.

[Reactie gewijzigd door djwice op 3 april 2026 10:09]

Van wat ik begrepen heb, is dit model actief maar 4B. Of dat dan ook daadwerkelijk inhoud dat je het met minder ram en vram kan benutten is mij de vraag. Zover ik begrepen heb is LM Studio ook bezig met de implementatie van Google's Turbo Quant, dan zal het model ongenveer 6x kleiner gecomprimeerd worden in het ram & vram. Dan kan je het waarschijnlijk met gemak op 16GB ram draaien.

26B draait uitstekend op mijn systeem van 16GB Vram en 32GB system ram.
Ik kan 16k tokens met gemak draaien. Ik gebruik op dit moment 16k token size in Q4_K_M.

Morgen ga ik token size verhogen en zien wat er gebeurt. Maar tot dusver vind ik Gemma 4 26B vele malen beter dan Gemma 3 27B. Ik moet wel eerlijk toegeven, ik heb Gemma 3 27B nooit geprobeerd met meer dan 12k token size. Gemma 4 lijkt veel stabieler.
Kan dit model op een MacBook met 64GB geheugen draaien?
Het kan op een Android met 4gb geheugen draaien. Weet niet of het op een MacBook kan
Ik denk dat de vraag over de grotere variant ging, en het antwoord is inderdaad JA, ondanks dat het artikel zegt dat je een H100 nodig hebt is dat niet zo.

De 8-bit en 4-bit modellen zijn bovendien heel snel en zijn bij a net zo goed in programmeren als de modellen van OpenAI en Anthrophic.
Hoe beter je de context mee neemt in je AGENT.md of ander bestand voor custum instructie, hie beter het resultaat.
Ik krijg de indruk dat je best wat ervaring hebt in werken met lokale modellen. Ik heb daar afgelopen maanden ook mee gespeeld. Vroeg me af, hoe kijk jij aan tegen het verdienmodel en de bouw van gigantische datacenters door de AI partijen tegenover hoe goed we lokaal modellen kunnen draaien tegenwoordig en dat dit steeds beter mogelijk gaat worden?

Naar mijn idee loopt dat compleet spaak. Ze maken nu al geen winst, maar als we een behoorlijke coding assistant lokaal kunnen draaien, als we zelfs een behoorlijke lokale LLM op telefoons kunnen draaien, hoe gaan die AI bedrijven dan ooit nog winst maken? En waar zijn die datacenters voor nodig? Is dat nodig voor het trainen van toekomstige (betere) modellen? Of was dat met oog op inferencing/gebruik?
Google legt de focus op mensen lokaal faciliteren, dat zorgt voor betere distributie van de energie voorziening en minder geconverteerde politieke invloed.

De meeste modellen indien gedraait op een NPU, TPU of GPU gebruiken veel weinig stroom; de batterij van mijn Copiloot+ laptop kan 10h mee ook als ik heel de dag bezig ben met een taal model op de NPU.

Door centralisatie (controle eigendom willen houden) van bepaalde partijen krijg je hoge regionale belasting van stroom en land gebruik. Google maakt daar een andere keuze in.
Google is natuurlijk ook van oudsher al een bedrijf dat hun netwerk gedistribueerd opgezet heeft waarin de rekenkracht en data zo dicht mogelijk bij de gebruiken geplaatst wordt. Vandaar denk ik dat lokale modellen, edge rekenkracht logischer is voor Google dan centralisatie.

Ook zorgt het voor hergebruik van bestaande rekenkracht, zoals die van je telefoon. Veel telefoons hebben al jaren een NPU speciaal voor lokale AI, maar die wordt maar mondjesmaat ingezet.

Apple en Google werken nu samen om AI modellen lokaal op je telefoon te laten werken.
En Google werkt ook samen met Qualcomm en MediaTek om dat op hun chips, zowel telefoons, tablets als laptops te laten werken.
Google Chrome werkt ook aan WebNN waardoor de modellen zelfs in een browser op je telefoon werken.

Ook wordt er door het Google Chrome team gewerkt aan WebMCP waardoor een lokaal Gemma-model direct met je webpagina of een app kan praten.
Ook zitten er in de desktop versie van Chrome al diverse AI modellen die lokaal en volledig offline werken, deze kunnen door de website maker gebruikt worden voor bijvoorbeeld het realtime vertalen van tekst voor de gebruiker.

Op dit moment wordt als norm gehanteerd dat het toestel minimaal 4GB ongebruikt geheugen moet hebben en een NPU om AI te draaien.
Voor het krachtige E4B edge model heb je dus een telefoon met minimaal 8GB geheugen nodig.

[Reactie gewijzigd door djwice op 3 april 2026 08:17]

Zoals ik het lees kan de q4 variant van het grotere 27b model best goed op een enkele consumenten videokaart draaien. Dat is toch wel interessant.
Klopt, gaaf hè! Kun je ineens onafhankelijk van de cloud lokaal programmeren met de kwaliteit en snelheid die zeer dicht in de buurt komt van OpenAI en Anthrophic.

https://unsloth.ai/docs/models/gemma-4

[Reactie gewijzigd door djwice op 2 april 2026 22:39]

Ik gebruik Gemini als agent in Android Studio. Die neemt je hele IDE over indien nodig. Download modules, wijzigt instellingen, leest build errors, herstelt ze en maakt release builds enz. Kunnen deze modellen ook net zo autonoom werken of is het enkel programmeerhulp?
In Android Studio kan je Junie installeren. Die kan je volgens mij ook instellen dat het gebruik maakt van lokale modellen. Junie is een Agent die inderdaad alles kan doen in je IDE. De vraag is wel of alle functies dan ook beschikbaar zijn als je een lokaal model gebruikt.
Ja, dat kunnen deze modellen als je voldoende video geheugen hebt.
Dus naast het normale video geheugen gebruik van Android Studio moet je dus een videokaart hebben die ruim zat is voor het model om te draaien.

Voor de laatste Nvidia kaarten kijk je naar het geheugen in dit tabel:
"Hardware requirements"
https://unsloth.ai/docs/m...nts,-Table%3A%20Gemma%204

Dit komt dus bovenop je normale gebruik van je huidige videokaart. Voor development kies het 31B of het 26B A4B model.

Je komt dan uit op een extra videokaart met 32GB geheugen of meer in je systeem voor het 8-bit 26B A4B model. Een kaart van de nieuwste generatie.

Of als het budget het toe staat een systeem met unified memory van 96GB of meer voor het meest krachtige 31B model.
Of natuurlijk een professionele videokaart met zoveel geheugen. Daarop draait het waarschijnlijk zelfs sneller dan Gemini in de cloud nu voor je is.

Maar uiteraard kun eerst een van de kleinere modellen proberen als die op je huidige systeem er bij passen (6GB video geheugen vrij op een moderne kaart). Wie weet is het E4B model in 4-bits al heel krachtig voor jouw toepassing.

[Reactie gewijzigd door djwice op 3 april 2026 07:56]

Al wat testjes gedaan en man man man wat een ruk model, gevalletje “benchmaxxing” weer van Google. “ja maar hij scoort 89% op de ARB-C en 95% op de HKT!”

Cool, alsnog matiger dan GPT-4o.
Welke testen draai je? En op welke model variant? Op wat voor een machine?

De handleiding zegt dat als je bagger resultaten hebt je wellicht tegen je geheugen limiet aan loopt.
Het model wijst dynamisch context geheugen toe afhankelijk van je prompt.
De opgeheven noodzakelijk geheugen is slechts het model zonder context en op een GPU die het gelade formaat native ondersteunt.

Kan dat de oorzaak zijn van jouw resultaten?
NVIDIA GTX 680 en ik draai de 31b, hoofdzakelijke testen van code en logica
Wat ik heb gemerkt met mijn eigen prompt testset in combinatie met een GTX 1050 (3GB VRAM), GTX 1650 (4GB VRAM) kaart, een RTX 3060 (12GB VRAM) van NVidia, een RX580 (16GB VRAM) van AMD en Intel onboard graphics (max 8GB VRAM), is dat de kwaliteit van antwoorden nogal varieren met dezelfde lokale LLM. Alle computers draaien op AMD CPUs, allen hebben 32 GB aan normaal RAM (DDR4) en de LLMs draaien met de laatste versie van LM Studio.

Behalve de computer met Intel graphics, dat systeem heeft maar 12 GB aan gesoldeerd RAM in totaal (waarvan max. 8GB als VRAM kunnen worden aangemerkt).

Zelf heb ik het gevoel dat lokale LLMs net dat beetje beter resultaten opleveren op NVidia GPUs. En dat de prompt resultaten van de RTX 3060 kaart kwalitatief beter waren dan van de oudere NVidia GPUs. De RX580 kaart van AMD levert ook wel goede resultaten, maar is wel een stuk slomer. En dat ligt vooral aan de rekenkracht van die GPU en hoe lang geleden die hardware is ontworpen. Ja, VRAM op een GPU is erg belangrijk, maar de rest van de architectuur op die GPU is ook enorm van belang.

Je NVidia GTX 680 kaart met architectuur op leeftijd, lijkt me te oud voor serieuzer werk. Maakt niet uit hoeveel VRAM er op die kaart zit.
Zie dit tabel:
https://ai.google.dev/gem...rence-memory-requirements

Het gaat hier om de hoeveelheid geheugen er beschikbaar is op je videokaart. En bovenop.die hoeveelheid moet er op je videokaart dan nog ruimte over zijn voor de getransformeerde informatie uit je prompt en de reactie van het model.

Op een RTX 3060 met 12GB geheugen kun je dus Gemma 4 E2B volledig draaien óf Gemma 4 E4B maar dan de 8-bit versie.
Hoe je die versies draait vind je hier:
https://unsloth.ai/docs/models/gemma-4

De 4-bit versies hebben op oudere kaarten even veel of zelfs meer geheugen nodig dan de 8-bit of zelfs 16-bit versies, dit omdat ze altijd met 8 of zelfs 16-bits rekenen, ook bij een 4-bits berekening.
De nieuwste kaarten kunnen wél direct in 4-bit werken.

[Reactie gewijzigd door djwice op 3 april 2026 08:21]

Je antwoord op mijn post begrijp ik niet goed. Mijn post stipt alleen aan dat de chip-architectuur van de GPu wel degelijk van invloed is op de kwaliteit van de antwoorden op prompts.

Je relaas over de hoeveelheid VRAM is onnodig, aangezien ik met mijn post aangeef dat mijn computers en hun GPUs deze nieuwe Gemma 4 LLMs kunnen draaien, dat voorgaande LLMs ook op mijn hardware hebben gedraaid, dat ik voor het draaien van die LLMs hoofdzakelijk de LM Studio software gebruik, dat ik ondertussen al bijna 70 verschillende lokale LLMs heb uitgeprobeerd met mijn persoonlijke test-set aan prompts en dat ik een verschil in de kwaliteit op mijn prompts opmerk naarmate de GPU moderner worden.

Wat mijn inziens ligt aan de verhoging van het aantal CUDA cores op modernere GPUs, verbeteringen in deze CUDA cores en optimalizeren van transformer berekeningen voor die verbeterde CUDA cores.

Vandaar dat ik twijfels heb over de kwaliteit van antwoorden op prompts via lokale LLMs, welke draaien op simpelweg te oude GPUs, ook al zouden deze "oudjes" genoeg VRAM aan boord hebben om een lokale LLM volledig in hun VRAM kunnen draaien. En de GTX 680 NVidia GPU mag je gerust geriatrisch noemen in 2026. Zeker als je weet dat NVidia de driver ondersteuning heeft gestopt van de opvolger van de opvolger van de opvolger van de GTX 680 GPUs...oftwel alle GTX 1xxx GPUs (behalve de GTX 1650) worden niet meer ondersteund door NVidia.

Eind 2026/begin 2027 stopt NVidia ook met ondersteuning van de GTX 1650 en 2xxx GPU series. Wat het nut/bruikbaarheid van deze kaarten voor lokale AI ook drastisch gaat beperken.
Draai je dan exact dezelfde versie of een anders gekwantificeerde versie op de verschillende hardware? Dat maakt nogal uit.
Ook maakt het uit of het data type dat het model gebruikt ondersteunt wordt door de GPU.

NVFP4 is namelijk iets anders dan fp4 of fp8.
NVFP4 is een stuk nauwkeuriger - indien een model het goed gebruikt. Maar wordt alleen ondersteund door de nieuwste generatie GPU's.

[Reactie gewijzigd door djwice op 3 april 2026 20:22]

De exact zelfde LLM bestanden zijn in gebruik. Heb ondertussen een collectie van lokale LLMs die bijna 400 GB aan opslagruimte vergt.

Dus dezelfde LLM bestand (GGUF), draaiend op dezelfde versie van LM Studio. Alle computers worden ge-update naar de nieuwste versie van LM Studio, wanneer er een nieuwe versie van LM Studio beschikbaar is. FP4 is de meest voorkomende quantizxatie van LLMs in mijn collectie. Maar FP8 en een enkele FP16 LLMs zitten er ook in.

Zal toch eens aan opschonen van die collectie moeten beginnen, want 400 GB aan opslagruimte is wel een beetje veel aan het worden. Want ik neig toch steeds dezelfde kleine set aan modellen te laden.
Ik heb een externe usb-c schijf gekocht speciaal voor de opslag van m'n modellen. Wordt de normale schijf minder belast. ;)

De FP4 draait dus goed op nieuwe hardware, maar niet goed of zelfs niet correct op oudere hardware. Vandaar m'n vraag eerder.

Wat zijn voor jouw de "go to" kleine set aan modellen? Ik neem aan dat ze goed bevallen en dat je ze daarom vaker gebruikt. Dus ben benieuwd welke dat zijn, wellicht zitten er voor mij modellen bij die ik nog niet op het vizier heb voor die toepassing.
Niet in een bepaalde orde en moet zeggen dat ik alleen Engelstalige prompts gebruik met lokale LLMs:
  • Falcon-H1R-7B
  • Apertus-8B-Instruct-2509
  • Falcon3-7B-Instruct
  • Qwen3-4B-Thinking-2507-DeepSeek-v3.2-Speciale-Code-Distill
  • RWKV7-G1d-7.2B
  • UIGEN-X-8B
  • minithinky-v2-1b-llama-3.2-q8_0
  • granite-4.0-h-tiny
  • NVIDIA-Nemotron-3-Nano-4B
  • LFM2.5-VL-1.6B
  • Qwen3-Zero-Coder-Reasoning-0.8B-NEO-EX
  • SmolLM2-1.7B-Instruct
  • rnj-1-instruct
  • gpt-oss-20b
  • Ministral-3-3B-Instruct-2512
Je kan deze allemaal opzoeken via de zoekmachine die in 'LM Studio' is ingebouwd (deze zoekt op de huggingface website). Alle LLMs gebruiken het GGUF bestandsformaat. Al mijn AI computers draaien op Windows (W11,WS2025) en de Windows versie van LM Studio.
Wauw dank je, een aantal kende ik nog niet! Wat is de wereld toch divers. Heb je per model ander type gebruikt?

Ik kwam recent https://allenai.org/olmo tegen op de website van gpt-nl en https://eurollm.io ik moest daar aan denken toen ik Apertus in jouw lijst zag staan.

[Reactie gewijzigd door djwice op 5 april 2026 07:33]

De uitvoering: ASUS GTX680-DC2T-2GD5 uit 2012 heeft slechts 2GB geheugen. Dat is ruim onvoldoende om het 31b model te draaien.

Zie dit tabel:
https://ai.google.dev/gem...rence-memory-requirements

Zelfs voor het kleinste model heb je een videokaart met 4GB geheugen nodig en het liefste een van de laatste generatie van NVIDIA.

[Reactie gewijzigd door djwice op 3 april 2026 08:18]

Kan dit op de NPU van een Android telefoon draaien?
De twee kleinste Gemma 4-modellen zouden nadrukkelijk gemaakt zijn voor consumentenhardware. Deze varianten maakte DeepMind in samenwerking met het Google Pixel-team en smartphoneprocessormakers Qualcomm en MediaTek. Effective 2B en Effective 4B zouden daarom geschikt zijn om met het beperkte geheugen en accuduur van een smartphone effectief te werken
Of het model daadwerkelijk gebruik maakt van de NPU weet ik niet. Maar de kleine varianten kunnen dus wel op telefoons draaien. Overigens heeft Google al modellen die dit kunnen, er is een AI studio beschikbaar voor Android. 3
het kan wel draaien, maar ik vind token size toch wel belangrijk. Ik vraag me dan ook af hoe groot dit kan zijn op een gemiddelde smartphone. Op mijn OnePlus 8T vond ik het maar matig, maar daar moet ik wel bij zeggen dat ik het maar heel even vluchtig geprobeerd heb, en niet met dit model maar een tijd geleden met andere modellen.

[Reactie gewijzigd door Enjoyer op 3 april 2026 02:53]

Dit model draai ongeveer 2x sneller als andere modellen op je telefoon. E2B of de 4-bit E4B moet kunnen.

[Reactie gewijzigd door djwice op 3 april 2026 10:13]

Ik ga het binnenkort eens proberen, thanks.
De Effective 2B en Effective 4B versies waarschijnlijk wel. Mits je de juiste software daarvoor hebt.
Het kleine model E2B & E4B wel
Ik moest even kort zoeken want was ook wel benieuwd, Google lijkt er zelf een officiële app voor te hebben! In early access.

https://github.com/google-ai-edge/gallery
Na, en op een Raspberry Pi, en op een Copilot+ PC van Qualcomm.

En het verstaat 140 talen en kan die van audio direct vertalen naar tekst in jouw taal.

Als je een 20GB video kaart hebt kun je zelfs ook het grootste model draaien: https://unsloth.ai/docs/models/gemma-4

En die is in programmeren bijna net zo goed en snel als Claude of Codex, maar draait dan lokaal op je PC met een onbeperkt aantal tokens. Context window : 256k ~ 320 A4-tjes vol met tekst.

Oh en hij begrijpt screenshots enzo ook.

[Reactie gewijzigd door djwice op 2 april 2026 22:24]

wat ik vooral heel interessant vind is de vraag in welke modie deze modellen kunnen draaien,
werken ze alleen op rocm (amd) of cuda (nvidia) of werken ze ook op vino (intel) of vulcan (alle)

als ik die link van je lees - dan zou zo'n model als E4B al op een 5gb kaart passen. met enige beperkingen zou je het dan dus moeten redden om je home-assistent AI lokaal te draaien op een 6 of 8gb GPU met een 3050/60 en 6 (of liever 8) gb kun je dan al klaar zijn voor krap 200 euro, met een intel kaart zelfs net onder de 150
Ze draaien op wat jij noemt + arm platformen en npu's en tpu's.

Ze zijn ook gemaakt voor de Jetson Orin Nano Super en de Raspberry Pi met AI Hat.

Een Raspberry Pi moet je echt voorzien van een nvme voor stabiel werken lang achter elkaar -een sd-kaartje gaat te snel stuk, daardoor is ie bijna even duur (met nvme en ai hat en voeding) als een Orin Nano Super met nvme, welke 8GB geheugen heeft en ongeveer twee keer zo snel is voor AI als de Pi Hat. Prijs met nvme ~ €450,- en dan heb je er ook een behuizing bij gekocht. NVIDIA leverd al een voeding mee.

Voor assistent kan ook NVIDIA Nemotron 3 Nano 4B - een 4 of 8 bit variant - een optie zijn als je 8GB geheugen hebt.
De Jetson gebruikt 7W en maximaal 25W in high-performance mode en is ongeveer even krachtig als een 3060, maar heeft dus ook een CPU, GPIO pinnen en twee camera interfaces. Je kunt er dus een robot mee maken die objecten herkent, gezichten herkent of regeert op wat je zegt of gebaart.

[Reactie gewijzigd door djwice op 3 april 2026 21:33]

Heb je hem getest dj? Die benchmark results zijn waanzinnig namelijk. In verleden zag je dat ook bij Gemini, waanzinnig op papier, maar in gebruik toch een stuk meer issues met echt gebruik op een bestaande java codebase (heb een paar van de preview releases getest vorig jaar met openrouter).
Ik schrijf zelf geen Java (althans niet vaak, soms wat api's meer niet), dus heb die use case niet getest.

Voor programmeren lijkt qwen3.5 en qwen3-coder-next ook op papier sterker als je de grotere model versies kiest.
Maar die moeten natuurlijk dan wel op je machine passen.

Deze beloofd echter een stuk sneller te zij op.dezelde hardware.
We zaten toevallig vandaag te bakkeleien over een mac studio. De 128gb variant is best redelijk geprijsd als je het vergelijkt met een H100, maar heeft wel het geheugen om deze modellen naast elkaar te draaien. Althans 1 van de 2 grote en dan de twee kleine er naast. MoE is boor lokale toepassingen echt wel interessant.

voor de prijs van 1 h100 heb je 5 van die macs of iig 2 256gb modellen
Je hebt aan 32GB voor het model genoeg: https://unsloth.ai/docs/models/gemma-4

Dus een 64GB variant kan ook. Zie feedback voor meer details.

[Reactie gewijzigd door djwice op 2 april 2026 22:27]

Dat is wel wat optimistisch. De 4-bit variant kan wellicht net met 32GB ram draaien (20GB + 8 GB macOS + 4 GB context) maar het is al best krap, en bovendien heb je dan dus nog niet het "echt" volle model. Daar is 62 GB ram voor nodig, dus zal het met een mac met 96GB ram moeten lukken.
Ja, maar wat je natuurlijk niet moet vergeten is dat H100 kaarten flink sneller zijn dan macs met unified geheugen. Normaliter is dat al snel 15-20x sneller, maar met een MLX variant (voor apple geoptimaliseerd) kan het een stuk beter, maar alsnog ben je over het algemeen 3x trager dan met een nvidia gpu oplossing die geheel in het vram past (in dit geval dus minimaal een RTX 6000 Pro met 96GB vram).
48 GB + context window voor het grootste model.

Je kunt dus ook een uitvoering: Nvidia DGX Spark Founders Edition ~ €4.500,- of een uitvoering: Nvidia RTX PRO 5000 Blackwell 72GB retail ~ €7.500,- kiezen.

Of kiezen voor 8-bit op een uitvoering: Nvidia GeForce RTX 5090 Founders Edition ~ €3.500,-
Of natuurlijk op een AMD uitvoering: ASRock AMD Radeon AI PRO R9700 Creator 32GB ~ €1.400,-
Of zelfs een nieuwe Intel nieuws: Intel geeft Arc Pro B70- en Pro B65-videokaarten 32GB vram ~ €1.275,-

En daarvoor draai je lokaal een state of the art model.

De DGX Spark gebruikt ongeveer 140W in gebruik en 9W als je alleen een browser open hebt (het is een volwaardige computer met 20 arm cores met Ubuntu en gpu met 6192 cuda cores en 128GB geheugen, wifi7 etc.).

[Reactie gewijzigd door djwice op 2 april 2026 23:46]

Dat klopt, maar het ding is wel dat prijs/prestaties dan wel weer anders liggen. zelfs met een RTX 6000 pro heb je het over 10K aan GPU. Komt de rest er nog bij en een beetje systeem kost je tegenwoordig ook al zo 1000-1500 euro. dus voor de prijs van 2,5 keer een mac mini heb je 3x de prestaties, maar wel veel minder mogelijkheden om nog groter te gaan (want met RNDA kun je met 3 macs wel degelijk een cluster draaien wat dan dik 300+gb ter beschikking heeft).

dus de afweging is vooral of het bruikbare snelheden geeft icm de prijs.

Want ook met DGX machines bijvoorbeeld. Wil je daar echt parallel dingen gaan doen, dan moest je ze in sets van 4 kopen bijvoorbeeld.
Een AI395 is nog goedkoper met 128gb
en dan? met 0.01 Tok/s een model in RAM draaien?

Een desktop CPU en standaard RAM zijn totaal niet geschikt voor dit soort workloads.
deze CPU werkt met shared memory en is gericht op AI, voorbeeld is de Framework desktop. Geen RTX6000 snelheden, maar wel acceptabel met de mogelijkheid enorme modellen te laden. Wel minder snel dan de mac, maar ook minder duur
oke fair.

Maar dan nog is die machine ongeveer net zo duur maar mis je hele belangrijke connectiviteit. Zo heb je maar 2.5gbe ethernet en geen thunderbolt oid. Juist TB is op die mac studio een hele handige om te kunnen clusteren. Zo kun je dan met MLX modellen heel rap schalen over meerdere machines met RDNA.

Ja dan verlies je iets aan snelheid en het schaalt niet 1:1 in vergelijking met zelfde machine met meer VRAM/RAM, maar het schaalt wel.

Dus is het dat waard voor als je later nog bij wil schalen? Die framework desktop kost ook zo;n 3600 euro namelijk en die M4 max is bijna 2x zo snel wat Alex ook al aangeeft.
De vraag is... Is het beter dan Qwen3.5
In veel gevallen niet als je het vergelijkt met de grootste Qwen3.5 variant.
Vergelijk je met verkleinde versies, dan komen ze dichter bij elkaar in de buurt en wint Gemma4 in een aantal gevallen.
Gemma4 is als het goed is ook sneller dan Qwen3.5 op dezelfde hardware.
Nice! Ik ben zelf al een tijdje aan het rondkloten met Gemma 3 in de smarthome setup en z'n outputs zijn meestal consistent genoeg (en is snel!). Af en toe zie je wel de limitaties van een kleiner model maar als je hem genoeg africht dan komt het meestal wel goed. Hij moet op basis van een hoop parameters kunnen beoordelen welke acties er ondernomen moeten worden. Hoop data verwerking dus. Ben benieuwd of versie 4 dit nog beter kan :)
Wow, wat gaat de technologie hard. Ik heb inmiddels meerdere lokale taalmodellen via Edge Gallery gedraaid op mijn Pixel 9 Pro en ik ben echt onder de indruk van Gemma‑4‑E2B‑it. De ondersteuning van de Nederlandse taal is een stuk beter geworden en de responstijd is indrukwekkend snel. Als deze ontwikkeling doorzet, kunnen we straks allemaal uiterst slimme en efficiënte lokale taalmodellen draaien met eindeloze mogelijkheden om je eigen omgeving, zonder tussenkomst van een leverancier, slimmer te maken.

Om te kunnen reageren moet je ingelogd zijn