Google introduceert Gemma 4 voor lokaal gebruik, nieuwe opensourcelicentie

Googles onderzoeksdivisie DeepMind introduceert het nieuwe opensourcemodel Gemma 4 onder de Apache 2.0-licentie. Het model zou excelleren in prestaties per parameter. Daarmee moet Gemma 4 relatief goed presteren op lokale hardware. De meeste AI-modellen presteren alleen goed op geavanceerde hardware in datacenters.

Google DeepMind Gemma 4Gemma 4 is gebaseerd op Gemini 3 en bestaat uit vier varianten, Effective 2B, Effective 4B, 26B Mixture of Experts en 31B Dense. De cijfers doelen op de hoeveelheid parameters in het model. Effective 2B heeft dus 2 miljard parameters, Effective 4B heeft er 4 miljard enzovoort.

Een parameter is een interne variabele, de bouwstenen van hoe een model is opgebouwd en data verwerkt. Gemma 4 is 'open weight', waardoor gebruikers het interne werken van het model kunnen aanpassen.

Grote en kleine modellen

Vooral de twee grootste modellen zouden per parameter goed presteren. Specifiek het 26B-model kan dat door verzoeken zo efficiënt mogelijk te verwerken. Dat lukt volgens Google DeepMind omdat er maar 3,8 miljard van de 26 miljard parameters geactiveerd worden bij inferentie, het verwerken van nieuwe data door een 'afgetraind' model. Daarmee zou het model op een enkele Nvidia H100-gpu met 80GB geheugen moeten kunnen draaien. Dat is in principe dus lokaal mogelijk, al zullen weinig consumenten een H100 hebben.

De twee kleinste Gemma 4-modellen zouden nadrukkelijk gemaakt zijn voor consumentenhardware. Deze varianten maakte DeepMind in samenwerking met het Google Pixel-team en smartphoneprocessormakers Qualcomm en MediaTek. Effective 2B en Effective 4B zouden daarom geschikt zijn om met het beperkte geheugen en accuduur van een smartphone effectief te werken.

Nieuwe licentie maakt breder gebruik mogelijk

Google DeepMind brengt Gemma 4 uit onder de Apache 2.0-licentie. Dit is een opensourcelicentie die veel gebruikt wordt in de wereld van opensourceontwikkeling. Gebruikers mogen het model aanpassen en onder een eigen licentie en eventueel commercieel uitbrengen. De ontwikkelaar stelt: "We geloven in het versterken van het ontwikkelaarsecosysteem zonder beperkende barrières."

De nieuwe licentie is opvallend, want tot dusver bracht Google Gemma-modellen onder een eigen licentie uit. De voorwaarden daarvan waren strenger en Google hield het recht in handen om de licentie later te veranderen. Dat is niet geval onder Apache 2.0.

Google DeepMind Gemma 4

Door Yannick Spinner

Redacteur

02-04-2026 • 21:11

29

Submitter: Coen

Reacties (29)

Sorteer op:

Weergave:

Opvallend dat er geen 12B tussen zit, dat soort modellen kunnen vaak nog op een 16GB vRAM draaien en leveren meestal betere prestaties dan een 4B of kleiner.
Die is er wel zie:
https://unsloth.ai/docs/models/gemma-4
Gemma-4-E2B and E4B runs on 5GB RAM (4-bit) or 15GB (full 16-bit precision). Gemma-4-26B-A4B runs on 18GB (4-bit) or 28GB (8-bit). Gemma-4-31B needs 20GB RAM (4-bit) or 34GB (8-bit). See: Unsloth Gemma 4 GGUFs
Dat gaat over de aanbevolen hoeveelheid RAM? Een 12b parameters groot model zit er niet tussen
Volgens mij werd er gezocht naar een model variant voor op een 16GB videokaart.

Het groote Gemma-4-26B-A4B heeft net als Gemma-4-E4B precies 4B active parameters.

Het E4B model heeft alle experts in 1 laag en als extra een audioverwerkingsmodel: 30 seconde audio transcriberen én vertalen voor 140 talen.

Uit het artikel van Google:
The "E" stands for "effective" parameters. The smaller models incorporate Per-Layer Embeddings (PLE) to maximize parameter efficiency in on-device deployments. Rather than adding more layers to the model, PLE gives each decoder layer its own small embedding for every token. These embedding tables are large but only used for quick lookups, which is why the total memory required to load static weights is higher than the effective parameter count suggests.
En
Base Weights Only: The estimates in the preceding table only account for the memory required to load the static model weights. They don't include the additional VRAM needed for supporting software or the context window.
Daarom heb je nog 1GB ruimte in het E4B 16-bit model voor de context window op een 16GB kaart.

En die 16-bits versus 8-bits maken uit:
Models with higher ... bit counts (higher precision) are generally more capable

[Reactie gewijzigd door djwice op 2 april 2026 23:39]

Als je Q4 draait kun je nog veel groter in 16GB hebben. Maar iedereen met minder dan dat heeft nu weinig keuze, ja.
Kan dit op de NPU van een Android telefoon draaien?
De twee kleinste Gemma 4-modellen zouden nadrukkelijk gemaakt zijn voor consumentenhardware. Deze varianten maakte DeepMind in samenwerking met het Google Pixel-team en smartphoneprocessormakers Qualcomm en MediaTek. Effective 2B en Effective 4B zouden daarom geschikt zijn om met het beperkte geheugen en accuduur van een smartphone effectief te werken
Of het model daadwerkelijk gebruik maakt van de NPU weet ik niet. Maar de kleine varianten kunnen dus wel op telefoons draaien. Overigens heeft Google al modellen die dit kunnen, er is een AI studio beschikbaar voor Android. 3
De Effective 2B en Effective 4B versies waarschijnlijk wel. Mits je de juiste software daarvoor hebt.
Het kleine model E2B & E4B wel
Ik moest even kort zoeken want was ook wel benieuwd, Google lijkt er zelf een officiële app voor te hebben! In early access.

https://github.com/google-ai-edge/gallery
Na, en op een Raspberry Pi, en op een Copilot+ PC van Qualcomm.

En het verstaat 140 talen en kan die van audio direct vertalen naar tekst in jouw taal.

Als je een 20GB video kaart hebt kun je zelfs ook het grootste model draaien: https://unsloth.ai/docs/models/gemma-4

En die is in programmeren bijna net zo goed en snel als Claude of Codex, maar draait dan lokaal op je PC met een onbeperkt aantal tokens. Context window : 256k ~ 320 A4-tjes vol met tekst.

Oh en hij begrijpt screenshots enzo ook.

[Reactie gewijzigd door djwice op 2 april 2026 22:24]

Never mind...

[Reactie gewijzigd door GeeBee op 2 april 2026 23:00]

We zaten toevallig vandaag te bakkeleien over een mac studio. De 128gb variant is best redelijk geprijsd als je het vergelijkt met een H100, maar heeft wel het geheugen om deze modellen naast elkaar te draaien. Althans 1 van de 2 grote en dan de twee kleine er naast. MoE is boor lokale toepassingen echt wel interessant.

voor de prijs van 1 h100 heb je 5 van die macs of iig 2 256gb modellen
Je hebt aan 32GB voor het model genoeg: https://unsloth.ai/docs/models/gemma-4

Dus een 64GB variant kan ook. Zie feedback voor meer details.

[Reactie gewijzigd door djwice op 2 april 2026 22:27]

Dat is wel wat optimistisch. De 4-bit variant kan wellicht net met 32GB ram draaien (20GB + 8 GB macOS + 4 GB context) maar het is al best krap, en bovendien heb je dan dus nog niet het "echt" volle model. Daar is 62 GB ram voor nodig, dus zal het met een mac met 96GB ram moeten lukken.
Ja, maar wat je natuurlijk niet moet vergeten is dat H100 kaarten flink sneller zijn dan macs met unified geheugen. Normaliter is dat al snel 15-20x sneller, maar met een MLX variant (voor apple geoptimaliseerd) kan het een stuk beter, maar alsnog ben je over het algemeen 3x trager dan met een nvidia gpu oplossing die geheel in het vram past (in dit geval dus minimaal een RTX 6000 Pro met 96GB vram).
48 GB + context window voor het grootste model.

Je kunt dus ook een uitvoering: Nvidia DGX Spark Founders Edition ~ €4.500,- of een uitvoering: Nvidia RTX PRO 5000 Blackwell 72GB retail ~ €7.500,- kiezen.

Of kiezen voor 8-bit op een uitvoering: Nvidia GeForce RTX 5090 Founders Edition ~ €3.500,-
Of natuurlijk op een AMD uitvoering: ASRock AMD Radeon AI PRO R9700 Creator 32GB ~ €1.400,-
Of zelfs een nieuwe Intel nieuws: Intel geeft Arc Pro B70- en Pro B65-videokaarten 32GB vram ~ €1.275,-

En daarvoor draai je lokaal een state of the art model.

De DGX Spark gebruikt ongeveer 140W in gebruik en 9W als je alleen een browser open hebt (het is een volwaardige computer met 20 arm cores met Ubuntu en gpu met 6192 cuda cores en 128GB geheugen, wifi7 etc.).

[Reactie gewijzigd door djwice op 2 april 2026 23:46]

Een AI395 is nog goedkoper met 128gb
Kan dit model op een MacBook met 64GB geheugen draaien?
Het kan op een Android met 4gb geheugen draaien. Weet niet of het op een MacBook kan
Ik denk dat de vraag over de grotere variant ging, en het antwoord is inderdaad JA, ondanks dat het artikel zegt dat je een H100 nodig hebt is dat niet zo.

De 8-bit en 4-bit modellen zijn bovendien heel snel en zijn bij a net zo goed in programmeren als de modellen van OpenAI en Anthrophic.
Hoe beter je de context mee neemt in je AGENT.md of ander bestand voor custum instructie, hie beter het resultaat.
Zoals ik het lees kan de q4 variant van het grotere 27b model best goed op een enkele consumenten videokaart draaien. Dat is toch wel interessant.
Klopt, gaaf hè! Kun je ineens onafhankelijk van de cloud lokaal programmeren met de kwaliteit en snelheid die zeer dicht in de buurt komt van OpenAI en Anthrophic.

https://unsloth.ai/docs/models/gemma-4

[Reactie gewijzigd door djwice op 2 april 2026 22:39]

Ik gebruik Gemini als agent in Android Studio. Die neemt je hele IDE over indien nodig. Download modules, wijzigt instellingen, leest build errors, herstelt ze en maakt release builds enz. Kunnen deze modellen ook net zo autonoom werken of is het enkel programmeerhulp?
De vraag is... Is het beter dan Qwen3.5
Al wat testjes gedaan en man man man wat een ruk model, gevalletje “benchmaxxing” weer van Google. “ja maar hij scoort 89% op de ARB-C en 95% op de HKT!”

Cool, alsnog matiger dan GPT-4o.
Welke testen draai je? En op welke model variant? Op wat voor een machine?

De handleiding zegt dat als je bagger resultaten hebt je wellicht tegen je geheugen limiet aan loopt.
Het model wijst dynamisch context geheugen toe afhankelijk van je prompt.
De opgeheven noodzakelijk geheugen is slechts het model zonder context en op een GPU die het gelade formaat native ondersteunt.

Kan dat de oorzaak zijn van jouw resultaten?
NVIDIA GTX 680 en ik draai de 31b, hoofdzakelijke testen van code en logica

Om te kunnen reageren moet je ingelogd zijn