IBM brengt Granite 4.0-taalmodellen uit die veel minder vram vereisen

IBM heeft een nieuwe versie van zijn llm Granite uitgebracht. Granite 4.0 bestaat uit meerdere modellen die gebouwd zijn om minder rekenkracht te gebruiken dan eerdere versies. Alle modellen zijn onder een Apache-licentie beschikbaar.

De nieuwe generatie modellen bestaat uit Granite-4.0-H-Small, -Tiny en -Micro. Die zijn volgens IBM beschikbaar via het eigen WatsonX-platform en via verschillende platformen zoals Hugging Face en Ollama.

IBM komt met drie modellen. Het Granite-4.0-H-Small-model is een hybride 'mixture of experts'-model met 32 miljard parameters. Dat model noemt IBM 'het werkpaard' binnen het aanbod dat bedoeld is om bijvoorbeeld klantenserviceagents te bouwen. Daarnaast zijn er het Granite-4.0-H-Tiny-model met 7 miljard parameters en het Granite-4.0-H-Micro-model met 3 miljard parameters. Die laatste twee zijn voornamelijk bedoeld om edge-applicaties mee te bouwen, zegt IBM.

Volgens IBM zijn de modellen vooral gemaakt om als agents in te kunnen zetten of er agenttools op te kunnen bouwen. Volgens IBM zijn de 4.0-modellen in benchmarks veel krachtiger dan Granite 3.3, maar ook veel efficiënter. Zelfs het kleinste model, 4.0-H-Tiny, vereist minder vram dan Granite 3.3 8B. IBM vergelijkt het model in de meeste prestatiebenchmarks met Qwen, het Chinese model van Alibaba. Ook op dat gebied scoort het model een stuk efficiënter.

IBM Granite 4

Door Tijs Hofmans

Nieuwscoördinator

03-10-2025 • 15:16

11

Reacties (11)

Sorteer op:

Weergave:

De versie die in je browser offline werkt: https://huggingface.co/spaces/ibm-granite/Granite-4.0-WebGPU

Als je hem in je eigen website of web applicatie wilt integreren:
https://huggingface.co/onnx-community/granite-4.0-micro-ONNX-web

Alle versies:
https://huggingface.co/ibm-granite/models?search=granite-4.0

Ollama gebruikt de GGUF bestanden:
https://ollama.com/library/granite4


Talen die standaard ondersteund worden:
English, German, Spanish, French, Japanese, Portuguese, Arabic, Czech, Italian, Korean, Dutch, and Chinese.

[Reactie gewijzigd door djwice op 3 oktober 2025 15:49]

Code om zelf jouw taalmodel ook zo efficiënt te maken:
https://github.com/jxiw/MambaInLlama

[Reactie gewijzigd door djwice op 4 oktober 2025 02:35]

Weet iemand of die ISO 42001 standaard waar IBM Graphite 4.0 aan zou voldoen, die gaat over ethisch en veilig AI gebruik, iets zegt over de energieconsumptie en het werken met legaal verkregen trainingdata voor de modellen? Zonder 200 euro te betalen om hem te downloaden kom je niet ver in die spec.
De standaard geeft aan dat ze daar transparantie over moeten geven, dus als het goed is kun je achterhalen welke datasets gebruikt zijn en hoeveel energie welke onderdelen kostten en hebben gekost.
Logisch dat Tiny (7B) minder VRAM gebruikt dan 3.3 8B. Het enige cijfer dat indrukwekkend is, is het verbruik van Small tov Qwen. <edit>[knip] ik zag het onderschrift niet</edit>

[Reactie gewijzigd door StackMySwitchUp op 3 oktober 2025 15:41]

Het gaat hier om RAM gebruik inclusief context, en het bijzondere is dat RAM gebruik voor context hiermee verdubbelt wanneer die verdubbelt in omvang ipv dat die 4x zo groot wordt. Oftewel: de groei is lineair. Daarbij zeggen ze dat het begrip bij lange context ook nog eens vrij consistent lijkt te zijn met de hybrid Mamba technologie, waar de oude transformers moeite hadden consistentie te behouden bij lange context. Deze technologie kan LLMs een stuk minder geheugen-intensief maken en daardoor een stuk goedkoper om te draaien. Plus de Mixture of Experts technologie die het ook sneller maakt dan de oude dense modellen.

Eigenlijk is uitleg van Mamba echt een gemis in dit artikel wat dat betreft, want dat is wat deze release interessant maakt. De MoE is een stuk minder uniek.
@TijsZonderH De afbeelding is best onscherp, en in een ander tabblad openen helpt niet. Is dat te repareren?
Leuk bericht maar hoeveel VRAM hebben deze modellen nog op 16/8/4 bit?
Dat hangt af van de context grote, dus hoe groot je prompt is zeg maar.

Maal hier krijg je een indruk van hoe extreem weinig er nodig is:
https://ollama.com/library/granite4

Behalve de granite4:small-h 19GB · 1M context window. Draaien ze allemaal op je 8GB GPU.

Dus alle niet small modellen kun je in lokaal op elk systeem gebruiken.

Zie mijn eerdere comments over welke versie zelfs ditect in je browser zonder cloud of software installatie werkt en waar je die kunt halen / uitproberen.
Zelfs het kleinste model, 4.0-H-Tiny, vereist minder vram dan Granite 3.3 8B


Sorry, maar dit lijkt me niet wat ze proberen te claimen met de graph. Zelfs het grootste model gebruikt minder dan de mid-tier van de vorige generatie. Dat hun kleinste nieuwe model minder gebruikt dan hun mid-tier/vorige modellen (7B nieuw model vs 8B oud model) lijkt me niet het punt hier?


Om te kunnen reageren moet je ingelogd zijn