IBM brengt Granite 4.0-taalmodellen uit die veel minder vram vereisen

IBM heeft een nieuwe versie van zijn llm Granite uitgebracht. Granite 4.0 bestaat uit meerdere modellen die gebouwd zijn om minder rekenkracht te gebruiken dan eerdere versies. Alle modellen zijn onder een Apache-licentie beschikbaar.

De nieuwe generatie modellen bestaat uit Granite-4.0-H-Small, -Tiny en -Micro. Die zijn volgens IBM beschikbaar via het eigen WatsonX-platform en via verschillende platformen zoals Hugging Face en Ollama.

IBM komt met drie modellen. Het Granite-4.0-H-Small-model is een hybride 'mixture of experts'-model met 32 miljard parameters. Dat model noemt IBM 'het werkpaard' binnen het aanbod dat bedoeld is om bijvoorbeeld klantenserviceagents te bouwen. Daarnaast zijn er het Granite-4.0-H-Tiny-model met 7 miljard parameters en het Granite-4.0-H-Micro-model met 3 miljard parameters. Die laatste twee zijn voornamelijk bedoeld om edge-applicaties mee te bouwen, zegt IBM.

Volgens IBM zijn de modellen vooral gemaakt om als agents in te kunnen zetten of er agenttools op te kunnen bouwen. Volgens IBM zijn de 4.0-modellen in benchmarks veel krachtiger dan Granite 3.3, maar ook veel efficiënter. Zelfs het kleinste model, 4.0-H-Tiny, vereist minder vram dan Granite 3.3 8B. IBM vergelijkt het model in de meeste prestatiebenchmarks met Qwen, het Chinese model van Alibaba. Ook op dat gebied scoort het model een stuk efficiënter.

IBM Granite 4

Door Tijs Hofmans

Nieuwscoördinator

03-10-2025 • 15:16

7

Reacties (7)

Sorteer op:

Weergave:

De versie die in je browser offline werkt: https://huggingface.co/spaces/ibm-granite/Granite-4.0-WebGPU

Als je hem in je eigen website of web applicatie wilt integreren:
https://huggingface.co/onnx-community/granite-4.0-micro-ONNX-web

Alle versies:
https://huggingface.co/ibm-granite/models?search=granite-4.0

Ollama gebruikt de GGUF bestanden:
https://ollama.com/library/granite4


Talen die standaard ondersteund worden:
English, German, Spanish, French, Japanese, Portuguese, Arabic, Czech, Italian, Korean, Dutch, and Chinese.

[Reactie gewijzigd door djwice op 3 oktober 2025 15:49]

Logisch dat Tiny (7B) minder VRAM gebruikt dan 3.3 8B. Het enige cijfer dat indrukwekkend is, is het verbruik van Small tov Qwen. <edit>[knip] ik zag het onderschrift niet</edit>

[Reactie gewijzigd door StackMySwitchUp op 3 oktober 2025 15:41]

Het gaat hier om RAM gebruik inclusief context, en het bijzondere is dat RAM gebruik voor context hiermee verdubbelt wanneer die verdubbelt in omvang ipv dat die 4x zo groot wordt. Oftewel: de groei is lineair. Daarbij zeggen ze dat het begrip bij lange context ook nog eens vrij consistent lijkt te zijn met de hybrid Mamba technologie, waar de oude transformers moeite hadden consistentie te behouden bij lange context. Deze technologie kan LLMs een stuk minder geheugen-intensief maken en daardoor een stuk goedkoper om te draaien. Plus de Mixture of Experts technologie die het ook sneller maakt dan de oude dense modellen.

Eigenlijk is uitleg van Mamba echt een gemis in dit artikel wat dat betreft, want dat is wat deze release interessant maakt. De MoE is een stuk minder uniek.
@TijsZonderH De afbeelding is best onscherp, en in een ander tabblad openen helpt niet. Is dat te repareren?
Weet iemand of die ISO 42001 standaard waar IBM Graphite 4.0 aan zou voldoen, die gaat over ethisch en veilig AI gebruik, iets zegt over de energieconsumptie en het werken met legaal verkregen trainingdata voor de modellen? Zonder 200 euro te betalen om hem te downloaden kom je niet ver in die spec.


Om te kunnen reageren moet je ingelogd zijn