Google introduceert 'opensource' Gemma 3-AI-modellen, gebaseerd op Gemini 2.0

Google heeft Gemma 3 geïntroduceerd, een verzameling van 'opensource' AI-modellen die gebaseerd zijn op dezelfde technologie als de Gemini 2.0-modellen van het bedrijf. Volgens de techgigant overtreft Gemma 3 de AI-modellen van concurrenten Meta, OpenAI en DeepSeek.

De techgigant zegt dat Gemma 3 de prestaties van Llama-405B, DeepSeek-V3 en o3-mini in voorlopige evaluaties overtreft. Google zou echter zijn meerdere erkennen in DeepSeek-R1. Gemma 3 is verkrijgbaar in de formaten 1B, 4B, 12B en 27B, waarbij de 'B' staat voor het aantal miljard parameters waarover ze beschikken. De modellen hebben een contextvenster van 128k tokens, waardoor ze volgens Google in staat zijn om grote hoeveelheden informatie te kunnen begrijpen en verwerken. Gemma 3 kan tekst, beeld en korte video's analyseren en ondersteunt meer dan 35 talen.

Volgens Google zijn de modellen bedoeld voor ontwikkelaars die AI-applicaties maken die op allerlei apparaten kunnen worden uitgevoerd, zoals smartphones en workstations. Gemma 3 werkt samen met tools als Hugging Face, PyTorch en Google AI Edge. Daarnaast zijn de modellen geoptimaliseerd voor gpu's van Nvidia en AMD, en voor Google Cloud-tpu's.

Google bracht zijn eerste Gemma-AI-modellen iets meer dan een jaar geleden beschikbaar. Gemma heeft lagere hardwarevereisten dan Gemini, waardoor het ook gebruikt kan worden op minder krachtige apparaten zoals smartphones. Gemini 2.0 is juist geoptimaliseerd voor krachtigere systemen en grotere schaaltoepassingen. Hoewel Google de Gemma-familie opensource noemt, worden de modellen aangeboden met een licentie en gelden er bepaalde beperkingen voor het gebruik ervan.

Google Gemma 3

Door Sabine Schults

Redacteur

12-03-2025 • 14:57

23

Reacties (23)

23
23
5
2
0
17
Wijzig sortering
Ben ik de enige die de benchmarks voor dit soort modellen niet (meer) kan bijhouden? Weet iemand misschien of er een goed overzicht is van de diverse benchmarks voor Ai-modellen?
Jazeker: https://lmarena.ai/?leaderboard / https://huggingface.co/sp...chatbot-arena-leaderboard
Gemma-3-27B-instruction staat nu op #9

[Reactie gewijzigd door Bonthouse op 12 maart 2025 15:13]

Een score als chatbot arena is juist een hele interessante goede score. Het is een blinde test waar gewone gebruikers als jij en ik een prompt opgeven en het antwoord krijgen van 2 modellen waarbij jij opgeeft welke je het beste vond. Na je antwoord zie je pas welk model het was. En in de leaderbord daar zie je de score van alle modellen op die site.

Als je een goede LLM zoekt zou ik eerst kijken naar de score van llmarena en daarna kijken naar de score van specifieke taken in andere benchmarks.
Het gaat inderdaad hard. Een die ik wel overzichtelijk vindt, is LLM Stats
Het belangrijkste om te begrijpen is dat deze modellen niet voor 1 specifieke taak zijn gemaakt en je kunt ze dus ook niet benchmarken met 1 score. Met goede reden zijn er talloze benchmarks, want afhankelijk van waarvoor je het in wil zetten moet je naar bepaalde benchmarks kijken.

Overigens is het indrukwekkende hiervan niet dat het een nieuwe beste score neerzet, maar wel dat het een 27B model is terwijl de modellen waar het nu tussen staat extreem veel groter zijn. De kosten om het in te zetten zijn grofweg direct gerelateerd aan de grootte van het model. Dit is dus echt super indrukwekkend en nuttig.
Precies dit.
De 'beste' LLM is er niet. Hooguit de 'beste voor die ene taak', en zelfs dat kan arbitrair zijn. Hetzelfde voor die benchmarks. In principe kunnen LLMs kunstmatig geoptimaliseerd worden om goed in de benchmarks naar voren te komen. En als de LLM met de 'beset benchmarks' zwakker is, in wat je het voor nodig hebt, heb je er dus niets aan.

Bij een benchmark waar 'het publiek' blind kiest, is het allicht beter. Maar dan zou het nog beter zijn, als je zelf nooit het antwoord te zien krijgt.

Alle LLMs die ik heb gezien lijken een beetje een 'accentje' te hebben. Ze gebruiken bepaalde (vreemde) woorden (op ongebruikelijke plaatsen), en dat soort zaken.

Stel dat je zelf een LLM gebruikt, dan kun je graag hebben dat die ene de beste is, en dan ga je met een vooroordeel stemmen.
Heb op https://aistudio.google.com/prompts/new_chat?model=gemma-3-27b-it gevraagd waar hij opgetraind is:
Arabisch, Bengali, Bulgaars, Chinees (Vereenvoudigd), Kroatisch, Tsjechisch, Deens, Nederlands, Engels, Fins, Frans, Duits, Grieks, Hebreeuws, Hongaars, Indonesisch, Italiaans, Japans, Koreaans, Litouws, Maltees, Noors (Bokmål), Pools, Portugees, Roemeens, Russisch, Servisch, Slowaaks, Sloveens, Spaans, Swahili, Thais, Turks, Vietnamees, Oekraïens

Mooit om te zien dat dit opensource model ook bruikbaar gaat zijn voor Nederlands en andere Europese talen. Kan je dus "standaard" inzetten voor je e-mail / documenten. Maar of het ook de subtiele nuances in Nederlands kent zoals "GEITje" wel kon, is natuurlijk wel vraag 2.
Na uitvoerig testen kan ik bevestigen dat Gemma 3 27b 4q de Nederlandse taal uitstekend beheerst. Teksten samenvatten is erg goed, de teksten komen als een native over. Bij vrijwel alle andere lokale LLM's gaat het goed mis, zelfs bij de Europese Mistral.
Nice! Nu ff wachten op ollama maar dat zal wel niet zo lang duren.

Edit: het staat er zelfs al op! *O* https://ollama.com/library/gemma3

Meestal duurt het even omdat ze voor sommige modellen de engine een beetje aan moeten passen. In dit geval blijkbaar niet.

Alleen jammer dat ze alleen de q4_K_M optie aanbieden. Die vind ik zelf veel te veel gequantificeerd. Ik gebruik veel liever de q8_0 optie. Of q6_0 als het geheugen net niet toereikend is. Normaal biedt ollama die ook aan maar in dit geval niet :?

De devs van ollama zijn een beetje raar. Die hebben zoiets van "q4_K_M is goed genoeg voor ons dus het is goed genoeg voor iedereen". Het had al wat druk nodig om de q8_0 te krijgen. De fp16 (het originele 16 bit floating point model) hebben ze wel maar die is weer te groot voor mijn GPU.

[Reactie gewijzigd door Llopigat op 12 maart 2025 15:19]

Werkt nice met ollama op m'n macbook. Kom er ook nu pas achter dat de context window in ollama standaard op 2k staat. Ik had eerder geconcludeerd dat sommige conversie inputs helemaal niet werkten met bijv phi4, als de input te lang werd. Hier was dat ook weer t geval, maar blijkt dus dat je die context window wel kan oprekken (al naar gelang t model dat ondersteunt).
Bijv voor 8k context window in ollama:
/set parameter num_ctx 8096
Hoeveel ram heb je?
Ja idd t rekt je ram wel op. 32k liep idd ruim over de 16gb heen. Maar 8k was te doen voor even.
Is dit te doen met 8gb ram?
De kleine model versies wel ja. Gewoon ollama downloaden en dan een model en kleine variant uitzoeken en testen. Maar liever idd 16GB+

[Reactie gewijzigd door - peter - op 12 maart 2025 22:39]

Top ik zal het proberen.
Ah ik gebruik OpenWebUI als frontend, daar kan je dat gewoon instellen in de UI. Ik heb hem op 80000 staan, dat past nog net in mijn VRAM. Dat is met llama trouwens, voor gemma moet ik dit nog uittesten.

Maar dat is dus het punt: Context kost veel geheugen (maar alleen als je er ook echt zoveel data in stopt). Maar ollama support sinds kort ook KV quantisation (Key/Value) waarmee de context ook gequantificeerd kan worden. Dat scheelt een hoop. Staat trouwens standaard niet aan!

[Reactie gewijzigd door Llopigat op 12 maart 2025 17:11]

Je hoeft niet op ollama te wachten je kan ze direct via HF toevoegen en kiezen welke versie je wil. Zie: https://huggingface.co/docs/hub/en/ollama
Hmm daar heb ik slechte ervaring mee. Omdat hij dan geen modelfile bevat, gaan er vaak dingen mis zoals dat hij het einde van het antwoord niet herkent, of er komen dan tags tevoorschijn in de tekst.
Vind machtig interessant allemaal, maar Begin een beetje 'door de bomen het bos niet meer zien' gevoel te krijgen in AI land. Zoveel modellen die ieder vaak ook nog verschillende versies hebben.

[Reactie gewijzigd door Wallus op 12 maart 2025 16:27]

Ja maar veel modellen zijn al niet meer relevant. Llama 1 en 2 gebruikt niemand meer. Gemma2 zal nu ook in de vergetelheid raken. Zelfde met Phi3, iedereen pakt nu 4.

Dus eigenlijk zijn het er maar een paar die echt relevant zijn, alleen welke verandert wel vaak.
De modellen kunnen hier worden gedownload voor lokaal gebruik:
https://huggingface.co/co...-67c6c6f89c4f76621268bb6d

Typisch wil je de 'it' variant gebruiken.
En gebruik je de gene die ruim in het geheugen van je videokaart past.

[Reactie gewijzigd door djwice op 12 maart 2025 19:09]

Hopelijk minder censuur als Gemini want dat is echt verschrikkelijk.
Bijv. Ik vraag om de instellingen van een Proxmox vm om de ani cheat (fortnite/warzone) te omzeilen. Deze staat niet toe om vanaf een VM te draaien. Bij Gemini een heel verhaal en dat het niet is toegestaan. Maar bij Chatgpt krijg je de instellingen die ook werken.
Hopelijk minder censuur als Gemini want dat is echt verschrikkelijk.
Probeer eens Venice AI voor toegang tot open source LLMs zonder censuur en met privacy. https://venice.ai/chat

[Reactie gewijzigd door discovisi op 13 maart 2025 09:01]

Op dit item kan niet meer gereageerd worden.