Google introduceert Gemini 3 Flash, scoort beter dan Gemini 2.5 Pro

Google heeft zijn nieuwe Gemini 3 Flash-AI-model geïntroduceerd. Volgens het bedrijf scoort het model beter in verschillende benchmarks dan Gemini 2.5 Pro. Het model wordt geleidelijk wereldwijd beschikbaar gemaakt in de Gemini-app en de AI-modus in Google Zoeken.

Gemini 3 Flash benchmarks
Gemini 3 Flash scoort in verschillende
benchmarks hoger dan Gemini 2.5 Pro.

Volgens Google is Gemini 3 Flash drie keer sneller dan 2.5 Pro, terwijl het model ook beter presteert. Het model kost 50 dollarcent per miljoen inputtokens en 3 dollar per miljoen outputtokens. Dat is goedkoper dan Gemini 2.5 Pro, maar duurder dan Gemini 2.5 Flash, dat per miljoen inputtokens 30 dollarcent en per miljoen outputtokens 2,50 dollar kost. Volgens het bedrijf gebruikt Gemini 3 Flash 30 procent minder tokens dan 2.5 Pro.

Gemini 3 Flash is ook per direct beschikbaar als preview in de Gemini-api in Google Studio en via Google Antigravity, Vertex AI en Gemini Enterprise. Het model scoort onder meer 81,2 procent op MMMU-Pro, vergelijkbaar met Gemini 3 Pro. Het model haalt ook 90,4 procent op GPQA Diamond, dat wetenschappelijke kennis test, en 78 procent op de programmeerbenchmark SWE-bench Verified.

Gemini 3 Flash is volgens Google in staat om complexere videoanalyses uit te voeren of te werken in een visueel vraag-en-antwoordsysteem. Ontwikkelaars zouden het model daarom onder meer kunnen inzetten als in-gameassistent.

Door Imre Himmelbauer

Redacteur

17-12-2025 • 21:18

33

Reacties (33)

Sorteer op:

Weergave:

Domme vraag maar 3 jaar geleden toen OpenAI met ChatGPT kwam had Google NIETS. Hoe kan het dat ze in slechts 3 jaar tijd zulke sprongen hebben weten te maken? Dat geeft mij de indruk dat het opzetten van een LLM minder complex is dan gedacht.

Grok heeft zelfs nog eigen datacenters op moeten bouwen.
Google was juist de disruptor met Google Deepmind. De research paper Attention is all you need is in 2017 gepubliceerd door Google en wordt gezien als de aanjager van de AI hype. Daarna heeft Google Deepmind nog indruk gemaakt met AlphaGo en AlphaFold. Ze zijn enkel iets later dan OpenAI begonnen met commercialisatie.
En omdat ze nog geen idee hadden hoe ze er geld mee konden verdienen, hebben ze er weinig mee gedaan. Want gebruik van een LLM gaat ten koste van het gebruik van een zoekmachine en dus ten koste van de inkomsten. Ga maar na, vroeger gebruikte ik 100% google, nu 60/40, en die 40% gaat niet meer naar Google, die gaat naar oa openai!

Zulke slimme mensen die niet doorhadden dat er wel (heel, heel veel) geld mee te verdienen was! En daar hebben ze bij openai goed op ingespeeld. Zo goed dat mensen bereid zijn om te mogen betalen om te beta-testen!
Verdienen ze geld met AI? Ik had begrepen dat het tot op heden juist bakken met geld heeft gekost en nauwelijks wat heeft opgeleverd.

Nvidia kijk ironisch genoeg de lachende derde en de partij die daadwerkelijk geld verdient.

Niet aan AI producten zelf, maar aan de chips waar die verlieslatende AI modellen op draaien

[Reactie gewijzigd door DLSS op 18 december 2025 00:30]

Nee klopt, het kost ze allemaal klauwen vol met geld. Geen enkele AI feature is op dit moment winstgevend.

Waar @Zorg echter wel gelijk in heeft is dat Google het in hun ad-revenue terug zag toen hun zoek opdrachten allemaal naar ChatGPT verdwenen. Hoog tijd om met een eigen feature op de proppen te komen.

Daarnaast zijn ze niet zo afhankelijk van Nvidia zoals de anderen omdat ze vrij vroeg al Tensor chips aan het ontwerpen en produceren waren. De Google Pixel lijn heeft ze geen windeieren gelegd. In tegenstelling tot de andere AI boeren heeft Google het dus allemaal zelf in de hand, met de meeste echte data van allemaal door Google Search, Drive, Gmail, en natuurlijk YouTube, met de meest vruchtbare grond door Deepmind, AlphaGo, en dergelijken.
Achteraf gezien is het niet echt een verrassing dat ze zo hard gaan. Ze stonden al 1-0 voor voordat iemand dat wist.

[Reactie gewijzigd door IamGrimm op 18 december 2025 00:45]

als je bedenkt dat google grotendeels op eigen hardware draait ivm nvidia. zou je zeggen dat ze 3 jaar geleden vast wel "iets" hadden.

[Reactie gewijzigd door sIRwa3 op 17 december 2025 22:34]

Google had niet niets, Google was alleen nog niet aan een release toe volgens hun eigen planning. Dat hebben ze (enigszins rommelig) versneld om nog een concurrerende positie te behouden.
Hadden ze niks of hadden ze niks uitgebracht?

Volgens mij is OpenAI juist begonnen om Google de loef af te steken. Maar dat Google er wel degelijk al mee bezig was.

De "Grandfather of AI" Hinton die al heel wat jaren geleden de bouwstenen bedacht waarop die LLMs nu werken werkte zelfs bij Google.

[Reactie gewijzigd door Shinji op 17 december 2025 22:38]

Google heeft met Google Search de beste indexatie van het totale publieke web, en kan daarmee gemakkelijk trainen (de dubieuze copyright issues even achterwege latende...)
Ook hebben ze Youtube, voor video materiaal, etc. Al met al een berg ervaring en een berg data. En gewoon veel geld, veel goede programmeurs, genoeg datacentra en eigen hardware.

Daarnaast is de moderne LLM en de tegenwoordige AI-hype letterlijk geïnitieerd door google:
De paper die de transformer introduceerde (Attention Is All You Need) is geschreven door wetenschappers in dienst van Google. Deze transformer is de basis van de LLM's van nu, neurale netwerken en deep leaning zijn veel ouder, maar deze transformers gaven mogelijkheid om coherente tekst te maken.
Veel heeft te maken met de opensource models, die hebben nieuwe technieken aan het licht gebracht waardoor modellen kleiner konden worden, gespecialiseerder, sneller,etc..
Het idee van groter is beter, verdween heel snel toen QWEN en LLAMA met hun modellen uitkwamen.

Je kan nu gpt oss 120b op je laptop draaien en het is zo krachtig als GPT 4.5 , even snel, en bij mij draait hij gewoon op een laptop. Het model is 59GB groot. 1 jaar geleden had je nog een datacenter en speciale grafische kaarten nodig om zo een model intelligentie te kunnen draaien, en nu draait het op een laptop :-)

Ook worden bestaande kleinere modellen gebruikt om nieuwe modellen te trainen (je moet dus niet zelf meer een hele corpus hebben).

De sprongen gebeuren alleen maar sneller, want als je kijkt naar sommige van die benchmarks, zoals screenshotpro, dan kan je al weten wat er de komende maanden aan gaat komen: agents die naar je scherm of browser kijken en alles zelf uitvoeren.

Ik gebruikte vorige week nog perplexity comet als volgt: Ik gaf hem mijn cv als pdf en ik vroeg hem om mijn laatste cv updates toe te voegen op linkedin, en dat heeft hij allemaal gedaan terwijl ik even een wandeling ging doen.

Mijn idee over benchmarks: ze waren gemaakt om LLM's te evalueren op hun kennis, maar wat ik merk is dat er een omgekeerde dynamiek is: de benchmarks zorgen er voor dat LLM's nieuwe vaardigheden leren. Elke keer een nieuwe Benchmark uitkomt dan is dat omdat er een nieuwe groep van problemen niet goed opgelost kunnen worden door de huidige LLM's, hierdoor hebben ze lage scores, en hierdoor reageren de bedrijven door hun LLM's ook die problemen te leren oplossen, je ziet dus dat de benchmarks er voor zorgen dat we LLM's nieuwe dingen aanleren.
Intussen heb je benchmarks die niet eens meer kijken naar kennis, want die zijn intussen allemaal bijna op 100% aan het komen. De 2 benchmarks die ik nu in het oog hou zijn FACTCHECKER en ARC AGI v2
De eerste kijkt hoe LLM's hun hallucinaties onder controle kunnen krijgen, de twee kijkt of de LLM's zaken kunnen leren waar ze niet op getraind zijn geweest (zelflerende modellen). Je ziet beidde gaan dus niet meer over hun content, maar eerder over hun autonome intelligentie.

Ik begin de vooruitgang snelheid eerlijk gezegd heel zorgwekkend te vinden. Zijn wij hier als mensheid en economie wel klaar voor? Veel mensen zeggen dat we ons gaan aanpassen, en refereren naar grote breakthroughs van het verleden, maar ik vind dat je dit met niets van het verleden KAN vergelijken.

[Reactie gewijzigd door sebastienbo op 17 december 2025 23:16]

Google heeft de afgelopen jaren vooral geïnvesteerd in de infrastructuur aan hun kant. Daar plukken ze nu de vruchten van.
Ben ik de enige die niet meer onder de indruk is van scores. Natuurlijk is elke nieuwe variant beter/sneller/slimmer/glanzender dan de vorige. Als het slechter zou zijn kan je net zo goed niets releasen.

[Reactie gewijzigd door genosis op 17 december 2025 21:24]

Nee hoor, ik merk maar weinig van die betere scores zodra je buiten de benchmarks komt
Ik zie twee ontwikkelingen
- minder hallucinaties
- langere antwoorden bij het gebruik van de chat

het laatste vind ik vooral irritant. Ik wil korte to the point antwoorden, niet eromheen draaien.
Dan moet je niet de thinking modellen gebruiken, OF je kan hem de instructie geven van kort te antwoorden.

Ik was toevallig met iets gelijkaardig geconfronteerd toen ik kleine LLM's aan het testen was op mijn laptop: ik vroeg al die modellen hetzelfde: "Waar kan ik de Hosts file vinden in win11?"
Allemaal kwamen ze met een hele boterham 10 tallen lijnen (wat misschien niet heel slecht was om de tokens/min te meten).

Maar uiteindelijk vroeg ik "Waar kan ik de Hosts file vinden in win11? Antwoord in 1 lijn." zijn antwoord was "C:\Windows\System32\drivers\etc\hosts." exact de juiste grootte dat ik wilde :-)

ps: Dat probleem van juiste lengte dynamiek is iets wat Chatgpt 5.2 ook net aangepast heeft. Hij kijkt zelf hoe lang een antwoord zou moeten zijn voor een bepaalde vraag.
Ligt het dan aan ons of de modellen? Iedereen klaagt over de modellen (hallucinaties is het woord van het jaar.....) maar het is de user die niet voldoende context geeft. Onlangs een leuke gezien op een conferentie: publiek moest zeggen foto's van een kat: kat foto, kat foto, kat foto. Iedereen roept kat! Dan een foto van een leeuw.... publiek was al niet meer zo zeker. Was de vraag geweest foto's van een kat in huis voor onze 6 jarige dochter, dan had zeker niemand kat geroepen bij het zien van een leeuw ;)
Probleem is niet hallucinerende modellen, probleem is gebruikers die geen, of onvoldoende, context geven.

Niks nieuws in IT ;)
Het probleem ligt aan beidde kanten. Volgens mij is het de taak van een LLM om context te vragen als hij vind dat er te weinig is. Maar eigenlijk is het niet erg, want na een paar slechte antwoorden geef je toch altijd meer context tot wanneer he het juiste ziet. Wij leren dus ook omgaan met AI. Maar Ai leert ondertussen heel goed zelf context te bepalen , dat kan via geheugen, of op basis van je locatie, of vorige berichten.
Dit lijkt een beetje de algemene tendens. De benchmarks zijn wel erg synthetisch. Soms krijg je slechtere resultaten bij nieuwere modellen.
Ik eerlijk gezegd wel. Tot vorig jaar was AI een gimmick en een marketingterm. Dit jaar is het onmisbaar geworden en bespaard het gewoon een pak werk. Ik google niet meer maar check link die de LLM's genereren. Dat is toch een verschuiving van paradigma. Snel en goedkoper is zeker welkom.
In mijn Gemini app zijn er alleen de opties snel, denken en pro. Maar wat is dan 2.5 of 3 en Flash of pro?

Ik heb denk ik een pro account via mijn pixel.
Als je op dat knopje klikt, staat er boven de opties in het grijs "Gemini 3".
Als je de drie opties ziet, heb je Gemini 3, want 2.5 kwam slechts in 2 smaken.
Er staat inderdaad Gemini 3.

Maar dan blijft mijn vraag nog een beetje, wat is dan flash; Denken of snel?
fast = 3 flash
thinking = 3 flash met wat nadenken
pro = 3 pro met nadenken
Er is geen Flash optie, dat is de naam van het model

1)
Fast en Thinking zijn allebei hetzelfde Gemini Flash 3 model, het verschil is dat het thinking selector meer tijd geeft aan het model om te denken over de vraag en om er aan te werken. Het fast model word ook gebruikt voor de live voice mode, omdat die nu native audio begrijpt.

Voor vertalingen of simpele kennis vragen of internet opzoekingen is 'Fast' het beste.

Als je wil dat het model werkt aan iets, dan zet je beter thinking aan.

2) Pro is een ander model, dat gemaakt is om veel langer na te denken, dat is nuttig voor lange documenten te lezen of als factchecking heel belangrijk is (al gebruik je daar beter notebooklm voor).

Voor code te schrijven lijkt het thinking model (Gemini 3 flash thinking) beter te scoren dan de pro versie. Dus voor code agents zullen de meeste developers eerder kiezen voor gemini 3 flash thinking

Dat werkt ook veel lekkerder als die agents zo snel (en goedkoop) werken.
Heb een jaar lang gratis Gemini Pro sinds november (studenten aanbieding). Vergeleken met ChatGPT veel beter wat mij betreft in de 'denken'-modus: minder pleasend, beter in het verwerken van de input en haalt relevantere zaken erbij. ChatGPT is wel beter in het onthouden/betrekken van zaken waarover gesproken is in andere chats, Gemini begint meer blanco in elk gesprek en heeft duidelijke verwijzingen nodig om andere chats te betrekken.
Ik heb gemini ook heel graag, maar GPT heeft wel die finetuning waar je kan kiezen hoe lang hij moet denken, en dat kan wel soms beter resultaten geven omdat hij meer kan opzoeken.

Claude Opus 4.5 of Sonnet heb ik voordiezelfde reden ook liever dan gemini, je ziet hun echt werken als autonome agents

Uiteraard is dat allemaal overkill als je simpele vragen hebt over een document, of waarom de lucht blauw is, of hoe je iets vertaald van frans naar engels.

Daarvoor zijn de flash modellen (non thinking) veel beter.

Het grote gemis in gemini is folders/projects, al die chats in één grote historiek is gewoon onwerkbaar.
Ik zet graag mijn chats bij elkaar, zo kan ik smorgens direct in de folder "Discrete Wiskunde" gaan en daar al mijn chats kan zien dat ik over die topic al had gegeven.

[Reactie gewijzigd door sebastienbo op 17 december 2025 23:35]

jep, ben er heel blij mee

google is 🔥🔥🔥dit jaar
Ondertussen was mijn moeder ge-darkpatterned in het aanzetten van gemini op de telefoon zo dat ik nu, op afstand, mag helpen om het uit te zetten, een ietwat obscure procedure die ook nog eens wil veranderen.

En dan vraagt men zich af waarom al die nepintelligentie en de moderne tech-industrie zoveel weerstand oproept.

[Reactie gewijzigd door AnonymousGerbil op 17 december 2025 22:40]

Ik ben erg onder de indruk van ChatGPT 5.2. Onlangs een een maandje Grok geprobeerd. Nederlands en Engels net wat slechter; maar meer casiual en wat stouter om mee te praten.
Ga eens Gemini proberen nu. Google is goed bezig!
Gemini 3 voelt zodanig snel aan dat ik het gevoel heb dat het niet zo goed kan zijn als chatgpt, maar toch blijft het met heel goede antwoorden afkomen op complexe document analysis vragen. Dat het zo snel is, betekend dus niet dat het slechter is.

Je moet ook eens "claude" proberen, zijn denkpatroon is op één of andere manier bevredigend. Je ziet hem echt vanalles voor jou onderzoeken in realtime.(probeer maar eens product vergelijking te laten doen)
Thx. Heb claude al gebruikt voor de development. Voor de hobby schrijf ik wat kinderverhaaltjes voor mijn nichtjes en dan lijkt ChatGPT net wat beter.

Voor elk personage werk ik met een psychologisch framework. Ik schrijf ook 'lore' en een 'magic system' document voor de fantasy verhalen. Het is echt indrukwekkend doe ChatGPT hiermee omgaat als je slim gebruikt maakt van de project feature. Ik kan echt vragen: "Is dit consistent met de lore?".

Let wel: laat chatbots nooit scenes genereren. Dat trekt op niet zo veel tenzij je een Linkedin artikel wilt. Maar met een goede context zijn ze verbazend goed in nalezen. Je kunt ze ook gebruiken om je te helpen met lateraal denken.

Leuke hobby, overigens. Is compleet uit de hand gelopen. Ik gebruik de verhalen om complexe ideeën over te brengen aan jonge mensen zonder te preken.
Tip: Voor kinder verhalen moet je eens kijken naar Google Gemini Storybook

Om te kunnen reageren moet je ingelogd zijn