Je zegt opnieuw dat het een losstaand model is, maar tegelijkertijd zeg je dat het gemini 3.1 pro is. Dat is conflicterend.
Zeg ik niet, ik zeg dat het gebouwd is op 3.1 Pro. Maar het zijn losse modellen. Heb nergens gezegd dat het tegelijkertijd 3.1 Pro is. Dit is hoe het werkt in AI, je hebt je foundational model, en daar bouw je de rest op, en de rest kan compleet anders zijn.
Ik vermoed dat deep think een combinatie is van "een thinking mode" zoals ze op hun whitepaper schrijven, maar ook specifieke "system instructions" die het op een bepaalde manier laat denken.
Nu vermoed je het, eerst was je zeker. Maar anywho, dit zijn speculaties die ongegrond zijn. Het is niet zo simpel als dat, een Deep Think model gaat echt wat verder dan dat. Zoals ik zei, 3.1 is de "foundation" wat daarna komt is niet zo simpel.
In feite zou je de intelligentie van elke model moeten vergelijken als ze exact even veel effort steken in een query (bijvoorbeeld ze moeten antwoorden binnen de 30 seconden op een moeilijke query). Want het is oneerlijk om te zeggen dat model A slimmer is dan model B, als model A 28 minuten mogen werken heeft en model B maar 30 seconden voor diezelfde benchmark.
Maar dit is hoe alles in computer of data analysis werkt. Meer tijd = betere resultaten, van AI tot simulaties tot rendering. Als ze daar rekening mee houden in de benchmarks is dat totaal nutteloos. Leuk als ik zie dat het model X scoort met weinig tijd, en Y met meer tijd, maar de meeste consumer modellen zijn toch al zo goed als ingesteld dat je daar weinig aan hebt. Zoals, Flash Thinking of Flash (niet thinking).
Daarnaast heb je ook "assisted intelligence", dat is de "enhanced intelligence" die gebruik maakt van tools om zijn antwoorden beter te maken door bijvoorbeeld gebruik te maken van rekenmachines, internet,scripts,etc. Dat assisted intelligence verdraaid helemaal de preceptie van intelligentie want eigenlijk weet je niet of die tools morgen nog opdezelfde manier zullen werken. Het is een soort van cheating als je dat gebruikt tijdens het benchmarken
De term "assisted intelligence" bestaat niet in AI-architectuur. Wat jij beschrijft is simpelweg tool use (function calling) en grounding (zoals internettoegang). En reasoning modellen gebruiken geen rekenmachine meer voor wiskunde. reinforced learning en test-time compute zorgen dat dit compleet in het model is.
En hoe is function calling/grounding cheaten? Ze splitsen het toch op, het model alleen, en het model met hulp. En als eindgebruiker wil je het beste resultaat dus als de AI correct extra hulp gebruikt is dat het doel, niet cheaten.