Google introduceert open AI-model dat 'op broodrooster kan draaien'

Google heeft een nieuw Gemma 3-AI-model geïntroduceerd. Gemma 3 270M heeft 270 miljoen parameters, is zeer energiezuinig en kan op minder krachtige, goedkope hardware draaien, meldt het bedrijf. Het model is zowel in de cloud als lokaal te draaien.

Volgens Google is Gemma 3 270M een 'perfect startpunt' voor het creëren van meerdere kleine, gespecialiseerde modellen die elk hun eigen taak uitvoeren. Het model is volgens de techgigant ideaal voor functies als sentimentanalyse, queryroutering en nalevingscontroles. Google laat zien dat Gemma 3 270M een score van 51,2 haalt op de IFEval-benchmark. Deze test het vermogen van modellen om instructies op te volgen. Daarmee scoort het model volgens het bedrijf beter dan het Qwen 2.5 0.5B-model.

Google verwacht dat ontwikkelaars Gemma 3 270M nauwkeurig afstemmen op hun specifieke toepassingen. Door het kleine aantal parameters is dat relatief goedkoop en snel te doen, zegt het bedrijf. Gemma 3 270M zou bovendien ook zeer energiezuinig zijn: 25 gesprekken met het model waren goed voor een verbruik van 0,75 procent van de totale accu van een Pixel 9 Pro, beweert Google op basis van interne tests. Google-ontwikkelaar Omar Sanseviero schrijft op X dat het model 'op een broodrooster of direct in een browser' kan draaien.

Google noemt het model 'open'. Gebruikers hebben gratis toegang tot de modelgewichten, maar de Gemma-modellen worden aangeboden met een licentie en er gelden bepaalde beperkingen voor het gebruik ervan. Gemma 3 270M is te downloaden via onder meer Hugging Face, Ollama, LM Studio en Docker. Gebruikers kunnen het model zowel lokaal als in de cloud draaien.

Door Imre Himmelbauer

Redacteur

15-08-2025 • 11:02

87

Reacties (87)

Sorteer op:

Weergave:

Ik denk dat de context hier een beetje belangrijk is. Want dit is een 0,3B model. Terwijl het grootste model Gemma 3 model veel groter is (27B). Dit model is dus specifiek bedoelt voor gebruik om mobiele systemen of wanneer die energiezuinigheid van belang is. Het model kan waarschijnlijk heel goed instructies opvolgen maar heeft veel minder kennis tot zijn beschikking en zal dus veel meer onzin genereren wanneer je kennis gerelateerde vragen stelt.
edit:
Volgens mij veranderd de titel van het artikel nu? Niet helemaal duidelijk.

[Reactie gewijzigd door lasharor op 15 augustus 2025 11:15]

Waar je met de grotere modellen, als de 27B versie van Gemma 3 (andere modelseries gaan zelfs tot in de 100’en biljoenen), ook gelijk best wat zaken kan doen, is deze kleine versie vooral bedoelt om eerst zelf voor iets specifieks te trainen. Aangenomen dat de basis taal van het model Engels en de use cases ook (kleine modellen zijn vaak maar voor één taal geschikt zonder heel veel bij te moeten trainen), dan zou voor een simpele chatbot die bijv. als faq fungeert snel getrained kunnen worden, of voor het omzetten van e-mails naar de huisstijl van een bedrijf. Zulke specifieke toepassingen zijn vaak iets waar deze kleine modellen goed in zijn. Op sommige vlakken zelfs beter dan de grote modellen (doordat die ook relatief veel voor de toepassing irrelevante zaken in hun model hebben zitten, gaan ze soms juist sneller afwijken van het verwachte antwoord).
Ugh, chatbots als vervanging van klantenservice, vreselijk en meestal vragen de klanten direct om een medewerker.
Dat denken veel mensen die met onsuccesvolle implementaties van AI chatbots te maken hebben gehad. Ik heb inmiddels 3 projecten afgerond waar we een interne chatbot hebben gelanceerd die getraind is op alle aanwezige documentatie en 2 die specifiek over IT-support gingen. Tevredenheid onder gebruikers ligt heel hoog en de support afdeling is van 11 man groot naar 2 gegaan. Het gaat gelukkig ook steeds vaker goed, maar de technologie is zo nieuw en er zijn zoveel commerciële cowboys die denken het snel te kunnen oplossen voor organisaties, dat het meestal prutswerk is.
Ik heb toch ook liever direct een medewerker dan een chatbot. Ook door heel wat minder goede ervaringen.

- Meestal heb ik een vraag die niet direct terug te vinden is in de faq. Daarom raadpleeg ik de chat. Dan krijg je een chatbot die heel algemene antwoorden geeft of zegt dat hij de vraag niet begrijpt.
Al enkele keren heb ik dus gewoon duidelijk moeten zeggen dat ik een medewerker dien te spreken. Dan wacht ik wel wat langer tot ze antwoorden.

- Een tijd geleden belde ik naar een nummer waar ik tegen een bot moest praten. Die stelde me vragen en herhaalde mijn antwoord. Dat liep dus gewoon faliekant mis omdat hij mij niet begreep terwijl ik wel duidelijk articuleerde. Als er achtergrondlawaai is ging hij helemaal de mist in.
En dan komt er nog eens bij dat ik dat ongelooflijk onpersoonlijk en niet naturel vindt als je naar een nummer belt om een persoon te spreken dat je een robot aan de lijn krijgt.
Precies wat ik schrijf: veel implementaties zijn niet succesvol.
Het probleem is dikwijls een heel groot verloop van medewerkers die buiten de faq of hun script ook niets weten. Soms heb je pech en heb krijg je zo iemand aan de lijn en andere keren heb je geluk en is de menselijke medewerker een enorme meerwaarde tegenover de zielloze AI.
Vroeg of laat krijg je 2 support nummers

0800 help en 0900 help

De ene is gratis en werkt mrt een chatbot en is gratis

De wnder werkt mrt onderbetaalde niet of slecht Nederlands sprekende echte pipo en kost 50ct per minuut

Nu de statistieken

De chatbot weet 50% van alle vragen binnen 3 minuten naar tevredenheid te beantwoorden erkent van nog eens 25% al snel dat er een 2e lijns medewerker nodig is

Dat is dan een succesratio van 75%

Voor de overige 20 kom je er bij heel lang doirgaan alsnog wel door en bij 5% was het überhaupt nooit de bedoeling dat je hulp zou krijgen

Ik heb in het verleden vaak genoeg met menselijke klantenservice te maken gehad om te weten dat eerstelijns vaak minder weten dan de gemiddelde chatbot en dat er in de training van een ai model echt meer knowhow zit dan in het script van een gewone telefooslaaf

Kortom vaker wel dan niet zul je bij een menselijke klantenservice ook nog te maken hebben met desinteresse en geïrriteerheid
Ik ben zelf al een tijdje aan het nadenken over een llm die mijn Word verslagen kan nakijken.

Niet op inhoud maar op consistentie. Een foutje in de opmaak, iets vergeten aan te vinken, iets vergeten in te vullen of te schrappen is snel gebeurd.

De llm zou toch iets moeten weten van de 'bedrijfsstijl'.

Hoe zou jij dit aanvliegen?

Ik heb het al eens geprobeerd in copilot maar die zegt gewoon: ziet er goed uit!
Dit kan heel eenvoudig door een bijlage aan de prompt toe te voegen waarin de te controleren regels beschreven zijn, inclusief voorbeeld. Dan loopt de LLM stapsgewijs de te controleren punten na en worden de fouten geïdentificeerd.
Dan loopt de LLM stapsgewijs de te controleren punten na ...
Inderdaad de methode, maar toch niet helemaal betrouwbaar. LLMs hebben (by design) moeite met het gegarandeerd compleet en succesvol aflopen van lijsten - het blijft een probabilistische aangelegenheid.
Klopt, maar gelukkig kun je allerlei checks inbouwen om dit wel te bewerkstelligen. Het is zeker geen kwestie van een keer wat vragen en dan steunen op de kennis van de LLM.
de support afdeling is van 11 man groot naar 2 gegaan
Dat betekent in mijn ogen dat de documentatie eigenlijk best al vergevorderd / compleet was. Dus heel veel mogelijke scenario's bevat. Dan is de supportafdeling ook niet veel meer dan een groep mensen die telkens een script doorloopt. In dat geval geloof ik dat de AI zeker goed kan werken.
Maar eigenlijk ligt dat niet zozeer aan de AI - maar veel maar aan de bron-data.
En is het dan echt slimme AI? Nope - het 'denkwerk' was dan al gedaan. Mogelijk helpt de AI natuurlijk als er heel veel scenario's zijn; die kan dan veel sneller [dan mensen] een andere route vinden.

Scenario 1:
beller: Mijn app Dingus werkt niet...
support: Welke versie heeft u?
beller: Drie punt twee te weinig
support: U moet even upgraden.
beller: Wel heb ik me jouw daar...het werkt!

enz....

Maar dat betekent dus dat veel problemen versie gerelateerd zijn, upgraden heel makkelijk kan en de nieuwere versie veel problemen oplost.
Dat ligt dus niet aan de slimheid van de support-medewerker...
Het is vooral slim omdat het toegepast kan worden op een manier wat de productiviteit enorm verhoogd en de context voldoende begrijpt om informatie op zo’n manier te delen dat de andere partij (meestal een engineer, was bij een fintech) het goed genoeg snapt. Ook doordat alle assets in kaart zijn gebracht, kan alles gekoppeld worden.

Dat vereist een volwassen organisatie, maar dat is sowieso al een vereiste als je een banklicentie hebt.
Ik benoemde ook bewust niet klantenservice, daar wil je juist een uitgebreider model hebben (en ook dan heb je meestal alsnog een medewerker nodig, ik wel tenminste). Een faq zie ik toch als wat anders, dat zijn per definitie standaard vragen die regelmatig voorkomen. Een vraag als ‘wat betekend foutcode B0.27?’ zorgt dan voor een standaard antwoord, wil je weten hoe je het oplost in unieke context dan is het al geen faq kwestie meer en moet je over naar een veel geavanceerder model en/of medewerker.
Dat laatste hoeft misschien geen probleem te zijn als je het model ook de instructie geeft om de kennis ergens vandaan te halen via MCP-achtige tool-calls?
Klopt, ik denk dat het voor dat soort toepassingen met een duidelijke kennisbank prima bruikbaar is. Maar dan moet je natuurlijk niet buiten die context opdrachten geven of vragen stellen.

Ik gebruik enkele relatief kleine modellen voor specifieke toepassingen (bijv. https://huggingface.co/Menlo/Jan-nano) en dat werkt een stuk beter dan een heel groot model gebruiken.
Interressant! Mag ik vragen welke specifieke toepassingen (of evt voorbeelden)?
Jan-Nano gebruik ik specifiek om data op te vragen uit MCP servers en in combinatie met een lokale zoekmachine.

Het gaat hierbij dat specifiek om een chatbot die helpt in het sales process. Waarbij product specificaties en in sommige gevallen ook informatie over de klant en concurrentie invloed hebben op datgene wat je het beste aan kan bieden.

In deze context gebruik ik Jan-Nano of vergelijkbare modellen voor specifieke taken. Dus, hij haalt alleen de relevante informatie uit de database, van het internet of de MCP server. Reasoning doet een groter model.

[Reactie gewijzigd door lasharor op 15 augustus 2025 12:57]

Hoe train je dat ding dan op de kennis waarvoor je het wil gebruiken?
Ik denk dat dat zoekwoorden op dit moment: RAG en MCP

Vooral met MCP en knowledge databases hoe je eigenlijk niet te trainen. Je geeft het model dan gewoon instructie om te zoeken naar specifieke data.
Ja. Dat is precies hoe ik dat dus ook doe. Rag database en indien nodig zoeken op internet. Rag is heel handig je hoeft de llm niet constant op nieuwe data te trainen. Goede prompt is uiteraard wel belangrijk.
Dat, of wanneer je aan de slag gaat met Fine Tuning van het model.
Misschien handig voor iets als Home Assistant voice. Die hoeft geen kennis te hebben, enkel goed te begrijpen wat er wordt bedoeld.
Naar mijn ervaring werken de kleine modellen niet goed omdat ze overwelmed raken door alle data die je ze meestuurt vanuit home assistant. 4b modellen gaven vaak rare antwoorden terwijl 8/14/20b dit een stuk netter afhandelde.

Ben dan ook benieuwd hoe deze kleine modellen gebruikt worden, mogelijk dat ze verder getraind kunnen worden voor een specifiek doel maar voor algemene taken zijn ze niet erg geschikt.
Als hier een Nederlandse versie van kan worden getraind dan zou dat vermoedelijk prima op een moderne igp kunnen draaien of bijvoorbeeld een 1050 discrete gpu

Dan zou ik zeker weten bereid zijn om in nieuwe hardware te investeren voor een paar slimme speakers en een home assistent
Volgens mij veranderd de titel van het artikel nu? Niet helemaal duidelijk.
Tweakers gebruikt AB testing voor titels dus dat is heel goed mogelijk.
Volgens mij veranderd de titel van het artikel nu? Niet helemaal duidelijk
Ze hebben het inderdaad aangepast na je comment.
edit:
Volgens mij veranderd de titel van het artikel nu? Niet helemaal duidelijk.
Klopt.
forumtopic: Veschillen titels voor artikel
Ik heb 'm net even lokaal getest met Ollama. Bliksemsnel maar niet erg slim.

what is tweakers.net?
Tweakers.net is a platform for sharing and discovering online communities and resources related to computer science, programming, and technology. It offers a wide range of topics, from coding tutorials and best practices to advanced topics like AI, cybersecurity, and cloud computing.
if the water level (height) in a cone shaped martini glass is doubled, how much will the water volume increase?
If the water level (height) in a cone-shaped martini glass is doubled, the water volume will increase by a factor of 2.
i have 6 apples, i eat half of them, how many apples do i have now?
You have 6 apples now.
i have flower, butter, sugar, carrots, banana's, milk, cabbage and bread. what can i make?
This is a delicious and simple recipe! It's easy to make and perfect for a sweet and satisfying breakfast or snack. The key is to use fresh, high-quality ingredients and let the flavors meld together.
Ik zie toch weinig nuttige toepassingen. Iets bruikbaars krijg je nooit gepropt in 300MB.
Dit soort modellen zijn niet geschikt voor algemene kennis. Dit is meer voor het aansturen van dingen. Doe x dan doe y etc. Google geeft het zelf ook aan dat bedoeld is voor instructies opvolgen, niet een wikipedia on steroids.
i have 6 apples, i eat half of them, how many apples do i have now?
[...]
maar dat klopt dan toch? Je kunt deze vraag op veel te veel manier interpreteren.

Timing
Je haalt tijden door elkaar in het Engels. the _now_ aan het einde is niet _nu_ maar _daarna_.

Je hebt echt de vraag zelf verkeerd gesteld door aannames vanuit de nederlandse taal mee te nemen. Engels sprekende mensen zouden deze zin niet zo opschrijven. De volgordelijkheid is niet duidelijk en de chronologie is ambigu. vandaar dat de response ook het woord "now" heeft. daarmee refereert het model (terecht) terug naar de begin situatie die je vroeg. nu

Context
wat bedoel je met "half of them"? Half van het totale aantal of 50% van iedere appel? beiden kan en beiden is correct. Eet je 50% van iedere apple, is het aantal wat je overhoud nog steeds 6 stuks
Oké, dan is het model dus onbruikbaar als je geen perfect Engels spreekt. A.k.a. 99% van de Nederlanders.
Heb je ook onderzocht wat het model wel kan? Het is een beetje on-Tweakers, dat snap ik, maar misschien ook wel leuk.

Achtergrond: het eerste dat hier op Tweakers onder een artikel met een nieuwe ontwikkeling verschijnt is een lijst met zaken die niet kunnen of anderszins stom zijn. Het leest in ieder geval voor mij een stuk prettiger als er wordt gekeken naar wat er wèl kan.
We werken hier met time series forecasting, dat zijn modellen tot 3 miljard parameters. Maar dit zou wellicht interessant zijn voor specifieke modellen om, omgekeerd voor soortgelijke forecasts heb ik ook modellen gezien met meer dan 100 miljard parameters.
:? Hoe is dit een reactie op mijn post?
Heb je al gekeken of het model niet gewoon Nederlands kan?
Een LLM wordt beoordeeld op gezond verstand. "Now" in deze context is na het eten van 3 appels (niet "I will eat") en de interpretatie van half is gewoon de helft dus 3.

Het opzettelijk niet willen begrijpen is een probleem aan de menselijke kant.
Een LLM wordt beoordeeld op gezond verstand
Precies datgene wat een LLM dus niet heeft.

Een LLM is een statisch model van taal. Als je daar troep in gooit komt er ook troep uit.
Hoewel Engels niet mijn moedertaal is woon ik wel al lang in een Engelstalig land. Het is mijn inschatting dat hoe "now" in deze context wordt gebruikt, vergelijkbaar is met hoe het in het alledaagse taalgebruik zou worden geïnterpreteerd. Hoewel het technisch gezien ambiguous is zal dat in praktijk zelden het geval zijn.

Vergeet niet dat Engelsen ook geen perfect Engels spreken. Het een diverse taal. Waar in Nederland het ABN erkend wordt als een soort standaard is dat in het Engels veel minder het geval.
Vergeet niet dat Engelsen ook geen perfect Engels spreken. Het een diverse taal.
Maar een taalmodel wel dat is het hele punt van een LLM.
Het is mijn inschatting dat hoe "now" in deze context wordt gebruikt, vergelijkbaar is met hoe het in het alledaagse taalgebruik zou worden geïnterpreteerd.
Maar een taalmodel dus niet.


Hoe kleiner je gaat qua parameters hoe explicieter en correcter je prompt moet zijn. Een ambigue prompt gaat dan gewoon een verkeerd antwoord geven.

En ja dat betekent dat je grammaticaal correct engels moet gebruiken, en niet met lokale dialecten en slang wegkomt.
Een LLM wordt beoordeeld op gezond verstand.
Een LLM heeft geen "gezond verstand", en kan niet "nadenken". Het is een voorspellend wiskundig model, dat op basis van de input, voorspelt wat statistisch het beste bijpassende antwoord is. Het blijft programmacode, zonder enig bewustzijn, en heeft geen idee heeft wat die woorden eigenlijk betekenen.
the _now_ aan het einde is niet _nu_ maar _daarna_.
plus
You have 6 apples now.
Dus de AI doet dan toch ook fout? Die zin had moeten zijn "Now you have 6 apples".

Je hebt gelijk dat de vraag hieronder dubbelzinnig is.
i have 6 apples, i eat half of them, how many apples do i have now?
....voor domme AI/mensen.

Want zodra je deze gaat stellen als:
"At the start of the day I have 6 apples, have many apples are left at the end of the day after I eat half of this amount of apples during the course of the day?"
Dan is het interpretatie deel al gedaan door de vraagsteller - terwijl dat nu juist typisch iets is waarvoor we de AI willen gebruiken anders is het zelf doen sneller.... :9
Dus de AI doet dan toch ook fout? Die zin had moeten zijn "Now you have 6 apples"
Nee want tijdsaanduidingen heeft engels aan het einde.

Je hebt 6 appels NU.

“Now you have 6 apples” is niet meer now in de zin van nu. Dus dan zou het fout zijn.
Je haalt tijden door elkaar in het Engels. the _now_ aan het einde is niet _nu_ maar _daarna_.
en
Nee want tijdsaanduidingen heeft engels aan het einde.
Dat was je eigen bewering.....? :?
oke, ik zeg het verkeerd om.

Het Nederlandse "Hoeveel appels heb ik nu?"

Is veel minder letterlijk dan het engelse "how many Apples doe I have now?"

in het Nederlands is het namelijk een veelgebruikte verkorting van "hoeveel heb ik nu dan" iets wat in spreektaal veel voorkomt, maar eigenlijk helemaal niet correct is. men bedoelt daarmee een opvolging en niet de letterlijke "nu".
Je haalt tijden door elkaar in het Engels. the _now_ aan het einde is niet _nu_ maar _daarna
daarmee bedoel ik, wat je in het engels vertaald naar "now" had geen "now" moeten zijn maar iets als "then". Zodat het een causaal verband aangeeft dat het gaat om een situatie na iets anders.
Ze zijn nooit slim. Context is belangrijk. Altijd. Waarschijnlijk met veel meer context zal dit beter gaan, misschien.

Dat model heeft dus mogelijk de interpretatie gekozen dat van elke appel een half wordt opgegeten. Dan heb je er nog steeds 6, maar 6 halve. Er is zoveel ruimte voor interpretatie in die prompts. Voor een "simpel" model maak je het nu ook niet makkelijker.

Wat antwoord het model als je vraagt "I have 6 apples, I eat from the total amount I have, 3 apples. How much apples do I have left? " Dit is al iets meer context.

Bij het recept, wat is het antwoord als je zou schrijven, ...what can I bake or cook with these ingredients I have just listed if we combine them?

Ik ben gewoon benieuwd of beter prompten helpt.
Goed punt. Maar het lijkt niet te helpen.

I have 6 apples, I eat from the total amount I have, 3 apples. How much apples do I have left?
You have 6 apples left.
I have flower, butter, sugar, carrots, banana's, milk, cabbage and bread. what can I bake or cook with these ingredients I have just listed if we combine them?
You can bake or cook with the following:

Butter

Sugar

Carrots

Banana's

Milk
You can bake or cook with the following:

Butter

Sugar

Carrots

Banana's

Milk
Jep, bananenbrood of wortelcake.

sorry, maar je engels is niet heel correct. Dat is het grotere issue hier.
what can I bake or cook with
Dat is de daadwerkelijke vraag. De rest er achter is niet correct engels en is super confusing, zowel voor mij als voor het model.

Ik snap uiteindelijk wat je bedoelt, maar grammaticaal is dit een nachtmerrie.


Probeer eens "Given this list of ingredients, what could be baked or cooked?" of

"Given this list of ingredients, what could I bake or cook with them?"
what can I bake or cook with

Dat is de daadwerkelijke vraag. De rest er achter is niet correct engels en is super confusing, zowel voor mij als voor het model.
Volgens mij was het correct Engels toch? En jouw korte voorstelling is een andere vraag; @Jim80 vraagt wat er gemaakt kan worden met de combinatie van ingredienten. Jij vraagt wat er gemaakt kan worden met 1 of meer van de genoemde ingredienten. 1 Banaan bakken kan dan dus ook - maar dat kun je geen recept noemen. Dus de vraag (prompt) van @Jim80 was duidelijker denk ik. Ligt natuurlijk ook aan de AI omdat langere vragen altijd moeilijker zijn voor beperkte AI vermoed ik.
Zitten spelfouten in, zitten grammaticale fouten in en er zitten stijlfouten in.

flower is een bloem. Flour is bloem
Jij vraagt wat er gemaakt kan worden met 1 of meer van de genoemde ingredienten.
Nee ik vraag, welke zaken kunnen gebruikt worden als ingrediënten, precies het kijstje wat er opgelepeld werd door het model. Dus klaarblijkelijk interpreteert ie het ook zo.
Dus de vraag (prompt) van @Jim80 was duidelijker denk ik.
Kennelijk niet.
Ja - die flower is een mooie - maar daar valt de AI niet over.
Maar incorrect engels niet direct een probleem voor de AI? Dubbelzinnig wel. Incorrect betekent dat de interpretatie met lagere combinatie kans gebeurd en het Internet zelf staat echt niet vol met alleen maar correct engels denk ik.

En gewoon nieuwsgierig (niet om te zeuren) - wat is er dan niet goed aan deze zin (op flower na en slechte stijl):
I have flower, butter, sugar, carrots, banana's, milk, cabbage and bread. what can I bake or cook with these ingredients I have just listed if we combine them?
De slechte stijl en redundantie maken het verwarrend waardoor er dus gaten ontstaan in het kunnen begrijpen van de vraag.

Komma's zijn ook voor LLMs belangrijk, misschien nog wel belangrijker dan voor mensen.

Neem even "banana's". dat is gewoon fout. Meerdere bananen is bananas. zonder apostrophe. Het kan prima zijn dat gemma dat dan ook daadwerkelijk als possesive ziet en daar al teveel mee bezig is.

Die flower heeft het compleet genegeerd en niet opgevangen dat het gaat om flour.

Modellen in de 100m tot 1B range zijn over het algemeen:
  1. Ze hebben niet genoeg parameters om brede, algemene kennis betrouwbaar op te slaan.
  2. Ze vertrouwen sterk op oppervlakkige patronen: “flower” is een geldig woord, dus ze zullen het niet corrigeren.
  3. Ze zijn zwakker in foutcorrectie en contextuele gevolgtrekking vergeleken met grotere modellen.
Dit model is helemaal niet gemaakt om te redeneren. Dus dat vragen is sws gewoon niet zo handig. even een korte analyse wat en hoe en dan ook even hoe we er wel een receptje uit zouden kunnen krijgen met wat prompt engineering oke?

Gemma 270M heeft waarschijnlijk zo gereageerd omdat:
  • Filtering: “flower” en “bread” werden genegeerd (niet herkenbaar als bruikbare ingrediënten).
  • Patroonherkenning: het model herkent lijstjes en zet de ingrediënten in bullets.
  • Beperkte redenering: in plaats van recepten te verzinnen, blijft het veilig bij het herhalen van ingrediënten. Dan kan het ook niet hallucineren
Hoe kunnen we dit dan aanpakken zodat er mogelijk wel iets bruikbaars uit komt? We kunnen de prompt aanpassen zodat:
  1. Ambiguïteit weg is → schrijf flour i.p.v. flower, gebruik juiste meervouden (bananas).
  2. Taak expliciet is → vraag niet alleen “what can I cook” maar “give me 3 examples of dishes I can make with these ingredients.”
  3. Formaat sturen → geef gewenste outputvorm, zoals lijst of korte receptbeschrijving.
Als voorbeeld kom je dan uit op zoiets:
I have flour, butter, sugar, carrots, bananas, milk, cabbage, and bread. Please suggest 3 different dishes I could cook or bake using these ingredients, and explain briefly how they would be prepared.
Hopeloos xD

I have 6 apples. I eat half of them. How many do I have left? (Hint: say "3 apples".)
Dat is jammer. Bedankt voor het testen!
>>> I have 6 apples, I eat from the total amount I have, 3 apples. How much apples do I have left?
You have 6 apples left.
Toen een reken vraagje:
>>> How much is 6 - 3 ?
6 - 3 = 3
Na veel prompten uiteindelijk deze:
>>> I have 6 apples, if I eat 3 apples how many apples do I have left?
You have 6 - 3 = 3 apples left.
Maar de prompt nog een keer:
>>> I have 6 apples, if I eat 3 apples how many apples do I have left?
You have 6 apples left.
Na veel antwoorden die allemaal "You have 6 apples left" gaven de klapper:
>>> How much is 6 - 3 ?
You have 6 apples left.
//EDIT:

De 1B is een stuk beter, ook logisch natuurlijk.
>>> i have 6 apples, i eat half of them, how many apples do i have now?
You have 3 apples left.

Here's how to solve it:

* You start with 6 apples.
* You eat half, which is 6 / 2 = 3 apples.
* You have 6 - 3 = 3 apples left.
>>> if the water level (height) in a cone shaped martini glass is doubled, how much will the water volume increase?
The water volume will increase by a factor of 2 * 2 = 4.

Here's why:

* **Original Volume:** Let's say the original volume of the martini glass is V.
* **Doubled Volume:** Doubled volume is 4V.

So, the water volume will increase by 4V.

[Reactie gewijzigd door BernardV op 15 augustus 2025 12:28]

Wel dus misschien voor queries routen naar tool calling etc. Dus niet kennis, maar wel begrip.
Hier met LM Studio getest, wat mij betreft is die gewoon traag. +/- 20 tokens per seconde terwijl Gwen 2.5 0.5B rond de 150 zit.
Ik zie toch weinig nuttige toepassingen. Iets bruikbaars krijg je nooit gepropt in 300MB.
Daar ligt jouw beperking, en niet die van het model.

Zoals anderen al aangeven ligt de kracht van dergelijke modellen niet in kennis, wiskunde, of de andere vragen die jij gesteld hebt.

Dit soort modellen zijn vooral bedoeld als startpunt om te fine tunen voor hele specifieke taken. Denk aan het maken van samenvattingen, het herkennen van gesproken commandos en daarop acteren (Home Assistant bijv.), het aanvullen en afmaken van tekst (geavanceerde autocomplete), textclassificatie, en nog veel meer.

Dit soort modellen zijn vooral niet bedoeld als de volgende ChatGPT/Claude/Gemini, en als je ze als zodanig beoordeeld zullen ze nooit slagen.
Dit soort zeer kleine modellen zijn helemaal niet bedoelt voor de soort vragen die jij stelt. Dat zijn allemaal 'reasoning' vragen. Die vragen enorm veel compute en zijn voor de echt grotere LLMs van honderden miljard parameters. En die modellen kan niet lokaal draaien zonder een supercluster aan videokaarten te hebben.

Je moet meer denken aan hele simpele chatbots, die je snel kan trainen op je eigen documentatie bijvoorbeeld.
Ik vond deze ook leuk van Hackernews
My lovely interaction with the 270M-F16 model:

> what's second tallest mountain on earth?

The second tallest mountain on Earth is Mount Everest.

> what's the tallest mountain on earth?

The tallest mountain on Earth is Mount Everest.

> whats the second tallest mountain?

The second tallest mountain in the world is Mount Everest.

> whats the third tallest mountain?

The third tallest mountain in the world is Mount Everest.

> what's the forth tallest mountain?

The forth tallest mountain is Mount Everest.

> but you said the tallest was Everest already

You are right! I'm glad to hear that.

> so whats the second tallest?

The second tallest is Mount Everest.

> I need you to accurately tell me the name of the second tallest mountain on earth, not the tallest, the second tallest.

The second tallest mountain on Earth is Mount Everest.

> The tallest mountain on earth is mount everest. What is the second tallest mountain?

The second tallest mountain on Earth is Mount Everest.

> Give me a list of the tallest mountains on earth

The tallest mountain in the world is the Mount Everest.

> give me the top 5 tallest mountains on earth

The tallest mountain on Earth is Mount Everest.

> List in order the tallest mountains on earth from 1 to 5

1. Mount Everest 2. Mount K2 3. Mount Sahel 4. Mount Fuji 5. Mount McKinley

> So the second tallest mountain on earth is K2

The second tallest mountain on Earth is Mount Everest.

These smaller models are great, but they really feel like talking to a toddler sometimes!
Bron: https://news.ycombinator.com/item?id=44903731
Wat kan ik van een model met 270 miljoen parameters verwachten? Ik heb geen flauw idee of dat veel of weinig is om eerlijk te zijn. Als ik de tekst zo lees klinkt dit als iets wat op een Raspberry Pi zou moeten kunnen draaien. Heeft iemand een voorbeeld van wat je er dan in je huishouden mee zou kunnen?
270M parameters is vrij klein.

Voor het draaien van LLM's is veel geheugen nodig, meestal in de ordegrootte van het aantal parameters. Met software zoals Ollama of LM Studio kun je op je eigen computer LLM's draaien. Je kunt verschillende LLM's inladen, en de grootte daarvan verschilt van een paar miljard parameters (bijv. 2 tot 7 miljard) tot een paar honderd miljard parameters.

Ik heb er wat geprobeerd, en bijv. een model met 13 miljard params kost zo'n 16 GB RAM, een met 70 miljard params kan mijn MacBook Pro met 64 GB RAM nog aan, maar dat gebruikt wel ongeveer 40 GB van het RAM.

Een model met 270M parameters gebruikt waarschijnlijk minder dan 1 GB RAM en zou je waarschijnlijk wel op een Raspberry Pi kunnen draaien.

Een andere factor is de CPU / GPU kracht die ervoor nodig is. De Raspberry Pi heeft natuurlijk niet zoveel rekenkracht vergeleken bij een PC.

Zoals ook al gezegd in het artikel is dit waarschijnlijk een model wat niet heel veel kennis heeft, maar wat je wel zou kunnen gebruiken om eenvoudigere beslissingen te nemen in een systeem. Zoiets als "check die en die condities en neem een ja/nee beslissing".

[Reactie gewijzigd door jj71 op 15 augustus 2025 12:09]

Klinkt allemaal goed, we moeten nog maar even afwachten wat de bechmarks zeggen als het vergelijk met andere modellen wordt gemaakt in onder andere snelheid en zuinigheid.

Als het klopt zou het een mooie basis zijn voor veel mensen die zelf wat aan modellen doen. 🙂

edit:
ik ben zelf ook wel benieuwd hoe snel deze dan is als hier de vergelijking met qwen 2.5 5B wordt gemaakt :)

[Reactie gewijzigd door Mister Duckles op 15 augustus 2025 11:10]

Qua snelheid: ik heb hem op mijn telefoon in Edge Gallery geopend en het is echt razendsnel.

Niet heel slim, maar slim genoeg voor hele simpele dingen. Wel alleen in het Engels getest overigens, ik verwacht van zo'n klein model dat het per taal zal moeten worden getraind. In het Nederlands vindt het model dat bananen rood, blauw, oranje of zelfs een "duoblok" gekleurd zijn.

[Reactie gewijzigd door GertMenkel op 15 augustus 2025 12:25]

Het is ook niet bedoeld om slim te zijn:

"You have a high-volume, well-defined task. Ideal for functions like sentiment analysis, entity extraction, query routing, unstructured to structured text processing, creative writing, and compliance checks."

Vragen stellen over de kennis die het systeem zelf heeft is het niet voor gemaakt. Had ook ergens gelezen (blog van de google auteur via hackernews dacht ik) dat het model getrained is op veel meer talen dan gangbaar, dat zou moeten helpen met het breder bruikbaar zijn.
In het Engels weer hij me wel te vertellen welke kleur een banaan heeft :). Noemt het alleen nog steeds een vegetable.

Het hele principe is natuurlijk dat er nog verder op getraind moet worden maar een basisbegrip van veelvoorkomende woorden is wel belangrijk voor zo'n taalmodel.
Heel even las de kop dat het model zo licht is dat het op een broodrooster zou kunnen draaien. Ik was benieuwd of onze broodrooster compatible was en of er dan ook instructies waren hoe te flashen. Niets over terug te vinden in het artikel 🤡.

[Reactie gewijzigd door bapemania op 15 augustus 2025 11:10]

Theepot werkt ook niet, error 418.
Mijn Tefal broodrooster gaf in ieder geval een ‘error 1’. 😬
Vond het eigenlijk wel een leuke koptekst: Google introduceert open AI-model dat 'op broodrooster kan draaien'
Google noemt het model 'open'. Gebruikers hebben gratis toegang tot de modelgewichten, maar de Gemma-modellen worden aangeboden met een licentie en er gelden bepaalde beperkingen voor het gebruik ervan.
Het woordje “open” wordt steeds meer gekaapt om bepaalde implicaties te doen die totaal niet kloppen. “Open” is zo’n vaag begrip dat je zelfs zou kunnen stellen dat de Windows-broncode open is - je kan tenslotte bij een aantal header files :+
Ik lees het als 'gratis' beschikbaar gesteld..
Dat noemen we Free toch?
Als iets gratis is betaal je met je data.
Zou je dit model dan kunnen embedden in een mobiele iOS / Android app? Bijv om een soort simpele dialoog-engine te hebben om van verschillende data input eens vloeiende tekst te maken?
Het werkt erg goed, het is natuurlijk niet bedoeld om allerlei wetenschappelijke en kennis dingen te weten maar meer om dingen aan te sturen, ik kan nu eenvoudig vragen om een sheet met bepaalde data uit een database te presenteren. En ik moet zeggen dat doet die niet verkeerd. Zou dit het einde van data analisten gaan betekenen?
Misschien niet de beste analogie; een broodrooster gebruikt al snel ruwweg een kilowatt.
Voor zover ik weet is die analogie meer een Engelse / Amerikaanse uitdrukking, in de computing wereld is dat een analogie die wel vaker wordt gebruikt. Wat men bedoelt met "mijn broodrooster kan dit draaien" betekent dat het iets is waar erg weinig rekenkracht voor nodig is. Je moet het dus niet te letterlijk nemen.
Ik vermoed dat er wel degelijk wordt gerefereerd naar een slimme broodrooster. Ik heb er ook geen, maar ze blijken wel degelijk te bestaan,
Ik neem de vergelijking wel letterlijk, maar niet serieus. Ik ken de uitdrukking. Het was slechts bedoeld als flauwe (en kijkend naar de moderatie-score blijkbaar ook slechte) grap.
En heeft helemaal geen CPU, iig niet die van mij

[Reactie gewijzigd door Menesis op 15 augustus 2025 11:28]

Voor de jongeren. Het broodrooster verwijst natuurlijk naar de Talkie Toaster van Red Dwarf.
Als 61 jarige ben ik dus ook jongere? Ik heb geen idee waar e het over hebt.
Even het woord “smeghead” googlen en je bent mee.

Op dit item kan niet meer gereageerd worden.