Europees AI-bedrijf Mistral komt met nieuwe AI-modellen en maakt ze opensource

Het Franse AI-bedrijf Mistral komt met verschillende nieuwe Mistral 3-llm's. Daaronder valt een groot 'frontiermodel' dat multimodaal werkt en meerdere talen ondersteunt, naast een stel kleinere modellen die lokaal gedraaid kunnen worden. Ze komen allemaal opensource beschikbaar.

Mistral Large 3 wordt volgens de ontwikkelaars 'een van de beste openweightmodellen ter wereld'. De Franse start-up trainde het model zelf met 3000 Nvidia H200-gpu's. Het gaat om een mixture-of-experts-model dat bestaat uit 47 miljard actieve en 675 totale parameters.

Het nieuwe flagshipmodel kan volgens Mistral meekomen met andere populaire openweightmodellen zoals Kimi K2 en Deepseek V3.1. Daarnaast voegt het ook verschillende functies toe die al langer in gesloten AI-modellen zitten, zoals multimodale functies en ondersteuning voor meerdere talen. Het model komt beschikbaar onder een Apache 2.0-licentie.

Naast het Mistral Large 3-model komt Mistral ook met verschillende kleinere llm's. Deze krijgen de naam Ministral 3 en worden geleverd in modellen met 3, 8 en 14 miljard parameters. Van ieder model komen bovendien base-, instruct- en reasoningvarianten, ieder met de mogelijkheid om afbeeldingen te begrijpen. Volgens de makers zijn deze modellen bedoeld voor lokaal gebruik. Ook al deze varianten komen beschikbaar onder een Apache 2.0-licentie.

De verschillende Mistral 3-modellen zijn per direct beschikbaar via Mistral AI Studio en platforms als Hugging Face. Dat geldt voor zowel Mistral Large 3 als voor de Ministral 3-varianten.

Mistral Large 3-benchmarksMistral Large 3-benchmarksMistral Large 3-benchmarks

Mistral Large 3-benchmarks. Bron: Mistral

Door Daan van Monsjou

Nieuwsredacteur

02-12-2025 • 17:29

85

Submitter: Westpjotr

Reacties (85)

Sorteer op:

Weergave:

Ik steun Mistral. Professioneel heb ik weinig keuze en gebruik ik ChatGpt en CoPilot, maar ik geloof dat Europa een speler nodig heeft en Mistral is zeer bruikbaar. Als ik zie hoe andere regio's dictaturen geworden zijn ben ik blij dat ik hier woon en wil ik zorgen dat deze regio een beetje zelfredzaam is tegen de bullies van deze wereld, zowel op politiek als economisch vlak (tech giants).
Helemaal mee eens. Wij gebruiken voor de meeste dingen op de zaak mistral, zeker ook in combinatie met de document OCR. Daarvan is de kwaliteit echt best wel aardig zeker gezien de vaak kleinere modellen, waardoor het ook vaak een stuk goedkoper is in gebruik.

We zijn zelf bij Mistral uitgekomen niet alleen omdat het een Europees bedrijf is, maar ook omdat de prijs/kwaliteit verhouding gewoon best goed is. Zeker als je in je achterhoofd houd dat de meeste taken echt geen groot taal model vereisen.

Hier hebben we dan ook echt nog 0 spijt dat we puur op Mistral zijn gegaan.
En hier zit wel gelijk het hele probleem. Wat als de prijs hoger was dan Co-pilot? Zou jouw bedrijf dan nog steeds kiezen voor Mistral? Nou ken ik jouw bedrijf niet, maar ik weet wel wat de meeste bedrijven doen, principes gaan direct het raam uit als het geld kost.
101% mee eens. Ik gebruik sinds een paar maanden ook Mistral (vnl om powershell/python/ESPHOME scripts te schrijven - en naar grote tevredenheid) vnl zodat ik geen bedrijf uit de VS aan meer massa help.
Ik ben benieuwd hoe je Mistral precies steunt, financieel, anders?
Typisch tendens op Tweakers; er zijn vooral commenters als NoTechSupport die heel hoog van de toren blazen dat ze iets steunen door er vervolgens niks aan te doen.

Europeanen zijn heer en meester in zelfingenomenheid maar verliezen op iedere economisch vlak van de VS en China.
Het begin is er met de banken nu HSBC en BNP met Mistral in zee gaan. Zou mooi zijn dat andere EU reuzen dit ook zouden doen. Zeker nu met deze nieuwe group van ook kleine multi-modal LLMs zou het mooi zijn dat bedrijven als Siemens/ABB deze ook zouden gaan gebruiken voor hun industrial AI oplossingen.
HSBC and Mistral AI join forces | Media releases | HSBC Holdings plc
BNP Paribas and Mistral AI sign a partnership agreement covering all Mistral AI models - BNP Paribas
Absoluut mee eens. De afhankelijkheid van bepaalde grootmachten moet drastisch verkleind worden.
Ben er naar toe geswitched en toch goed verrast. Model van Google bedenkt vrij vaak dingen erbij, terwijl Mistral toch mooi meer bij facts blijft. Kan het aanraden, en al helemaal omdat het ook nog eens een Europees bedrijf is ( met diepe links naar Nederland door ASML's investering ) Hopenlijk wordt het een beetje mainstream in Europa!
Ik ben zelf ook geswitcht van ChatGPT naar mistral (premium). Moet zeggen: het is fantastisch, veel sneller en meer accuraat. Ook zijn de agents veel makkelijker om te maken en houden ze meer aan de instructies.
Copilot is geen model, maar een overkoepelende UI voor meerdere modellen. Het hoeft ook niet beter te zijn, als het maar meekomt. Meer alternatieven zijn altijd beter, helemaal uit de EU.
Klopt, dan blijft mijn punt nogsteeds staan.

Nee een alternatief is niet beter als het uit de EU komt. Een alternatief is beter als het daadwerkelijk qua functionaliteit beter is. Het is niet eens bekend hoeveel gebruikers er maandelijks Mistral gebruiken. Echt lachwekkend.
Er zijn heel veel verschillende redenen waarom een product wel of niet gebruikt kan worden. Waar jij werkt installeert men toch ook standaard Windows op je laptop? Is Linux op heel veel vlakken niet gewoon beter?

Over AI, er zijn genoeg organisaties die liever on-prem modellen draaien, dat kan met Mistral. En Mistral is helemaal niet zo slecht voor veel zaken. Ik gebruik het regelmatig op mijn telefoon (naast perplexity). Het is lekker snel ook en er is echt niet veel tegen om hun audio en OCR model te gebruiken, sterker het werkte beter dan de modellen uit de VS bij mijn eigen test tijd terug, zeker als je de kosten per token mee gaat nemen. Daarnaast, de gewichten van de modellen zijn Apache licensed(!)
Nee, Linux is niet op heel veel vlakken beter; daarom wordt het ook maar op een beperkt % van de computers wereldwijd gebruikt.

Hebben we het weer... "helemaal niet zo slecht".. Dit is de typisch Europese zesjes cultuur. Ten opzichte van de Amerikaanse en Chinese modellen is het gewoon inferieur, dat weet je zelf ook wel.
Ben ik het niet mee eens. Ik gebruik een betaald licentie van ChatGPT en Le chat naast elkaar en beide presteren de ene keer beter dan de andere maar ik moet toegeven dat Le Chat veel beter leert, project matig ook veel accurater werkt en inhoudelijk doorgaans scherper reageert dan ChatGPT. Dus inferieur is het zeker niet.
Linux op een beperkt % computers wereldwijd? Als je je er een beetje in zou verdiepen zou je snel opmerken dat Windows de vreemde eend in de bijt is met een heel klein marktaandeel. Linux is dan ook veel beter op vele vlakken, tegenwoordig zelfs beter om te gamen met Windows-games...

En ja, Europees is altijd beter, alleen maar doordat het Europees is en dus de Amerikaanse techgiganten hun grilligheid er niet op kunnen botvieren.
Linux zit zo'n beetje overal, deze site draait er zelfs op, om maar wat te noemen. Dus daar worden we het helaas niet over eens.


Over zesjes cultuur:
Ik ben techneut, dus verwacht van mij niet, dat ik ga overdrijven en zaken aan ga prijzen voor je. Daar zijn andere mensen veel beter in. Grote sales helden/marketing machines zoals een Sam Altman zijn daarvoor. Dat is misschien zelfs gemiddeld genomen vaker het geval op tweakers.

Probeer Mistral zelf anders, dan kun je misschien een veel beter klinkend relaas delen over het product als het je bevalt, of laat het een positief verhaal genereren om te testen. Er is volgens mij geen zesjes cultuur in 'Europa', misschien in het zuiden(?), het altijd de vraag, wat gaan we beter maken, hoe kunnen we het beter doen, het is niet goed genoeg, in elk geval is dat mijn ervaring met bedrijven in Noord-Europa. En techneuten uit Oost-Europa zijn ook niet mals, als iets slecht is of beter zou kunnen, houden ze er niet over op tot het beter is gemaakt. Maar goed, dat is ervaring met techneuten. Misschien vind je de sales en marketing cultuur in Europa slecht?
LOL. Er zijn veel betere modellen dan ChatGPT. Voor code bijvoorbeeld Claude, zelfs Haiku is beter dan ChatGPT 5.1 Max in code én sneller.

En bovendien vergelijkt Mistral zich niet met ChatGPT maar met andere open source modellen.

Maar ik zou zeggen probeer het gewoon zelf.
https://ollama.com/library/ministral-3

En bedenk dat dit dan lokaal op je PC draait in plaats van op een GPU van €30.000 per stuk.

Zorg dat je het juiste type model gebruikt voor de taak die je wil laten uitvoeren.

[Reactie gewijzigd door djwice op 2 december 2025 23:14]

Ik heb gpt-5.1-codex-max ook getest en het werkt best aardig met Java. Misschien maakt het erg veel verschil welke taal je inzet en wat je er mee doet. Ik heb het voornamelijk ingezet als schrijver voor tests. En ik zie nog maar weinig verschil met de Claude modellen voor dat doel. Voor andere vragen gebruik ik nog steeds de modellen van OpenAI, Anthropic en Mistral door elkaar heen. En in de IDE zit Mellum van Jetbrains (dat eigenlijk erg goed werkt).

Ik ga dus zeker testen met ministral-3.
Ik genereer niet alleen de tests, en het design ook de hele implementatie en documentatie, uiteraard wel conform mijn architectuur en ontwerp keuzes.
Ik gebruik sinds kort Perplexity en kan het echt aanraden. Eén abonnement geeft toegang tot meerdere AI-agents voor onderzoek, schrijven, vergelijken en nog veel meer. Superhandig, en voor studenten is het zelfs gratis! 🤓

Meer info: https://www.perplexity.ai
De manier waarop zijn opereren past helaas niet bij waar ik geld aan uitgeef. Moet zeggen dat ik bij een collega wel eens hele goede resultaten heb gezien met Perplexity, dus voor de performance hoef je echt in ieder geval niet te laten.
Wat bedoel je precies met hun manier van opereren? Kan je dat nader toelichten?
Ik ben bij hen terecht gekomen omdat ze zeer hoog scoren op betrouwbaarheid en correcte informatie, ze geven in hun antwoorden ook steeds een link naar de bron.
Ze scrapen alles wat los en vast zit zelfs als het enorme load op de servers van website veroorzaakt. Zelfs als er een rechtzaak wordt aangespannen blijven ze doorgaan. Er lopen inmiddels meerdere rechtzaken van bedrijven tegen Perplexity voor het ongewenst en tegen de copyright in scrapen van hele websites.

Ze negeren daarnaast ook standaard praktijken zoals de robots.txt (iets waar zelfs Google zich aan houd) en verschuilen zich achter 3rd party diensten die ze zouden gebruiken.

Je mag het Wikipedia artikel en de bron artikelen erop naslaan als je meer wilt weten. Of zoeken op "Perplexity AI ethics", een vrij neutrale zoekterm.
Helaas is het zo dat Perplexity hier verre van de enige in is. Als website beheerders hebben we desastreuse hoeveelheden verkeer van AI scrapers die zich nergens aan houden, robots.txt niet en enigzins fatsoenlijke rate limits ook niet. Perplexity is - alhoewel aanwezig - niet eens ruis in de marge als je kijkt naar wat er in de Aziatische hoek aan scraping word gedaan. (En waarom? Niet alsof iemand uit Japan of Korea bij ons zijn spulletjes gaat bestellen.)

Perplexity is net als alle andere big tech. Het lijkt me vrij nutteloos om daar in te gaan onderscheiden tussen ethische en onetische partijen, voor allen geldt: Jij bent het product, en met meer geld dan de meeste landen doen ze gewoon wat ze willen. In dat opzicht gedraagt big tech zich als big tech, geen verrassingen.
Je kan nog steeds een keuze maken. Bijv. Mistral is vrij transparant over welke ip-adressen ze gebruiken en welke user agents en hoe je ze kan blocken met een robots.txt. Ze zijn ook nog niet betrapt op het proberen te omzeilen.

Mistrals ethische problemen zitten ook meer in de hoek van de output van hun modellen, dan hoe ze hun bedrijf opereren. Hun modellen zijn namelijk nog geneigd bijzondere instructies te geven die niet altijd goed aanslaan bij het gehele publiek: https://www.euronews.com/next/2025/05/08/mistral-ai-models-60-times-more-prone-to-generate-child-sexual-exploitation-content-than-o al is dit het laatste jaar wel aanzienlijk verbeterd.
Andere corporate probeerd iig nog een goede reputatie te behouden. perplexity zegt gewoon "ja, we brengen een browser uit zodat we meer data van mensen hun PC kunnen scrapen"

Dat zijn inside thoughts, niet iets waar ze trots op moeten zijn :P
euhm, Mistral is ook gratis, ik ga naar huggingface, download het model, ik quantize het naar Exllama3 zodat dit geoptimaliseerd draait via NVIDIA op een GNU/Linux systeem, Laad het in het geheugen en query de api op localhost op enige geschikte wijze met interface naar keuze... En kan zelfs de internet kabel uit trekken en het als nog gebruiken...

Ik doe alles volledig lokaal, niets verlaat mijn systeem, Ik kan het gebruik laten maken van zelfgehoste zoekmachine's als ik dat wil, Desnoods voeg ik TTS toe. Kortom ik doe wat ik wil, geheel gratis, en behoud mijn privacy omdat ik geen vreemde api's gebruik!!

Ik begrijp niet dat mensen niet inzien dat eigenlijk betalen voor taalmodellen te gebruiken, niet nodig is, en men ook geen privacy hoeft te verliezen.. En er bewust voor kiezen om propriatory closed source spyware installeren, hier ook nog dubbel voor te betalen, met geld en gegevens...

Als men niet gaat inzien wat de technologie werkelijk is, en maar in de waan blijven van "Agi", dan vrees ik dat men het risico loopt op een dag op een onaangename manier die les te leren krijgt daar ik zelfs weiger dit iets intelligent te noemen!

Een 16 lijnen lange for loop die in het geheugen geladen data triggert om een prompt aan te vullen op basis van % dat dit zo voorkomt in de data, kan naar mijn mening niet iets intelligent representeren!

Het kan zo klinken, maar dat is enkel omdat men in de waan is en onwetend is over hoe het werkt!!
Jouw lokaal gehoste model is toch wel iets anders dan Opus 4.5 extended thinking, of Deepseek 3.2 Misschien in de kern niet, maar in schaal wel. De laatste deepseek 3.2 modellen hebben zo ongeveer 1.2TB aan VRAM nodig in FP16 precisie. En al zit ik er een factor of wat naast, dan nog is dat hardware die nagenoeg niemand thuis op de server heeft. (Ik heb hier een L40S en een 5090 om mee te spelen, maar echt goede modellen kan ik er niet mee draaien die enigzins in de buurt komen van SOTA gehoste LLMs)

Daarnaast, stel (we zijn er niet) dat we alle kennis op internet die in de vorm van boeken, research, whatever zouden gieten in een taalmodel. En jou zou een mens vragen of het model intelligent was, zou je dan denken dat een mens dat zou kunnen achterhalen? En als je met die die kennis die dat oplevert het model zou verfijnen, op wel punt zou dat dan niet meer zo zijn en - maakt het dan nog uit wat voor soort model het is?

[Reactie gewijzigd door Crew One op 2 december 2025 22:02]

Je hoeft voor veel taken geen flagship model van de 'groten der aarde' te gebruiken natuurlijk.
Met een PayPal account kun je ook 1 jaar gratis Perplexity krijgen.
Mja het voelt een beetje als de nieuwe gang van zaken. Open source is leuk als je het zelf kunt draaien, maar als je straks honderden gigabytes aan RAM nodig hebt voor een open source model, heb je er als consument nog maar weinig aan. Benieuwd waar dit heen gaat en het is op zich wel lovenswaardig om open source te gaan.
Dit is een model zeer geschikt om op consumenten hardware te draaien, kan al van 8 - 12 Gb Vram...

met een 3060 kom je al een eind...
De kleine modellen die gereleased zijn (de ministral 3b, 8b en 12b) kun je daadwerkelijk lokaal ook goed draaien. Zelf heb ik lokaal nog wel eens de oudere versies van de wat kleinere modellen gedraaid op een oude gtx 1060, en dat ging nog verrassend vlot.

Ook goed om te zien dat ze bij Mistral naast de grote modellen ook vooral focussen hoe bepaalde dingen ook met kleinere en dus lichtere en goedkopere modellen kunnen worden gedaan.
https://huggingface.co/collections/mistralai/ministral-3

Als je de modernste 5060TI/16GB (Blackwell) hebt werkt de nvfl4 kwantificering optimaal.
En kun je het 8B en de 14B lokaal snel draaien.

Dat is het nieuwe van NVIDIA Blackwell GPUs; nvfl4 en nieuwe modellen zoals deze en ook gpt-oss (20B) maken daar gebruik van zodat je grotere modellen in minder VRAM kunt draaien, maar moet je wel de laatste generatie NVIDIA GPU gebruiken.

Dus een jaar van ongeveer €449,-: review: GeForce RTX 5060 Ti 16GB - Kaarten van ASUS, Gigabyte, INNO3D, MSI en... ik heb zelf zo'n kleine 2 fan versie, snel, super stil en energiezuiniger dan de 5 jaar oude kaart die ik er voor had.

[Reactie gewijzigd door djwice op 3 december 2025 15:35]

Heb een half jaar gratis Mistral via mobiele provider. Moet toch zeggen dat hun modellen enorm veel sturing nodig hebben en een pak minder accuraat zijn uit mijn ervaring. Ik ben benieuwd hoe deze zullen ervaren worden.

Ik wou echt wel een betalend abo nemen om de (enige?) Europese speler wat te ondersteunen maar op dit moment krijg je het niet verkocht aan mij. Ik heb het dan ook wel specifiek over hun Le Chat.

[Reactie gewijzigd door kayjay op 2 december 2025 17:59]

Ik heb het laatst ook geprobeerd bij hobbymatig programmeren, naast ChatGPT. Het taalgebruik van LeChat was vreemd, de gegenereerde code vaker incorrect en gaf over het algemeen gewoon minder juiste en complete antwoorden.

Echt jammer want ik zou graag het Europese alternatief steunen.

Canvas is overigens wel super. Dat geeft je de mogelijkheid om live samen te werken met de AI. Ik hoop dat ze met deze update de nodige verbeteringen kunnen doorvoeren. Dan geef ik ze zeker nog een kans!
Ik heb de afgelopen weken wat dingen geprobeerd met ChatGTP en Copilot. In beide gevallen leverde dit ernstig irritante resultaten op.

"ik snap nu wat je bedoelt. Ik doe een nieuwe poging precies volgens jouw opdracht"

Vervolgens weer precies dezelfde resultaten totaal niet in lijn met mijn opdracht... En altijd weer dat constructieve toontje, maar dan toch niet uitvoeren wat ik bedoel. Nog ergerlijker dan die automatische customer service agents...

Als ik nog iemand hoor verkondigen hoe fantastisch slim AI wel niet is denk ik eerder dat zo iemand onvoldoende snapt wat er uit komt...

Maar ik ga Mistral toch eens proberen...
Je vraagt teveel, vraag hem eerst eens een prompt te maken op basis van de omschrijving van wat je wilt, dit kan gigantisch helpen, bij lokale llm's dan met een beetje knappe purpose(dus niet de one AI fixes all strategie...), want chatgpt en copilot vliegen uit de bocht doordat ze je hele hebben en houwen als context proberen te gebruiken en struikelen daar dan continue over.
Context management is alles. En in een bepaald opzicht is effectief ai gebruik moeilijker dan programmeren. Je loopt er al snel tegenaan dat ons taalgebruik best wel ontzettend vaag kan zijn.
Het zou fijn zijn als Microsoft dat ook zou melden bij de copilot push die nu gaande is. Veel managers en directeuren trappen in de gladde verkooppraatjes om vervolgens achter te blijven met een partial weekend systeem. Want tja, het is cloud dus beheer kan wel wieberen toch lol.

Begrijp me niet verkeerd, ik zet het absoluut in, nou ja, lokale LLM en niet copilot, maar dan met hele compacte workflows met dedicated vector sets of interfacing naar andere databronnen. Dan kan het echt productie verhogend werken als hulpje. Alsnog human in the loop nodig, maar die hoeft alleen maar te verifiëren en niet meer zelf te bedenken en zoeken, dat scheelt veel tijd.
Human moet ook gewoon beter getraind worden in gebruik.

Het is nu een beetje alsof we ze allemaal de sleutels van een formule 1 auto geven, en zeggen, let's go
Alle training van de wereld gaat je alsnog niet helpen als je probeert te zoeken in 10 jaar aan documenten die, want dat is zo makkelijk, zonder enige vorm van structuur op onedrive worden geknald.

Beetje overpromise maar underdeliver.
Je zit op een andere use case dan ik. Maar idd ook in die space speelt hetzelfde.

Er zijn wel (meer) oplossingen voor, maar de implementatie is sowieso meer ingewikkeld dan copilot vinkje aan en vragen stellen maar.
Dit is toch echt een user error
Wat helpt is vragen “how do your rate your answer on a scale of 1-10? And what do you need to improve that rating?”

Dat geeft enorm veel inzicht in eventuele missers. En als je eenmaal een goed antwoord hebt, kan je vragen naar een enkele query om tot dat antwoord te komen. Daarmee leer je zelf ook betere vragen te stellen.

Overigens komt er bij mij ook nog regelmatig onzin uit. Laatst bleef hij in cirkels redeneren. De oplossing was een nieuwe chat beginnen met een samenvatting van de vorige + de vraag. Dan begint hij weer met een blanco geschiedenis.

[Reactie gewijzigd door Kevinns op 2 december 2025 20:20]

Grappig ik heb met code met mistral juist meer in de juiste richting gezeten , dan bij copilot of chatgpt
Bedoel je dan LeChat specifiek? Ik vind het werkbaar voor dagdagelijkse zaken, snel opzoekwerk of echt basiszaken zoals een specifiek command voor de terminal. Maar zodra er maar iets van "logica" wordt vereist dan loopt het al snel in het honderd.

Bv recent vroeg ik om een lijst met 5 items to compileren van iOS apps met een bepaalde ranking en zeer kwantitatieve kenmerken. Bij elk item woordje uitleg waarom deze precies,... Het gaf wel een lijst weer maar zonder enige redenering of structuur.

Je voelt dat ze er dichtbij zijn, maar net nog dat tikkeltje achter zitten. Vandaar bij elke nieuwe release heb ik nieuwe hoop.
ja lechat, gezien ik de enige programmeur ben in mijn team gebruik ik het wel eens om te sparren.

Tot mijn verbazing kwam ie met wat ik zocht en het werkte ook . Waar ik met copilot iets kwam dat totaal niet klopte.

Ik gebruik hier wel c# dus misschien zit dat er beter in dan Swift.
Er is niet zoiets als “copilot” - achter elke prompt zit een model. Claude opus 4.5 zit op een hele andere dimensie dan mistral zit
Je kan het de gebruiker niet kwalijk nemen, dat ze het gewoon copilot noemen. Dat wordt bewust zo genoemd door de maker, je moet er tijd in steken om er achter te komen welk model wordt gebruikt.

Tevens zegen dat model A op een heel ander 'dimensie' zit dan model B is zo niets zeggend. Ik denk dan dat je bedoelt dat je gewoon heel tevreden bent met model A.
Nee ik bedoel wat ik zeg ;)
Nee, dat Claude modellen uren achter elkaar goede code kunnen maken en je aan het einde van de dag 8.500 regels code geschreven hebt, netjes modular en gestructureerd conform afgesproken standaarden en ontwerpen, documentatie en 99.5% test coverage hebt met ruim 750 tests. En dat het foutloos deployed naar AWS, Kubernetes etc. En dat ie daarvoor ook de infrastructuur als code geschreven heeft en alles voldoet aan de strengste security standaarden etc.

En met ChatGPT je in diezelfde tijd een appje zou krijgen die zo goed als niet werkt, traag is en met Claude in 2 minuten wel goed en met veel minder regels code (20MB versus 5kB) gemaakt zou zijn.

[Reactie gewijzigd door djwice op 2 december 2025 23:24]

Dit is waanzinnig, je bent dan echt een goede prompt schrijver of het zijn prompts waarmee claude feitelijk een git clone opschrijft van een open source repo. Mijn eigen (overigens redelijk positieve over het algemeen genomen) ervaring met claude is dat als het langer dan dertig minuten werkt, je het beter had kunnen opbreken in stukken voor een beter resultaat.

Het kan zijn dat je echt goede prompts kunt schrijven voor claude natuurlijk, ik lees momenteel alles dat gepubliceerd word over het prompten voor gebruik met multimodel use. En er zitten redelijk wat specifieke tweaks nog in die wel helpen nog (volgorde, etc.). Net zoals rond 2023 je nog beloningen aan de LLM kon beloven of dreigen ook wel eens wilde werken (dat werkt niet meer, de filters weigeren je opdracht tegenwoordig als je dat nog doet).

Als je de tijd hebt om een guide/blog/artikel te delen waar de tweaks voor de laatste claude instaan, dan zou ik dat enorm waarderen!
Ik heb met Claude o.a. een custom skill gemaakt in 4 uur tijd die AWS Kiro volledig implementeert, maar dan op je normale Claude or GitHub Copilot met Claude.

Ik heb veel Green field ervaring en opzetten van best practices. Dat gebruik in nu voor AI. Ik definieer eerst de best practices en de context voordat ie aan de slag mag gaan. En stuur bij als ie afwijkt. En vul best practices aan met rationale (= motivatie / uitleg waarom en in welke context) als iets blijkbaar 'fout'/anders gaat dan dat ik wil.
Ik pas de code nooit zelf aan. Dat vinden senior ontwikkelaars immers ook irritant als je dat zou doen, dus geef ik gewoon aan hoe ik het wel zou willen en last het model met die uitgangspunten de repo verbeteren.
En als ie iets vergeeft herinner ik me er aan.
Helaas werk ik bijna nooit green field. Maar nu heb ik wel weer zin om claude weer eens te proberen, bedankt voor je reactie.
Voorbeelden van agents : https://developer.microso...pilot-customizations-repo

Die kun je ook als folder = agent-naam en dan de markdown in die folder zetten met als naam "SKILL.md" en die zip-en en dan de .zip naar .skill her noemen => dan heb je de agent omgezet naar een skill voor Claude.ai

In GitHub copilot zet je ze gewoon onder de naam uit de repo onder /.github/agents/

Skills die al b schikbaar zijn voor Claude: https://github.com/anthropics/skills/tree/main/skills

Een skill kan ook Python of NodeJS bevatten, dan kan de skill (agent) dus ook code uitvoeren, bijvoorbeeld een analytische functie aanroepen, een binary build doen of wat je ook maar kunt bedenken dat je in Python kunt programmeren.

Zeer krachtig dus.
Ik denk dat wat je beschrijft ongeveer is als wat ik nu doe (maar dan niet met skills). Ik werk voornamelijk met aider (hobby), en heb nu README.md die verwijst naar docs/etc/agent/design/{fe,be}/*.md, docs/etc/agent/FEATURES.md, docs/etc/agent/TOOLS.md, docs/agent/tools/*.md en docs/etc/agent/prompts/*.md (laatste om bij te houden wat ik eerder heb gedaan, zodat het allemaal beter word met de tijd).

Mijn huidige workflow:

Ik schrijf docs/etc/agent/prompts/xyz.md, doe een ls -l docs/etc/agent/design/be; ls -l docs/etc/agent/tools (handig voor copy-n-paste in terminal)

Start aider met architect model bijv. een ontwikkel versie van gemini op openrouter en een edit model, bijv. codestral of iets van deepseek via openrouter (om credits te sparen) en dan:

/add docs/etc/agent/prompts/xyz.md docs/etc/agent/design/be/models.md docs/etc/agent/design/be/locking.md docs/etc/agent/design/be/query.md docs/etc/agent/design/be/files.md docs/etc/agent/design/be/config.md docs/etc/agent/tools/modelgen.md docs/etc/agent/tools/configgen.md docs/etc/agent/CRITIQUE.md
/ask Use docs/etc/agent/CRITIQUE.md and critique docs/etc/agent/prompts/xyz.md

Daarna:
/drop docs/etc/agent/CRITIQUE.md
/add docs/etc/agent/EXPLAIN.md
/ask Use docs/etc/agent/EXPLAIN.md to explain how you would implement implement docs/etc/agent/prompts/xyz.md

Itereren en dan /architect om uit te voeren, dan een soortgelijke prompt om een review te doen op de geschreven code, commit en daarna doe ik een soortgelijke prompt om testen te schrijven. En dan commit. En daarna git show HEAD^2 --stat (of HEAD^3 etc), de files doe ik dan soms erbij met /add als ik denk dat het helpt. Als laatste stap:

/reset
/add docs/etc/agent/prompts/xyz.md docs/etc/agent/DOCS.md (eventuele extra files uit de commits)
update docs according to the changes, follow docs/etc/agent/DOCS.md consider docs/etc/agent/prompts/xyz.md

Soms doe ik bepaalde stappen maar zelf, database model erbij in het prompt, dat soort dingen, want je krijgt soms bizarre dingen met goedkope of gratis edit models, ook als je architect het lijkt te snappen. Soms filter ik ook nog op files die aangepast zijn op Chinese en Koreaanse characters, i.v.m. de kimi's of deepseek experimenten (ook die zijn gratis soms). In prompts zetten dat je geen Chinees of Koreaans commentaar wilt helpt, maar niet altijd. En natuurlijk wat tussenliggende refactors als het toch allemaal shit was.

Dit werkt met repository's die onder de 100k blijven. Mijn huidige 'project' is een oude repository omzetten naar 'moderne' Java en betere libraries. Maar nu het groter aan het worden is, werkt het niet meer en de grote gratis modellen op openrouter zijn soms 'stuk' of werken niet lekker. Daarom de interesse ;) Je kunt je context best managen op de bovenstaande manier, maar het is nauwelijks sneller nog.

Aider kan best zonder zoveel handmatige handelingen werken overigens, het is puur de repository waar je tegen moet vechten, deze mag niet te groot zijn (dit kan ook door de modellen komen natuurlijk).

Die repo die je linked is gaaf, die presentation skill bijv. is geweldig, had ik niet aan gedacht zo te doen. Mijn workflow bestaat voornamelijk uit context managen, dus wellicht is het eigenlijk alleen een kwestie van overstappen op de CLI van claude en hun modellen. Welk model gebruik je bij Claude? Dit gaat werken met Opus? Heb je een abonnement via VPN in het buitenland gebruikt om de kosten te drukken?
Gaaf! En dank je voor het delen!

Ik heb de luxe dat mijn werkgever mij toegang geeft tot Claude.ai, ChatGPT en GitHub Copilot via enterprise licenties.
En daarnaast ollama en llmstudio kan gebruiken.

Mijn voorkeur de laatste week is Haiku, deze is voor de meeste dingen goed en is sneller en goedkoper dan het Claude Sonnet model dat ik tot dan toe als voorkeur had. Deze gebruik ik in GitHub Copilot in Visual Studio Code.

Custom instructies etc. laat ik meestal door Gemini schrijven. Het lijkt er op dat als die dat doet ze het beste werken. De taal is zeer eenduidig en dat helpt uiteraard goed om minder potentieel verschil in interpretatie te krijgen.

Om met grotere repos te dealen probeer ik altijd elk type code uit elkaar te houden, geen sql opbouwen in Java, geen html met Java schrijven, geen inline script of style in een html bestand, configuratie en lijstjes met hard gecodeerde namen of waarden in een apart bestand etc.
Zo heb je per bestand minder verschillende kennis nodig. Ik probeer zo modulair mogelijk te werken zodat idealiter bestanden maximaal tussen de 100 en 200 regels code hebben.
Zo hoeft er minder ongerelateerde code in de context. En bij goede naamgeving is het ook voor mensen veel makkelijker te doorgronden waar wat in de repo staat én waar in het bestand iets moet worden aangepast.
Bijwerking is dat er minder interpretatie fouten of verwijder/edit fouten zijn van zowel de AI als de mens.

Ik geef het model altijd ook toestemming om de unit, tdd en bdd testen zelfstandig uit te voeren en fouten te corrigeren en voor een applicaties ook de browser bedienen.
Daar ik heb ik een scraper laten ontwikkelen die er voor zorgen dat ook alle JavaScript en css uitklappers worden bediend zodat ook alle images voor dynamische context getest worden, en die ook allemaal op kan slaan.
En voor handmatige input een mhtml kan omzetten naar een html met embedded base64 content, zodat je die ook statisch kan hosten en aanpassen en goed kunt testen.

[Reactie gewijzigd door djwice op 5 december 2025 13:12]

Bedankt voor je reactie, ik pik er even iets uit, voordat ik begin vndg:
Dat lijkt mij geweldig om te hebben, een BDD opzet voor end-to-end testen van de applicaties. En dat heb je dus met die skills opgezet. Hoe heb je die integratie gedaan, is dat met playwright or iets anders gedaan? Maak je dan een screenshot daarmee en die stop je in het model?
Ik heb er verschillende gemaakt. Een met https://github.com/ing-bank/INGenious maar ook een met het direct aansturen via selenium. En een die de view gebruikt in vscode (werkte niet goed). En natuurlijk de canvas versies.

Screenshot (PNG) zijn door veel modellen niet goed te verwerken, zeker pixel perfectie niet. Dus gebruik vooral de source analyse van de dom, en wat er laad/veranderd als je ergens iets laat typen, muis overheen gaan of op last klikken.

Maar gebruik BDD ook voor niet visueel gedrag zoals voor API's.

De Kiro skill is afgeleid van https://github.com/kirodotdev/Kiro (zie met name alles in de .github folder en dieper), dit kost wel heel veel tijd als je 1 LLM instance hebt doordat je sequentieel wacht op elke stap.

Collegas die geen GitHub Copilot licentie hebben of bij een klant zitten waar ze dat niet kunnen, gebruiken vaak https://www.continue.dev/ gecombineerd met https://github.com/vllm-project/vllm (of ollama).
https://docs.continue.dev...model-providers/more/vllm

[Reactie gewijzigd door djwice op 5 december 2025 13:17]

Vllm thuis draaien is geen probleem heb het eerder gebruikt, dus dat gedeelte komt wel goed, grafische kaart is alleen een beetje meh... En nog steeds heb ik de optie om een beetje geld van sinterklaas te vragen natuurlijk, het is immers 5 December vanavond.

INGenious, is misschien dan helemaal voor mij geschikt als ik lees wat het is, dus daar mee ga ik het proberen.

Top Thnx DJ!
Zat net op m'n Copilot+ ARM PC te kijken:
https://code.visualstudio...erview#_install-and-setup

Die heeft:
* DeepSeek R1 1.5B
* Phi 4 Reasoning 14.7B
* Phi Silica (word elke maand bijgewerkt)
* Qwen2.5 1.5B
* Qwen2.5 7B
* DeepSeek R1 7B
* DeepSeek R1 14B
* Phi 3.5 mini
* Phi 3.5 mini-128k context
* Phi 3.5 mini-4k context
lokaal voor NPU.

Maar ook CUDA geoptimaliseerde modellen.

[Reactie gewijzigd door djwice op 5 december 2025 23:50]

Ik zou je adviseren voor code te kijken naar modellen van Claude.
En zorg voor een copilot-instructions.md of een skill.md waarin je de juiste ontwerp keuzes en project context mee geeft.
Kijk ook naar Claude Haiku.
Welke taal heb je gevraagd in te schrijven? Ik heb redelijke ervaringen met Mistral op dat gebied met hun code modellen in combinatie met aider
Als ik dit zo lees is de scope van de tests vrij gelimiteerd en wordt er ook niet vergeleken met de top versies van de open source modellen.

Kimi k2 heeft bijvoorbeeld ook 1T totale parameters.

An sich niet verkeerd dat Mistral wel gedeeltelijk in de race blijft, want de modellen zijn echt niet slecht. Maar opschalen blijft een uitdaging
Lijkt me wel dat ze vergelijken met het 1T model van K2 afgaand op de grafieken in de "Base Model Benchmark".

[Reactie gewijzigd door kayjay op 2 december 2025 17:43]

Op het gebied van AI is Mistral aan het wedijveren met big-tech, en hopen dat het niet wordt uitgekocht. Het zou een noviteit zijn om ook de nieuwste thuis-pc direct te laten werken met AI van Mistral, bijvoorbeeld met Linux.
Gaaf! Als we de benchmarks mogen geloven is "Europa" redelijk bij weer.

En dat allemaal onder een Apache licentie! Open source.

Zelf gebruiken we hun OCR model op ons werk. Helaas is het bij ons nog altijd Microsoft voor na boven en links, dus het zonder enige vorm van nadenken gewoon "copilot" geworden.

Erg jammer want Mistral heeft (iets) beter Europese taal ondersteuning en je moet toch ook een beetje je eigen bedrijven steunen als het kan.

Alle succes en geluk voor deze mannen en vrouwen van Mistral!

[Reactie gewijzigd door ApexAlpha op 2 december 2025 17:38]

Kijk ook eens naar hun audio modellen. Werkt perfect als je met Franse audio werkt!
Deepseek in tussentijd ook weer v3.2 gereleased die aanzienlijk beter is. Dus kwa model zelf heeft die eigenlijk weinig waarde. (deepseek is beter en heeft kinder compute nodig).

Maar wel leuk dat Europa nog een beetje in de buurt en open source blijft.
Velen spreken hier over X is beter dan Y. Maar zo iets is toch heel moeilijk te meten...
Moet je echt persoonlijk ervaren denk ik. Een specifieke vraag of opdracht geven aan elk model ( waarvan je het antwoord zelf eigenlijk al weet). En dan kiezen welke voor je persoonlijk beste is.
Zelfde bij genereren van afbeeldingen etc.

Op dit item kan niet meer gereageerd worden.