Franse AI-start-up Mistral brengt Small 3-AI-model met 24 miljard parameters uit

Franse AI-start-up Mistral komt met een nieuw AI-model, dat geschikt is om lokaal te draaien. Dit Mistral Small 3-model bestaat uit 24 miljard parameters en presteert volgens de makers vergelijkbaar met grotere taalmodellen. Het komt beschikbaar onder een Apache 2.0-licentie.

Mistral claimt dat zijn nieuwe Small 3-model 'kan concurreren' met grotere modellen als Meta's Llama 3.3 70B en Qwen 32B en beschrijft het ook als een open alternatief voor modellen als OpenAI's gpt4o-mini. "Mistral Small 3 is vergelijkbaar met Llama 3.3 70B Instruct, terwijl het meer dan drie keer sneller is op dezelfde hardware", claimt het bedrijf.

Mistral Small 3 komt beschikbaar als 'pre-trained model' en als een 'instruction tuned'-variant. De start-up deelt prestatieclaims van beide versies op zijn website en spreekt onder andere over een nauwkeurigheid van 81 procent in de MMLU-benchmark en een latency van 150 tokens per seconde. Het taalmodel is verder getraind zonder reinforcement learning of kunstmatige data en kan daarmee dienen als een basis voor aangepaste modellen, zegt het bedrijf.

Het Small 3-model is volgens Mistral onder andere geschikt voor gebruik in chatbots die snel antwoorden moeten geven. Het model kan daarnaast door de gebruiker verder gefinetuned worden om antwoorden over specifieke onderwerpen te geven, zoals de gezondheidszorg of juridisch advies. Nadat gebruikers het model 'gekwantificeerd' hebben, kan het volgens de makers lokaal draaien op een enkele RTX 4090 of een MacBook met 32GB ram.

Beide versies van het model worden vrijgegeven onder een Apache 2.0-licentie, waarmee gebruikers vrij zijn om het model 'op elke gewenste manier' te gebruiken en aan te passen. Mistral heeft ook een eigen MNPL-licentie. Modellen onder die overeenkomst zijn alleen gratis te gebruiken voor non-commerciële doeleinden; dat is bij Apache 2.0 niet het geval.

Door Daan van Monsjou

Nieuwsredacteur

30-01-2025 • 19:12

35

Submitter: gijsbertw

Reacties (35)

35
35
30
5
0
4
Wijzig sortering
@AverageNL

Je hebt het over een latency van
tokens per seconde.
It would be inaccurate to say that Large Language Models (LLMs) have a "latency" measured in tokens per second. This terminology conflates two distinct performance metrics that are important for LLM inference:

Latency vs. Throughput

Latency and throughput are separate metrics used to evaluate LLM performance:

Latency: This measures the time taken for an LLM to generate a response to a user's prompt. It is typically expressed in units of time, such as milliseconds or seconds. Latency can be further broken down into:
Time to First Token (TTFT): The time taken to produce the very first response token.
Time Per Output Token (TPOT): The average time taken to generate each subsequent token.
Total generation time: The overall time to complete the entire response4.
Throughput: This measures the processing capacity of an LLM and is often expressed in tokens per second (TPS) or tokens per minute (TPM). Throughput can refer to:
Total tokens per second: Including both input and output tokens.
Output tokens per second: Focusing only on generated completion tokens.

Why the Distinction Matters
The distinction between latency and throughput is crucial because they measure different aspects of LLM performance:

Latency affects the perceived responsiveness of the model, which is critical for real-time applications.
Throughput indicates the model's processing capacity, which is important for handling multiple requests or large volumes of data.

Correct Terminology
Instead of saying an LLM has a "latency" of tokens per second, it would be more accurate to describe its performance using separate metrics:

"The LLM has a latency of X seconds for generating Y tokens."
"The LLM has a throughput of Z tokens per second."

By using these metrics correctly, developers and researchers can more accurately assess and optimize LLM performance for specific use cases and applications.

[Reactie gewijzigd door Recursio op 30 januari 2025 22:50]

Ik vind het op zichzelf al een conceptueel vreemde metric, is het niet zo dat je tokens/seconde compleet afhankelijk is van de hardware waarop je hem draait?
Het is een combinatie van de hardware enerzijds, en wat je die hardware vraagt om te doen anderszijds.

Dus: snellere hardware (genoeg geheugen, snelle communicatiesnelheid, en de juiste soorten processoren (GPU/NPU/CPU)) helpt enerzijds, en anderszijds: welk model gebruik je (grootte, efficientie algoritmiek) en last but not least: hoe complex is de query (of: prompt, in LLM-speak - stiekem nog steeds een query).

Dus, nee, niet compleet (compleet = 100%) afhankelijk, maar invloedrijk in de performance is het wel.

Daarom dus ook belangrijk om precies te zien in hoe te performance uitdrukt, en nu juist dat is complex.

De precieze manieren van meten (zie post hierboven) zeggen bijvoorbeeld weinig over hoe tevreden je bent als gebruiker. En als de gebruiker een algoritme is gelden er weer andere criteria m.b.t. wat "goed" en wat "goed genoeg" is.

Dus kritisch lezen en nadenken, en blijf goed in de gaten houden welk probleem er opgelost moet worden. Daarna kun je pas gaan "waarderen" hoe goed een oplossing is.

Last but not least - als er statistieken genoemd worden, kijk dan goed of je die accepteren kunt - kloppen de meeteenheden (tokens per second is geen geschikte eenheid voor latency) en zo ja, of ze geloofwaardig zijn.
Waarom is het vreemd. Het is vergelijkbaar met FPS in games. Zeer afhankelijk van hardware maar gecombineerd met de hardware niet nutteloos.
Bij LLMs gaat het om woorden of ander soort objecten die gegenereerd worden en daarom wordt het tokens per seconde.
vind je dat ze het voor de zekerheid weg moeten laten en je geen enkele indicatie van snelheid hebt?
Mooi zo, straks eens testen met Ollama. Deepseek werkte vrij goed met 70b maar wel enkel in console, en een woord per seconde (wat lange denkfases wel vervelend maakte soms). 4090 met 64gb ram en maar 38gb daarvan was in gebruik, ik was onder de indruk.

Zou een 5090 zoveel beter doen met een 70b model? 10% sneller in gaming maar wel 30% meer vram, kan ik daar al benchmarks over vinden?
Gebruik een quantized model die ruim in je vram past. 70B Q2 model zit ongeveer op 18GB (afhankelijk van welk quantize strategie is gekozen), dat past prima in een GPU met 24GB vram, dan houdt je ook nog wat geheugen over voor context tokens, ongeveer 1-2GB per 2000 tokens, afhankelijk van het model. Dan haal je waarschijnlijk wel 15-30 tokens/s.

Meestal kun je op huggingface bij de gguf (zijn sneller dan safetensors+tranformer loader) files wel quantized versies vinden die in je vram passen, tenzij de combinatie van model parameter grootte en vram echt te ver uit elkaar liggen. Je gaat geen 400B model in een 4GB vram kunnen passen. Maar een 70B Q2 model zeker wel in 24GB of 70B Q3 in 32GB vram. Met een context van tussen de 5000-7000 tokens moet wel haalbaar zijn.

Ik draai mijn modellen in text-generation-webui overigens, is wat makkelijker experimenteren met nieuwe modellen.

Zodra het model ge-offload wordt naar CPU/shared ram zakt het aantal tokens per seconde enorm in. Als je minder CPU ram hebt dan het model groot is zal er van de disk geladen moeten worden, wat nog meer vertraging oplevert. Het model wordt meestal in z'n geheel in CPU ram gecached mits voldoende ram. Het is daarom aan te raden om minimaal 2x zoveel cpu ram te hebben in je systeem als vram.

Of je moet een systeem gebruiken met een unified geheugenbus zoals de mac mini M1-M4 of de in mei aangekondigde project DIGITS van nvidia met 128GB geheugen. Met dat laatste systeem kun je 200B Q3/4 modellen draaien. Dan houdt je nog ca. 28GB over voor 't systeem (linux) en context. Performance is nog onbekend maar heb schattingen gezien van rond de 5 tokens/s. Dat is iets sneller dan wat de meeste mensen kunnen lezen.
Toevallig heb ik de 7b van Deepseek vandaag ook met Ollama getest en werkte supersnel maar ook enkel in de console, de ollama webinterface kreeg ik niet aan de praat.
Hallucineerde hij niet vaak met de 7b versie? Heb het zelf niet getest maar zulke resultaten kwamen wel terug bij de enkelingen die ik ken.
Niet echt maar zoveel heb ik er eigenlijk niet mee gedaan, vond het nogal frustrerend om alles in de console te moeten doen ipv de webinterface.
Als je toevallig de docker versie probeerde kan het zijn dat webui een beetje langzaam opstart.
Zodra het model in het geheugen van de GPU past zit je goed met de snelheid.

Ik ben wel benieuwd hoe die nieuwe igpu's van AMD het gaan doen op dit soort modellen.
Aangezien die geen cuda cores hebben zal je daar eerst langs moeten werken.
GPU's van Intel en AMD werken prima out of the box voor het runnen van LLM's.
Ah? In tegenstelling tot het genereren van beelden dan?
Ja bij LTT YouTube: The RTX 5090 - Our Biggest Review Ever wordt een stukje AI behandeld.

Echter dit is nog zo basaal dat ik er, nog, niets mee kan. Zou wel leuk zijn voor hobby projecten op dit moment. Ook lokaal draaien en leren van mijn gemaakte werk (voor onderwijs) lijkt mij grappig. Helemaal omdat ik soms lessen wil finetunen en met AI gaat dit wel makkelijker om bijvoorbeeld de leerstijl aan te passen en zo dezelfde stof in een lesplan op een alternatieve manier aan te bieden. Het doen is vaak makkelijker dan het uitschrijven…
VRAM is met GPUs toch belangrijker.
4090 heeft als ik het goed heb 24GB
Waar de quantized nog steeds ~40 GB nodig heeft.
De rest gaat dan waarschijnlijk naar systeem ram wat significant trager/meer latency heeft.
Ik denk de grootste verbetering die je makkelijk kan maken is als of alles in VRAM past of je geheugen stukken sneller is. Maar zolang je nog steeds 10% systeem ram hebt dan zal dat een grote bottleneck blijven als ik het goed heb.
De mensen raden dan ook bijvoorbeeld dual 4090 aan omdat je dan dus wel het VRAM hebt.
Zelf zou ik van 1-2 tokens per seconde niet blij worden maar dat is natuurlijk persoonlijk.
Goh blij worden.. ik ben heel blij mee te kunnen experimenteren on the next frontier.. moet nog veel leren maar blij ben ik wel ja.. mr ik snap wat je bedoelt!
Gelukkig dat er tenminste nog één Europese partij is die een beetje mee kan doen. Maar zelfs voor hun open modellen (of andere open modellen zoals llama en deepseek) kan ik binnen Europa geen andere serverless hosters vinden die via API met bijvoorbeeld aider.chat of continue.dev kunnen werken.

Zijn de potentiële aanbieders in Europa allemaal zo bang dat ze de AI act in hun nek krijgen? Of de BREINs van dit continent, zoals GEITJE onlangs offline gehaald werd vanwege copyright-perikelen.

Is Europa zichzelf kapot aan het reguleren?
BREIN is geen regulering, maar een private partij die auteurrechten int.

Diezelfde auteursrechten worden in de VS vele malen strenger toegepast, alleen gebeurt dit enkel tegen normale personen en niet tegen miljardenbedrijven. Zoals ik eerder al postte: in de VS krijgt een enkel persoon die 1 muziekalbum download een boete van $220.000. Maar de wet is niet streng voor grote bedrijven: onlangs werd bekend dat Facebook een collectie van gepirateerde literaire werken gebruikte om hun AI modellen te trainen: miljoenen boeken en wetenschappelijke artikelen werden zonder toestemming gebruikt, terwijl die onder de wet exact dezelfde bescherming geniet als dat ene muziekalbum. Als de wet gelijk was, en we even voor het gemak een muziekalbum en een boek gelijk stelden, dan zou Facebook nu een boete van $1.332.000.000.000 (dertienhonderd miljard dollar) moeten betalen.

Maar gaat Facebook ook maar een fractie van dit bedrag betalen? Natuurlijk niet, als Facebook een boete krijgt zou me dat ten zeerste verbazen, en is die boete meer dan 50 miljoen bedraagt val ik van mijn stoel. En ik ben niet alleen in die aanname dat Facebook volledig vrijuit de rechten van auteurs mag schenden en de overheid hen geen strobreed in de weg zal leggen: als er ook maar een realistische kans wat dat Facebook een proportionele boete zou krijgen in verhouding emt de enorme misdaad die ze begingen, zou hun aandeel zo goed als niets meer waard zijn.

Waarom dat verschil? Omdat de VS volledig verzand is in een oligarchie: de wet dient enkel nog als stok voor de rijken om de armen mee te slaan, niet als middel voor gerechtigheid.

Geef me dan maar Europa, ze mogen hun lelijke AI plaatjes houden.

[Reactie gewijzigd door kiang op 30 januari 2025 20:36]

Ik zei dan ook "of de BREINs van dit continent". En we kunnen er van alles van vinden, maar de lakse houding van de VS en China m.b.t. auteursrechten (en andere dingen) t.o.v. het trainen van AI heeft ze geen windeieren gelegd. Zelfs als ze nu strenger gaan handhaven en reguleren hebben ze al een voorsprong opgebouwd.

Gelukkig (en opmerkelijk) dat er zoveel binnen de AI wereld gepubliceerd en zelfs open source is. Hoe groot zou de Europese achterstand anders zijn geweest?
Scaleway, een Europese cloud-provider, biedt APIs aan voor o.a. mistral-nemo-instruct-2407, pixtral-12b-2409, en llama-3.3-70b-instruct.
Thanks, dat is inderdaad wat ik zocht! Het is nog in bèta, maar dan wel gratis. Ik ben het nu aan het testen in Continue met qwen2.5-coder-32b-instruct. Een stapje beter dan het 14b-model dat mijn eigen GPU net aankan, quantitized, met dan ook nog een veel kleiner context window.
mistral-small-24b-base-2501-Q4_K_M.gguf is 13.35GB groot en draait net aan op een 4060 Ti met 16GB RAM. Afhankelijk van de instellingen met een slakkegang (2 tokens/sec) tot 18 tokens/sec.

Maar dat probleem heb ik vaker met Jan, dat afhankelijk van instellingen het model helemaal geen antwoord geeft, of traag is.

Maar hij geeft overzichtelijk antwoord op de vraag "Generat a prophet notebook for timeseries change point detection"...
1. Introduction
This tutorial explores the use of the Prophet package to detect change points in time series data. Change point detection is crucial for understanding shifts or anomalies in time series, which can indicate significant events or trends.

1.1 Objectives
By the end of this tutorial, you will be able to:
  • Understand the basics of change point detection.
  • Use Prophet to detect change points in time series data.
  • Interpret and visualize the detected change points.

[Reactie gewijzigd door Mars Warrior op 30 januari 2025 20:50]

Met CPU only op een Ryzen 9 12-core ca 2,3 tokens/sec. Niet slecht.
Weet je zeker dat het aan Jan ligt. Bij mij draaide alles wat hoorde te draaien binnen VRAM best goed en eigenlijk gelijk met hoe het hoort. Daarnaast had ik alleen timeouts bij veel te grote of net te grote modellen waardoor je ram toch dingen gaat doen en het intens traag wordt waar ik een timeout verwacht.
Jammer dat ze geen mobiele app hebben, anders had ik het graag gebruikt!
Je kan de website ook gewoon toevoegen aan je startscherm
Raar dat het als irrelevant wordt bestempeld, alle andere concurrenten hebben het wel! En ja, misschien weten tweakers wel dat je het als webapp kan gebruiken, maar niet een gemiddelde nederlander. Dan missen ze toch een groot stuk marktaandeel daardoor, wat jammer is want het zou mooi zijn als een Europese AI wat meer gebruikt wordt tov Amerikaanse en Chinese apps!
Ik ben benieuwd hoe dit draait op een mac mini 4 pro met 64GB. Begint best democratisch geprijsd te worden op deze manier

Vergelijking tussen mac mini en rtx4090 zou wel leuk zijn
Zolang het in je unified memory past zal het denk ik best goed draaien. Ik het verleden wel eens rtx vs Mac 2 of 3 pro gezien en daar deden ze het relatief goed voor geen dedicated gpu.
Er is nu zo veel nieuws over ai. Ik weet niet meer wat nou waar goed in is...
Is het niet een idee om dat soort dingen in een soort ai price watch , de ai watch ofzo te stoppen. 🥸
Of krijgen we dan een correctie van Apple 8)7
Ik denk niet dat dat echt tweakers taak is. De meeste proberen wel alle vlakken te verbeteren en goed te zijn. Vaak kun je relatief snel benchmarks vinden van de top 100 modellen ofzo en dan kun je vanuit daar kijken of het aansluit bij wat je wil/nodig hebt.
En zelfs dan blijft,proberen proberen proberen. Als je andere input geeft dan kan het zo dat het geen goede output geeft en het dus niet bij je past.

[Reactie gewijzigd door PaulHelper op 31 januari 2025 09:10]

De A.I.'s buitelen over elkaar heen en betwisten elkaars geboorterecht...
Hoe doen de grote commerciele modellen van Mistral het? Recent zocht ik nog naar een Europeze aanbieder die een beetje competitief is met ChatGPT. Ik dacht dat Anthropic Frans was omdat hun model Claude heette, maar dat bleek ook Amerikaans te zijn.
Impressive, ga deze eens proberen. AI in de meterkast, dat is denk ik wel de toekomst. Maar nou, gaan we morgen weer boomers zien die hun aandelen dumpen want ......?

[Reactie gewijzigd door Servowire op 30 januari 2025 19:43]

Op dit item kan niet meer gereageerd worden.