Meta brengt 'efficiënter' taalmodel Llama 3.3 uit

Meta heeft Llama 3.3 70B uitgebracht. Het betreft een nieuwe versie van zijn Llama-taalmodel, dat 70 miljard parameters bevat. Llama 3.3 70B presteert volgens Meta bijna even goed als Llama 3.1 met 405 miljard parameters, maar met een lager energiegebruik.

Uit een tabel die een topman van Meta heeft gedeeld op X blijkt dat Llama 3.3 in heel wat benchmarks beter scoort dan zowel Llama 3.1 70B, Amazon Nova Pro en GPT-4o. Het nieuwe taalmodel zou ook goedkoper kunnen draaien. Llama 3.3 kan net zoals Llama 3.1 maximaal 128.000 tokens verwerken. Bij Llama 3 waren dat nog 8.000 tokens. Het nieuwe taalmodel ondersteunt acht talen: Engels, Duits, Frans, Italiaans, Portugees, Hindi, Spaans en Thais. Het Nederlands wordt niet officieel ondersteund.

Llama 3.3 is een opensourcemodel dat door iedereen gedownload kan worden. Gebruikers moeten wel data via HuggingFace delen voordat ze het model kunnen downloaden. Het gaat dan om de gebruikersnaam en het e-mailadres. Het model kan op dit moment enkel tekst genereren.

IT-banen

Reacties (52)

Jerryy 7 december 2024 13:21

Llama 3.3 is een open source-model dat door iedereen gedownload kan worden

Ik ben niet heel erg bekend met AI modellen en wat "open-source" hier betekend. Maar is de training code/het maken van het model ook beschikbaar dan?

Anonymoussaurus @Jerryy • 7 december 2024 13:26

Lijkt er wel op, zie ook https://github.com/meta-llama/llama-models. Llama 3.3 staat er ook tussen, maar is nogal karig qua source code. Ben er nog niet helemaal ingedoken. Maar uiteraard niet de data waarop het getraind is.

[Reactie gewijzigd door Anonymoussaurus op 7 december 2024 13:27]

Jerryy @Anonymoussaurus • 7 december 2024 13:34

Ja dit heb ik gezien, maar die modellen lijken gewoon "blobs", ik zie geen training code. Verder lijkt me die licentie ook niet erg "open" https://github.com/meta-l...n/models/llama3_3/LICENSE

BramVroy @Jerryy • 7 december 2024 14:03

Er zijn verschillende frameworks voor het prrtrainen van modellen beschikbaar. Zoek maar eens naar nanotron of (deepspeed) Megatron.

Vaevictis_ @Jerryy • 7 december 2024 16:47

Het is ook meer open access dan open source, want je kunt het model gebruiken niet inzage in trainingsdata en parameters die gebruikt zijn.

Shal-Ziar @Jerryy • 7 december 2024 13:25

Als ik het me goed herinner is de trainingsmethodologie van Meta openbaar en kunnen de modellen worden gedownload. De data zelf is niet openbaar vzv ik weet.

Jerryy @Shal-Ziar • 7 december 2024 13:32

Ik weet dat https://github.com/meta-llama/llama bestaat maar dit is al lang niet meer geüpdatet, idealiter wil je gewoon dat je het zelf data kan geven en dan zelf trainen. Maar misschien is die code nog steeds relevant voor 3.3, het is een beetje vaag allemaal voor iemand met weinig kennis zoals ik.

svenk91 @Jerryy • 7 december 2024 16:10

Volgens mij kan je het met je eigen data verder trainen, aanvullend op wat er al in deze release zit, maar weet je niet met welke data het origineel is getrained.

Llopigat

Meta
Internet

@Shal-Ziar • 8 december 2024 21:06

Nee de data zelf niet, dat is ook extreem veel. Als je geen eigen datacenter hebt met duizenden servers dan kan je het toch niet nabouwen of zelfs maar alle brondata opslaan.

Superstoned @Jerryy • 8 december 2024 08:39

Het is geen open source - daar is een definitie voor en daaraan voldoet llama niet. Dus het is net zo open source als MS Windows - totaal niet. Zou mooi zijn als tweakers die definitie zou volgen.

https://opensource.org/ai/open-source-ai-definition

lenwar

Internet
Meta

@Superstoned • 8 december 2024 10:43

Of er een formele definitie van open source is weet ik niet, maar de Open Source Foundation is wel heel puristisch in wat zij er onder verstaan.

Zij zijn van mening dat open source altijd financieel gratis moet zijn. Terwijl de GNU Foundation iets anders zegt.

Ook zijn er zat licenties die als open source worden beschouwd, die commerciële financiële exploitatie toelaten.

Nou heb ik me niet verdiept in mee open source licenties van AI-modellen, maar ik weet wel dat de Open Source Foundation erg (naar mijn mening zelfs te) puristisch is, dus hun mening/visie neem ik zelf altijd met een korreltje zout.

Superstoned @lenwar • 11 december 2024 07:58

Hum, ik weet niet wat je met de open source foundation bedoeld. De OSI is juist een stuk vriendelijker naar commercie dan de FSF - die überhaupt de term open source niet gebruiken want het gaat om “free as in free speech”.

lenwar

Internet
Meta

@Superstoned • 11 december 2024 08:14

Ik bedoelde inderdaad Open Source Initiative.

d3burt

@Superstoned • 9 december 2024 02:24

Het is wat heel zwart-wit om Llama op één hoop te gooien met closed-source software. Zonder het vrijgeven van de trainingsdata kan geen enkel model ooit open-source genoemd worden, en alleen al de grootte van die traningsdata maakt het onwaarschijnlijk dat je ooit een reproducible build kan maken.

Het zou inderdaad fijn zijn als er wat bruikbaardere labels zijn voor AI modellen. Maar op dit moment is Llama toch een van de betere keuzes voor als je AI wilt draaien op je eigen data, en wilt voorkomen dat jouw data onderdeel wordt van de volgende ChatGPT.

Superstoned @d3burt • 11 december 2024 07:57

Nou ja dat het mooi is dat ze het model gratis beschikbaar stellen is natuurlijk zo maar dat maakt het niet open source. Als dat zo was was alles wat gratis is (bijv Adobes pdf viewer) ook open source en dat is natuurlijk onzin. Ze mogen het noemen wat het is - gratis. Niet open source, want je kunt de bron (data) niet aanpassen en dan opnieuw trainen.

henk717 @Jerryy • 8 december 2024 02:39

Open source is een beetje ingewikkeld bij taalmodellen want er zijn verschillende vormen.
Persoonlijk gebruik ik open weights als in je mag de bestanden van het model downloaden. En dan open code voor het feit dat de code om het model te draaien open source is.

Open source zelf bedoelen ze code + weights dus je kan het in open source programma's gebruiken. Maar ze bedoelen dan weer niet open data. Kan ook niet want je hebt er vaak data in zitten die door autheursrecht wordt beschermd en die kan je dus niet zomaar opnieuw distribueren. Als ze een overeenkomt hebben om op een uitgevers boeken te trainen zou dat niet betekenen dat ze al die boeken op hun site mogen zetten.

djwice

@Jerryy • 7 december 2024 16:45

Ja, dat doet meta structureel.

Ik heb afgelopen week llama 3.2 nog opnieuw kunnen trainen specifiek voor mijn NPU.

Ze hebben naast llama nog meer mooie modellen.

invic @Jerryy • 11 december 2024 21:53

meestal wordt alleen de getrainde "gewichten" beschikbaar gesteld. Daarnaast kun je gebruikmaken van de gewichten om met jouw eigen data te trainen zodat het model wordt uitgebreid met deze extra "kennis". Veel afgeleide en verbeterde modellen zijn vaak gebaseerd op de standaard llama modellen.

[Reactie gewijzigd door invic op 11 december 2024 21:55]

itcouldbeanyone 7 december 2024 13:25

Komt er ook een 405b variant beschikbaar,
Ik draai deze nu een tijdje vanuit ram, zal wel mooi zijn als dat ook een flinke update krijgt.

steina @itcouldbeanyone • 7 december 2024 21:21

Is dit een beetje werkbaar?
Ik heb het een paar keer geprobeerd, maar vond het eerlijk gezegd niet super werken. Kan ook aan mijn setup liggen; mijn pc heeft maar 3600MHz DDR4-geheugen.

Ik gebruik nu LLaMA 3.1 8b, die via Python en Selenium internetzoekopdrachten doet en samenvat. Ook een alternatief.

itcouldbeanyone @steina • 8 december 2024 11:16

Kwa realtime is het niet bruikbaar, heb het in een quad socket systeem, dus veel bandwidth.
Wat me wel opvalt slechts een thread vult het geheugen,
En er is bijna geen diskload, je zou verwachten dat er een kopie wordt gemaakt na je geheugen

unglaublich 7 december 2024 14:30

Fantastisch, ik gebruik de llama 3 modellen vooral als ik aan het reizen ben met een slechte internet verbinding. Het vervangt zo praktische alle documentatie die ik anders zou Googelen.

Ten slotte https://devdocs.io/ voor de offline referenties en je kan zonder internet productief zijn.

djwice

@unglaublich • 7 december 2024 16:59

Cool, hoe heb je de docs gekoppeld aan ollama, via de API functie? Kun je de code delen?

themadone @djwice • 7 december 2024 17:07

Je kan dit met Python scripten, je hebt alleen wel een vector database nodig voor zover ik weet.

Je gebruikt dan eerst een embedding model om de data goed in de vector database te krijgen en kan dan via ollama kan je de vector database als context gebruiken.

Ik heb de code hiervoor gewoon met chatgpt kunnen maken.

Als je de makkelijke route wilt hebben moet je ff naar n8n kijken. Dan heb je ook meteen een basic chat interface of een webhook om je user prompts in te proppen zonder dat allemaal zelf te hoeven maken.

djwice

@themadone • 7 december 2024 17:18

Volgens mij heb je juist geen vector database nodig voor integratie, dat is het mooie:
https://ollama.com/blog/functions-as-tools
=>
https://github.com/ollama/ollama-python

Zie tools in https://github.com/ollama/ollama-python/tree/main/examples

[Reactie gewijzigd door djwice op 7 december 2024 17:22]

themadone @djwice • 7 december 2024 17:34

Tools werkten de laatste keer niet top dat ik dat probeerde. Maar zal er weer eens in duiken van de week.

gordian @unglaublich • 7 december 2024 20:08

Dit klinkt interessant. Op wat voor hardware draai je het en wat is de performance?

jzn21 7 december 2024 13:29

Ik heb zojuist Llama 3.3 70b grondig getest en het model presteert vrij goed, ook in het Nederlands. Ik vond het zelfs ietsje beter in sommige taken dan Qwen 2.5 70b, dat is echt impressive.

CopyCatz 7 december 2024 15:41

Past mooi in het geheugen op mijn mac mini (64GB), maar helaas maar 5 tokens per seconde

djwice

@CopyCatz • 7 december 2024 17:46

Hoeveel geheugen kan de GPU daarvan gebruiken?
Is dat 32GB of 24GB, of ..

Wordt ie sneller (en blijft ie goed antwoorden) als je het model kwantificeert? https://github.com/ollama...ort.md#quantizing-a-model

[Reactie gewijzigd door djwice op 7 december 2024 17:48]

brobro @djwice • 7 december 2024 23:15

Mac hebben tegenwoordig unified memory. Het kan al dat geheugen gebruiken. En met kleinere modellen (8B)en slechts 16GB ram loopt het als een zonnetje.

djwice

@brobro • 8 december 2024 00:00

Cool. Ik dacht dat er een maximum.aan zat i.v.m. ruimte voor programma's, had zo iets gelezen, vandaar.

brobro @djwice • 9 december 2024 19:25

ik zou niet precies weten hoe macos z'n geheugen precies beheert, maar volgens mij zit er niet zo'n harde cap op.

themadone 7 december 2024 16:03

Zit een foutje in de tekst, je hoeft geen data met huggingface te delen? Model is ook gewoon beschikbaar via Ollama? Daar hoef je via de command prompt alleen maar ollama pull lama3.3 te doen en download je zonder enige vorm van registratie het model.

djwice

@themadone • 7 december 2024 17:51

Als je de trainingswaarden wil downloaden en gebruiken om het model zelf te trainen moet je op 🤗Hugging Face aangeven dat je het niet voor slechte doeleinden gaat gebruiken.

AbuFalafel @themadone • 7 december 2024 21:31

Je moet je email delen en akkoord gaan met de gebruikers voorwaarden die Meta aan het model hangt, maar dat moet je voor alle Llama modellen doen, niet alleen voor 3.3. Wel een beetje apart dat het niet hoeft als je het via Ollama downloadt.

djwice

7 december 2024 16:56

@WoutF Wellicht een leuke POC dat jullie zelf Llama 3.3 her trainen op tweakers informatie.

Zodat het (lokale) model antwoord kan geven op die specifieke informatie in het Nederlands.

Je zou ook ollama kunnen gebruiken met de API feature op de search.

Ik merk dat CoPilot van Microsoft vaak het antwoord eerst intern in het Engels genegeerd en het daarna naar Nederlands vertaald.
Bijvoorbeeld bij gedichten moet je daarom zeer duidelijke instructies geven (een soort persona maken) om er structureel goede rijm uit te krijgen.

z1rconium 7 december 2024 19:57

Llama 3.1 maximaal 128.000 tokens verwerken

Anders geformuleerd - 128k tokens slaan op de context window. maw, na hoeveel tokens begint ie te hallucineren voordat ie de context kwijtraakt. Standaard staan context lengths op 2048 tokens (bij ollama bijv), want het vreet enorm veel geheugen. Dus het is een leuke stat, maar niet super praktisch als je geen data center hebt.

Bizarre performance improvement, echt elke dag blijven de innovaties me verbazen.

lenwar

Internet
Meta

@z1rconium • 7 december 2024 21:45

Ik gebruik llama 3.1 persoonlijk met role playing. Dat is erg geinig en dan is die 128k wel zeer praktisch.

De meeste modellen gaan er aan onderdoor als het model niet ‘onthoudt’ dat is een gebouw/bos loopt, de karakters ruzie hebben, enz. (Wat het dus stom maakt).

Het model ontvangt dan iedere keer een aanzienlijk deel dialoog/gebeurtenissen, en dan gaat het met llama 3.1 echt heel goed.
Het is met kop schouders de beste die ik heb gevonden.

Een ander voordeel van llama 3.1 is dat hij volledig ongecensureerd is. Je kunt dus letterlijk alles er in verwerken.

Dociler 8 december 2024 14:02

Ik zou heel graag een best buy guide zien voor een low budget home server die een 70B model kan draaien. Als ik het goed begrijp is een pc met 3 12gb (>35 gb) kaarten voldoende. Maar ik heb er te weinig verstand van om die gok te wagen.

sebastienbo @Dociler • 9 december 2024 18:55

Ik vind de 70b modellen nog net buiten bereik voor de gewone consument. Het zou leuk zijn als ze een AI gpu zouden maken die veel vram heeft (64GB). Want het is niet de compute dat de bottleneck is, maar wel de vram. Als je te weinig hebt begint het te switchen met je systeem ram wat extreeem traag is. (de dubbele swap operatie niet de ram zelf)

Momenteel zijn de 8 en 13B modellen het best om op één GPU te draaien met 12gb vram

[Reactie gewijzigd door sebastienbo op 9 december 2024 18:56]

pk128934 8 december 2024 16:59

64GB RAM bij besteld. Nog een dagje wachten.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (52)

Sorteer op:

Weergave: