Meta brengt 'efficiënter' taalmodel Llama 3.3 uit

Meta heeft Llama 3.3 70B uitgebracht. Het betreft een nieuwe versie van zijn Llama-taalmodel, dat 70 miljard parameters bevat. Llama 3.3 70B presteert volgens Meta bijna even goed als Llama 3.1 met 405 miljard parameters, maar met een lager energiegebruik.

Uit een tabel die een topman van Meta heeft gedeeld op X blijkt dat Llama 3.3 in heel wat benchmarks beter scoort dan zowel Llama 3.1 70B, Amazon Nova Pro en GPT-4o. Het nieuwe taalmodel zou ook goedkoper kunnen draaien. Llama 3.3 kan net zoals Llama 3.1 maximaal 128.000 tokens verwerken. Bij Llama 3 waren dat nog 8.000 tokens. Het nieuwe taalmodel ondersteunt acht talen: Engels, Duits, Frans, Italiaans, Portugees, Hindi, Spaans en Thais. Het Nederlands wordt niet officieel ondersteund.

Llama 3.3 is een opensourcemodel dat door iedereen gedownload kan worden. Gebruikers moeten wel data via HuggingFace delen voordat ze het model kunnen downloaden. Het gaat dan om de gebruikersnaam en het e-mailadres. Het model kan op dit moment enkel tekst genereren.

Door Jay Stout

Redacteur

07-12-2024 • 13:14

52

Submitter: RPS13

Reacties (52)

52
50
25
0
0
20
Wijzig sortering
Llama 3.3 is een open source-model dat door iedereen gedownload kan worden
Ik ben niet heel erg bekend met AI modellen en wat "open-source" hier betekend. Maar is de training code/het maken van het model ook beschikbaar dan?
Lijkt er wel op, zie ook https://github.com/meta-llama/llama-models. Llama 3.3 staat er ook tussen, maar is nogal karig qua source code. Ben er nog niet helemaal ingedoken. Maar uiteraard niet de data waarop het getraind is.

[Reactie gewijzigd door Anonymoussaurus op 7 december 2024 13:27]

Ja dit heb ik gezien, maar die modellen lijken gewoon "blobs", ik zie geen training code. Verder lijkt me die licentie ook niet erg "open" https://github.com/meta-l...n/models/llama3_3/LICENSE
Er zijn verschillende frameworks voor het prrtrainen van modellen beschikbaar. Zoek maar eens naar nanotron of (deepspeed) Megatron.
Het is ook meer open access dan open source, want je kunt het model gebruiken niet inzage in trainingsdata en parameters die gebruikt zijn.
Als ik het me goed herinner is de trainingsmethodologie van Meta openbaar en kunnen de modellen worden gedownload. De data zelf is niet openbaar vzv ik weet.
Ik weet dat https://github.com/meta-llama/llama bestaat maar dit is al lang niet meer geüpdatet, idealiter wil je gewoon dat je het zelf data kan geven en dan zelf trainen. Maar misschien is die code nog steeds relevant voor 3.3, het is een beetje vaag allemaal voor iemand met weinig kennis zoals ik.
Volgens mij kan je het met je eigen data verder trainen, aanvullend op wat er al in deze release zit, maar weet je niet met welke data het origineel is getrained.
Nee de data zelf niet, dat is ook extreem veel. Als je geen eigen datacenter hebt met duizenden servers dan kan je het toch niet nabouwen of zelfs maar alle brondata opslaan.
Het is geen open source - daar is een definitie voor en daaraan voldoet llama niet. Dus het is net zo open source als MS Windows - totaal niet. Zou mooi zijn als tweakers die definitie zou volgen.

https://opensource.org/ai/open-source-ai-definition
Of er een formele definitie van open source is weet ik niet, maar de Open Source Foundation is wel heel puristisch in wat zij er onder verstaan.

Zij zijn van mening dat open source altijd financieel gratis moet zijn. Terwijl de GNU Foundation iets anders zegt.

Ook zijn er zat licenties die als open source worden beschouwd, die commerciële financiële exploitatie toelaten.

Nou heb ik me niet verdiept in mee open source licenties van AI-modellen, maar ik weet wel dat de Open Source Foundation erg (naar mijn mening zelfs te) puristisch is, dus hun mening/visie neem ik zelf altijd met een korreltje zout.
Hum, ik weet niet wat je met de open source foundation bedoeld. De OSI is juist een stuk vriendelijker naar commercie dan de FSF - die überhaupt de term open source niet gebruiken want het gaat om “free as in free speech”.
Ik bedoelde inderdaad Open Source Initiative.
Het is wat heel zwart-wit om Llama op één hoop te gooien met closed-source software. Zonder het vrijgeven van de trainingsdata kan geen enkel model ooit open-source genoemd worden, en alleen al de grootte van die traningsdata maakt het onwaarschijnlijk dat je ooit een reproducible build kan maken.

Het zou inderdaad fijn zijn als er wat bruikbaardere labels zijn voor AI modellen. Maar op dit moment is Llama toch een van de betere keuzes voor als je AI wilt draaien op je eigen data, en wilt voorkomen dat jouw data onderdeel wordt van de volgende ChatGPT.
Nou ja dat het mooi is dat ze het model gratis beschikbaar stellen is natuurlijk zo maar dat maakt het niet open source. Als dat zo was was alles wat gratis is (bijv Adobes pdf viewer) ook open source en dat is natuurlijk onzin. Ze mogen het noemen wat het is - gratis. Niet open source, want je kunt de bron (data) niet aanpassen en dan opnieuw trainen.
Open source is een beetje ingewikkeld bij taalmodellen want er zijn verschillende vormen.
Persoonlijk gebruik ik open weights als in je mag de bestanden van het model downloaden. En dan open code voor het feit dat de code om het model te draaien open source is.

Open source zelf bedoelen ze code + weights dus je kan het in open source programma's gebruiken. Maar ze bedoelen dan weer niet open data. Kan ook niet want je hebt er vaak data in zitten die door autheursrecht wordt beschermd en die kan je dus niet zomaar opnieuw distribueren. Als ze een overeenkomt hebben om op een uitgevers boeken te trainen zou dat niet betekenen dat ze al die boeken op hun site mogen zetten.
Ja, dat doet meta structureel.

Ik heb afgelopen week llama 3.2 nog opnieuw kunnen trainen specifiek voor mijn NPU.

Ze hebben naast llama nog meer mooie modellen.
meestal wordt alleen de getrainde "gewichten" beschikbaar gesteld. Daarnaast kun je gebruikmaken van de gewichten om met jouw eigen data te trainen zodat het model wordt uitgebreid met deze extra "kennis". Veel afgeleide en verbeterde modellen zijn vaak gebaseerd op de standaard llama modellen.

[Reactie gewijzigd door invic op 11 december 2024 21:55]

Komt er ook een 405b variant beschikbaar,
Ik draai deze nu een tijdje vanuit ram, zal wel mooi zijn als dat ook een flinke update krijgt.
Is dit een beetje werkbaar?
Ik heb het een paar keer geprobeerd, maar vond het eerlijk gezegd niet super werken. Kan ook aan mijn setup liggen; mijn pc heeft maar 3600MHz DDR4-geheugen.

Ik gebruik nu LLaMA 3.1 8b, die via Python en Selenium internetzoekopdrachten doet en samenvat. Ook een alternatief. :)
Kwa realtime is het niet bruikbaar, heb het in een quad socket systeem, dus veel bandwidth.
Wat me wel opvalt slechts een thread vult het geheugen,
En er is bijna geen diskload, je zou verwachten dat er een kopie wordt gemaakt na je geheugen
Fantastisch, ik gebruik de llama 3 modellen vooral als ik aan het reizen ben met een slechte internet verbinding. Het vervangt zo praktische alle documentatie die ik anders zou Googelen.

Ten slotte https://devdocs.io/ voor de offline referenties en je kan zonder internet productief zijn.
Cool, hoe heb je de docs gekoppeld aan ollama, via de API functie? Kun je de code delen?
Je kan dit met Python scripten, je hebt alleen wel een vector database nodig voor zover ik weet.

Je gebruikt dan eerst een embedding model om de data goed in de vector database te krijgen en kan dan via ollama kan je de vector database als context gebruiken.

Ik heb de code hiervoor gewoon met chatgpt kunnen maken.

Als je de makkelijke route wilt hebben moet je ff naar n8n kijken. Dan heb je ook meteen een basic chat interface of een webhook om je user prompts in te proppen zonder dat allemaal zelf te hoeven maken.
Volgens mij heb je juist geen vector database nodig voor integratie, dat is het mooie:
https://ollama.com/blog/functions-as-tools
=>
https://github.com/ollama/ollama-python

Zie tools in https://github.com/ollama/ollama-python/tree/main/examples

[Reactie gewijzigd door djwice op 7 december 2024 17:22]

Tools werkten de laatste keer niet top dat ik dat probeerde. Maar zal er weer eens in duiken van de week.
Dit klinkt interessant. Op wat voor hardware draai je het en wat is de performance?
Ik heb zojuist Llama 3.3 70b grondig getest en het model presteert vrij goed, ook in het Nederlands. Ik vond het zelfs ietsje beter in sommige taken dan Qwen 2.5 70b, dat is echt impressive.
Past mooi in het geheugen op mijn mac mini (64GB), maar helaas maar 5 tokens per seconde :).
Hoeveel geheugen kan de GPU daarvan gebruiken?
Is dat 32GB of 24GB, of ..

Wordt ie sneller (en blijft ie goed antwoorden) als je het model kwantificeert? https://github.com/ollama...ort.md#quantizing-a-model

[Reactie gewijzigd door djwice op 7 december 2024 17:48]

Mac hebben tegenwoordig unified memory. Het kan al dat geheugen gebruiken. En met kleinere modellen (8B)en slechts 16GB ram loopt het als een zonnetje.
Cool. Ik dacht dat er een maximum.aan zat i.v.m. ruimte voor programma's, had zo iets gelezen, vandaar.
ik zou niet precies weten hoe macos z'n geheugen precies beheert, maar volgens mij zit er niet zo'n harde cap op.
Zit een foutje in de tekst, je hoeft geen data met huggingface te delen? Model is ook gewoon beschikbaar via Ollama? Daar hoef je via de command prompt alleen maar ollama pull lama3.3 te doen en download je zonder enige vorm van registratie het model.
Als je de trainingswaarden wil downloaden en gebruiken om het model zelf te trainen moet je op 🤗Hugging Face aangeven dat je het niet voor slechte doeleinden gaat gebruiken.
Je moet je email delen en akkoord gaan met de gebruikers voorwaarden die Meta aan het model hangt, maar dat moet je voor alle Llama modellen doen, niet alleen voor 3.3. Wel een beetje apart dat het niet hoeft als je het via Ollama downloadt.
@WoutF Wellicht een leuke POC dat jullie zelf Llama 3.3 her trainen op tweakers informatie.

Zodat het (lokale) model antwoord kan geven op die specifieke informatie in het Nederlands.

Je zou ook ollama kunnen gebruiken met de API feature op de search.

Ik merk dat CoPilot van Microsoft vaak het antwoord eerst intern in het Engels genegeerd en het daarna naar Nederlands vertaald.
Bijvoorbeeld bij gedichten moet je daarom zeer duidelijke instructies geven (een soort persona maken) om er structureel goede rijm uit te krijgen.
Llama 3.1 maximaal 128.000 tokens verwerken
Anders geformuleerd - 128k tokens slaan op de context window. maw, na hoeveel tokens begint ie te hallucineren voordat ie de context kwijtraakt. Standaard staan context lengths op 2048 tokens (bij ollama bijv), want het vreet enorm veel geheugen. Dus het is een leuke stat, maar niet super praktisch als je geen data center hebt.

Bizarre performance improvement, echt elke dag blijven de innovaties me verbazen.
Ik gebruik llama 3.1 persoonlijk met role playing. Dat is erg geinig en dan is die 128k wel zeer praktisch.

De meeste modellen gaan er aan onderdoor als het model niet ‘onthoudt’ dat is een gebouw/bos loopt, de karakters ruzie hebben, enz. (Wat het dus stom maakt).

Het model ontvangt dan iedere keer een aanzienlijk deel dialoog/gebeurtenissen, en dan gaat het met llama 3.1 echt heel goed.
Het is met kop schouders de beste die ik heb gevonden.

Een ander voordeel van llama 3.1 is dat hij volledig ongecensureerd is. Je kunt dus letterlijk alles er in verwerken.
Ik zou heel graag een best buy guide zien voor een low budget home server die een 70B model kan draaien. Als ik het goed begrijp is een pc met 3 12gb (>35 gb) kaarten voldoende. Maar ik heb er te weinig verstand van om die gok te wagen.
Ik vind de 70b modellen nog net buiten bereik voor de gewone consument. Het zou leuk zijn als ze een AI gpu zouden maken die veel vram heeft (64GB). Want het is niet de compute dat de bottleneck is, maar wel de vram. Als je te weinig hebt begint het te switchen met je systeem ram wat extreeem traag is. (de dubbele swap operatie niet de ram zelf)

Momenteel zijn de 8 en 13B modellen het best om op één GPU te draaien met 12gb vram

[Reactie gewijzigd door sebastienbo op 9 december 2024 18:56]

64GB RAM bij besteld. Nog een dagje wachten.

Op dit item kan niet meer gereageerd worden.