Meta brengt Llama 4 begin volgend jaar uit

Meta brengt zijn volgende generatie AI-model Llama 4 begin volgend jaar uit. Dat heeft directeur Mark Zuckerberg gezegd in een toelichting op de kwartaalcijfers. Llama 3 kwam dit voorjaar uit.

De training voor Llama 4 is nu bezig, claimt Zuckerberg. "We trainen de Llama 4-modellen op een cluster dat groter is dan 100.000 H100's en dat is groter dan alles wat ik heb gezien over wat anderen doen." Die H100's zijn Nvidia H100-GPU's, die bedrijven gebruiken voor het trainen van AI-modellen.

Er komen diverse modellen, zegt Zuckerberg. Dat was bij eerdere Llama-generaties ook al. "Ik verwacht dat de kleinere Llama 4 modellen het eerst klaar zullen zijn en ze zullen naar verwachting ergens begin volgend jaar klaar zijn." Wanneer de grotere modellen klaar zullen zijn, zegt Zuckerberg niet.

Llama 4 moet op diverse punten een stap vooruit zijn. "Er komen nieuwe modaliteiten en nieuwe mogelijkheden, de modellen kunnen sterker redeneren en ze zijn veel sneller", claimt Zuckerberg. Llama 3 kwam in april uit. De nieuwste versie is Llama 3.2.

Door Arnoud Wokke

Redacteur Tweakers

31-10-2024 • 19:49

33

Reacties (33)

33
33
17
3
0
15
Wijzig sortering
Nice. Llama 3.1 is echt geweldig, een flinke vooruitgang op Llama 2 die al een vooruitgang op Llama 1 was. Ik ben echt verbaasd hoe goed zo'n 'klein' 8b parameter model is. Met ollama, openwebui en integraties (custom tools, zoekintegratie) vind ik het net zo bruikbaar als GPT-4. En helemaal zelf gehost dus mijn data blijft van mij, en ik kan uncensored modellen gebruiken.

Ik ben nog niet overgegaan naar Llama 3.2 omdat het enige voordeel de multimodal (afbeeldingsherkenning) is, en wat nieuwere nog kleinere modellen die ik ook niet nodig heb want 8b gaat prima op mijn AI server. Bovendien ondersteunt ollama de multimodal van Llama 3.2 nog niet.

[Reactie gewijzigd door Llopigat op 31 oktober 2024 19:54]

Heb je die 'AI server' specifiek gekocht/gebouwd om GPT modellen op te draaien? Of dient die meerdere doeleinden?
Wat heb je gekozen en valt het stand-by verbruik mee?
Geen GPT modellen natuurlijk. Die zijn specifiek van OpenAI. Wel andere LLM modellen.

Ik heb die inderdaad speciaal gebouwd. Ik heb ook een game PC met 4090 maar die wilde ik niet inzetten hiervoor. Ik gebruik een Radeon VII Pro, die vond ik hier in de pricewatch nieuw voor 289 euro. Gewoon bij MeGekko. Helaas heb ik er toen maar 1 gekocht, baal ik nu een beetje van want hij is niet meer te krijgen. Heeft 16GB HBM2 geheugen met een geheugenbandbreedte van 1TB/s, evenveel als de 4090! Omdat dit een van de belangrijkste zaken is bij LLM's is hij bijna even snel als die 4090. Met Llama 3.1 8b is het gewoon retesnel mits je de context beperkt houdt. Volledige context kan ik sowieso niet gebruiken want context is extreem 'duur' qua geheugen. Na 40000 tokens is de 16GB al vol. Dit komt onder meer doordat ollama momenteel de context niet quantificeert. Daar wordt echter wel aan gewerkt, er is een pull request ingediend. De 'backend' llama.cpp ondersteunt het al dus ik denk dat het wel snel geintegreerd zal worden. Met Q8 (8 bit int) zal je al snel richting de 80000 tokens kunnen gaan met 16GB.

Nou moet ik wel zeggen dat niet alles ondersteund wordt op Radeon. Veel software ondersteunt alleen CUDA (en vaak Metal voor Apple) maar geen ROCm (AMD's tegenhanger van CUDA). Bijvoorbeeld sommige image generatie software. Maar dat interesseert me toch niet zo. Met ROCm was het wat lastiger aan de praat te krijgen maar als het eenmaal draait werkt het uit de kunst. En ik had zo gewoon veel meer kaart voor mijn geld dan met een GeForce.

Verder zit er een Ryzen 2600 in die ik nog had liggen, en 64GB RAM. Idle verbruik is 50W. Beetje hoog, maar omdat ik alle hardware behalve de videokaart nog had liggen, is het niet zo erg want ik heb daar veel mee bespaard. Bovendien heb ik nooit echt de moeite gedaan om dit te optimaliseren (stroom kost hier ongeveer 14c per kWh incl BTW). Tijdens een query kan hij richting 350W gaan.

Ik heb hem gekoppeld aan diverse mobiele apps, firefox, aan home assistant (voor de spraakbediening), openwebui, en sillytavern. De server draait verder ook nog Whisper (binnen openwebui geintegreerd) en Piper voor TTS. De betere TTS opties gebruik ik niet omdat die de GPU nodig hebben en die hou ik liever exclusief voor LLM om die snel te houden. Bovendien werkt Piper goed genoeg en is zelfs snel op een raspberry dus op zo'n server helemaal prima.

Je kan met python simpele 'tools' ontwikkelen in OpenWebUI (en er zijn er ook veel zo te downloaden!) die de LLM op eigen initiatief kan gebruiken, en daarmee live info op kan zoeken of acties uit kan voeren. Helaas werkt het aanroepen daarvan nog niet zo geweldig (vaak gebruikt hij de tool niet en hallucineert het antwoord). Dit is een van de dingen waarvan ik verwacht dat Llama 4 het wel gaat verbeteren.

Wat ik momenteel nog graag zou willen zijn voice sattelieten zodat ik er direct tegen kan praten. Liefst zelfs zonder Home Assistant er tussen want via OpenWebUI kan ik google searches (via SearXNG die ik toch al had draaien!) en andere tools gebruiken. Maar een goede manier heb ik nog niet gevonden. Ik heb wel al wat raspberry pi zero W 2's klaarliggen en ReSpeaker boards van een tientje.

PS: Llama 3.2 gebruik ik nog niet want ollama ondersteunt de 11b modellen niet. Bovendien is de LLM daar niet verbeterd, er is alleen imageherkenning toegevoegd en dat is eigenlijk niet iets dat ik vaak gebruik. Dan hou ik het geheugen liever vrij voor meer context.

Ik laat altijd hetzelfde model in de GPU memory staan, want het wisselen van modellen kost enkele seconden en dat wordt dus bij de responstijd opgeteld. Responstijd is behoorlijk snel mits je de context kort houdt. Want die moet ook helemaal ingeladen worden als uitgebreide key value store (enkele gigabytes bij grote context)

Ik heb nog een account bij OpenAI met wat geld erop. Ik kan vanuit OpenWebUI naadloos tussen mijn eigen server kiezen en ChatGPT, en ik kan bovendien zelfs de query tegelijk naar beiden sturen en de output vergelijken als ik wil! Maar voor de meeste dingen is mijn huidige opzet goed genoeg en vaak zelfs beter omdat ChatGPT erg gecensureerd is. Maar het hangt ervan af waar je het voor gebruikt. Als 'vraagbaak' is een klein model minder geschikt, maar dat is toch iets waar ik liever een combo met zoekmachine voor gebruik.

[Reactie gewijzigd door Llopigat op 1 november 2024 01:03]

Ik ben heel benieuwd, waar merk je het censureren van ChatGPT? Ik gebruik namelijk alleen ChatGPT, ik zie wel dat hij extreem correct is (politiek bijv) maar benieuwd waar anderen nog meer tegen aan lopen wat ik niet per sé door heb misschien.
Sexuele dingen. Dan krijg je al heel snel 'I cannot create explicit content" en wordt de hele discussie gestopt. Ook ziet het dingen als transsexualiteit als 'omstreden'. In mijn omgeving loop ik hier veel tegen aan. Zelfs op het werk (een van mijn zijdelingse functies is helpen bij het maken van informatiepakketten voor managers op dat gebied), verslikt copilot zich daar ook vaak in. Nou is copilot ook gewoon ChatGPT natuurlijk.

[Reactie gewijzigd door Llopigat op 1 november 2024 08:28]

Ok explicit content snap ik. Glijdende schaal wat dan 'explicit' is maar alas.
Wat betreft die tweede opmerking, vind ik dat nog wel meevallen, het ís toch ook omstreden (even los van wat je er van vindt!). Dus dat voelt voor mij 'objectiever'?
Ik vind het helemaal niet omstreden. Het wordt aangevochten door Amerikaanse conservatieven en tegenwoordig ook in Nederland. Maar de rest van Europa (behalve Hongarije en Polen) is er gelukkig wel blij mee. Maar daar wordt via die AI beperkingen toch de Amerikaanse moraal opgedrongen. Dat vind ik het probleem.

[Reactie gewijzigd door Llopigat op 1 november 2024 09:24]

Nee maar het feit dat we er nu samen niet uitkomen of het omstreden is, is toch bewijs dat het omstreden is?
Er is een spectrum van mensen over elk onderwerp, en we zitten als Nederlandse, Europese en wereldbevolking niet allemaal op hetzelfde punt in de schaal. Dus het is omstreden. De mate van omstreden verschilt misschien.

Ik heb ervaring met een hoop mensen die echt niet 'alt right' zijn die een hoop moeite hebben met het topic, daaruit concludeer ik dat het omstreden is.

Dat ChatGPT dingen zegt die niet passen binnen jouw ervaring, maakt het geen censuur.

[het gesprek gaat de verkeerde kant op, want ik ben juist van mening dat ChatGPT overdreven correct is, ook juist over topics zoals transgenderism. Maar nu hebben we een discussie over of transgenderism hier omstreden is of niet.]

Jouw punt is correct denk ik, de Amerikaanse moraal wordt ons opgedrongen. En laten we wel wezen, dat is altijd onze wens geweest. Amerika is al eeuwen de voorloper op het gebied van een niet-monarchische democratie, een volk-gedreven overheid, absolute vrijheid van meningsuiting, de-segregatie, etc.
Dan kunnen we Amerika de afgelopen 10-20 jaar een pervers landje zijn gaan vinden, maar het is tot heel recent gewoon het beste jongetje uit de klas geweest voor wat betreft cultuur, economie en politiek.
Bedankt voor de uitgebreide reactie!
Je bent aan het doen wat ik ooit hoop te kunnen doen (LLM icm ESP/raspberry based voice assistants etc).
Maar het hoge verbruik (50 Watt idle) en de momenteel nog hoge techniciteit om het allemaal op te zetten (zeker als je geen dure NVIDIA GPU maar een iets redelijkere AMD neemt) houden me tegen.
Nog een paar jaar geduld voor mij gok ik.
Je kan alles lokaal draaien met Ollama + openweb-ui. Zo kan je lokaal via een web-interface uw eigen AI draaien. Als er een nieuw model uitkomt zoals Llama 4 dan je dat ook uit een dropdown selecteren. Ze ondersteunen vele open source modellen.

Het verbruikt enkel GPU kracht als je een prompt maakt, daarna is er geen verbruik.

[Reactie gewijzigd door Coolstart op 31 oktober 2024 21:01]

Het verbruikt enkel GPU kracht als je een prompt maakt, daarna is er geen verbruik.
Elke GPU heeft idle verbruik dan kan oplopen tot vele tientallen watts. Bij 24x7 bedrijf kan dat dus best het nodige kosten per jaar aan stroom.

En afhankelijk van de prompt kan een dikke GPU flink wat extra pakken.
De idle kost is verwaarloosbaar. Zeker als je het op een Laptop draait. Desktops of servers verbruiken meer maar de idle kost ook verwaarloosbaar.

De kosten van een server te hosten zijn vele malen hoger dan de idle kost. Factor 100 tot 1000 meer dan de idle energie kost.

De echte kost van idle voor een bedrijf is dat ze iets van hardware gekocht hebben dat niet benut wordt. Dat is pas een kost.

Als je zelf een AI draait is er virtueel geen idle cost want je had uw computer al. Laptops zoals een Macbook pro M4 max verbruiken amper meer dan een Macbook pro M4 pro, ondanks de dubbele rekenkracht. Dus idle kost je het niet meer.

Het is voor eigen gebruikm het zelfde als afvragen wat de kost van Photoshop is als je het programma opendoet maar er niets met doet.
https://chat.webllm.ai/ kun je ook gebruiken, de modellen draaien volledig lokaal op je PC in je browser.
Dus hoe krachtiger je GPU/NPU hoe sneller de llama (Meta), Gemma(Google) en phi(Microsoft) etc. modellen lokaal draaien.
Nederlandse taal wordt ook ondersteund of dat dan weer niet met 3.1?
Hij begrijpt het altijd wel. Ik stop er wel eens Nederlandse tekst in en dat gaat prima. Hij antwoordt dan in het Engels maar dat komt mede doordat mijn prompt Engels is. Of het officieel ondersteund wordt weet ik niet. Ik gebruik normaal geen Nederlands met mijn LLM, ik woon ook niet in Nederland. Alle computers, mobieltje apparaten enz staan ook op Engels.

Edit: er zijn ook kleine modellen die het in elk geval ondersteunen: https://ollama.com/library/aya-expanse

[Reactie gewijzigd door Llopigat op 1 november 2024 03:35]

Wat is het verdien model eigenlijk van Llama? Als ik dit zo lees moet dit echt miljoenen of misschien wel miljarden aan rekenkracht gekost hebben.
Facebook ads
Insta ads
Om gebruikers te behouden en adverteerders mag er niet teveel gepest worden, extreme haat zijn, etc
Nu word dit geregeld door een legertje klikfarms. Die zijn meer en meer vervangen door AI.
Hoe meer research naar dit soort modellen hoe beter.. Des te sneller kan Meta die problemen oplossen is waarschijnlijk de redenering achter open source modellen
Of gewoon een ondernemer die eerst zorgt voor waarde en daarna kijkt welk verdien model er bij gaat passen.

Ik krijg aanbiedingen als: als je voor €1,- per persoon het leven van die mensen een beetje beter maakt, investeer ik, minimaal tientallen miljoenen. Een extra glimlach, een goed gevoel, iets dat hen helpt iets te doen dat anders niet of lastiger ging is voldoende.

Als dit wordt bereikt is het goed. En de overtuiging is, dat als je dit bereikt er vanzelf een business model zal ontstaan, dat je daar niet druk om hoeft te maken.

Soms hebben mensen zo veel geld dat ze simpelweg zoeken naar een positieve impact kunnen maken op de mensen als primair doel. De rest is bijzaak.
Ze zoeken naar manieren waarop hun geld nuttig kan zijn, op een manier die anderen nog niet faciliteren.

[Reactie gewijzigd door djwice op 31 oktober 2024 21:15]

Nu word dit geregeld door een legertje klikfarms. Die zijn meer en meer vervangen door AI.
Hoe meer research naar dit soort modellen hoe beter.. Des te sneller kan Meta die problemen oplossen is waarschijnlijk de redenering achter open source modellen
Nou, dat zal tegenvallen want de moderators worden dan wel met AI gedaan (al zit er momenteel bij facebook nog wel een mens tussen!), maar de bots worden tegenwoordig ook met AI aangestuurd dus die kunnen veel meer fake accounts aanmaken die echt lijken omdat ze vaak dingen posten.

Dus het probleem oplossen wordt lastiger, maar aan de andere kant wordt de 'vijand' ook veel krachtiger door AI. Het probleem raakt hierdoor meer in een stroomversnelling. Dit zie je op het gebied van cybersecurity ook. Veel cybersecurity verdedigingstools gebruiken nu AI, maar de aanvallers zitten ook niet stil. En komen ongetwijfeld bijvoorbeeld worms die zelfstandig beslissingen kunnen gaan nemen over hoe ze door het netwerk gaan en beveiligingen omzeilen. Ook wordt phishing veel beter.

[Reactie gewijzigd door Llopigat op 1 november 2024 00:50]

Het zelfde verdienmodel als Linux heeft. Gratis software, betalende enterprise service.

Iemand moet de open source wereld van een AI model voorzien en Facebook hoopt dat deel van het spectrum te claimen. Open-AI is closed source.

Veel bedrijven willen immers hun eigen AI lokaal draaien in hun serverpark of cloud en dan kan Facebook weer een service opzetten om de integratie te ontwikkelen. Ze kunnen ook AI as a service aanbieden. En wees maar zeker dat er veel service lagen zijn waar je geld kan aan verdienen. Incl enterprise licenties.

FB wil dus de referentie worden voor AI in eigen beheer. Eerst een userbase bouwen. Nu is het nog free for all maar ik ben heel zeker dat ze achter de schermen bezig zijn met de betaalde service lagen en licentiemodellen voor enterprise klanten.

Het is dus een long run battle tegenover de closed source alternatieven. Open-AI is trouwens ook nog niet winstgevend. Dus bedrijven die AI modellen trainen zijn nog niet zelfvoorzienend. FB probeert op zijn manier de markt te veroveren.
Laten we hopen op een mooie int8 versie die draait op de Qualcomm X Elite, M4 en die nieuwe Intel en AMD's met NPU.

:9~
Dat kan met de kleinere llama3.2 (2B, 3B) al prima. Op de M4 kan je zelfs grotere draaien. Met het minimum van 16GB op nieuwe Macs kan je prima Llama 8B aan.

Op Intel en AMD zit je wel met minder geheugenbandbreedte en dat beperkt je LLM snelheid nogal. Apple gebruikt een heel brede bus omdat ze de chips op elkaar solderen. Daardoor komt het dichter bij de manier waarop een GPU met geheugen omgaat.

[Reactie gewijzigd door Llopigat op 1 november 2024 00:45]

Wat maakt deze kaart nou zo goed voor AI? (AMD Radeon Pro VII 16GB)
Wat doet zo'n kaart beter als een standaard desktop highend videokaart?
(Ik ben gewoon onwetend en vind het interessant)
Dat noemde ik al: de hoge geheugen bandbreedte omdat er HBM2 op zit. Dat is veel sneller dan GDDR maar ook duurder.
Ja ik had ook wel geluk met de timing hoor, want hij was net gezakt tot de laagste prijs doordat hij uit de handel ging. Toen hij geintroduceerd was, was hij duurder dan een 4090!
Ik zag idd het prijsverloop. }>
Mooie kaart dan.

[Reactie gewijzigd door Is_ Y_ Serious? op 1 november 2024 10:08]

Ik had ook goedkoop een Radeon Pro VII gekocht, voor mij waren naast HBM&ECC vooral de FP64-prestaties interessant (aangeprezen met 6.5 FP64 TFLOPs). Ik moet zeggen dat ik het jammer vind dat AMD de softwaresupport al afknijpt, net als voor de M50 compute kaarten—dat is toch wel een nadeel.

[Reactie gewijzigd door begintmeta op 7 november 2024 21:56]

Afknijpt? Worden ze niet meer ondersteund dan? Dat is wel jammer :'( Maar de huidige ROCm drivers blijven wel werken hoop ik?

Dat van die ECC wist ik niet eens trouwens, cool! En FP64 gebruik ik eigenlijk niet, maar wel goed om te weten.

PS: Hoeveel tokens per seconde krijg jij met Llama 3.1-8b met Q8_0? Ik krijg er maar 40 en ik dacht dat het eerst rond de 80 was.

[Reactie gewijzigd door Llopigat op 7 november 2024 22:05]

Thanks!

Met de nieuwe Intel Core Ultra 7 258V chips zit het geheugen toch ook in dezelfde chip?

Bij AMD en Qualcomm ook.

Maakt de geheugen bandbreedte nog iets uit als het aantal berekeningen per seconde gelijk is?

[Reactie gewijzigd door djwice op 1 november 2024 08:03]

Nee bij intel en AMD alleen het cache geheugen. Niet het complete werkgeheugen.

En ja die geheugen bandbreedte maakt uit omdat elke berekening data van het AI model nodig heeft.
Ah, ok. Dank je. Ik dacht dat Intel en AMD dat model overgenomen hadden omdat Apple en nu Qualcomm het geheugen in de chip stoppen. Maar dat is dus anders dan bij Apple. Thanks goed om te weten.
"We trainen de Llama 4-modellen op een cluster dat groter is dan 100.000 H100's en dat is groter dan alles wat ik heb gezien over wat anderen doen."

xAI heeft er 100.000, zijn ze zelfs van plan om er 200.000 van te maken. Ben dan vooral benieuwd hoeveel openAI en Google er dan hebben, kan toch niet minder zijn dan.

Op dit item kan niet meer gereageerd worden.