Qualcomm en Meta gaan Llama 3-AI-modellen optimaliseren voor Snapdragon-socs

Qualcomm en Meta werken samen om Llama 3 te optimaliseren voor Snapdragon-socs. Hierdoor kunnen de nieuwste grote taalmodellen van Meta direct worden gebruikt op onder meer smartphones, pc's, VR-brillen en in auto's.

Qualcomm schrijft dat ontwikkelaars toegang krijgen tot tools in de AI Hub van het bedrijf om Llama 3 te optimaliseren voor gebruik op Snapdragon-platforms. Het is niet duidelijk wanneer en in welke apparaten Llama 3 als eerste beschikbaar wordt. AI-functies gebaseerd op Llama 2 worden sinds dit jaar ook ondersteund op Snapdragon-socs.

Meta kondigde zijn Llama 3-modellen vorige week aan en maakte bekend dat de modellen worden gebruikt voor de nieuwe AI-assistent van de techgigant die gebruikt kan worden in apps zoals WhatsApp, Instagram en Facebook.

Terwijl toekomstige Android-smartphones met een Snapdragon-soc door de samenwerking gebruik kunnen maken van Meta's AI-model, gaat het gerucht rond dat Apple in onderhandeling is met Google om Gemini te implementeren in iOS 18.

Door Sabine Schults

Redacteur

22-04-2024 • 15:27

29

Reacties (29)

29
29
19
0
0
9
Wijzig sortering
Interessant. Ik zou zoiets graag thuis draaien zodat ik mijn info niet naar de cloud hoef te sturen en bovendien niet per interactie hoef te betalen.

Er moet natuurlijk wel een api aan zitten maar ik neem aan dat er wel bordjes in de handel komen waar je mee kan doen wat je wil. Liefst ook met de uncensored modellen natuurlijk. ChatGPT is niet zo nuttig meer doordat ze altijd op safe spelen. Hier krijg je altijd ontwijkende antwoorden van, het lijkt wel een politicus :)

[Reactie gewijzigd door Llopigat op 23 juli 2024 07:31]

https://github.com/ollama/ollama

Linux install
curl -fsSL https://ollama.com/install.sh | sh

ollama run llama3

Voor Mistral
ollama run mistral

ff wachte...

Wordt het model gedownload, lokaal opgeslagen en de volgende keer start het snel.

Werkt zelfs op een Raspberry Pi 5 redelijk snel.

[Reactie gewijzigd door Jan121 op 23 juli 2024 07:31]

Mag je daar zo Llama 3 downloaden, zonder met de voorwaarden akkoord te gaan? Of is dit een aangepast model om de voorwaarden te ontlopen? En als ik llama3 kies, wat krijg ik dan voor me neus? Is dat 7B of 70B, bedoel, daar zit wel enigzins verschil in wat je aan resources in moet gaan zetten. ;)

edit: zie dat ik me niet goed verwoordde, ik bedoelde eigenlijk dat je toestemming moet krijgen voor je met de originele modellen aan de slag mag. Dit zijn gekwantiseerde versies die niet van Meta zelf komen. Daarnaast zitten er nog wat meer haken en ogen aan waardoor resultaten (soms flink) kunnen afwijken van de originele modellen(dit zegt niet zo veel overigens, het maakt ze niet slechter of beter, alleen 'anders').

[Reactie gewijzigd door DeTeraarist op 23 juli 2024 07:31]

Je kan hier via de hashes zien welke tags overeen komen met welke varianten: https://ollama.com/library/llama3/tags

llama3 = llama3:latest = llama3:8b = llama3:instruct = llama3:8b-instruct-q4_0

De variant die je het meest makkelijk op je eigen computer draait. Je kan zelf natuurlijk ook een andere tag kiezen. Het license agreement voor Llama3 is als gewone user ook heel best OK, staat eigenlijk niets vreemds in. Gewoon dat je er geen ander LLM mee mag trainen en er niets illegaal mee mag doen. Standard stuff zonder tanden.
Licentie kan je hem zelf vragen.

Als prompt:
/show license
Ollama vraagt je niet om de voorwaarden te accepteren. En bovendien who cares, het is wat juridisch gewouwel met geen praktische impact. Meta komt echt niet bij jouw in de server kijken, het is een statisch offline model. En Ollama is helemaal open-source. Het is meer bedoeld tegen andere bedrijven, niet consumenten.

En welk model je krijgt: Dat kan je gewoon kiezen! Je kan ook voor modellen kiezen die niet van Meta zijn (ondanks de naam ollama) maar bijvoorbeeld van mistral als je wel om de juridische woordenbrei geeft.

Het is op zich een prima oplossing alleen er is nog niet echt goedkope en zuinige hardware die het echt goed en soepel draait. Daarom hoop ik juist dat qualcomm hiermee komt.
Ook op windows beschikbaar tegenwoordig :) Was het al via WSL maar dat is dus ook niet meer nodig.
Ja ik ben bekend met Ollama hoor.

Maar wat ik eigenlijk zoek is dedicated hardware die is geoptimaliseerd op geheugenbandbreedte. Een PC of raspberry is me niet snel genoeg, Apple Silicon te duur en een GPU ook te duur en verbruikt te veel stroom in idle.

Ik neem aan dat Qualcomm hier aan bezig is om het echt soepel te maken, anders gaat de mainstream er niet aan willen.

[Reactie gewijzigd door Llopigat op 23 juli 2024 07:31]

Als het je puur gaat om thuis draaien dan zijn er al diverse opties op een PC. Zo kan je Ollama installeren en daarmee diverse modellen draaien. Qua hardware requirements helpt het om een meer RAM, een krachtige CPU en GPU te hebben maar 7B modellen kan je in principe al draaien op een PC met 16GB RAM.
Een goede GPU met meer VRAM helpt hierbij wel. Maar zelfs op mijn PC met een 3060TI (8GB) lukt het mij prima om Llama 3 8B te draaien.
Ik heb een zware game PC maar ik wil eigenlijk naar een dedicated oplossing toe. En de GPU's zijn te zwaar in idle verbruik (ik heb zelf een PC met 4090 voor gaming en die verbruikt echt veel in idle, zo'n 100-150W, dat is niet acceptabel).

Probleem is dat het ook behoorlijk responsief moet zijn. Ik ben een soort 'agent' aan het bouwen die ook actieve notificaties geeft en ik wil niet steeds wachten als ik wat vraag. Ik heb wel geprobeerd om het op een gewone PC te draaien maar dat is niet haalbaar qua snelheid.

Daarom juist zoek ik naar een wat geoptimaliseerdere oplossing. Maar ja inderdaad ik ben natuurlijk wel bekend met ollama.

[Reactie gewijzigd door Llopigat op 23 juli 2024 07:31]

Het is nu al heel erg makkelijk. ollama.com is de gemakkelijkste manier om ermee aan de slag te gaan. LLama3-8B draait vlot op een computer met 16GB RAM (beter op een Apple Silicon Mac dan op een PC zonder GPU met veel VRAM), en er zijn verschillende frontends voor Ollama die er gewoon uitzien als ChatGPT. Op een paar minuten tijd + hoe lang je internetverbinding nodig heeft om 4GB te downloaden ben je vertrokken.
Het probleem met die Apple Silicon macs is dat Apple echt gruwelijk veel geld vraagt voor geheugenupgrades. Dus dat is voor mij geen optie. Zelfs 16GB zien ze al als een 'upgrade' bij de betaalbare systemen zoals de mac mini. https://www.apple.com/nl/shop/buy-mac/mac-mini

Op een PC heb ik ook wel geprobeerd maar de GPU maakt het verhaal te duur en niet energiezuinig genoeg in rust. Ik heb wel een game PC maar die is 100+W in idle met name door de 4090 die er in zit. Bovendien wil ik die niet inzetten voor AI, die heb ik al gekocht voor gaming :)

Van zo'n Qualcomm oplossing zou ik meer energiezuinigheid en lagere kosten verwachten.

[Reactie gewijzigd door Llopigat op 23 juli 2024 07:31]

Het is indrukwekkend hoe snel Meta erin geslaagd is om het immense competitive advantage van OpenAI stevig in te krimpen. Het leek er even op dat OpenAI (en misschien Google, en MS via OpenAI) een soort alleenheerschappij in generative AI zouden hebben. Dat Zuck besloten heeft om hun hardware te gebruiken om modellen te trainen die dicht in de buurt komen qua kwaliteit én ze dan gewoon open beschikbaar te maken is een ballsy move. Meta haalt er misschien niet direct een voorsprong mee, maar de voorsprong van de competitie smelt wel gewoon grotendeels weg.

Toch vet dat ik nu kan chatten met een LLM dat helemaal privé lokaal draait, gewoon op mijn simpele MacBook van een paar jaar oud, aan hoge snelheid. Ik kan het system prompt aanpassen, er komen gegarandeerd varianten aan die specialisaties hebben die (gratis) ChatGPT niet heeft, en het was gewoon even 4GB downloaden en een paar simpele dingen klaarzetten.

Op HackerNews werd het ook al aangehaald dat dit misschien een van de grootste voordelen is van het hebben van een software engineer als CEO bij Meta. Bij een MBA business-type CEO die alleen uit is op winst en groei was dit denk ik niet mogelijk geweest.
Dus je kan zulke modellen lokaal draaien zonder de beperkingen die de fabrikanten eraan gegeven hebben online?
Ja grotendeels wel. Met ollama kan je al deze modellen draaien: https://ollama.com/library. Mits je hardware genoeg (v)RAM heeft en/of je genoeg geduld hebt.
LM Studio vind ik persoonlijk een betere
Ik zou ook direct beginnen met LM Studio - zeker in combinatie met een Apple Silicon processor, de CPU en GPU delen het geheugen waardoor het zeer snel werkt. Modellen download je direct van Hugging Faces en zijn snel beschikbaar binnen LM.
Ollama heeft een simpele MIT license. Die dus commercieel gebruik, en eigen code aanpassingen toelaat.
LM Studio "a limited license for personal, non-commercial use", als er nieuwe voorwaarden op de website komen heb je 30 dagen tijd daaraan te voldoen.
Een deel van de beperkingen zit ingebakken in het model, of in de fine tuning. Llama3 bijvoorbeeld heeft een basismodel (pretrained in de naam) dat gewoon tekst aanvult, en redelijk unhinged en uncensored is. Dan is er het fine-tuned 'instruct'-model dat specifiek gemaakt is voor chatscenarios. Daarin zitten wat meer beperkingen ingebakken (rond safety), maar die zijn lokaal makkelijker te verslaan dan online omdat je het systeemprompt helemaal kan aanpassen naar wat je zelf wil.

Er komen ongetwijfeld nog varianten op Llama3 met een finetuning die minder beperkt is, of beter is in bepaalde dingen. Voor Llama2 zijn die er al, maar Llama2 doet het wat minder goed dan ChatGPT 3.5. Llama3-instruct, met de fine tuning van Meta, is naar mijn gevoel ongeveer even goed als ChatGPT 3.5 en vriendelijker / gemakkelijker om eruit te krijgen wat je echt wil. En dat gewoon op mijn MacBook Air (dat ding heeft niet eens actieve koeling en het werkt).
Ben niet zo kapot van LLama3.

Hallucineert flink als je vraagt:
Who is Boudewijn de Groot?
A great question about a legendary Dutch singer-songwriter!

Boudewijn de Groot (1944-2018) was a renowned Dutch singer-songwriter,
musician, and poet. He was born in Amsterdam, Netherlands, and became one
of the most beloved and influential figures in Dutch popular music.

De Groot's music career spanned over five decades, during which he
released numerous albums and singles that blended folk, pop, rock, and
traditional Dutch music styles. His songs often dealt with themes of love,
nature, social commentary, and storytelling, which resonated deeply with
the Dutch public.

Some of his most famous songs include:

1. "Marjolein" (1969) - a classic hit about a young girl's story
2. "De Vlaarding" (1974) - a song that tells the story of a small town's
daily life
3. "Voor De Laatste Maal" (1980) - a nostalgic ballad about saying goodbye
to loved ones

Boudewijn de Groot was also known for his poetic lyrics, which often
featured clever wordplay and storytelling. He released over 30 albums
throughout his career and won numerous awards for his work.

In 2003, he received the prestigious Edith Buys Award, which honors
outstanding contributions to Dutch music. De Groot's legacy continues to
inspire new generations of musicians and fans in the Netherlands and
beyond.
Nog nooit van een Edith Buys Award gehoord, en volgens mij zijn de feiten over zijn dood in 2018 schromelijk overdreven door LLama3.

[Reactie gewijzigd door Maanziek.nl op 23 juli 2024 07:31]

Llama3 is bijna enkel getrained op Engelstalige content, dus onderwerpen waarover waarschijnlijk minder Engelstalige content te vinden is gaan het inderdaad minder goed doen (vooral in het kleine model).

Dat is ook een van de manieren, vermoed ik, waarop ze Llama3 relatief hoog in kwaliteit gekregen hebben in het Engels, door enkel echt op die taal te focussen.

[Reactie gewijzigd door AmbroosV op 23 juli 2024 07:31]

Dit is toch Engelstalige content:
Wikipedia: Boudewijn de Groot

Waarom zou LLama3 alleen op Engelstalige personen gericht zijn?

Dat hallucineren van AI is toch fascinerend: content (nummers, zijn overlijden, niet bestaande prijzen) verzinnen.
Wikipedia: Hallucination (artificial intelligence)

Zonder twijfel of terughoudendheid onzin als feiten presenteren.

[Reactie gewijzigd door Maanziek.nl op 23 juli 2024 07:31]

Het is ook gewoon niet echt mogelijk om alle Engelstalige kennis op het internet in een model van ~5GB te proppen.

Ik ben ook akkoord, de hallucinaties zijn interessant en wild, en ook de grootste reden waarom ik geen enkele van de AI assistants gebruik voor meer dan entertainment.
Je kan ook de temperature wat lager instellen zodat het model wat minder uit zijn duim zuigt.
Je kan nu Llama 3 8B draaien op je smartphone met MLC LLM. Je hebt een smartphone nodig met minimaal 6GB RAM (liefst 8GB). Volg de guide.
Zijn er praktische toepassingen voor een lokale llm?

Heeft die toegang tot je lokale software of internet om dingen mee te doen?
Nee maar een online LLM heeft dat ook niet tenzij dat apart is toegevoegd.

Het voordeel van lokaal zijn 3 punten:
- Je heb veel meer privacy
- Je kan het zoveel gebruiken als je wilt zonder dat de kosten oplopen (alle API's kosten geld per oproep, alleen de web interface is meestal onbeperkt maar daar heb je niet zoveel aan - persoonlijk gebruik ik alleen de API)
- Je kan uncensored modellen gebruiken van huggingface waardoor je niet steeds van die wezelige antwoorden krijgt
Ja, het is zeker interessant om lokaal dergelijke zaken te kunnen testen en lokaal draaien.

Maar wat kan je er juist mee doen behalve chatten?
Van alles. Samenvatten van lange (bijv WhatsApp of telegram) gesprekken. Gebruiken voor een privacy-vriendelijke Siri achtige control. Veel dingen moeten er nog omheen gemaakt worden maar zijn zeker mogelijk.

Op dit item kan niet meer gereageerd worden.