Geen GPT modellen natuurlijk. Die zijn specifiek van OpenAI. Wel andere LLM modellen.
Ik heb die inderdaad speciaal gebouwd. Ik heb ook een game PC met 4090 maar die wilde ik niet inzetten hiervoor. Ik gebruik een
Radeon VII Pro, die vond ik hier in de pricewatch nieuw voor 289 euro. Gewoon bij MeGekko. Helaas heb ik er toen maar 1 gekocht, baal ik nu een beetje van want hij is niet meer te krijgen. Heeft 16GB HBM2 geheugen met een geheugenbandbreedte van 1TB/s, evenveel als de 4090! Omdat dit een van de belangrijkste zaken is bij LLM's is hij bijna even snel als die 4090. Met Llama 3.1 8b is het gewoon retesnel mits je de context beperkt houdt. Volledige context kan ik sowieso niet gebruiken want context is extreem 'duur' qua geheugen. Na 40000 tokens is de 16GB al vol. Dit komt onder meer doordat ollama momenteel de context niet quantificeert. Daar wordt echter wel aan gewerkt, er is een
pull request ingediend. De 'backend' llama.cpp ondersteunt het al dus ik denk dat het wel snel geintegreerd zal worden. Met Q8 (8 bit int) zal je al snel richting de 80000 tokens kunnen gaan met 16GB.
Nou moet ik wel zeggen dat niet alles ondersteund wordt op Radeon. Veel software ondersteunt alleen CUDA (en vaak Metal voor Apple) maar geen ROCm (AMD's tegenhanger van CUDA). Bijvoorbeeld sommige image generatie software. Maar dat interesseert me toch niet zo. Met ROCm was het wat lastiger aan de praat te krijgen maar als het eenmaal draait werkt het uit de kunst. En ik had zo gewoon veel meer kaart voor mijn geld dan met een GeForce.
Verder zit er een Ryzen 2600 in die ik nog had liggen, en 64GB RAM. Idle verbruik is 50W. Beetje hoog, maar omdat ik alle hardware behalve de videokaart nog had liggen, is het niet zo erg want ik heb daar veel mee bespaard. Bovendien heb ik nooit echt de moeite gedaan om dit te optimaliseren (stroom kost hier ongeveer 14c per kWh incl BTW). Tijdens een query kan hij richting 350W gaan.
Ik heb hem gekoppeld aan diverse mobiele apps, firefox, aan home assistant (voor de spraakbediening), openwebui, en sillytavern. De server draait verder ook nog Whisper (binnen openwebui geintegreerd) en Piper voor TTS. De betere TTS opties gebruik ik niet omdat die de GPU nodig hebben en die hou ik liever exclusief voor LLM om die snel te houden. Bovendien werkt Piper goed genoeg en is zelfs snel op een raspberry dus op zo'n server helemaal prima.
Je kan met python simpele 'tools' ontwikkelen in OpenWebUI (en er zijn er ook veel zo te downloaden!) die de LLM op eigen initiatief kan gebruiken, en daarmee live info op kan zoeken of acties uit kan voeren. Helaas werkt het aanroepen daarvan nog niet zo geweldig (vaak gebruikt hij de tool niet en hallucineert het antwoord). Dit is een van de dingen waarvan ik verwacht dat Llama 4 het wel gaat verbeteren.
Wat ik momenteel nog graag zou willen zijn voice sattelieten zodat ik er direct tegen kan praten. Liefst zelfs zonder Home Assistant er tussen want via OpenWebUI kan ik google searches (via SearXNG die ik toch al had draaien!) en andere tools gebruiken. Maar een goede manier heb ik nog niet gevonden. Ik heb wel al wat raspberry pi zero W 2's klaarliggen en ReSpeaker boards van een tientje.
PS: Llama 3.2 gebruik ik nog niet want ollama ondersteunt de 11b modellen niet. Bovendien is de LLM daar niet verbeterd, er is alleen imageherkenning toegevoegd en dat is eigenlijk niet iets dat ik vaak gebruik. Dan hou ik het geheugen liever vrij voor meer context.
Ik laat altijd hetzelfde model in de GPU memory staan, want het wisselen van modellen kost enkele seconden en dat wordt dus bij de responstijd opgeteld. Responstijd is behoorlijk snel mits je de context kort houdt. Want die moet ook helemaal ingeladen worden als uitgebreide key value store (enkele gigabytes bij grote context)
Ik heb nog een account bij OpenAI met wat geld erop. Ik kan vanuit OpenWebUI naadloos tussen mijn eigen server kiezen en ChatGPT, en ik kan bovendien zelfs de query tegelijk naar beiden sturen en de output vergelijken als ik wil! Maar voor de meeste dingen is mijn huidige opzet goed genoeg en vaak zelfs beter omdat ChatGPT erg gecensureerd is. Maar het hangt ervan af waar je het voor gebruikt. Als 'vraagbaak' is een klein model minder geschikt, maar dat is toch iets waar ik liever een combo met zoekmachine voor gebruik.
[Reactie gewijzigd door Llopigat op 1 november 2024 01:03]