OpenAI's Altman gaf ooit aan in een interview, toen ze net hun 20000 USD/maand plan introduceerden, dat hun AI dan nog steeds niet winstgevend is. Is een speciaal plan voor een AI vorm vergelijkbaar met een persoon met een PHD achter hun naam.
De 20 USD/maand abonnementen vinden een veel groter publiek, maar met de mate waarin geld word verstookt, moeten er wel gigantisch aantallen abonnementen worden afgesloten om het financieel rendabel te krijgen. Je besteed beter tijd, geld en moeite aan lokale modellen. Ja, hun resultaten zijn minder, maar voor de echte taken die je met AI uit wil voeren, c.q. automatiseren, zijn de lokale modellen al goed genoeg.
Vooral als deze zich gaan specialiseren in een klein aantal kennisdomeinen. NVidia zelf heeft een paper geschreven, waarin zij omschrijven dat kleine specialisten de weg voorwaarts zijn in AI, niet de producten welke OpenAI/Anthropic/Google en anderen je door de strot willen duwen.
Want die oplossingen mogen zeer bruikbaar zijn op het eerste gezicht, maar ze zijn ook enorme overkill voor het overgrote deel van vragen die gesteld worden. En ze zuipen energie als een dolle en vereisen enorme datacenters en deze hebben ook een boel milieu-technische nadelen.
Lokaal is het energieverbruik stukken minder. En zelfs oudere NVidia GPUs zouden nog goed kunnen volstaan, als er een makkelijke methode zou zijn om hun huidige "kleine" VRAM modules te vervangen voor grotere.
Mijn n==1: heb een Ryzen 5 1400, met daarin 24 GB aan RAM, een GTX1060 met maar liefst 3 GB aan VRAM. Echter, met 1b modellen haalt deze computer nog steeds een snelheid van 55 tot 65 t/s.
Met kleinere modellen schommelt deze snelheid al gauw tussen 80 en 90 t/s. En dat is zelfs op ouwe meuk als dit erg werkbaar. Testen zijn gedaan met
LM Studio (v0.3.30) wat een grafische schil is voor
llama.cpp.
Op een andere computer, een i3 10e generatie met 32 GB RAM en een GTX1650 en 4 GB VRAM, is Tabby geinstalleerd. Deze software is op vLLM gebaseerd. De ietwat grotere modellen in deze opstelling hebben een snelheid die schommelt tussen 80 en 100 t/s, maar doen er veel minder lang over om hun 1e token te genereren, waardoor deze zeer responsief aanvoelen. Sterker nog, net zo snel als je van OpenAI/Anthropic/enz. verwacht
Tabby
(software) wordt gemaakt door TabbyML
(bedrijf) en is gratis te gebruiken met maximaal 5 gebruikers tegelijkertijd. Je dient de nieuwste NVidia driver voor je kaart in de Tabby host te installeren, maar ook de CUDA ontwikkelsoftware van NVidia (v12 voor de meesten, mijn 1650 werkt alleen met v11). Dat is in beide gevallen een 2,5 GB installer die je moet downloaden en installeren.
Maar daarna kun je via een batch of powershell scriptje Tabby starten in Windows (of Linux/Mac). Gebruik een browser en navigeer naar http(s)://localhost:8080 (of http(s)://<ip of FQDN>:8080. De allereerste keer zal het opstarten sloom zijn, omdat dan de door jou geconfigureerde modellen eerst gedownload moeten worden. Daarna start de Tabby software stukken sneller op (ligt aan de omvang van de door jou gekozen modellen).
Je krijgt dan een zeer bruikbare webpagina te zien waarin je gelijk kan chatten, documenten kan RAGgen, je github/gitlab projecten kan koppelen enz en dan gerichte vragen te stellen. Daarna zul je blij verwonderd zijn om te zien hoe rap je oude GPU nog is in combinatie met lokale AI. En betreur je het flink dat er maar zo weinig VRAM op is geplaatst door NVidia destijds.
Met Tabby heeft je oude afgeschreven apparatuur echt nog genoeg leven in zich als lokale AI machine, mits je er een GTX1xxx of beter in zet. Zou voor funsies Tabby ook nog eens onder Linux moeten draaien om te zien of dat dit nog beter werkt dan onder Windows.
Caveat: mijn preferentie is US Engels, dus heb ik een Engelstalige Windows, een Engelstalig toetsenbord en vragen stel ik ook alleen in Engels.
Noot:
Ben in geen enkele vorm betrokken bij Tabby de software of TabbyML het bedrijf, alleen een blije gebruiker van het gratis produkt.