OpenAI brengt openweightredeneermodel uit dat lokaal kan draaien met 16GB vram

OpenAI heeft de openweightredeneermodellen gpt-oss-120b en gpt-oss-20b uitgebracht. De modellen zijn beschikbaar onder de Apache 2.0-licentie. Het 120b-model bevat in totaal 117 miljard parameters, terwijl het 20b-model 21 miljard parameters heeft.

De gpt-oss-120b- en gpt-oss-20b-modellen zijn beide beschikbaar via GitHub. Het gpt-oss-120b-model behaalt volgens OpenAI 'bijna' dezelfde resultaten als o4-mini op benchmarks voor kernredeneringen. Volgens het bedrijf kan dit model goed draaien op een enkele gpu van 80GB. Het gpt-oss-20b-model levert volgens OpenAI vergelijkbare resultaten als o3-mini en kan draaien op apparaten met 16GB vram.

Beide modellen maken gebruik van mixture of experts (moe), waarbij aparte submodellen van een model worden gespecialiseerd in een bepaalde input of taak. Dit zorgt ervoor dat er per invoer minder actieve parameters nodig zijn. Volgens OpenAI gebruikt gpt-oss-120b 5,1 miljard parameters per token en gpt-oss-20b 3,6 miljard.

Het is voor het eerst in zes jaar dat OpenAI een open taalmodel uitbrengt. Het laatste open taalmodel van het bedrijf was GPT-2, dat in 2019 verscheen. OpenAI kondigde eind maart aan dat het in de komende maanden een open taalmodel zou uitbrengen. In juni maakte het bedrijf bekend dat de release vertraging had opgelopen.

Door Imre Himmelbauer

Redacteur

06-08-2025 • 11:34

63

Submitter: Helium-3

Reacties (63)

63
63
21
7
0
37
Wijzig sortering
Ik krijg dit voorlopig niet aan de praat lokaal met Python via huggingface transformers vanwege 'MXFP4 quantization requires triton >= 3.4.0'

Na lang zoeken en proberen om het aan de praat te krijgen via Python / Huggingface Transformers op een RTX 4080....

Complete oplossing (enkel Linux, niet Windows!):Op die manier laadt het model inderdaad vlotjes op een GPU met 16 GB VRAM (vereist 13.5 GB om precies te zijn).

Tot slot zul je merken dat het antwoord-format wat vreemd is omdat OpenAI een gestandaardiseerd formaat gebruikt, namelijk: openai-harmony. Idealiter installeer je dat ook en formatteer je je input/output daarmee, maar dat laat ik hier achterwege (zie de officiële documentatie op https://github.com/openai/harmony)

Basis Python-code:
from transformers import AutoModelForCausalLM, AutoTokenizer
import triton
print(triton.__version__) # Ter verificatie

llm_path = "" # Edit hier je path waar het model staat bvb. /media/data/git
model = AutoModelForCausalLM.from_pretrained(
llm_path + "gpt-oss-20b",
device_map="cuda",
torch_dtype="auto",
)
tokenizer = AutoTokenizer.from_pretrained(llm_path + "gpt-oss-20b")
messages = [
{"role": "user",
"content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
# Verhoog max_new_tokens voor langere antwoorden
outputs = model.generate(**inputs, max_new_tokens=50, temperature=0.7)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

[Reactie gewijzigd door TheBlackbird op 6 augustus 2025 18:25]

Ik ben benieuwd of dat openstellen er mee te maken heeft dat ze de hete adem van de concurrentie voelen. Toen ze in ene zo’n stap voorliepen met ChatGPT/GPT-3 stopten ze ook met het openbaar maken van hun LLM’s (er kwamen nog wel andere taalmodellen openbaar, maar geen LLM’s meer specifiek). Met open modellen bind je toch meer ontwikkelaars aan je, de mensen die uiteindelijk AI bij bedrijven moeten installeren.
Wellicht. Als je op huggingface kijkt zie je dat er van concurrentie nauwelijks meer sprake is; de Chinezen domineren nagenoeg ALLES in die arena. Zelfs de modellen met Europese talen (Nederlands) die met geringe investeringen zelf goed te draaien zijn, komen tegenwoordig uit China. (BAAI/BGE, e5)

Zal ook wel komen doordat aan goede data komen in westerse landen duur en ingewikkeld is. https://goingdutch.ai/nl/posts/geitje-takedown/
Ik volg de ontwikkelingen/Huggingface al ~1,5 jaar niet meer toen ik van baan wisselde en te weinig tijd overhield. Maar toen was het inderdaad al een discussie of Europa met strenge wetgeving nog wel mee zou komen in de race op termijn. Schijnbaar is dat idd zo gelopen.

Aan de ene kant zorgelijk dat we zo een achterstand oplopen. Aan de andere kant blijf ik nog altijd in het kamp dat strenge wetgeving op het gebied van databescherming steunt (al val ik een beetje in het midden omdat ik vind dat openbaar vrijgegeven data wel gewoon gebruikt moet mogen worden als er geen persoonsgegevens in zitten). Nou geloof ik geeneens dat een paar jaar achterstand op het trainen van modellen zo’n ramp is, de wet van de remmende voorsprong is groot in AI land en er wordt veel ‘gefrogleapt’. Maar als je structureel achterloopt met de implementatie van AI zijn veel meer sectoren in een keer minder competitief en daar zie ik nog wel de grootste valkuil voor Europa (en zelfs in de VS waar genoeg sectoren ook erg log kunnen zijn).
Zal ook wel komen doordat aan goede data komen in westerse landen duur en ingewikkeld is
Ik geloof niet dat de Amerikanen zich door zo iets simpels als regels tegen laten houden bij het vergaren van data. Die rippen ook het hele internet elke dag opnieuw en tappen alles wat los en vast zit.

Die Chinezen hebben gewoon wat beter hun best gedaan. OpenAI en consorten hadden last van de wet van de remmende voorsprong. Goed dat ze wakker geschud zijn.

[Reactie gewijzigd door DJ Henk op 8 augustus 2025 07:58]

Met open modellen bind je toch meer ontwikkelaars aan je, de mensen die uiteindelijk AI bij bedrijven moeten installeren.
Zoals inderdaad veel SaaS-diensten doen. Code open op GitHub, zelfs met een goede open licentie, en daaromheen een cloud-platform bouwen met extra's en zaken die je in een professionele omgeving goed kan gebruiken.

Werkt wat mij betreft een stuk beter. Uiteindelijk ga je toch wel betalen omdat je, zeker als MKB'er, toch niet de middelen hebt om het allemaal zelf op schaal met de hand te gaan opzetten. Maar voor de MKB'er die pas net begonnen is en geen zware lasten kan dragen is het een uitkomst.

Idem voor de langetermijn-planning. Als je weet dat code (in dit geval weights) beschikbaar is dan wordt het makkelijker om voor het product te kiezen, want zelfs na een overname of faillisement van een bedrijf zijn er dan nog mogelijkheden.
Klopt, zo deed het bedrijf waar ik voor werkte ook.

Je kan het als je wilt zelf doen, maar als je zekerheid en ondersteuning wilt hebben, neem je een support contract.

De meeste overheden waar wij mee werkten, namen een support contract af, een enkele deed dat niet.
Andere bedrijven probeerden eerst of ze het zelf konden inregelen en of het wat voor ze was.
Gewoon testen en gebruiken zonder dat je meteen een bak geldt kwijt bent.

Voor ons bedrijf had het ook als voordeel dat er veel waardevolle input kwam, die wij dan weer konden verwerken in een nieuwe release.
De reden die werd opgevoerd om modellen niet meer openbaar te maken was dat het niet veilig zou zijn. Maar of dat nu de echte reden is, daar kan je natuurlijk vraagtekens bij stellen. Ik ben het met je eens dat het ook een heel mooie manier is om jezelf in de kijker te spelen.

[Reactie gewijzigd door ocf81 op 6 augustus 2025 11:45]

Welnee. Gewoon omdat ze uit hun cash lopen. Iedere query die niet op hun eigen hardware loopt is meegenomen.
Gaat het in dit geval om 16GB RAM of VRAM?
For running GPT-OSS 20B, the 16GB requirement refers specifically to VRAM (video RAM) or unified memory, not just system RAM. The model is optimized for consumer GPUs with at least 16GB VRAM or unified memory (such as on Apple Silicon Macs). You can run it on a system with only system RAM if you lack a suitable GPU, but performance will be significantly slower. In summary, optimal performance requires 16GB of VRAM/unified memory, but it can also run (slowly) with 16GB of system RAM alone for inference
Dit dus :)
Marketing team dan ook weer lekker bezig geweest:
gpt-oss-20b
A medium-sized open model that can run on most desktops and laptops.
https://openai.com/open-models/

16GB VRAM is nou niet wat de meeste desktops en laptops hebben.
Nou, best wat laptops hebben een cpu met gpu intern, en die delen de memory tussen cpu en gpu, en dan is 16 gb wat best gangbaar, en vaak het minimum
Die hebben vaak slechts 256 mb als video memory gereserveerd. Dit is vaak in te stellen in de bios. Dat is ook de reden dat Windows 15,7gb ram aangeeft als je er 16GB in hebt zitten.
Een 5060TI met 16GB is niet heel duur meer.
En 16GB VRAM wordt ook bij de instap game PC van Tweakers geadviseerd.
De CoPilot PC's starten bij 16GB unified memory.

Dus bijna alles wat je nu koopt zal die 16GB wellicht hebben?
de instap game PC/De CoPilot PC's
Exact, en op het moment zijn dat (nog) niet de meeste desktop en laptops.
Misschien voor een echte gamer of Tweaker, maar zelfs ik met mijn dekstop en twee laptops hebben nog geen 16GB VRAM, en tot zover ook (nog) niet nodig

[Reactie gewijzigd door Christoxz op 7 augustus 2025 10:19]

Dan doe je denk ik nog niet veel met AI?
Jawel maar niet self hosted ;)
Heel goed, typisch ook veel goedkoper en zonder hassle altijd de nieuwste versie en meer parameters dan wat op een consumenten kaart past.
Je kunt het met gewoon RAM op een CPU draaien, maar dan zal het traag werken. Dit is waarschijnlijk onbruikbaar voor echte use cases, maar werkt wel om er mee te spelen. Op een GPU/TPU met VRAM is het enorm veel sneller, dat is hoe je dit wil gebruiken. Met unified memory en een integrated GPU (zoals in Apple en veel mobile devices) zit het er tussenin, wellicht bruikbaar genoeg.
Er zijn ook mensen die met een Epyc en een sloot aan RAM zijn gaan spelen: YouTube: Running Deepseek-R1 671B without a GPU Het kan best snel, als je het geld hebt ;)
Mmh tijd om mijn pentium 90 512MB en tnt2 128MBvram te upgraden
heeft blijkbaar al een upgrade gekregen, de tnt2 had maximaal 32MB vram ;)
Opzich kan RAM ook. Heb hem zelf kort met llama.cpp op mijn server getest met DDR3. Ik haal dan zo'n 6-8token/s. dus ja het kan, maar niet echt werkbare snelheid.
Vraag mij dan af hoeveel DDR5 zou uithalen.
Heb het 20b model net getest op een nieuwe laptop, core ultra 9 285H, Intel Arc 140T, 64GB DDR5. Met verschillende vragen is de snelheid vrij stabiel met ~15 tokens per seconde. Tijd tot eerste antwoord varieert nogal, van vrijwel direct tot soms een halve minuut, ligt heel erg aan de vraag.

Eigenlijk best wel heel bruikbaar, valt me erg mee. Kan gewoon goed meelezen. Ga dit zeker lokaal gebruiken, kan ik m'n abbo opzeggen.
Wat is een acceptabele token/s ?
Als je direct wil meelezen moet je het zien als lettergrepen/ woorden per seconden. Direct meelezen zal 18t/s toch wel een minimum moeten zijn. Maar wil je een lap code krijgen dan wil je je wellicht ook niet minuten moeten wachten.
Is het meer een fire en forget situatie dan is de output snelheid minder van toepassing. Maar meer tokens/s is gewoon fijner. En daarbij maakt het ook nog wel verschil tussen.
Apple unified memory vs normaal system memory
Wat The-Source schrijft wel mee eens. Om mee te lezen is is zo rond de 15 oke-ish maar zelf vind ik werkbaar vanaf een token of 30 per seconde.
Het kan allebei, Ollama draait ook op de CPU als je dat wil, maar VRAM is wel een stuk sneller.
Aye, maar je hebt wel genoeg RAM daarnaast nodig. Dat is natuurlijk wel een stuk goedkoper dan een dikke GPU met genoeg vram en draait heus niet slecht.
Maakt niet uit, zolang het maar snel ram is, GPU ram is heel snel, systeem ram KAN snel zijn als je er voor lapt

[Reactie gewijzigd door TWeaKLeGeND op 6 augustus 2025 12:13]

Kan beide. net even getest. op een 5090 vliegt het 20b model en is het erg leuk.
Op een 12 core Zen4 CPU is het bijzonder langzaam en niet te gebruiken.
Zelfs op een 4060 Ti 16GB haal ik 65 tokens/sec. Dus ook op een "basis" GPU vliegt deze 4-bit versie.
Ik heb maar niet geprobeerd hoe dit loopt op de 7900X.

Vreemd genoeg is GPT4All gecrashed, en niet meer aan de praat te krijgen, maar Jan doet het vlekkeloos. Het gpt-oss-20b-mxfp4 model stond zowaar bovenaan in de lijst om meteen te downloaden.
Toch hopen dat er ook nog een tussen model komt dat op 4090/5090 modellen alles uit de kan haalt, dat 80gb model is natuurlijk voor vrijwel geen hobbyist/consument echt interessant.
Met een strix halo machine met 128GB (max 96GB toewijsbaar aan de IGPU) kan het wel.
Ja, klopt dat het vanwege de geheugengrootte gaat, maar op die devices gaat het fors langzamer dan op gpu’s. Leuk om een keer mee te rommelen, maar echt productief testen ga je met die dingen niet kunnen, het is meer iets dat marketingtechnisch goed klinkt voor mensen die het gevoel willen hebben mee te moeten met de AI hype dan bruikbaar voor hobbymatig of laat staan (semi)professioneel AI. Een Ryzen AI+ 395 heeft “up to AI 126 tops!”, een 4090 heeft 1300 tops, een 5090 zelfs 3300.

De beste reactie toen de ryzen AI marketingmachine in januari ging ronken dat het “2.2x sneller is dan een 4090!” kwam ik op Reddit tegen:

Who needs a 4090? I can run a 70B at Q4 with my 100gb hard drive at 0.000001 tok/sec, it is technically infinitely faster than not being able to run it at all.

[Reactie gewijzigd door DeNachtwacht op 6 augustus 2025 12:31]

Voor een CPU met NPU zij. AI TOPS int8, de NVIDIA AI TOPS zijn fl4. Ze zijn dus niet te vergelijken.
Het model gebruikt mxfl4 en is dus niet standaard te draaien op een NPU.
De timing van deze release voelt niet helemaal toevallig. Meta (met LLaMA 3), Mistral en Cohere zetten ook vol in op open modellen, en nu zet OpenAI weer een duidelijke stap richting openheid. Ik las op Medium dat de GPT-OSS-modellen goed scoren op redeneertaken en codetests, en tegelijk licht genoeg zijn om lokaal te draaien, met name de 20B-versie op hardware met 16GB VRAM of unified memory. Dat maakt ze meteen interessant voor ontwikkelaars die liever niet afhankelijk zijn van cloud-API’s. OpenAI richt zich hiermee duidelijk op meer dan alleen enterprise-klanten. Mooie ontwikkeling.
Ik vermoed dat een bepaalde delen van architectuur bedoelt is om concurrentie het bos in te sturen.

Quantization aware finetuning ipv. quantization aware pre-training (ik vermoed dat Google hetzelfde doet met Gemma ook als misleiding). Attention sink ipv. sliding window pre-training. Alletwee lelijke hacks die als lapmiddel dienen voor de mismatch tussen pre-trainen en gebruik, terwijl ook de mismatch weggenomen kan worden.

[Reactie gewijzigd door Pinkys Brain op 6 augustus 2025 12:46]

Even afwachten hoe de GGUF-versies presteren, 20B GGUF kan de moeite waard zijn als die past op 12GB VRAM
Ik denk niet dat je dat wil. Deze versies die zijn uitgebracht zijn al 4 bit. Het staat er niet in directe zin maar er staat wel Native MXFP4 quantization en dat is MXFP4: 4-bit floating-point (E2M1)
Technisch gezien is het 4,5 bit maar inderdaad er is geen 'volledige' versie in fp16 ofzo. Denk dat ze die intern wel hebben maar "open"ai geeft nooit hun beste spullen als OSS.
RIP 3080 10GB/12GB, hopelijk komt de RTX 5080 Super 24GB eind dit jaar om hier eens mee te kunnen spelen.
Je kunt nu al mee spelen met 12GB, maar niet lange / moeilijke vragen stellen :henk
Er zijn genoeg andere modellen... Mensen lezen OpenAI en worden opeens wakker, locale LLM's is echt niks nieuws. Kijk naar Ollama.
Ollama of Mistral7b heb ik eerder gedraaid ja!
Mooi, ik ga zometeen even de 20B variant downloaden in de pauze, kijken of het een beetje loopt!
Gespeeld met de 20b versie maar bijna alle antwoorden worden gegeven in tabel vorm. Soms handig maar meeste gevallen irritant. Geef mij maar gewoon normale tekst met hier en daar een tabel waar het toegevoegde waarde heeft.
Ook als je vraagt om normale tekst?
Geen idee, ik ga niet bij elke prompt vragen om normale tekst. Er moet een goede balans zijn en dat lijkt te ontbreken momenteel.

Op dit item kan niet meer gereageerd worden.