Door Mees Derks en Redactie Tweakers

Met deze €15.000 Mac Studio draai je je eigen AI!

25-03-2025 • 18:00

8

De Mac Studio met M3 Ultra is verkrijgbaar met een gedeeld geheugen tot 512GB. En ja: dat is 512GB ram, geen opslag. Daardoor kan hij bijvoorbeeld volledige llm's lokaal draaien, wat anders alleen lukt met versimpelde modellen of in de cloud.

00:00 - Met deze €15.000 Mac Studio draai je je eigen AI!
00:20 - Configuratie en prijs
00:54 - M4 vs M3 Ultra
02:40 - Prestaties en aansluitingen
04:00 - Upgrades
04:20 - Conclusie

Reacties (8)

8
8
1
1
0
7
Wijzig sortering

Sorteer op:

Weergave:

15k!

Voor nog niet de helft heb je een ML350 server tower met dual Xeon Silver met AMX en een Terabyte aan DDR5 (16 kanalen tussen de twee processors, iets van 600 GB/s). Kan je Deepseek V3/R1 zonder quantisatie draaien met ktransformers.
Wat is de performance met zoiets t.o.v. zo'n Mac Studio?
Voor gequantiseerde Deepseek V3/R1 zal het waarschijnlijk lood om oud ijzer zijn. Ik denk dat Mac Studio op het moment een paar tokens/s sneller zal zijn, maar met wat verbetering in software kan dat zo weer omslaan.

M3 Ultra heeft iets meer geheugen bandbreedte, de Xeon machine kan een GPU gebruiken voor bepaalde dingen (layer by layer prefill, MLA attention, etc).

De Mac Studio kan je in je kamer hebben, de tower server moet je ergens in een gangkast of kelder kunnen verstoppen.
De Mac Studio kan je in je kamer hebben, de tower server moet je ergens in een gangkast of kelder kunnen verstoppen.
Ja dat is mij geen 15K waard :P

Dank je wel voor reactie, ik ben zelf wat aan het oriënteren op dit moment.
De Mac heeft unified memory. Dit is een grote plus voor als je de GPU gebruikt voor computation intensive tasks zoals AI.
Ik verwacht dat de Mac daarom significant sneller zal zijn.
De Xeons hebben AMX, ze hebben zat FLOPS om het DDR5 geheugen vol te benutten, daar is geen GPU voor nodig. Het NUMA geheugen met twee Xeons betekent wel dat grote matrix vermenigvuldigingen tensor parallel gedaan horen te worden (zijn het geloof ik nog niet).

Maar PC heeft ook wat voordelen. Prefill kan heel snel met zeg een 4090 en MLA attention kan daar ook op. Omdat beide niet zo heel veel VRAM nodig hebben. En het voordeeltje dat je met 32 GB DIMMs 1TB kan installeren.
Je zal toch iets met die GPU willen doen neem ik aan, als je je AI puur op Xeons wil draaien zonder GPU erbij word je weggeblazen door die Mac.
En als computation will offloaden naar je GPU zul je data heen en weer moeten kopiëren. Dat gaat een heel stuk sneller als je gewoon hetzelfde geheugen zowel door GPU als CPU kan laten gebruiken.
Prefill is speciaal omdat berekening voor alle tokens per laag onafhankelijk is, dat betekent dat een prompt in een keer door een laag kan en de kosten van het laden van parameters van een laag over al die tokens verdeelt kunnen worden.
Met MLA is de KV cache (samen met attention parameters) voor alle lagen zo klein dat alles op de GPU kan blijven, dus er hoeft niks gekopieerd te worden.

Daarom kan prefill/MLA op een dGPU, zonder significante data te moeten kopiëren per token.

Ook zonder GPU heeft de 2P Xeon door AMX zat FLOPs, het heeft alleen iets minder bandbreedte en NUMA. Maar met prefill/MLA op een dGPU kan het weer wat goed maken. Daarom zeg ik lood om oud ijzer, zal vooral van de software afhangen.

Op dit item kan niet meer gereageerd worden.