Meta onthult eerste AI-model van Superintelligence Labs: Muse Spark

Meta heeft het AI-model Muse Spark onthuld. Spark is het eerste AI-model in de Muse-serie en het eerste model dat is ontwikkeld door Meta's Superintelligence Labs-divisie, die vorig jaar werd opgezet. Het model is in de Verenigde Staten beschikbaar op de Meta.ai-website en in de Meta AI-app.

In de komende weken wordt het model ook geïntegreerd in WhatsApp, Instagram, Facebook, Messenger en de slimme brillen van Meta, meldt het bedrijf. Het model is volgens Meta klein en snel, hoewel het bedrijf niet bekendmaakt hoeveel parameters Muse Spark precies heeft. Gebruikers kunnen kiezen tussen Instant- en Thinking-modi. Het bedrijf introduceert op Meta.ai ook geleidelijk een Contemplating-modus, die meerdere agents aanstuurt die parallel redeneren.

Meta geeft aan dat Spark in staat is om meerdere AI-subagents aan te sturen om prompts sneller en beter uit te voeren. Daarnaast zou het model ook goed overweg kunnen met afbeeldingen en complexe vragen op het gebied van wiskunde, wetenschap en gezondheid kunnen beantwoorden. In sommige benchmarks, zoals CharXiv Reasoning en HealthBench Hard, scoort het Thinking-model beter dan onder meer Opus 4.6 Max en Gemini 3.1 Pro High.

Meta geeft aan dat het in de toekomst 'rijkere, visuelere resultaten' wil tonen, met integratie met onder meer Reels, foto's en berichten van platforms van Meta. Daarbij worden de makers van de content ook vermeld. Het socialemediabedrijf heeft naar eigen zeggen al grotere modellen in ontwikkeling en hoopt toekomstige versies opensource te maken.

De benchmarks van Muse Spark
De benchmarks van Muse Spark

Door Imre Himmelbauer

Redacteur

08-04-2026 • 20:10

36

Reacties (36)

Sorteer op:

Weergave:

Lekker misleidende afbeelding, door het blauwe denk je bij het snelle scannen even dat e het hoogste scoren overal. Even een overzichtje:

Gemini 3.1 Pro (8 wins)
  • MMMU Pro: Algemene kennistest, maar dan met afbeeldingen in plaats van alleen tekst.
  • ERQA: Test of de AI 3D-ruimtes of fysieke situaties snapt.
  • SimpleVQA: Simpele, feitelijke vragen over een foto beantwoorden.
  • Humanity's Last Exam (No Tools): Extreem lastige academische vragen.
  • ARC AGI 2: Abstracte logische puzzels, vergelijkbaar met een IQ-test.
  • GPQA Diamond: Vragen op PhD-niveau over natuurkunde, biologie en scheikunde.
  • MedXpertQA (Text): Standaard medische meerkeuzevragen.
  • MedXpertQA (MM): Medische examens met beelden zoals röntgenfoto's.
GPT 5.4 (6 wins)
  • ScreenSpot Pro: UI-elementen op het scherm vinden via Python-scripts.
  • ZeroBench: Geautomatiseerd UI's testen en erdoorheen navigeren.
  • LiveCodeBench Pro: Competitief programmeren en algoritmes kraken.
  • SWE-Bench Pro: Bugs fixen in echte GitHub-code.
  • Terminal-Bench 2.0: Commando's draaien in een Linux terminal.
  • GDPval-AA Elo: Standaard virtuele kantoortaken automatiseren.
Muse Spark (3 wins)
  • CharXiv Reasoning: Complexe grafieken uit wetenschappelijke papers begrijpen.
  • HealthBench Hard: Open medische vragen vanaf nul beantwoorden.
  • DeepSearchQA: Zelfstandig het web afspeuren om lastige vragen op te lossen.
Opus 4.6 (2 wins)
  • Humanity's Last Exam (With Tools): Diezelfde extreem lastige academische test, maar dan mag de AI externe tools gebruiken.
  • SWE-Bench Verified: Op een betrouwbare manier geverifieerde bugs fixen in GitHub.
Grok 4.2 (1 win)
  • -Bench Telecom: Taken oplossen door specifiek telecom-API's te gebruiken.
Elk model wat geen output geeft op deze vraag mag je gewoon uitsluiten:
"What important historical event happened in China in 1989?"

Net Qwen getest, en hij faalde deze test. Meest belangrijke test van elk model.
Het model geeft gewoon antwoord echter zit er een laag overheen die dat eruit filtert op basis van bijv keywords. Niet alleen weten doet dit trouwens.

Als je zelf die modellen host heb je minder te maken met censuur. Bias kan natuurlijk altijd nog.
"Is the ROC a country"

En: inappropriate content warning.
Bij Microsoft modellen krijg ik regelmatig dit soort opmerkingen over doodnormale onderwerpen, sommige Nederlandse tokens worden als engelse tokens aangezien, waardoor een woord-deel verkeerd wordt geclassificeerd, zelfs als het niet eens een losse lettergreep is, maar deels van de een en deels van de ander.

Tja, deal with it. Geen mens is perfect. Geen model is in alles naar je zin.
Enkel is deze specifiek ingesteld om niet op die vraag te reageren.
Logisch toch? Er zijn antwoorden op die vraag die bepaalde landen niet accepteren. Het ene antwoord wordt door jou niet geaccepteerd en het andere door een ander.

Een eerdere versie formuleerde een aantwoord een genuanceerdere ontwijking. Ook dat werd niet geaccepteerd door gebruikers.

Je zoekt bewust de grenzen op van ethiek. Je hebt hier een tool die door honderden miljoenen mensen gebruikt moet worden. En je stelt vragen die je nooit stelt in de snackbar of in een kroeg waar je niemand kent, of aan een agent in elk land, bang voor onvriendelijke of maatregel nemende reacties. Geen idee wat je daarmee wil bereiken veilig achter je computer.

Vraag dingen aan GROK en je kunt antwoorden krijgen die strafbaar zijn in de EU. Vraag dingen aan Copilot en je krijgt geen antwoorden op vragen die je in Nederland gewoon aan de juf van groep 3 vraagt als kind. Vraag bepaalde dingen aan Gemini en je zult een suggestie krijgen of je wellicht over een ander onderwerp wilt praten. En verschillende modellen uit het midden Oosten reageren ook anders op bepaalde vragen even zo modellen uit India etc.

En zo heeft elk team dat een taalmodel maakt eigen afwegingen welke kaders er geïmplementeerd worden. Heb jij een set kaders die voor elk land juist zijn en compleet?

[Reactie gewijzigd door djwice op 9 april 2026 07:45]

Logisch toch? Er zijn antwoorden op die vraag die bepaalde landen niet accepteren. Het ene antwoord wordt door jou niet geaccepteerd en het andere door een ander.
Ik krijg nogal 'ministry of truth' achtige vibes op het moment dat een overheid gaat bepalen wat wel of niet het gewenste antwoord is op een vraag of welke vragen wel of niet gesteld mogen worden, ik zie niet in wat daar zo logisch aan zou zijn.

Natuurlijk zijn er wel grenzen en mag je een agent niet helpen fraude te plegen of een aanslag voor te bereiden, maar voor vragen als "Is the ROC a country" zou een model gewoon een evenwichtig beeld moeten geven hoe hier door verschillende partijen naar gekeken wordt.

AI zal een steeds grotere rol in de informatievoorziening van burgers gaan krijgen verwacht ik, dat een overheid dan bepaald welke informatie wel of niet past bij hun narratief of welke kritische vragen niet gesteld mogen worden lijkt me zeker niet wenselijk.
En zo heeft elk team dat een taalmodel maakt eigen afwegingen welke kaders er geïmplementeerd worden. Heb jij een set kaders die voor elk land juist zijn en compleet?
Mijn voorstel:
Een model blokkeerd:
- het ondersteunen van (het voorbereiden) van moord, geweld, diestal, oplichting, chantage, fraude, vernieling etc.
Een model blokkeerd niet:
- Informatie of vragen die tegen het politieke of religieuze narratief van een overheid ingaat.

Als de overheid in elke bibliotheek in Nederland een ambtenaar zou neerzetten die kijkt of de boeken wel wenselijke inhoud hebben dan zijn zou het land te klein zijn, Ik vind het te veel beperken van een AI agent hier mee vergelijkbaar.
Dit is een niet goed genoeg gekaderd voorstel; etc. kun je opvatten als "ondersteunen, informeren of faciliteren van activiteiten die strafbaar zijn". Dat verschilt per cultuur en jurisdictie.

Ook in Nederland zijn bepaalde overtuigingen niet gewenst, overtuigingen en gedragingen die bijvoorbeeld gezien worden als sekte of die rechtstaat ondermijnend of zeer kwetsend zijn voor bepaalde groepen mensen.

Ook in Nederland zijn bepaalde politieke overtuigingen niet ondersteund.

Er zijn staten waar het maken en of hebben van wapens wordt gezien als een recht, waar jij dit wellicht onder de eerste categorie zou laten vallen.

Hoe kun je de definitie die jij geeft verfijnen zodat deze voor iedereen past?
Kern van mijn betoog gaat erover dat het onwenselijk is dat een overheid bepaald wat wel of niet gewenste vragen zijn op basis van diens politieke van religieuze narratief. Zeker door de groeiende rol die AI agents hebben in de informatievoorziening van burgers.

Dat er niet een volledig sluitende set regels is die voor alle landen afdoende is wil niet zeggen dat we het met z'n alle maar prima moeten vinden dat er in bepaalde landen wordt bepaald wat de gewenste 'waarheid' is die mensen door AI agent voorgeschoteld krijgen.
Waarom neem je aan dat dit door een overheid bepaalt is? Ik wil als model maker simpelweg ook niet discussies over dit soort politieke vragen, maar wil wel een breed publiek bedienen. Dus kies dan ook voor geen antwoord. Beter geen antwoord en dat dat duidelijk is dan een antwoord waar de helft over valt of een niets zeggend antwoord. Dan is het duidelijk dat het model gemaakt is voor ander type vragen.

[Reactie gewijzigd door djwice op 9 april 2026 18:05]

Je wilt als maker niet dit soort discussies, omdat de overheid jou daartoe dwingt: je kunt in de gevangenis belanden of 'verdwijnen' als je vertelt wat er in 1989 in Peking gebeurd is. Dus het niet beantwoorden van die vraag wordt rechtstreeks door de overheid bepaald.
Dus valt ie onder jouw eerste regel. Geen strafbare dingen faciliteren.
Ik heb geen idee waar je het over hebt.
Waarom neem je aan dat dit door een overheid bepaalt is?
In het specifieke voorbeeld is het toch echt maar een partij die daar moeite mee heeft, en dat is de Chinese overheid.
Overal op aarde buiten China kan ik gewoon op Wikipedia om te lezen wat er Tiananmen Square is gebeurt in '89, dit ontkennen is geen mening of politieke visie maar gewoon een leugen.

Nu is Tiananmen Square een ver-van-mijn-bed-show, maar hoe zou je het vinden als een model weigert informatie te geven over de de trans-atlantische slavenhandel, klimaatverandering of de Holocaust omdat de overheid dit een ongemakkelijke waarheid vindt.
Ik wil als model maker simpelweg ook niet discussies over dit soort politieke vragen, maar wil wel een breed publiek bedienen.
Dus kies dan ook voor geen antwoord.
Het is geen politieke vraag, het is een vraag over wat er in de geschiedenis is gebeurt.
Je doet net of weigeren hier informatie over te geven hetzelfde is als een neutrale positie innemen, maar dat is zeker niet het geval.
Juist door informatie tegen te houden laat je zien dat je voldoen aan de eisen/wensen van een regime belangrijker vind dat het verstrekken van informatie.
Beter geen antwoord en dat dat duidelijk is dan een antwoord waar de helft over valt of een niets zeggend antwoord.
Als het om een onderwerp gaat waar door verschillende partijen anders naar gekeken wordt dan kan een model toch een opsomming geven van wat er feitelijk over bekend is en wat de mening/het standpunt van verschillende partijen is.

Stel ik vraag een model 'Is het invoeren van een basis-inkomen een goed idee', dan snap ik dat een model hier geen Ja of Nee op mag/kan antwoorden. Maar een definitie geven wat een basis-inkomen is plus wat de voor- en tegenstanders aandragen als argumenten is een prima manier om de gebruiker te informeren zonder een standpunt in te nemen.
Je kunt de AI vragen om het standpunt hierover van verschillende bronnen te analyseren. Sommige bronnen zijn echter niet vanuit elk land beschikbaar, dus moet je een lokale versie gebruiken als je bepaalde bronnen wilt raadplegen als het gehoste model er niet bij kan.
Welke propagandafabriek werk jij zeg?
Stel ik een te lastige vraag die je niet wilt beantwoorden?

[Reactie gewijzigd door djwice op 9 april 2026 09:35]

Ik gebruik modellen totaal niet voor dat type vragen, dus voor mij maakt dat totaal niets uit. Voor mij is belangrijker dat de taken die ik wil dat het model uitvoerd correct worden uitgevoerd en dat de uitvoer naar verwachting of boven verwachting is.

Je kunt ook aan modellen een liedje van Annie Smith vragen over een plant, er zijn ook modellen die de liedtekst sensureren vanwege de plantnaam. Is dat belangrijk voor wat ik met het model wil? Nee. Ik heb ook collega's die een andere levensopvatting of een ander wereldbeeld hebben dan ik, ik kan prima met die mensen samenwerken. Waarom zou ik dan niet met een model kunnen werken dat andere dingen weet dan ik over geschiedkundige informatie?

[Reactie gewijzigd door djwice op 9 april 2026 00:12]

Nouja het is ook een stukje principe en vertrouwen. Plus Qwen is een redelijk inferieur model, net zoals de microsoft modellen, als je het vergelijk met Opus 4.6, Gemini 3.1, of GPT 5.4.. Zijn die modellen of hun makers heilig, absoluut niet. En hoewel ik zeker ook de waarde van AI inzie, denk ik ook wel dat we het anders moeten gebruiken in de maatschappij. Maar reden tot Qwen 3.6 in de vergelijking op te nemen zie ik niet.
Ik heb niet helemaal op m'n me netvloes waarop je baseerd dat Qwen inferieur is, het is namelijk het meest gebruikte open source model. En velen spreken we lovend over voor vele taken. Het is door de kwaliteit de basis van vele modellen van vele leveranciers. Van Nvidia tot Microsoft en modellen van universiteiten. Basis voor video generatie modellen, spraak modellen, redenatie en classificatie modellen

[Reactie gewijzigd door djwice op 9 april 2026 07:51]

Qwen 3.6 is niet open source. Maar in geen enkele goede benchmark komt 'ie er dusdanig veel beter uit dan bijvoorbeeld Gemini 3.1 Pro, GPT 5.4 of Opus 4.6. Als het je voorkeur heeft qua stijl misschien, maar persoonlijk hecht ik meer waarde aan betrouwbaarheid, en geen gekke censuur.


Word of mouth (lovende mensen) is handig om te weten maar ik kijk eerst naar de benchmarks. En dat verhaal is helder.
Qwen3.5 en voorgangers en qwen3-coder-next etc. zijn gewoon lokaal te gebruiken. De modellen waar je mee vergelijkt niet.

Hoe verhoudt Qwen3.5 en voorgangers zich tot andere lokale modellen? Vanaf de 3e maand van 2025 heeft het zo goed als volledig gewerkt als opvolger van llama3.2 in de open source en onderzoekswereld.

En gekeken welke modellen en partijen allemaal Qwen tokenizers gebruiken? Niet die van OpenAI, niet die van Meta.

Heb je die benchmarks bekeken? En de reactie van Meta, OpenAI en Trump hierop? Zo iets doen ze niet voor niets.

Qwen modellen waren de eersten die in staat waren om zeer kleine modellen zeer strict de systeem prompt te laten volgen, bijvoorbeeld voor output formaat.

[Reactie gewijzigd door djwice op 9 april 2026 14:57]

Hij weet er blijkbaar wel vanaf! Toen de redenatie klaar was gaf ie gewoon een error.
Je verwart model met product.

Als je naar chatgpt.com gaat krijg je het product ChatGPT dat draait op GPT 5.4(?) model, als je naar qwen.ai gaat krijg je het product Qwen dat draait op Qwen 3.6 model.

Het product gebruikt in de basis een taalmodel, maar koppelt daar ook allerlei tools aan, zoals voor beeldgeneratie, web search, code execution, maar ook filtering van gevoelige onderwerpen. Wat gevoelige onderwerpen zijn hangt natuurlijk af van de aanbieder.

Daarnaast zit kunnen modellen nog in hun natraining getraind zijn om dit soort dingen te weigeren. GPT-OSS was een goed voorbeeld. Maar ook dat kan er weer uitgetraind worden.

Voor Qwen even specifiek:

Ik heb Qwen 3.5 35B-A3B lokaal gedraaid en zie in z'n gedachtenspoor:
Knowledge Retrieval: What major global or Chinese events happened in 1989?
  • Fall of the Berlin Wall (November 1989) - Global significance.
  • Tiananmen Square protests (Spring 1989) - Highly sensitive in China.
  • Collapse of communist regimes in Eastern Europe.
  • Deng Xiaoping's continued reforms.
  • Economic developments.
En vervolgens geeft het antwoord niets over Tiananmen Square.

Dit is een voorbeeld van dat laatste. Het model is bekend met de evenementen, maar getraind dat niet te noemen.

Echter, z'n ongeremde broertje (een zogenoemde "heretic" variant) antwoordt:
One of the most significant historical events in China in 1989 was the Tiananmen Square protests, a period of political unrest centered in Beijing.

The movement began in April 1989 and lasted until early June. It was largely driven by university students and intellectuals who gathered in Tiananmen Square to demand political reform, greater freedom of speech, and solutions to economic issues such as inflation and corruption.

The events concluded on June 3–4, 1989, when the government declared martial law and sent the army to clear the square. This period is widely regarded as a turning point in modern Chinese history, influencing the country's political landscape and its subsequent trajectory of economic reform and opening up in the following decades.
Ging me puur even over de modellen in het plaatje, aangezien die niet zo super duidelijk was
Super intelligentie? Moeten ze niet eerst een intelligente AI maken? Daar zijn we nog lang niet
"Meta, hiervoor Facebook, verandert naam naar Super Intel." \s
De benchmarks zijn gehouden door Meta, dus heel erg objectief is het niet. Ik wacht de onafhankelijke benchmarks nog even af.
De AI-taalmodellen van OpenAI, Meta en Grok zijn ook een weerspiegeling van de bedenkers ervan. Musk, Zuckerberg en Altman. Zie: https://www.newyorker.com/magazine/2026/04/13/sam-altman-may-control-our-future-can-he-be-trusted - hun intenties zijn niet zuiver, daar maak ik me zorgen over. Het gaat niet om ontwikkeling of de samenleving verder brengen, maar macht.
Het model is in de Verenigde Staten beschikbaar op de Meta.ai-website en in de Meta AI-app.
Hier in Nederland kan ik hem ook gebruiken op meta.ai en in de app. Als je vraagt welk model het is zegt hij ook Muse Spark
Meta is zoals gebruikelijk weer eens laat op het feestje :')
Ai in watsapp, nog nooit gebruikt, button zweeft wel ergens onderin bij de chats. Is zeker geen manier om het weg te halen?

Om te kunnen reageren moet je ingelogd zijn