'Apple maakt AI-modellen niet opensource om prestaties van lokale model'

Apple maakt zijn AI-modellen niet opensource, omdat het publiek dan zou denken dat Apple te veel compromissen sluit om AI lokaal op iPhones te draaien. Er zit een groot verschil in prestaties tussen de kleine modellen op telefoons en de grotere modellen op servers.

Apple-onderzoekers wilden modellen achter Apple Intelligence eerder dit jaar opensource maken, maar topman Craig Federighi wil dat niet, schrijft The Information op basis van anonieme bronnen. Er zouden al genoeg opensourcemodellen zijn om onderzoek te stimuleren. Bovendien was Federighi bang dat het de indruk zou wekken dat Apple compromissen sluit om AI lokaal op iPhones te draaien. Het verschil in prestaties tussen de kleine, lokale modellen op iPhones en de varianten op servers is groot.

Dat de AI-modellen van Apple achterlopen op die van veel concurrenten, is volgens Federighi van minder belang in die afweging. Daarnaast heeft het bedrijf de eigen medewerkers afgelopen jaar vaak verrast met aankondigingen, zoals het uitstel van de nieuwe Siri en de onderhandelingen om de nieuwe Siri mogelijk te maken met AI-modellen van OpenAI of Anthropic. Die factoren zouden hebben geleid tot vertrekkende AI-onderzoekers bij Apple.

Apple Intelligence Siri

Door Arnoud Wokke

Redacteur Tweakers

22-07-2025 • 19:09

25

Reacties (25)

Sorteer op:

Weergave:

Tja ik krijg toch sterk het gevoel dat de generatieve kwaliteiten van AI, waar overal mee gepronkt wordt, van een ander kaliber zijn dan het type AI de gebruiker verlangd van een personal assistent (Siri) die consistent, betrouwbare antwoorden moet leveren. Dat je bij ChatGPT een controle moet doen of de output daadwerkelijk te herleiden is naar betrouwbare bronnen en er daadwerkelijk in staat weegt op tegen de tijdswinst die je ermee behaalt, echter wordt dat een waardeloze ervaring als je dat moet gaan doen bij vragen die contextueel gebruik vereisen van de data op je telefoon. Dan moet het gewoon werken en anders is het bal.
Daar loopt Apple nu tegenaan en ik vraag me af of de AI industrie wél al op dat niveau betrouwbare intelligentie kan leveren.
Het moeten valideren van de output is de grootste beperking die massale AI integratie/adoptie op dit moment tegenhoudt. Ik ben oprecht benieuwd wat de toekomst brengt...
Ook de nieuwe regelgeving die de bias van een AI duidelijk moet zijn. Als ze alleen maar trainen op fox news en X dan heb je een behoorlijke bias....
Bovendien was Federighi bang dat het de indruk zou wekken dat Apple compromissen sluit om AI lokaal op iPhones te draaien. Het verschil in prestaties tussen de kleine, lokale modellen op iPhones en de varianten op servers is groot.
dus nu kunnen ze die indruk niet krijgen, omdat ze niet kunnen zien wat er juist gebeurt? Lijkt me eerder een bevestiging van die vermoedens door dit als verklaring te geven en zo de deur te openen voor speculaties naar wat er dan nog allemaal te verbergen is
dat je er nog serieus op reageert ook nog,

luister, apple maakt best fijne telefoons en airtags zijn voor mij onontbeerlijk (zo erg dat zelfs het compromis van tile een andere telefoon niet rechtvaardigd). maar als software verkoper is het een waardeloze toko die WEET wanneer ze inferieure meuk aan de man proberen te brengen.

te veel compromissen is gewoon: 'we krijgen het niet werkend, en opensource zo een enorme afgang zijn, vooral als 3rd-party ontwikkelaars het via homebrew of alt-store wél goed werkende zouden krijgen. dus houden we het voor on zelf en in de keynotes gooien we er extra yive tegenaan om het maar zo slim en hip mogelijk te laten klinken zonder ook maar één technisch detail te geven waardoor de techcommunity ons zou kunnen afbranden.

de grote vraag is nu; gaat apple wederom zijn hardware zo enorm proberen dicht te timmeren dat je alleen apple-AI kunt draaien, net zoals je ook alleen chrome en firefox met een safari backend kunt krijgen. En aanvullend daarop, hoelang heeft de EC nodig om apple dan weer op de vingers te tikken zodat er ook 'alternatieve, op opensource gebaseerde, modellen, lokaal, op je iDevice kunnen draaien?

is dat A meer dan 3 jaar B meer dan 5 jaar of C 10+ jaar.
de vorige keer dat ze dit soort fratsen uithaalden hadden ze tenminste nog het excuus (# reden) dat het nodig was om kinderen te beschermen (remember het scannen van foto's en uploaden van hashes debacle), nu is het puur om hun eigen imago te proberen verdedigen tegen iets dat niet te vergelijken is (open online vs closed offline model).

Jij gaat volkomen terecht nog een stap verder om te eisen dat er andere models offline moeten worden toegelaten om gebruik te maken van de hardware waar users voor betaald hebben. Ik heb echter bitter weinig vertrouwen in opties A en B. Tegen dat het zo ver is, zullen we AGI al bereikt hebben en zal de beslissing waarschijnlijk niet meer door mensen genomen worden, maar slechts worden toegelicht :+
Het zal allemaal wel meevallen. Offline AI is zeer lastig, de resultaten vallen erg tegen, de AI kan niet of nauwelijks meer leren en het resource gebruik is hoog, lees je batterij wordt leeg getrokken.

Internet AI is wat de klok slaat en waar we een enorme doorbraak in gezien hebben. Dat zal echt niet meer veranderen.
Zo werkt het nou eenmaal, je hebt een model nodig wat zo veel mogelijk weet, anders gaat ie hallucineren als ie ergens geen informatie over heeft.. lokale modellen zijn leuk maar dan moet je heel specifieke vragen prompten.. Die heel erg nauw gefocussed zijn op het domain waar dat model iets over weet.
Iedereen is gefixeerd op large language models, maar er is nog een hele wereld aan andere AI modellen en toepassingen waarvan je kan bedenken dat Apple ze toepast (en ook doet in bijvoorbeeld de camera app en foto bewerking). De meeste mensen hebben dat niet eens door waarschijnlijk omdat Siri er tussenspringt als een zwerende, kloppende duim. Siri lijkt ieder jaar weer een stukje minder goed te worden, mijn auto kan beter met voice commando’s omgaan dan mijn telefoon en dat is pijnlijk.

Terecht overigens dat ze een toontje lager moeten zingen, ze hebben te hoog van de toren geblazen en verwachtingen gewekt die ze niet kunnen waarmaken.
ze hebben te hoog van de toren geblazen
Wie? Apple!? Nee toch?! :+
Het is precies andersom. Hoe groter het model, hoe meer hallucinatie er optreedt. Dus: zo werkt het nou eenmaal helemaal niet.
Dit snap ik niet helemaal, hoe kan dat dan?
Klinkt ergens wel logisch. Als je “slimmer” bent dan anderen (groter model, meer data), dan loop je het risico dat de consequenties/effecten groter zijn wanneer je ergens compleet naast zit/foute premise of bias hebt. (Mede vanwege de neiging meer detail te verschaffen.) En in dit geval heb je ook meer data om foute conclusies op te trekken. (Al is dat omgekeerd hetzelfde: onvoldoende data om een conclusie te trekken.)

[Reactie gewijzigd door WhatsappHack op 22 juli 2025 21:57]

Hoe meer data je in een model stopt, des te groter is de kans dat het model data bevat die elkaar tegenspreek. Wanneer het model dan output geeft op die tegenstreidige data, kan er allerlei onzin uitkomen.

Stel je traint een AI-model op een groot deel van het Nederlandse internet en in de trainigsdata zitten zowel de websites van het RIVM als van Viruswaarheid. Wanneer je vooraf niet aangeet welke data wel en niet belangrijk is kan je AI-model op basis van deze trainingsdata niets zinnigs zeggen over vaccinaties, omdat het tegenstrijdige informatie tot één antwoord probeert te combineren.
Volgens onderzoek is de oorspronkelijke conclusie juist wel correct:
We find that, while LLMs generate longer responses with more hallucinated tokens for higher-resource languages, there is no correlation between length-normalized hallucination rates of languages and their digital representation. Further, we find that smaller LLMs exhibit larger hallucination rates than larger models.
De term "smaller LLMs" kan hier tot misverstanden leiden en is wat mij betreft onvoldoende specifiek.

Een LLM kan namelijk klein zijn doordat het op relatief weinig data getraind is. Maar het kan ook klein zijn doordat het de afgeslankte versie is van een oorspronkelijke veel groter model. (Quantization: "When a LLM is scaled down by decreasing the number of bits per parameter. This is a key technique for making LLMs more efficient, smaller, and faster.").

Bij de eerste categorie, getraind op weinig data, is er nog een verschil of het een hoog gespecialiseerd model is, dat klein is omdat het getraind is op relatief veel data uit slechts één domein (bijvoorbeeld medische data), terwijl het ook kan zijn dat het model getraind is op een kleine selectie van data uit heel veel domeinen.

Ik kan me goed voorstellen dat al deze varianten van kleine LLMs onderling fors verschillen in hoeveel ze hallucineren.
Een abstract is natuurlijk beperkt in grootte, in dit geval gaat het inderdaad om kleinere varianten van grote LLMs. De figures in het gelinkte onderzoek zijn nuttig wat dat betreft.
5 Conclusion

We presented the first effort towards understanding how much multilingual LLMs hallucinate “in the wild”. To this end, we proposed a novel framework for hallucination rate estimation, which adjusts the number of detected hallucinations based on the detector’s performance resulting in more reliable rate estimates. We trained a series of multilingual detection models, and measured their precision and recall scores on our newly created mFAVA datasets across 30 languages. To estimate hallucinations, we build a novel synthetic open-domain knowledge-intensive QA dataset for which we collected answers from eleven open-source LLMs. Our findings indicate that smaller models and models that cover more languages hallucinate significantly more, and that model response-length does not correlate with hallucination rate.

[Reactie gewijzigd door Blizz op 23 juli 2025 13:50]

Kleine modellen zouden best focussen op agentic tool calling. Met beperkte maar voldoende kennis, de Siri in uw broekzak, dat net zoals de eindgebruiker informatie verzameld en daarmee aan de slag gaat. Eventueel grotere modellen in de cloud gebruikt indien het nodig is, dat zou de toekomst moeten zijn.
Hmm.. een open source model voor op telefoons:
https://deepmind.google/models/gemma/gemma-3n/

Dus de wereld kan het kleine model van Apple gewoon met die van Google vergelijken en zien dat vergelijkbare ...

3n heeft ook haar compromissen.
Zo kan het minder stappen vooruit redeneren, dat gaat bijvoorbeeld fout bij het generen van bepaalde reguliere expressies. Bijvoorbeeld van alle Nederlandse telefoonnummers maar niet de betaalde nummers.

Ben wel benieuwd welke keuzes Apple gemaakt heeft en hoe die zich relateren in keuzes van bijvoorbeeld Google, de andere telefoon OS en telefoon AI ontwikkelaar.
Dus zelfs de apple engineers twijfelen nu aan hun eigen kunnen?

Ik vraag mij af hoe de apple fans dit gaan verdedigen. Want het is gereleased, het duurde langer en het is altijd beter om die reden. De apple engineers hebben bepaald dat dit beter is dan wat er is, dus wie ben ik, een vieze droid gebruiker, dan om daar iets van te vinden?
Geen idee wat je probeert te zeggen.
Apple engineers weten het beste wat de gebruiker wilt ;)
Het lijkt me vrij duidelijk: we zien dat de processing capaciteiten voor AI in telefoons nog niet het niveau heeft dat je een gelijke ervaring als met online modellen krijgt. Voor de privacy van bedrijfsprocessen en je privéleven is dat dus een probleem aan het worden voor de geloofwaardigheid van het Apple platform in gebruikersvriendelijkheid. En ja dat hebben ze denk ik wat verkeerd ingeschat. Als hardwaregebaseerd bedrijf lopen ze dus voorop en tegelijkertijd weer achter qua ai performance. En dit zie je nog veel erger in de pc wereld. De bestaande pc architectuur is eigenlijk totaal niet geschikt voor AI toepassingen . Dus ik snap heel goed dat de Apple topman op de rem trapt.
Jammer dat lokaal toch een ondergeschoven kindje blijft. Als er een bedrijf is wat geld kan verdienen met specifiek voor lokaal gemaakt modellen is het Apple. Wat lokaal nodig heeft zijn speciale modellen en snellere flash. Dus modellen die karig gebruik maken van gewichten met zoveel mogelijk hergebruik bij opeenvolgende tokens. Voor snellere flash is HBF misschien een stap te ver in een mobiel, maar sneller dan UFS moet wel kunnen.

Op dit item kan niet meer gereageerd worden.