Microsoft brengt extra Copilot+-functies naar AMD- en Intel-pc's met npu

Microsoft brengt bepaalde Copilot+-functies naar pc's met Intel- en AMD-socs. Het gaat om functies die voorheen alleen voor pc's met Snapdragon X-soc beschikbaar waren, zoals een ondertitelingsfunctie en Cocreator in Paint.

Onder meer Live Captions komt naar Copilot+-pc's, een tool die bijvoorbeeld meetings, podcasts of video's kan voorzien van ondertiteling. Deze ondertiteling kan ook naar het Engels worden vertaald. Een andere functie is Cocreator in Paint, die op basis van een getekende afbeelding en een tekstprompt een nieuwe afbeelding kan maken, zoals een realistischere weergave van de tekening. Er komen vergelijkbare functies naar de Photos-app met Restyle Image en Image Creator.

De genoemde functies waren al beschikbaar voor laptops en tablets met Snapdragon-soc, maar komen nu ook naar pc's met AMD- of Intel-soc. Deze socs moeten dan wel een npu hebben die krachtig genoeg is en dus van de Ryzen AI 300- of Lunar Lake-serie zijn. De functies komen deze maand gefaseerd naar gebruikers.

Verder kondigt Microsoft een verbetering aan van de Voice Access-functie, die gebruikers 'meer uitleggende en flexibele taal' laat gebruiken bij de toegankelijkheidstool. Dit moet het gebruik van de tool eenvoudiger en natuurlijker maken. Deze functie komt eerst naar pc's met Snapdragon X-soc en later naar AMD- en Intel-Copilot+-pc's.

Windows 11 Live Captions
Windows 11 Live Captions

Door Hayte Hugo

Redacteur

01-04-2025 • 18:36

38

Lees meer

Reacties (38)

Sorteer op:

Weergave:

Wil sowieso bij aanschaf nieuwe pc (nog niet nodig) ook één met NPU (met minstens 100 tops). Scheelt weer een abbo ChatGPT, als CoPilot ongeveer vergelijkbaar zou zijn.
Oprecht benieuwd, aangezien ik alleen maar bekend ben lokale ai via een gpu (voor enigszins redelijke performance in elk geval), wat kan je verwachten van een NPU met 100 tops zoals je graag zou willen? Hoe is de verwerkingsnelheid te vergelijken en hoe zit het met geheugen (wat bij GPUs toch vaak de limiterende factor is, in elk geval voor consumenten-GPUs).

Stel dat ik Stable Diffusion of een Deepseek R1 achtig model zou willen draaien? (Waarschijnlijk distilled of misschien de variant met gespecialiseerde "workers")?
De enige modellen die je zelf kunt draaien en enigszins in de buurt komen van de frontier modellen beginnen vanaf 27b (dus 27 miljard parameters). Wil je deze modellen fatsoenlijk kunnen draaien heb je minstens 24GB aan VRAM nodig zodat je ruimte hebt voor het model zelf en fatsoenlijke context length over hebt. Alle 7b modellen wat je op normale consumentenhardware redelijk kunt draaien zou ik persoonlijk links laten liggen en je komt geen straatlengte in de buurt van een ChatGPT of Claude. Vanaf 12b kunnen we erover praten maar het begint pas leuk te worden vanaf 27b modellen.
Hangt er vanaf wat je wil doen. Vertalen, een, spraak herkennen een taak uitvoeren via een lokale AI agent, zinnen beter schrijven etc.

Dat is een hele andere workload dan een complex juridisch vraagstuk beredeneren.
Zelfs met simpele taken merk je duidelijk verschil in kwaliteit. Tenzij je een zeer specifiek gefinetuned model hebt zou ik echt 7b laten liggen. Voor paar cent kan je gebruik maken van endpoint die Deepseek kan draaien of QwQ die open zijn maar wel met OpenAI, Claude en Google kunnen meten.
Je kan kiezen voor gespecialiseerde LLM voor die taak. Minder groot en correct
Naast de training en soort LLM dus kan heel veel beter. Aangezien wat er tot nu toe was meer rauwe power voor LLM gebruikt wordt. Bij vergelijken doen ander soms kleiner llm beter zoals deepseek vs chatgpt maar er zijn meer. Naast censuur correctheid grote en snelheid.
Dus mogelijk dat je nu 512GB kan gebruiken maat over 3 jaar er alternatieven die kwaliteit censuur grote en snelheid beter zijn. En grootste model amper 64GB is.
Waar specialiseerde 12GB zijn en amper inlevert op correctheid.
Stel dat ik Stable Diffusion of een Deepseek R1 achtig model zou willen draaien?
Dan heb je op dit moment grotendeels dikke pech want veel software draait domweg nog niet op NPU's. Zowel Intel als AMD lopen nog achter bij het maken van de software. Je kunt de NPU wel al bewonderen in de Performance Monitor, maar je zult het ding zelden aan het werk zien. :P

Nou is DeepSeek R1 Distilled (1.5B en 7B dan wel) een van de weinige modellen die Intel speciaal heeft aangepast zodat het wel draait op NPU's -- een llama.cpp build die dat gebruikt is hier te vinden. Maar het werkt dus ook echt alleen maar voor een handjevol modellen (het crashed of geeft onzin als je het met iets anders probeert) en alleen met Intel's eigen build. Veel ander spul heb ik nog niet kunnen vinden. SD zou wel moeten werken (Intel heeft dat zelf gedemo'd) maar wat je daar precies voor aan elkaar moet knopen weet ik niet.

Ik heb een hele ruwe test gedaan met een Dell laptop die een Meteor Lake aan boord had. Dat ding heeft maar ~11 TOPS aan boord en de iGPU is dus sneller (is inderdaad ook te zien met llama.cpp). In theorie moet het dan nog beter gaan als je zowel de iGPU als de NPU aan het werk kan zetten, maar opnieuw, vind de software maar die dat doet. Intel's super-specifieke custom NPU build heeft geen rpc-server implementatie, bijvoorbeeld, zodat je geen gedistribueerde llama.cpp kan doen. Moet in theorie wel te bouwen zijn, maar... het is er nog niet.

Dit gaat uiteindelijk natuurlijk wel beter worden, en dan verwacht ik dat je de prestaties ruwweg met een iGPU moet vergelijken, maal/minus de factor TOPS (Meteor Lake is de eerste generatie en nog niet zo interessant; Lunar Lake zou al 4x beter moeten zijn, maar nog steeds is de iGPU daar sneller, zodat het eigenlijk alleen interessant wordt als je beide tegelijk aan het werk kunt zetten). In beide gevallen is het RAM doorgaans de bottleneck, maar dat hoeft bij kleinere modellen niet zo'n probleem te zijn.

[Reactie gewijzigd door MneoreJ op 1 april 2025 19:43]

Stel dat ik Stable Diffusion of een Deepseek R1 achtig model zou willen draaien? (Waarschijnlijk distilled of misschien de variant met gespecialiseerde "workers")?
Een X Elite met 32GB en 45 TOPS geeft als stable diffusion 1.5 op de npu draait en bij standaard instellingen elke 11 seconden een nieuw plaatje.
Dit kun je de hele (werk)dag doen op de laptop batterij.

Kijk je naar een desktop met NVIDIA 5070TI, dan zal die 1 tot 2 seconden voor het zelfde plaatje nodig hebben.

Een X Elite heeft echter toegang tot bijna 32GB of zelfs 64GB geheugen in plaats van 16GB zoals de 5070TI. Daarom zal de X Elite grotere LLM modellen sneller kunnen draaien dan de 5070TI als een deel van het model of tokens (prompt) niet in de 16GB past.

Voor andere AI modellen en hun performance kijk even hier:
https://aihub.qualcomm.co...ipsets=Snapdragon+X+Elite

Het is overigens niet altijd triviaal om een model te draaien, AI heeft vaak python scripts nodig en soms wat hulp software van Qualcomm.

Oh, en een GPU kan verschillende numerieke types verwerken fl4, fl8, f8, int8, fl16, int16 etc. de NPU maar 1 : int8. En daar is de NPU super energie efficiënt in, veel beter dan de GPU en CPU.

[Reactie gewijzigd door djwice op 1 april 2025 20:46]

Begreep van ChatGPT zelf dat hij om lokaal te draaien een NPU iets van 400 tops nodig had. Geen idee hoeveel RAM geheugen.
LLM's zijn notoir onbetrouwbaar als het gaat om serveren van exacte getallen, en een nummer als dit is betekenisloos er niet ook bij komt hoeveel tokens per seconde het dan kan verwerken. Je kunt hoe dan ook noch lokale hardware kopen die ChatGPT kan draaien met enige acceptabele snelheid, noch kun je daadwerkelijk ChatGPT draaien, want dat is een proprietary model. Dat maakt vergelijkingen nog wat minder zinvol.

Om het heel praktisch te stellen: als je fatsoenlijke resultaten wil met een AI-model ben je op clouddiensten aangewezen. Je moet de NPU's en de lokale functies zien als een aanvulling op, en niet een vervanging van, dergelijke diensten (of ze nu gratis zijn of niet). De lokale modellen kunnen dan niet veel, maar blinken wel uit in latency en privacy, zodat je bijvoorbeeld spelling en grammatica kunt checken, samenvattingen kan laten maken, spraakherkenning/automatische ondertiteling kan toevoegen en simpele plaatjes kan laten genereren.

Kijken we nog wat verder dan zullen providers als Microsoft (en ook anderen) heel specifieke modellen gaan bouwen die toegespitst zijn op dit soort hardware zodat ze de input voor hun clouddiensten alvast kunnen preprocessen, wat de snelheid van het geheel weer ten goede komt, en wellicht ook privacy -- lokale modellen kunnen de input maskeren, doorsturen en het resultaat efficient weer terugvertalen naar iets met persoonlijke details zichtbaar.

Maar iets als ChatGPT compleet vervangen zal het nooit, daarvoor is de hardware gewoon niet krachtig genoeg. En tegen de tijd dat het dat wel is (ooit, wellicht...) is de serverhardware ook veel verder.

[Reactie gewijzigd door MneoreJ op 1 april 2025 20:18]

Volgens mij zijn er van AMD nog geen desktop CPU's met NPU.

Al is dat laatste misschien nog meer een marketing term, want het is afhankelijk van het gebruikte AI model of deze meert baat heeft bij complexe bewerkingen in een CPU of meer veel simpele bewerkingen waar een GPU goed in is, of iets er tussenin, waar een NPU voor 'bedoeld' is. Ik kan niet helemaal beoordelen of de AI hype de behoefte/noodzaak voor een nieuw type processor vereist.

Met een knipoog: kennelijk werkt de marketing wel, als dit nu al een behoefte oproept voor een product dat nog niet bestaat.
Jazeker heeft AMD deze processoren, dat is AMD Ryzen AI 9 HX (Pro) serie 300-serie, met op dit moment de 375 als snelste welk komt met een NPU die 55TOPS doet, tot op dit moment de snelste NPU welke met een CPU gecombineerd wordt. Overgens is de 375 op dit moment alleen voorbehouden aan HP.

De 370 vindt je hier de sepcificaties van (80 combined TOPS en 50 TOPS van de NPU):
https://www.amd.com/en/pr...md-ryzen-ai-9-hx-370.html
Tweakers noemt de AI-300 serie in review: AMD Ryzen 9000 en Ryzen AI 300 - Zo maakt AMD 'Zen 5' 16 procent sneller laptop processors en jouw url noemt ook desktops. Wellicht wordt het dan net zoiets als de 8600 en 8700 serie, maar een desktop variant van de AI-300 is volgens mij nog niet verkrijgbaar (iig niet in de pricewatch).
Als je goed kijkt bij de specificaties geeft AMD zowel Laptop als Desktop aan. Niet goed gelezen, sorry.

[Reactie gewijzigd door _Dune_ op 1 april 2025 22:33]

Daar wel idd. Dat biedt mogelijk perspectieven voor de toekomst.
Veel modellen die ik gebruik belasten de 45 TOPS die de NPU aan kan niet eens. Dus 100 TOPS is alleen nuttig als het model niet slechts een deel tegelijk gebruikt en daarna pas het antwoord gebruikt voor de volgende berekening.

Taalmodellen die typisch itereren op de vorige uitvoer hebben baat bij snel geheugen en een brede geheugen bus en benutten vaak niet al je rekenkracht.
AMD en Intel CPUs hebben nog geen CPUs in de aanbieding voor consumenten met een brede RAM bus (ten minste 512GB/s doorvoer) en voldoende NPU rekencapaciteit (tenminste 1000 tops) om grotere LLMs (70B+) met meer dan 1-2 tokens/s te draaien. Daarvoor zul je moeten kijken naar unified memory designs zoals Apple M3/4 en GB10 gebaseerde PCs met minimaal 128GB geheugen. Maar daar draai je geen x64 windows op (als dat je doel was).

Ik zou voor dat soort dingen toch 't abbo'tje bij de hand houden. Of openrouter.ai gebruiken, kun je per miljoen tokens afrekenen en prijzen verschillen per LLM die je kunt kiezen, ipv vast bedrag per maand.
Als je lokaal een 70B model kan draaien, dan zit je al vrij dicht bij ChatGPT resultaten. Doe je aan programmeren, dan kun je ook een toegespits 70B model voor die taal gebruiken. Dan heb je helemaal
geen of amper nut nut voor CoPilot (met of zonder plus). En scheelt je ook een boel aan abonnementskosten bij een ChatGPT/Claude/Mistral/welke andere dienst je voorkeur geniet.
Ik heb. Die npu juist uitgeschakeld scheelde weer een stuk batterij life op je laptop.
Oh, bij mij scheelt de npu op mijn X Elite juist veel batterij. Ik kan 10 uur met lokale llm spelen en nog is de accu niet leeg, ondanks m'n oled scherm. En geen ventilator die aan gaat.

Als ik dat op de CPU zou draaien is de batterij echt in een paar uur leeg en wordt de laptop veel heter.

Idem voor foto's maken met Stable Diffusion, elke 11 seconde een nieuwe foto, maar nauwelijks batterij gebruik als ik de NPU inzet.

[Reactie gewijzigd door djwice op 1 april 2025 20:16]

Maar dan gebruik je juist die NPU heel erg, dus dat is in die zin logisch vermoed ik. Ik verwacht echter dat @Scriptkid bedoeld dit het batterij kan schelen als je de NPU niet actief gebruikt (dus geen AI workloads), maar deze wel aanstaat in de bios.
Ja, dat vermoed ik. Blijkbaar gebruikt ie de specifieke functies van zijn laptop minder. Het geheugen is natuurlijk super snel t.o.v. een normale laptop en gebruikt ook nog minder stroom.

Het verbaast me dat het veel accu bespaart als je de NPU uit zet, ik had verwacht dat die idle überhaupt geen noemenswaardige hoeveelheid energie gebruikt.

[Reactie gewijzigd door djwice op 1 april 2025 20:50]

Kan natuurlijk ook zijn dat in dat het gaat om een Intel of AMD laptop met NPU heeft, wat mogelijk een andere impact heeft dan jouw X-Elite. Al ben ik ook wel benieuwd naar de exacte besparing.
Welke LLM gebruik je lokaal op de NPU ?
De meeste lokale modellen via Ollama gebruiken bij mij de NPU.
Levert dit daadwerkelijk betere accuduur op? Kan er met een snelle zoekopdracht niks over vinden. Ik zou verwachten dat die NPU weinig tot niets verbruikt als ie niks draait, en het hele punt is juist dat ie specifieke taken heel zuinig uit kan voeren? :?
Misschien moeten we het aan copilot vragen...?
Het viel me nogal tegen dat op mijn Snapdragon X Dell XPS die NPU niet eens gebruikt kon worden voor LLM's zonder dat ik een heel obscuur programma moest downloaden. Ollama enzo hebben er niet eens support voor, en er waren maar heel beperkt modellen beschikbaar voor dat andere programma.
Performance was wel netjes op het Llama model. Maar niet extreem ofzo. Ik had verwacht dat t Windows CoPilot programma gewoon lokaal ook een LLM kon draaien. Niet dus.
Paint en notepad en sticky notes app al verwijderd, vervangen voor de oude klassieke apps zonder al die AI/Copilot functies.

https://win7games.com/#mspaint

Foto app gaat er dus ook vanaf zie ik al.
Thanks! ik gebruik gewoon de oude notepad, sticky had ik al lang geleden eraf gegooid, gebruik die van google. Paint gebruikte ik voor het laatst in 1990 ofzo :+ , photo legacy er nu op gezet!
Ja ik ben beetje klaar met opdringerige copilot gedoe, tot in de simpelste apps zit het gewoon verwerkt al.
Laat sommige dingen eens voor wat het is.

Moet ook zeggen sticky noten gebruik ik helemaal niet, ook geen alternatief.
Maar dacht ach kan geen kwaad, en paint zo heel sporadisch eens.
mee eens, ik vind het ook erg opdringerig. Het is mijn data en ik ben geen cashcow van bedrijven die geld verdienen aan data.
Worden deze functies dan dus lokaal uitgevoerd ipv in de cloud?
Prima! Copilot staat uit, knop doet niks meer. Fk al die AI
Dus weer een reden minder om Snapdragon een succes te laten worden.
Waarom kunnen de AI accelerators van de GPU hier niet voor gebruikt worden? Mijn AMD Radeon RX 7800 XT heeft 120 AI accelerators (~150 TOPS), maar mijn CPU heeft geen geïntegreerde NPU.

edit:
Het lijkt erop de Microsoft en Nvidia hier wel aan werken, maar dan is mijn vraag waarom hier niet gewoon een soort standaard zoals DirectX voor gemaakt wordt. DirectAI of DirectML ofzo. Dat zou het voor chipfabrikanten makkelijker maken om Copilot te ondersteunen.

[Reactie gewijzigd door -Mous- op 1 april 2025 20:23]

Er zijn meerdere van dergelijke standaarden: ik noem een OpenCL, en als je specifiek een GPU hiervoor wil aansturen Vulkan. En het leuke is natuurlijk dat geen van die standaarden gebruikt wordt voor alle hardware (de implementatie ontbreekt, is onvolledig of is veel trager dan de "native" library voor de hardware). Software die gewoon moet presteren gebruikt dan ook whatever library het beste van toepassing is, wat varieert.

De standaarden blijven nog achter omdat op dit moment iedereen meer heil ziet in z'n eigen eilandje afbakenen en zoveel mogelijk mindshare wegkapen bij de rest dan dat men vreedzame samenwerking aanmoedigt. Daarnaast gaan de ontwikkelingen nog wat te snel, zodat zo'n standaard op dit moment de facto gelijk gaat achterlopen bij de hardware, wat het geheel minder aantrekkelijk maakt. Niet alles wat AI heet heeft dezelfde soort operaties nodig.
Mijn gok: het gebrek is niet technisch maar economisch. Het kost gewoon veel geld en ze weten dat ze nu vooral managers aanspreken die helemaal hyped worden van copilot, daar waar de rest vooral memes gaat maken met paint waarmee veel geld verspild wordt. Dat van die ondertiteling snap ik ook niet helemaal, dat is zo'n accessibility feature waar ze veel mensen blij mee kunnen maken. Stop dat dan lekker in je microsoft365/office365 of zo.

Op dit item kan niet meer gereageerd worden.