Door Olaf Weijers

Redacteur

Vooruitgang in lokale spraakherkenning

Home Assistant Voice Review

19-12-2024 • 22:00

88

Multipage-opmaak

Introductie

Samengevat

De Home Assistant Voice is spraakassistentiehardware waarmee je alle kanten op kunt. De hardware is niet zo krachtig, maar de functionaliteit komt met name voort uit het achterliggende platform Home Assistant. Als spraakassistent werkt het apparaat goed: hotwords worden goed herkend en er zijn weinig valspositieven. De speaker kan beter: voor spraak is het afdoende, maar de assistent is niet bedoeld om muziek mee te luisteren. Met de 3,5mm-aansluiting kun je een externe speaker gebruiken als muziek streamen wél gewenst is. De firmware is gebaseerd op ESPHome: hiermee kun je onbegrensd aan de slag met de achterliggende hardware als de originele configuratie je niet bevalt. Alle aansluitingen die interessant zijn om mee te knutselen zijn bereikbaar op het pcb. Uitbreiden kan ook, door middel van de aansluiting aan de onderzijde met Grove-formfactor.

Getest

Nabu Casa Home Assistant Voice Preview edition

Prijs bij publicatie: € 56,18

Vanaf € 59,95

Vergelijk prijzen

Eerder dit jaar sprak Tweakers met Paulus Schoutsen over Home Assistant en alle ontwikkelingen rondom het platform. In dat gesprek vertelde Paulus dat Nabu Casa zich bezighield met de ontwikkeling van hardware voor een spraakassistent.

Die ontwikkeling blijkt enorm snel te zijn gegaan, want inmiddels heeft Tweakers de eerste exemplaren van de nieuwe Home Assistant Voice ontvangen en ze in de praktijk getest. De Home Assistant Voice heeft een adviesprijs van 59 dollar en is vergelijkbaar met de speakers van Google, Amazon en Apple. Het is een klein apparaat met meerdere microfoons, een speaker en hardware die spraakactivatie ondersteunt en je spraakcommando’s kan doorsturen voor analyse door het achterliggende platform Home Assistant.

De ontwikkeling van de spraakassistent is niet helemaal uit de lucht komen vallen. Het jaar 2023 werd door Nabu Casa gedoopt tot 'year of Voice'. Het bedrijf stak dat hele jaar veel werk in de ontwikkeling van spraakassistentiemogelijkheden. Aan het eind van 2023 bleek er veel bereikt te zijn. Het platform kan verschillende talen verstaan en uitspreken en beschikt over intentieherkenning, hotwordactivatie en uitgebreide instelmogelijkheden voor spraakassistenten in de interface. Begin 2024 volgde de mogelijkheid om hotwords lokaal op een ESP32-S3 te gebruiken. De introductie van de Home Assistant Voice is dan ook een logisch vervolg op wat eerder is neergezet.

In mijn artikel over lokale spraakassistentie heb ik destijds een aantal hardwaremogelijkheden bekeken, waarna de conclusie was dat zelf bouwen wellicht de beste optie was omdat elk apparaat op de markt over nadelen beschikte. De ESP32-S3 Box-3 was destijds zeer matig beschikbaar en niet goedkoop voor een product zonder achterliggend platform. De M5Stack Echo is een mooie proof of concept, maar veel te licht uitgevoerd om goed in de praktijk in te kunnen zetten en van videoconferentiemicrofoons zijn de prijs en het uiterlijk meestal gericht op zakelijk gebruik. Naast die nadelen was Home Assistant zelf, ondanks al het werk aan spraakassistentie, nog niet op het niveau van Siri of de Google Assistent.

De Home Assistant Voice moet een kant-en-klaar alternatief bieden voor de eerdergenoemde apparaten. Nabu Casa voorzag ons van een paar previewexemplaren, waarmee we de afgelopen tijd in de praktijk hebben kunnen testen. Het apparaat lag dus al snel na de aankondiging op ons bureau. Is het achterliggende platform in die korte tijd al voldoende klaargestoomd en is de Home Assistant Voice de wat verlate kroon op het 'year of Voice'?

Home Assistant Voice op tafel

De hardware

De verpakking

De Home Assistant Voice komt in een tweekleurenbedrukte kartonnen verpakking. In het doosje vinden we een garantieboekje, snelstarthandleiding en het apparaat zelf. Een voedingsadapter en kabel zijn niet meegeleverd en daarvoor zul je dus zelf moeten zorgen.

De Home Assistant Voice is compacter dan veel andere spraakassistenten. Het kastje meet 8x8cm en is 2cm hoog. De onder- en zijkant zijn van gematteerd transparant kunststof en voorzien van antislipvoetjes, zodat het apparaat niet te makkelijk wegglijdt van zijn plaats. De bovenzijde is gemaakt van ondoorzichtig wit kunststof.

De voornaamste bedieningselementen zijn aan de bovenzijde te vinden. Het clickwheel springt meteen in het oog, wat nostalgische herinneringen oproept aan de eerste iPods. In het midden van het draaiwiel zit een drukknop en er is een transparante ledring om het wiel heen aangebracht. Naast het clickwheel bevinden zich twee openingen voor de memsmicrofoons. Aan de rechterzijde is een schakelaar aangebracht waarmee de microfoons uitgeschakeld kunnen worden en aan de achterzijde vind je een USB-C-stroomaansluiting en een 3,5mm-audioaansluiting voor lijnuitvoer van het audiosignaal naar bijvoorbeeld externe speakers.

Home Assistant VoiceHome Assistant Voice

Onderop is het Home Assistant-logo verwerkt in de behuizing en is een deel van de behuizing open te ‘breken’ voor toegang tot de Grove-poort. Dat laatste verraadt een beetje de afkomst van de spraakassistent: dit is een aansluiting die gebruikt kan worden om extra modules te koppelen van Seeedstudio’s Grove-productlijn. Zo kun je de hardware later uitbreiden met een temperatuursensor, bewegingssensor of ander product dat compatibel is met de Grove-connector.

Wat zit erin?

De Voice is makkelijk te openen door de vier schroefjes onder de poten los te schroeven. Het pcb verwijder je vervolgens uit de behuizing door nog vier schroefjes los te draaien en de speakerkabel aan de onderzijde los te koppelen. De bovenzijde van het pcb herbergt het clickwheel en de microfoons. De microfoons zijn bedekt met een rubberen kanaal dat het geluid van de buitenzijde van de behuizing naar binnen transporteert. Verder vinden we hier de antenne voor wifi en een schakelaar die de USB-C-aansluiting schakelt tussen de ESP32 en de XU316.

Aan de andere zijde van het pcb is meer hardware geplaatst. Hier vinden we de muteschakelaar, speakeraansluiting, Grove-connector, USB-C-aansluiting en de 3,5mm-jack. Daarnaast zijn nog twee achtpolige pinheaders te vinden. Een daarvan verbindt direct met de ESP32 en biedt aansluitingen voor 3V, 5V, uart-receive en -transmit. De andere aansluiting is iets onduidelijker, maar biedt volgens het opschrift op het pcb een in- en uitgang voor rgb.

Home Assistant Voice binnenzijde
Home Assistant Voice binnenzijdeHome Assistant Voice binnenzijde

De Espressif ESP32 staat aan het hoofd van de hardware. Deze microcontroller beschikt onder andere over een wifi- en bluetoothradio voor de connectiviteit. De audioverwerking vanuit de microfoons komt voor rekening van de XMOS XU316. Dit is een zelfstandige dsp-controller, of zoals XMOS ‘m zelf noemt: 'xCORE audio AI accelerator'. Deze chip is verantwoordelijk voor de audioafhandeling: hij kan het inkomende geluid dat opgevangen wordt door de microfoons opschonen voordat het wordt aangeboden aan het achterliggende platform. De chip kan daarbij onder andere echo- en ruisonderdrukking en automatische volumeregeling inzetten.

Het clickwheel is gebaseerd op de Zippy AN-serie. Het wiel heeft 24 ‘klikjes’ en geeft twaalf pulsen per complete rotatie. Het clickwheel is rondom voorzien van twaalf rgb-leds, die hun licht via een diffuser en door een ringvormige lightguide naar buiten toe stralen.

Voor de uitvoer van geluid gebruikt de Voice een Texas Instruments AIC3204, een audiochip met ondersteuning voor 48kHz-geluidsuitvoer: niet erg geschikt voor muziek, maar dat is ook niet het beoogde doel. De gegenereerde audio wordt de ruimte ingestuurd door een Simpusun MH4-HR-monospeakertje, dat is geplaatst in een gesloten behuizing met een poort die de audio naar buiten toe leidt.

De hardware in de assistent is erg licht uitgevoerd. Dat kan doordat het achterliggende platform eigenlijk het zware werk verricht. Het energiegebruik van de Voice valt daardoor erg mee. In rust verbruikt de Voice 0,6W en tijdens het luisteren 1,3W.

Installatie en configuratie

Het installeren van de Voice is eenvoudig. Na de eerste opstart adverteert het apparaat zichzelf via Improv. Dat bluetoothprotocol zit in ESPHome, de software waarop de Voice gebaseerd is. Je Home Assistant-installatie zal over bluetooth moeten beschikken om het apparaat hiermee te herkennen. Dat kan via een aangesloten bluetoothmodule, een externe ESPHome-bediende bluetoothmodule of simpelweg met de Companion-smartphoneapplicatie die de bluetoothradio van je telefoon gebruikt om het apparaat te herkennen.

Home Assistant Voice installatieHome Assistant Voice installatieHome Assistant Voice installatieHome Assistant Voice installatieHome Assistant installatieHome Assistant Voice installatieHome Assistant Voice installatieHome Assistant Voice installatie

In Home Assistant komt de nieuwe hardware naar voren bij de integraties onder Instellingen. Tijdens het toevoegen geef je de wifigegevens op, waarna het apparaat opnieuw opstart en zichzelf aanmeldt als spraakassistent bij Home Assistant. Zoals eerder vermeld is de software die op de Voice draait ESPHome. Dit is dan ook de integratie waaronder de spraakassistenten terug te vinden zijn in de instellingen.

Als je nog geen ander ESPHome-apparaat gebruikt, krijg je tijdens het instelproces de vraag om het pakket te installeren. Dat kan verwarrend overkomen voor een gebruiker die niet bekend is met het pakket en zich richt op het installeren van een Home Assistant Voice.

Bediening

Als de Voice eenmaal draait, kun je het volume aanpassen met het wiel aan de bovenzijde. Met de drukknop in het midden start je een spraakcommando zonder het hotword uit te spreken of pauzeer je media die afspeelt. Als je de knop indrukt terwijl je het wiel draait, kun je de lichtkleur veranderen die de assistent uitstraalt als hij luistert. Met de schakelaar aan de zijkant deactiveer je de microfoons als je daaraan behoefte hebt; de lichtring is dan rood gekleurd om aan te geven dat de assistent niet luistert. Voice apparaaatbediening

Via Home Assistant kun je meer instellen aan de Voice. Naast het volume, lichtinstellingen en de mutefunctie kun je via deze weg ook het bevestigingsgeluid dempen dat de speaker afspeelt na het ontwaken. Daarnaast kun je een assistentiepijplijn toewijzen en instellen hoe agressief de assistent stopt met luisteren na het geven van een spraakcommando. De Voice biedt ook een aantal sensoren en geeft door of deze geactiveerd worden. De drukknop geeft dubbelklikken, driemaal klikken en langdurig klikken door om daaraan een automatisering te kunnen koppelen.

Bij een aantal acties, zoals klikken op de knop of activeren van de mutefunctie, geeft de Voice een bevestigingsgeluid; vooralsnog kon ik behalve het volume op nul zetten geen eenvoudige manier vinden om die geluiden uit te schakelen. Dat is misschien niet ideaal als je een dubbelklik wilt gebruiken om je leeslampje uit te schakelen zonder je slapende wederhelft te storen. Niet getreurd, want dit soort geavanceerde zaken zijn aan te passen als je de firmware van de Voice 'overneemt' met ESPHome. Je krijgt dan toegang tot de yaml-basisconfiguratie en kunt naar hartenlust het gedrag van de hard- en software naar je hand zetten.

Spraakassistentie instellen

Nadat je de Voice Assistant hebt verbonden, moet je in Home Assistant een assistentiepijplijn maken en aan de assistent 'entiteiten' toevoegen om te bedienen.

Voor spraakherkenning gebruikt Home Assistant drie componenten: spraak-naar-tekst is nodig om inkomende audio om te zetten naar tekst. De tekst wordt vervolgens geïnterpreteerd door de gespreksagent en om deze te laten antwoorden kan de tekst die hij als antwoord genereert, worden omgezet naar spraak door de tekst-naar-spraakcomponent. De Voice reageert standaard op ‘OK Nabu’, maar eventueel is in de assistentiepijplijn een ander hotword in te stellen.

Verschillende spraakpijplijnen in Home Assistant
Verschillende spraakpijplijnen in Home Assistant

De assistentiepijplijn is gekoppeld aan een taal. Als er meerdere talen worden gesproken, kun je hiervoor verschillende pijplijnen aanmaken; automatische taalherkenning behoort nog niet tot de opties. Bij de speakerinstellingen kun je een specifieke pijplijn aan een speaker koppelen, waardoor het mogelijk is dat iedere speaker met een eigen hotword wordt geactiveerd en ze zodoende elk een andere taal kunnen herkennen. Dat is een mooie optie voor meertalige huishoudens, maar daarvoor heb je dus per pijplijn een aparte speaker nodig.

De componenten die een assistentiepijplijn vormen zijn los te selecteren en je kunt ook alternatieven voor de standaardcomponenten downloaden. Zo kun je naar wens de ingekomen spraak lokaal verwerken of een cloudgebaseerde dienst gebruiken die dat misschien sneller of nauwkeuriger kan. Ook de tekst-naar-spraakconversie of de gespreksagent kunnen worden vervangen door andere lokale of cloudgebaseerde componenten. Ook hiervoor kun je aparte pijplijnen aanmaken om snel te schakelen tussen bijvoorbeeld lokaal of cloudgebruik.

Lokale assistentiepijplijn met Whisper en Piper

Het is een veelgehoorde wens dat spraakassistentie volledig lokaal wordt afgehandeld zonder dat er een cloudserver aan te pas komt. Home Assistant heeft hiervoor mogelijkheden die met name in 2023 goed onder handen zijn genomen in het kader van het 'year of Voice'. De componenten om lokaal spraak af te handelen met Home Assistant zijn onderdeel van het pakket. Spraak-naar-tekst komt voor rekening van Whisper, de tekst-naar-spraak regelt Piper en Home Assistant heeft zelf een ingebouwde gespreksagent om commando’s te herkennen.

Maak de woonkamer schoon?
Maak de woonkamer schoon?

Op dit moment hangt het nog heel erg af van de taal die je spreekt of Whisper je goed begrijpt. In het Nederlands is dit in elk geval duidelijk nog niet het geval. Een simpele zin: ‘Maak de woonkamer schoon’ die ik 25 keer achter elkaar uitsprak, werd slechts drie keer goed herkend, waarbij de eerste geslaagde herkenning zes pogingen kostte. In alle gevallen ontbrak het lidwoord ‘de’ en tussen de verkeerde interpretaties zaten pareltjes als ‘Maak wolkamer schoon’, 'Markmolgommershoek', ‘Mijn bovenkamer is gewoon…’ en ‘Maak gewoon kamers gewoon!’.

Het Engelse model functioneert beter: 'Clean the living room' werd bij de eerste poging direct herkend en dat gold ook voor veel andere commando's. Het is wel belangrijk om je apparaten dan een Engelse naam of alias te geven die niet al te exotisch is.

Als Whisper je zin eenmaal correct heeft ontcijferd, gaat de gespreksagent met de tekst aan de gang om de intentie te ontcijferen. Simpele commando’s als het inschakelen van een lamp of schakelaar worden goed herkend, maar ingewikkelde opdrachten zoals het starten van een stofzuiger of op kleur zetten van een lamp worden niet ondersteund of vereisen een specifieke syntax. Wat wordt ondersteund is hier terug te vinden, maar het kan zijn dat je een heel specifiek commando of specifieke zin wilt laten herkennen. Dat kun je zelf bouwen via een automatisering die de Conversation-component als trigger gebruikt. Daaraan kun je een template opgeven om je commando of varianten daarvan te herkennen, waarna de automatisering wordt uitgevoerd. Delen van het commando kunnen daarbij dienen als variabelen, bijvoorbeeld een aantal ruimtes die de stofzuiger moet schoonmaken.

Tekst naar spraak

Het is fijn als de assistent terug kan praten, bijvoorbeeld als je de temperatuur van een ruimte opvraagt. Voor tekst-naar-spraak gebruikt Home Assistant de Piper-add-on. Deze kan in veel talen praten, maar op dit moment is er een probleem met de Nederlandse stem. Daarvan lijken de klanken door elkaar gehaald, want deze klinkt wel Nederlands, maar het resultaat is onverstaanbare wartaal. Deze situatie bestaat al enkele maanden en wanneer hierin verandering komt is onbekend; het ticket op GitHub lijkt vooralsnog maar weinig vervolg te krijgen. Gelukkig is er een alternatief door de taal van Piper op Belgisch in te stellen: deze stemmen zijn in orde, maar hebben vanzelfsprekend een duidelijk Vlaamse tongval.

Snelle verbetering

De ervaring met lokale herkenning was begin november, toen we de assistent ontvingen, nog niet erg positief. De Nederlandse taal herkennen en uitspreken is vele stappen verwijderd van bruikbaarheid in de praktijk. In het Engels gaat dat al (stukken) beter, maar uiteindelijk is de werking niet te vergelijken met alternatieven zoals die Google en Apple bieden.

Dat heeft deels te maken met verwerkingskracht: de datasets om spraak te genereren en herkennen zijn bewust nogal klein zodat deze niet veel verwerkingskracht vereisen van het achterliggende systeem. Veel gebruikers draaien Home Assistant op een singleboardcomputer of thuisserver met beperkte verwerkingsmogelijkheden, waar krachtigere modellen uitmonden in meer verwerkingstijd. Op dat soort hardware draaien de huidige modellen best vlot, maar de precisie laat met name in het Nederlands stevig te wensen over. Doordat de gespreksagent standaard vrij star is in het herkennen van commando’s, wordt in de praktijk een commando erg vaak niet goed begrepen. Daarnaast is de intentieherkenning niet enkel star maar ook traag als een commando niet begrepen wordt.

In de periode dat wij de Voice bekeken zijn er een aantal updates uitgekomen die helpen met de snelheid en starheid van de lokale gespreksagent. Zodra een commando niet herkend wordt door deze agent kan de pijplijn dit omleiden om door een beter getraind, extern llm te laten verwerken. Doordat je commando in zo’n geval dubbel verwerkt wordt door twee modellen loopt de responstijd van de assistent op, maar niet zoveel als voorheen, omdat ook de trage methodieken achter de lokale intentieherkenning zijn aangepakt en sneller gemaakt.

Cloudgebaseerde spraakherkenning met Nabu Casa of Azure

Beschik je over minder krachtige hardware of ben je niet tevreden met de prestaties van Whisper en Piper, dan kun je de componenten vervangen door een cloudgebaseerd alternatief. Dat betekent dat je de verwerkingskracht bij een andere partij neerlegt en daarbij ontkom je niet altijd aan een prepaid- of abonnementsdienst. De abonnementsdienst van Nabu Casa, die ingebouwd is in Home Assistant, is de eenvoudigste. Dit abonnement bevat toegang tot de servers van Nabu Casa, die een geavanceerde vorm van alle componenten van de spraakpijplijn aanbieden, met uitzondering van de gespreksagent.Home Assistent Nabu Casa spraakpijplijn

De spraakpijplijn die Nabu Casa biedt werkt vlot: in mijn ervaring net zo snel als en in sommige gevallen zelfs sneller dan Google Home. Ook de stemmen zijn goed getraind en spreken de meeste woorden en zinnen op natuurlijke wijze uit zonder al te veel rariteiten. De verscheidenheid in stemmen is ook goed. In het Amerikaans Engels heb je de keuze uit maar liefst 25 stemmen. Voor Nederlands zijn drie stemmen beschikbaar, waarvan één mannelijke. Vlamingen krijgen de keuze uit één man of vrouw.

Een ander, gratis alternatief voor betere spraak-naar-tekst en vice versa vind je bij Azure, de clouddienst van Microsoft. Om hiervan gebruik te maken dien je te beschikken over een account bij Azure en een creditcard om verplicht te koppelen aan je account. Azure biedt per maand vijf uur gratis spraakanalyse, wat voldoende is voor gemiddeld gebruik met een spraakassistent. De spraakherkenning die Azure biedt is, net als die van Nabu Casa, beter en vlotter dan Piper en Whisper lokaal bieden. Het installeren is echter een klus waarvoor je echt even de tijd moet nemen als je nog niet erg bekend bent met de interface en diensten van Azure. De stemmen van de tekst-naar-spraak zijn dezelfde als Nabu Casa biedt.

Cloudgebaseerde gespreksagent met een llm

Zowel Nabu Casa als Azure zorgen voor een vlottere verwerking dan lokaal mogelijk is met beperkte hardwarecapaciteit, maar beide vervangen niet de gespreksagent. Die draait lokaal en is standaard beperkt in functionaliteit. Je kunt veel apparaattypes bedienen of aanpassen met spraakcommando’s, maar enkel met heel doelgerichte commando’s. Dat is flexibeler te krijgen door zelf aanpassingen te doen via automatiseringen. Een andere mogelijkheid is een llm aan het roer zetten dat iets ‘intelligenter’ en minder star kan omgaan met al je commando’s en vragen.

Home Assistant is te koppelen aan twee populaire llm’s: Gemini van Google en ChatGPT van OpenAI. Beide vereisen een account om een api-sleutel te generen voor Home Assistant en ChatGPT ook een creditcard, aangezien deze dienst niet gratis is. Net als bij Azure is het koppelen een klusje waarvoor je even moet gaan zitten en de documentatie goed moet volgen. Daarbij is het verstandig om limieten in te stellen bij betaalde opties om te voorkomen dat een bug of onbedoelde instelling zorgt voor hogere kosten dan je had verwacht. De kosten van ChatGPT zijn afhankelijk van het model dat je inzet. Het gpt-3.5-turbo-model voldoet erg goed als spraakassistent en zal je bij ‘normaal’ gebruik niet zo gauw meer dan 10 dollar per maand kosten. Gemini is gratis tot een limiet; geavanceerdere taalmodellen of intensief gebruik leiden wel tot kosten, afhankelijk van de zwaarte.

HA Voice Gemini instellingen

Met het koppelen van een llm transformeert de spraakassistent van een vrij star bedienmodel dat regelmatig niet snapt wat je bedoelt, in een breedsprakige assistent die je vaak stukken beter begrijpt, met name als je even afwijkt van je normale commando. Je merkt duidelijk dat je in een conversatie met een llm terechtkomt: je kunt over allerlei onderwerpen antwoorden krijgen of een gesprek voeren en het onderwerp is niet meer beperkt tot huisbediening. In feite ben je in gesprek met een llm met al zijn mogelijkheden en dat toevallig ook nog bediening van je huis kan verzorgen.

Dat heeft ook nadelen, want llm’s zijn nogal behulpzaam geprogrammeerd en vragen om de haverklap of alles naar je zin is, of juist om verduidelijking als iets niet helemaal goed wordt begrepen. Home Assistant is daarop nog niet helemaal voorbereid. Het is niet mogelijk om de microfoon van de Voice op afstand te activeren om een antwoord te geven op een vraag van de assistent. Je blijft wel in dezelfde conversatie als je het hotword uitspreekt voordat je een antwoord geeft, maar het doet erg af aan de gesprekservaring.

Een ander nadeel van deze aanpak is dat je geen toegang meer hebt tot uitgesproken tekst, doordat de gespreksagent zich buiten Home Assistant bevindt. Dat betekent dat automatiseringen die wachten op een bepaalde tekst niet meer werken. Dat maakt je afhankelijk van het begrijpend vermogen van je llm. Dat krijg je echt niet wijsgemaakt hoe je de robotstofzuiger naar de hal stuurt met intern ID-nummer 15, een functie die met een automatisering prima te bouwen is.

Conclusie

De Home Assistant Voice is absoluut de kroon op het 'year of Voice'. De hardware werkt goed en is vlot te installeren. Zoals bij de andere hardware van Nabu Casa kun je de hardware makkelijk uitbreiden of modificeren. De aansluitingen die daarvoor nodig zijn, zijn bereikbaar en gemarkeerd op het pcb. De bediening met het clickwheel is intuïtief en het is mooi dat een hoop functies van het apparaat op afstand bediend kunnen worden, desgewenst met een automatisering.

Met een adviesprijs van 59 dollar is de Voice niet goedkoop, vergeleken met andere spraakassistenten. Voor die prijs krijg je ook niet de krachtigste hardware, maar wel een open ontworpen apparaat waar je, ondersteund door het achterliggende platform, ongekende vrijheid krijgt om je spraakassistentie in te stellen zoals je wilt.

De hotwordherkenning en kwaliteit van de spraakopname zijn goed. Goed getrainde modellen zoals Nabu Casa en Microsoft aanbieden, kunnen de ingekomen audio daardoor vrij accuraat verwerken. Als je niet eerder een spraakassistent gebruikt hebt, zul je even vertrouwd moeten raken met de assistentiepijplijn en de componenten daarvan. Met die assistentiepijplijn biedt Home Assistant een heel mooie modulaire opzet om je spraakassistent helemaal in te richten zoals je wilt.

De spraakfuncties van Home Assistant zijn de afgelopen tijd aardig uitgebreid. Alle functionaliteit voor een spraakassistent is helemaal lokaal te gebruiken, zelfs op minder krachtige hardware zoals een Raspberry Pi. Op die hardware is de werking nog niet helemaal te vergelijken met de commerciële tegenhangers. De verwerkingstijd is langer en de spraakherkenning minder nauwkeurig. In het Engels word je beter verstaan dan in het Nederlands en de Nederlandse stemmen zijn op het moment van schrijven al enkele maanden defect.

Door de modulaire opzet is het mogelijk om die functies te vervangen. Je kunt kiezen voor cloudcomponenten of om de stemherkennings- en tekst-naar-spraaksoftware zelf op stevige hardware te draaien. Daarmee zijn de mogelijkheden vrijwel alleen begrensd door de kracht van de hardware en het niveau van de modellen die je gebruikt.

Een makkelijke optie is om de spraakdiensten af te nemen bij Nabu Casa. Daarmee verbetert de spraakherkenning en het niveau van de stem enorm ten opzichte van de mogelijkheden met minder krachtige hardware. De gespreksagent blijft wel lokaal draaien. Standaard is deze, met name in het Nederlands, vrij star in het herkennen van commando’s. De reactiesnelheid van deze combinatie is te vergelijken met Google Home. Met het Azure-platform van Microsoft is hetzelfde te bereiken, maar daarmee steun je natuurlijk niet de ontwikkeling van Home Assistant en de hardware eromheen.

Als je de gespreksagent vervangt door een llm, wordt de intentieherkenning een stuk beter. Je kunt dan creatief zijn met je opdrachten of zelfs het llm laten bepalen wat de beste actie is naar aanleiding van je vraag. Met een gekoppeld llm merk je wel dat er nog een conversatiemodus ontbreekt waarbij Home Assistant de microfoon weer activeert nadat er een tegenvraag is gesteld.

Aan het gebruik van een llm kleven wat bezwaren. Het eerste betreft privacy, tenminste, als je het llm van een ander bedrijf gebruikt. De gratis variant van Googles Gemini analyseert en leert van je conversaties. Daarnaast deel je ook best veel gegevens van je huis met het taalmodel. Of dat de functionaliteit waard is, zul je voor jezelf moeten afwegen. Het tweede bezwaar heeft te maken met energiegebruik. Training en gebruik van een llm voor (ingewikkelde) vragen is energie-intensief. Gedurende de testperiode kwam er een nieuwe mogelijkheid om je commando eerst lokaal te verwerken op de interne, energiezuinige modellen. Pas als je commando niet begrepen wordt, wordt de cloud ingezet.

De koppeling met een llm is in mijn ervaring bijna onmisbaar ten opzichte van de starrere intentieherkenning: het maakt de assistent een stuk vaardiger en geeft de mogelijkheid om wat persoonlijkheid toe te voegen aan de antwoorden. Het zou dan ook een logische stap zijn dat Nabu Casa dit in de toekomst toevoegt aan het dienstenpakket, naast de spraakherkenning en tekst-naar-spraak.

Reacties (88)

Sorteer op:

Weergave:

Hi :)

Hier TheFes, de language leader voor de Nederlandse vertalingen van de intents repo. Als language leader heb ik vorige maand al 5 units opgestuurd gekregen, en het duurde niet lang voordat ze mijn Google Home units vervangen hebben. Wel gebruikt ik de SST en TTS van Nabu Casa Cloud, dus ik heb geen volledig lokale setup.
In de eerste weken liep ik tegen wat dingen aan die niet lekker werkten met Assist, omdat de zinnen die ik gebruikte niet herkend werden. Gelukkig kon ik die zelf toevoegen.

Het is nog geen volledige Google Home vervanger, maar met de LLM fallback komt het best aardig in de buurt. Bediening voor het huis wordt lokaal afgehandeld, algemene vragen door LLM. Dingen als agenda opvragen of weersvoorspelling is een combinatie van beide. Wat ik vooral erg fijn vind ik dat het naadloos in HA geïntegreerd is, en fijn samen werkt met Music Assistant. Met wat hulp van LLM queries kan ik met voice commands muziek starten, en het fijne is dat die nu na een TTS onderbreking gewoon hervat wordt.

Mocht je tegen dingen aanlopen, bijvoorbeeld dat een zin waarvan jij zou denken dat die wel moet werken toch niet werkt, laat het dan even weten! Dan kan ik kijken of ik dat toe kan voegen als ingebouwde sentence.
Misschien overbodige vraag, maar stel m toch. Gebruik hier sinds dag 1 Alexa. Inmiddels zijn we paar jaar verder, echter is de techniek en de implementatie nauwelijks verbeterd.

Ik verwacht/hoop dat opensource meer vrijheid biedt. Alexa ken voor mij enkele belemmeringen;
- Alexa is “dom”; lamp aan/uit werkt prima. Een zin met 2 opdrachten werkt niet; “zet lampen in keuken aan en start radio” werkt niet. (Of moet zelf handmatig opdrachten maken, maar daar zitten ook beperkingen aan)
- taal ondersteuning/leren; mijn vrouw spreekt met “licht” accent, waardoor Alexa veel opdrachten niet herkend.

Hoe gaat casa voice hier mee om? Ik zou graag 100% lokaal doen, maar begrijp uit de reportage dat het te wensen over laat.

(Immers is die externe / internet afhankelijkheid onwenselijk)
Gecombineerde opdrachten werken niet met alleen lokale Assist. Als je een LLM gebruikt werkt dat wel, maar voor een lokale LLM met een beetje leuke response tijd heb je wel een zwaar systeem met grafische kaart nodig.

Omgang met dialecten/accenten is sterk afhankelijk van de Text To Speech integratie die je gebruikt. Als je ook daar volledig lokaal wil gaan dan heb je ook een zwaar systeem nodig, aangezien Whisper nog niet helemaal lekker werkt voor Nederlands.
Het wachten is op mooie lokale inference hardware van partijen zoals Cerebras, test hier maar uit hoeveel tokens per seconde:

https://inference.cerebras.ai/

70B model met 1500 tokens / seconden easy.

Er moet gewoon custom inference hardware komen met voldoende geheugen voor een mooie prijs. Dan kan iedereen gewoon met low power genieten van een fatsoenlijk LLM executie thuis op de home assistant.
Amazon wilde toch ook stoppen met hun speaker? Hebben ze dat niet gedaan?

Ik heb zelf alleen een Google Home die ik gratis heb gehad bij tandenborstels en mijn pixel telefoon doet eigenlijk precies hetzelde. Het voegt niet zo veel toe, alleen op een tv, omdat je dan met een afstandbediening in je handen zit waarmee het iritant typen is. Soms wordt het ook geactiveerd als het niet de bedoeling is waardoor je beseft dat een speaker mee kan luisteren met al je gesprekken. Ik heb liever andere sensors.

[Reactie gewijzigd door Marzman op 25 december 2024 10:38]

Je linkt nu naar een specifieke file, maar ja, die staat op de juiste repo inderdaad.
De file waar je naar linkt is waar alle algemene dingen in staan (keuzelijsten en expansion rules)
Zoals @WoutF al zei in het filmpje; de Whisper modellen die je lokaal kunt draaien zijn niet goed in Nederlands (of je moet een systeem met snelle GPU zodat je het grootste model kunt laden). Wie geen abonnement wil nemen bij Nabu Casa of door allemaal hoepels wil springen om spraakherkenning via Azure aan de praat te krijgen, kan ook gebruik maken van de speech-to-text API van OpenAI via de Whisper STT Cloud API integratie. Je betaalt dan voor je gebruik in plaats van een vast bedrag, en alles dat je nodig hebt is een API-key.

Bij deze API kun je ook een prompt doorgeven met woorden die je vaak zegt en waarbij de kans bestaat dat ze verkeerd begrepen worden. Bij twijfel pakt het model dan de woorden die je op hebt gegeven in plaats van dat het zelf iets probeert te raden.

Trouwens nog een voordeel van een llm gespreksagent boven de ingebouwde rules engine, is dat je (makkelijker) meerdere commando's in één keer kunt geven. Bijvoorbeeld de radio aanzetten én het volume op 10%, in plaats van (zoals nu ook via Google Assistant) dat dit twee commando's moeten zijn. Ook meerdere lampen of apparaten tegelijkertijd schakelen gaat (vaak) beter via een llm.

Mijn ChatGPT-prompt bevat trouwens wat extra regels om te voorkomen dat de llm afdwaalt na simpele commando's. Zonder de extra regels krijg je regelmatig "Ik heb de lampen aangezet, laat het me weten als je nog iets wilt, dan sta ik voor je klaar", waar ik in de meeste gevallen niet echt op zit te wachten.

Standaard:
You are a voice assistant for Home Assistant.
Answer questions about the world truthfully.
Answer in plain text. Keep it simple and to the point.
Extra toegevoegd:
Answer in Dutch.
Ignore any spelling discrepancies and automatically correct them.
When executing a command, answer with one or two words like "Keukenverlichting aangezet", "Uitgeschakeld", "OK", "Geactiveerd", "Gereed", "Volume aangepast", "Voltooid", "Temperatuur ingesteld", "Gedaan", etc.
Tot slot, de gespreksagent met llm is zich bewust van de context van de rest van het gesprek. Je kunt dus aanhaken op het laatste commando "Zet de lampen in de woonkamer aan" door te zeggen "en zet ze nu iets minder fel".

Zelf zit ik te wachten tot mensen de Jetson Orin Nano Super hebben getest met Llama 3.3 in de hoop dat deze snel genoeg is om vlot op "GPT-4o niveau" te werken en gelijktijdig een van de grotere Whisper-modellen te draaien die wel redelijk overweg kunnen met Nederlands. Voor mijn (verwachte) gebruik biedt dat meer dan genoeg mogelijkheden. Het enige wat Google Assistant dan nog kan wat een lokaal llm niet kan is live informatie van internet opvragen, al gok ik dat er ook wel een integratie komt die dat kan.

[Reactie gewijzigd door Skit3000 op 20 december 2024 10:49]

Ik zit ook te denken dat board te halen. Zag een video van Dave’s Garage, Llama 3.2 draaide uiterst vlot. Dus denk dat dit een zeer goede optie zal zijn.
Dat board kost net zo veel als 4 jaar aan Nabu Casa abonnement, al denk ik dat als je alles volledig via OpenAI laat lopen je hooguit een paar cent per dag kwijt bent. Je koopt met dat board dus vooral privacy en onafhankelijkheid.

[Reactie gewijzigd door Skit3000 op 20 december 2024 19:11]

Dat is ook exact de reden waarom ik hiernaar op zoek ben. Wat de kosten zijn maakt mij weinig uit. Ga dit met 1 HAV unit testen, met extre speaker wellicht. Als goed werkt bestel ik er nog een aantal units voor meerdere ruimtes in huis.

Kunnen alle Apple Homepods de deur uit. :)
Super fijne review @OlafWeijers , bedankt!

Waar ik nog benieuwd naar ben is hoe goed de lokale verwerking werkt als je wel een wat krachtigere setup hebt. Ik heb namelijk een krachtigere thuis server met gpu (een 3700x met 1050ti 4GB) met het oog op transcoding met emby. Als ik daar ook home assistent op draai, beeld ik me in dat die al wat beter overweg kan met lokale LLMs. Een upgrade naar een 8GB gpu zal waarschijnlijk nog beter zijn, maar wie weet niet eens nodig.

Of, als je energiezuinig wilt zijn: wat als je een Mac mini gebruikt?

Hopelijk worden daar door de redactie of community nog testen mee gedaan :)
Ik heb getest met whisper en piper op een Core i3 met een GTX1060. Als je whisper met cuda acceleration gebruikt is dat behoorlijk vlot, het probleem met piper is dat de kwaliteit gewoon zelfs in het beste geval niet heel natuurlijk klinkt.

Ook heb ik kort met Ollama gespeeld en llama, maar dat duurde mij echt te lang per query. Heb verder daarbij niet gekeken naar tuning en optimalisaties
Toen ik de video zag, had ik ijdele hoop dat een thin cliënt met een AMD (Bulldozer) apu misschien ook nog kon. Zo te horen niet :D.

Zijn er eigenlijk geen usb hardware versnellers voor Whsiper, zoals een
Google Coral USB Accelerator?
Heb je ook getest met het recent uitgebrachte methode waarmee je zowel het kleine Home Assistant model voor eenvoudige vragen en llama voor complexere vragen kunt gebruiken?
Ja, maar dat is extra frustrerend. Llama is niet enkel voor complexere vragen, maar ook gewoon voor als de interne intent recognition het even niet begrijpt. Soms heb je dus ook bij simpele vragen opeens heel lange wachttijd voor er wat gebeurt.
Ah, duidelijk. Zelf had ik er nog geen ervaring mee, fijn dat je het even toelicht.
Maar intent recognition is een optie en kun je uitzetten. Ik heb dat ook uitstaan omdat dit (nog) niet lekker werkt bij mij.

Zo lang het llama model in je geheugen past reageert lama snel. heb je te weinig geheugen dan reageert het heel traag.

Ik heb een 3060 met 12gb geheugen en dat is in sommige situaties al te weinig. Ik gebruik nu llama 3.2-vision, gpu whisper, piper en jellyfin. En dat gaat eigenlijk niet goed met 12gb geheugen.
Met llama3.2 zonder vision gebruik ik gemiddeld 10gb geheugen en dan gaat het goed.
Bedankt voor die toevoeging! Het is dus nog even wachten voordat we echt alles lokaal kunnen draaien, maar we zijn echt al een stap dichterbij :)
Je kunt alles in elk geval (nu al) lokaal draaien als je Rhasspy gebruikt. Dit werd ook in de presentatie van gisteravond gedemonstreerd. Er zitten wel een aantal nadelen aan:

1. Je kunt een beperkte set aan voice commands geven
2. Je kunt geen open vragen stellen

Zie tevens de video (inclusief juiste timestamp).
Dank!

Persoonlijk wil ik graag experimenteren met een volledige Google Home vervanger, en dus meer dan een vaste lijst commandos.

[Reactie gewijzigd door kiang op 20 december 2024 09:59]

Je kunt natuurlijk wel zelf voicecommands configureren als automation.
Als assistant "zin X" hoort, doe dan y.
Zo heb ik hem geconfigureerd.
Als ik zeg doe de rolluik naar beneden dan is het geconfigureerd om zowel de rolluik naar beneden te doen als de lichten te dimmen en de tuinverlichting uit te doen.

Ik gebruik wyoming whisper, piper en satellite (een oude Jabra Speak aan een Raspberry Pi Zero W)
Whisper en piper draaien als docker container op mijn NAS en dat werkt meer dan goed genoeg met Systran/faster-whisper-small als model.
Ik vraag me af of de text2speech/piper al aan de gang gaat terwijl ollama de response aan het genereren is.
Op mijn laptop met 11th gen i5 32gb ram is puur llama 3.2 behoorlijk vlot; dwz de responsiesnelheid is in dezelfde ordegrootte als het lezen van de tekst (getest zonde ha, puur llama). Maar als de t2s pas aan de gang gaat nadat de hele response van llama gereed is, dan is het veeeeeel te langzaam
Wat je moet doen @WoutF, is niet de Nederlandse piper maar de Nederlands-Belgische piper modellen gebruiken. Die werken best redelijk. Volgens mij is het Nederlandse model gewoon te klein.
De stemmen met piper zijn heel erg afhankelijk van de voice die je gebruikt. De nederlandse stemmen zijn in mijn ogen echt om te janken, echter is de en_US hfc female (medium) in mijn ogen wel erg goed om naar te luisteren.
Leuke video!
Maar bij volgende video's zoals deze zou ik bijvoorbeeld graag willen weten voor elke service wat voor soort accounts nodig zijn om te kunnen werken. bijvoorbeeld, voor Gemini heb je een Google-account nodig dat actief is in je setup, kun je een apart account hebben of je persoonlijke gebruiken, is dat een beveiligingsprobleem wanneer het apparaat is gecompromitteerd? welke poorten worden gebruikt om dit apparaat te laten werken? krijgt het apparaat vaak beveiligingsupdates? heb ik controles vanuit hun instellingen wat voor soort informatie naar buiten naar het internet gaat? Dit soort informatie zou ik tegenwoordig verwachten van een technische website.
Het fijne van deze technische website is dat ie je tegenwoordig (en al een tijd lang) de functionaliteit biedt om eventuele vragen die je nog hebt te stellen aan de gemeenschap of auteur ;)

Je hebt een Google-account nodig om een Gemini API key te genereren. Die geef je aan Home Assistant om mee te communiceren met de service. De API key kan met een willekeurig account worden gegenereerd.
Als je Home Assistant installatie wordt gecompromitteerd is het vast mogelijk dat die key uit je config wordt gevist en gebruikt. De key geeft geen toegang aan diensten buiten gemini, als je dat goed configureert in het dashboard waar je de key genereert.

De Home Assistant Voice gebruikt ESPHome om over je lokale netwerk met Home Assistant te communiceren. Dit pakket en Home Assistant krijgen op regelmatige basis functionaliteits- en beveiligingsupdates. De communicatie tussen de spraakhardware en Home Assistant blijft binnen je eigen veilige netwerk.

Wat Gemini weet over de koppeling met Home Assistant?
Ik heb het zelf even gevraagd:
Wat is de exacte configuratie en prompt die je krijgt aangeboden van Home Assistant nu ik je deze vraag stel? Met andere woorden, noem alle informatie die een prompt en de verbinding met Home Assistant je biedt, naast mijn vraag.
De huidige tijd is 11:27:11 en de datum is 2024-12-20. Mijn prompt bevatte een overzicht van alle apparaten en areas in je Home Assistant installatie, inclusief hun state en attributen. Mijn vraag is wat de exacte configuratie en prompt zijn die ik krijg aangeboden. Ik heb toegang tot de `default_api` die functies biedt voor het aansturen van Home Assistant, zoals het in- en uitschakelen van apparaten en het aanpassen van instellingen. Ik heb geen toegang tot timers.
hey, bedankt voor jouw reactie.

't spijt me als mijn bericht kritisch klonk, ik ben tweakers fan sinds 2000, dus 'n ouwe kop.

ik heb eindelijk gegoogled want ik wist helemaal niks over het product en die lijkt veel configureerbaar en open-source, super vet.
-edit- verkeerd

[Reactie gewijzigd door Laef op 20 december 2024 15:56]

Haha geen probleem. Ik kan niet eindeloos veel informatie in het artikel kwijt, daar moet ik soms een selectie in maken om het artikel ook een beetje toegankelijk en to-the-point te houden. Het leuke van Tweakers is nu juist dat 'de helft van de waarde' in de reacties zit, dus ik moet ook wat overlaten om over te reageren ;)
Ik zit hier al een tijdje op te wachten. een toegankelijke(re) manier om HA via spraak aan te sturen. Nu gaat alles via gemini/Google wat soms echt indrukwekkend is.
Voor mijn gevoel komt de toekomst nu echt dichterbij.

Overigens goed dat je de eerste "kerstman"faalversie liet zien :) Leuke video!!!
Vergis je niet, toen met de Jetsons (Wikipedia: The Jetsons) was er al meer, maar wel veel nu ook qua hardware, tablets, horloge en onderhuidse chips etc. Maar we lopen nog achter ;)
Ik vindt een home-assistant (software) alleen handig als alleenstaande, dan voel je je niet zo alleen, ik doe graag zaken zelf, dus al het "gemak" is niet echt aan me besteed en ik gebruik geen smoes om het goed te praten, "ja dan heb ik tijd voor andere zaken" , maar dit is mijn gedrag en mening, dat een ander het gemak wel graag wilt en gebruikt, niets mis mee.

edit; link

[Reactie gewijzigd door GameNympho op 19 december 2024 22:35]

De toekomst komt elke dag dichterbij zodra we gaan slapen en weer wakker worden is de toekomst weer een dagje dichterbij
De toekomst komt nooit dichterbij :) .
Ik zat hier ook op te wachten, tot ik vandaag achter home-assistant-matter-hub kwam: https://github.com/t0bst4r/home-assistant-matter-hub

Hiermee kan je HA entities via Matter publiceren aan je huis. Google Home kan hiermee koppelen en zo HA besturen.
Waarom niet via de standaard functionaliteit die in Homeassistant zit (via de voice control instellingen). Dit gaat dan wel volgens mij via de cloud, maar Google home gaat sowieso toch via de cloud. Dus zie het voordeel niet helemaal in om het lokaal te doen?

Heb zelf ook wat helpers etc aangemaakt die ik via Google Home bedien om hele automations af te trappen in Homeassistant en werkt echt super!
Persoonlijk vind ik de 75 euro per jaar voor de Nabu Casa koppeling gewoon echt te duur. Ik heb net de laatste dingen van mijn Homey Bridge weggemigreerd voor de 36 euro per jaar die dat kost (laatste Z-Wave dingen vervangen door Zigbee, voor de prijs van Homey voor een jaar). Dan ga ik voor HA niet ineens het dubbele betalen.
Dat ligt er natuurlijk ook aan dat je twee totaal andere modellen met elkaar vergelijkt.

Bij Homey betaal je vooraf al voor de hardware, dus 'logisch' dat ze de software dan wat goedkoper kunnen maken.
HA is als softwarepakket gratis en je betaalt met de cloudfuncties eigenlijk ook voor de mensen die het gratis gebruiken.

Persoonlijk vind ik 75 euro per jaar het prima waard voor hoe vaak ik HA gebruik (lees: 24/7), het gemak wat het bied (niet zelf met reverse proxy's zitten knutselen waar ik helemaal geen kaas van heb gegeten) en wetende dat ik een project steun waarvan ik hoop dat het lang door kan gaan zonder opgekocht te worden.

Het ligt daarbij natuurlijk wel helemaal aan je eigen use-case. Als jij zelf geen externe toegang nodig hebt en geen cloud-voice wilt gebruiken, dan kan ik prima begrijpen dat je 75 euro per jaar te veel vindt als 'donatie' richting HA. Gelukkig is dat juist de kracht van HA, als je het niet wilt betalen dan kun je alles lokaal draaien :)
Bor Coördinator Frontpage Admins / FP Powermod @Ruuddie20 december 2024 08:43
Persoonlijk vind ik de 75 euro per jaar voor de Nabu Casa koppeling gewoon echt te duur.
Ik ben het met je eens. Bovendien is de prijs in Europa hoger dan bv in de US en is het voor mij "weer een abonnement" erbij zou ik het nemen. Jammer genoeg zie ik ook nooit aanbiedingen.
Ik moet heel eerlijk toegeven dat ik niet stil had gestaan dat dit onderdeel van het abonnement is... heb al jaren een abonnement gezien dit toch minder gezeur op levert dat dit zelf allemaal regelen. Als je dit wel zelf wil doen snap ik dat je geen abonnement gaat nemen puur voor deze functionaliteit! Al vind ik zelf 75 euro wel mee vallen eigenlijk. Als ik zie hoe "afhankelijk" ik ben geworden van Homeassistant wil ik dit best ondersteunen met een bijdrage.
Je hoeft dit toch niet te betalen (veel mensen willen het betalen)? Zijn genoeg goedkopere alternatieven voor de services die ze aanbieden
Zit naar de live stream te kijken op YT en heb er gelijk drie besteld :) Zit een mooie toekomst in, ook al is dit 'preview hardware' (heb nu de kleine m5, gelijk weg er mee)
https://www.home-assistant.io/voice-pe
Buy Now -> Shipping To Europe (ik bestel altijd bij raspberrypi.dk)

[Reactie gewijzigd door TheSanderZone op 19 december 2024 23:19]

ga je deze dan ook lokaal draaien met iets zoals een "Jetson Orin Nano Super-devkit"
Nope, lokaal met een Intel NUC.
Dus de LLM modellen op de nuc?
Nog niet, nu met o.a. openWakeWord, Piper en Whisper. Verder ook eens icm HA Cloud gebruikt, werkt best prima.
Ben nu aan het kijken naar Ollama
En ook naar LM Studio en Local LLM Conversation, maar gaat voor mij nog iets te ver.
LM Studio is zeer bruikbaar voor chat in mijn ervaring ermee. En het loopt ook nog eens vrij aardig op minieme hardware (i3 10e gen, 16 GB DDR4, een Kingston SSD en iGPU). StableLM Instruct bevalt me persoonlijk het best.

Op een andere, soortgelijke computer heb ik de beschikking over een NVidia 1650 kaart met 4 GB VRAM. Daar gebruik ik 'Tabby' (van TabbyML) op. De responsetijden doen amper tot niet onder die van de gratis ChatGPT variant. En je krijgt met de kleine modellen (1 voor chat en 1 voor coderen) die in de VRAM passen ook bruikbare antwoorden, als het specifiek gaat om code. De response-tijden en bruikbaarheid voor zelfs een minieme NVidia kaart zijn een positieve verassing.

Ben nu aan het sparen voor een NVidia kaart met meer VRAM, of misschien ga ik eens zien of die nieuwe Battlemage kaarten van Intel bruikbaar zijn. Die hebben standaard een boel meer aan VRAM voor een flink lagere prijs. Gamen interesseerd me weinig (meer), dus mogelijke problemen daarmee boeien me niet zo.

En als zo'n Battlemage computer ineens bruikbaar wordt voor Home-Assistant, des te beter.
Ik ga het wel proberen met die Jetson Orin. Ben benieuwd. :) zal pas alles in Januari denk ik klaar hebben om te testen.
Grappig dat hier wordt gesproken over "hotwords", ik dacht dat het altijd om "wakewords" ging, om de assistent alert te maken op een commando.
ja, HA noemt het ook gewoon steeds wakewords (hele communities zijn er van)
Nu vraag ik me af hoe goed dit lokaal werkt met een "Jetson Orin Nano Super-devkit" of zoiets als een "Intel N100" mini PC die van allerlij dingen draait waaronder een lightweight LLM model
Ik wacht inderdaad op zo'n product om mijn huidige mini PC als server te vervangen. De Orin Nano lijkt me een prachtige kandidaat op papier, maar mist eigenlijk wat RAM om grotere modellen te gebruiken.

Ik wacht nog wat reviews en community-projecties af. Daaruit wordt wel duidelijk of het wat is of niet. Momenteel draait alle AI stuff wat te sloom op een mini PC met iGPU om bruikbaar te zijn.
Weet je of het mogelijk is om dit in een proxmox container te draaien?
Is het mogelijk om een artikel te schrijven over krachtige hardware om Home Assistant op te draaien met local voice processing, een local LLM, en ook Frigate en andere zware toepassingen?
Vermits het ding 24/7 zou draaien ook liefst op een manier dat het verbruik laag ligt op momenten dat het geen zware taken uitvoert.
Momenteel draait home assistant op een virtual machine op mijn Synology NAS. Prima voor standaard taken maar ook niet meer dan dat...
Als je lokaal met dat soort dingen aan de slag wilt heeft nvidia net iets moois voor uitgebracht:

YouTube: Introducing NVIDIA Jetson Orin™ Nano Super: The World’s Most Afforda...
Ja dat had ik inderdaad gezien en lijkt me wel interessant. Maar om dat ding dan om te toveren in het uiteindelijke gewenste restultaat (een afgewerkt fysiek product waar Home Assistant op staat enz) zijn er wel nog wat tussenstappen :)

Zie ook https://community.home-as...ve-ai-acceleration/813440

Op dit item kan niet meer gereageerd worden.