Item: Nabu Casa Home Assistant Voice Preview edition
Author: Olaf Weijers

Samengevat

De Home Assistant Voice is spraakassistentiehardware waarmee je alle kanten op kunt. De hardware is niet zo krachtig, maar de functionaliteit komt met name voort uit het achterliggende platform Home Assistant. Als spraakassistent werkt het apparaat goed: hotwords worden goed herkend en er zijn weinig valspositieven. De speaker kan beter: voor spraak is het afdoende, maar de assistent is niet bedoeld om muziek mee te luisteren. Met de 3,5mm-aansluiting kun je een externe speaker gebruiken als muziek streamen wél gewenst is. De firmware is gebaseerd op ESPHome: hiermee kun je onbegrensd aan de slag met de achterliggende hardware als de originele configuratie je niet bevalt. Alle aansluitingen die interessant zijn om mee te knutselen zijn bereikbaar op het pcb. Uitbreiden kan ook, door middel van de aansluiting aan de onderzijde met Grove-formfactor.

Pluspunten

Minpunten

Getest

Nabu Casa Home Assistant Voice Preview edition

Prijs bij publicatie: € 56,18

Vergelijk prijzen Vanaf € 58,95

Eerder dit jaar sprak Tweakers met Paulus Schoutsen over Home Assistant en alle ontwikkelingen rondom het platform. In dat gesprek vertelde Paulus dat Nabu Casa zich bezighield met de ontwikkeling van hardware voor een spraakassistent.

Die ontwikkeling blijkt enorm snel te zijn gegaan, want inmiddels heeft Tweakers de eerste exemplaren van de nieuwe Home Assistant Voice ontvangen en ze in de praktijk getest. De Home Assistant Voice heeft een adviesprijs van 59 dollar en is vergelijkbaar met de speakers van Google, Amazon en Apple. Het is een klein apparaat met meerdere microfoons, een speaker en hardware die spraakactivatie ondersteunt en je spraakcommando’s kan doorsturen voor analyse door het achterliggende platform Home Assistant.

De ontwikkeling van de spraakassistent is niet helemaal uit de lucht komen vallen. Het jaar 2023 werd door Nabu Casa gedoopt tot 'year of Voice'. Het bedrijf stak dat hele jaar veel werk in de ontwikkeling van spraakassistentiemogelijkheden. Aan het eind van 2023 bleek er veel bereikt te zijn. Het platform kan verschillende talen verstaan en uitspreken en beschikt over intentieherkenning, hotwordactivatie en uitgebreide instelmogelijkheden voor spraakassistenten in de interface. Begin 2024 volgde de mogelijkheid om hotwords lokaal op een ESP32-S3 te gebruiken. De introductie van de Home Assistant Voice is dan ook een logisch vervolg op wat eerder is neergezet.

In mijn artikel over lokale spraakassistentie heb ik destijds een aantal hardwaremogelijkheden bekeken, waarna de conclusie was dat zelf bouwen wellicht de beste optie was omdat elk apparaat op de markt over nadelen beschikte. De ESP32-S3 Box-3 was destijds zeer matig beschikbaar en niet goedkoop voor een product zonder achterliggend platform. De M5Stack Echo is een mooie proof of concept, maar veel te licht uitgevoerd om goed in de praktijk in te kunnen zetten en van videoconferentiemicrofoons zijn de prijs en het uiterlijk meestal gericht op zakelijk gebruik. Naast die nadelen was Home Assistant zelf, ondanks al het werk aan spraakassistentie, nog niet op het niveau van Siri of de Google Assistent.

De Home Assistant Voice moet een kant-en-klaar alternatief bieden voor de eerdergenoemde apparaten. Nabu Casa voorzag ons van een paar previewexemplaren, waarmee we de afgelopen tijd in de praktijk hebben kunnen testen. Het apparaat lag dus al snel na de aankondiging op ons bureau. Is het achterliggende platform in die korte tijd al voldoende klaargestoomd en is de Home Assistant Voice de wat verlate kroon op het 'year of Voice'?

De verpakking

De Home Assistant Voice komt in een tweekleurenbedrukte kartonnen verpakking. In het doosje vinden we een garantieboekje, snelstarthandleiding en het apparaat zelf. Een voedingsadapter en kabel zijn niet meegeleverd en daarvoor zul je dus zelf moeten zorgen.

De Home Assistant Voice is compacter dan veel andere spraakassistenten. Het kastje meet 8x8cm en is 2cm hoog. De onder- en zijkant zijn van gematteerd transparant kunststof en voorzien van antislipvoetjes, zodat het apparaat niet te makkelijk wegglijdt van zijn plaats. De bovenzijde is gemaakt van ondoorzichtig wit kunststof.

De voornaamste bedieningselementen zijn aan de bovenzijde te vinden. Het clickwheel springt meteen in het oog, wat nostalgische herinneringen oproept aan de eerste iPods. In het midden van het draaiwiel zit een drukknop en er is een transparante ledring om het wiel heen aangebracht. Naast het clickwheel bevinden zich twee openingen voor de memsmicrofoons. Aan de rechterzijde is een schakelaar aangebracht waarmee de microfoons uitgeschakeld kunnen worden en aan de achterzijde vind je een USB-C-stroomaansluiting en een 3,5mm-audioaansluiting voor lijnuitvoer van het audiosignaal naar bijvoorbeeld externe speakers.

Onderop is het Home Assistant-logo verwerkt in de behuizing en is een deel van de behuizing open te ‘breken’ voor toegang tot de Grove-poort. Dat laatste verraadt een beetje de afkomst van de spraakassistent: dit is een aansluiting die gebruikt kan worden om extra modules te koppelen van Seeedstudio’s Grove-productlijn. Zo kun je de hardware later uitbreiden met een temperatuursensor, bewegingssensor of ander product dat compatibel is met de Grove-connector.

Wat zit erin?

De Voice is makkelijk te openen door de vier schroefjes onder de poten los te schroeven. Het pcb verwijder je vervolgens uit de behuizing door nog vier schroefjes los te draaien en de speakerkabel aan de onderzijde los te koppelen. De bovenzijde van het pcb herbergt het clickwheel en de microfoons. De microfoons zijn bedekt met een rubberen kanaal dat het geluid van de buitenzijde van de behuizing naar binnen transporteert. Verder vinden we hier de antenne voor wifi en een schakelaar die de USB-C-aansluiting schakelt tussen de ESP32 en de XU316.

Aan de andere zijde van het pcb is meer hardware geplaatst. Hier vinden we de muteschakelaar, speakeraansluiting, Grove-connector, USB-C-aansluiting en de 3,5mm-jack. Daarnaast zijn nog twee achtpolige pinheaders te vinden. Een daarvan verbindt direct met de ESP32 en biedt aansluitingen voor 3V, 5V, uart-receive en -transmit. De andere aansluiting is iets onduidelijker, maar biedt volgens het opschrift op het pcb een in- en uitgang voor rgb.

De Espressif ESP32 staat aan het hoofd van de hardware. Deze microcontroller beschikt onder andere over een wifi- en bluetoothradio voor de connectiviteit. De audioverwerking vanuit de microfoons komt voor rekening van de XMOS XU316. Dit is een zelfstandige dsp-controller, of zoals XMOS ‘m zelf noemt: 'xCORE audio AI accelerator'. Deze chip is verantwoordelijk voor de audioafhandeling: hij kan het inkomende geluid dat opgevangen wordt door de microfoons opschonen voordat het wordt aangeboden aan het achterliggende platform. De chip kan daarbij onder andere echo- en ruisonderdrukking en automatische volumeregeling inzetten.

Het clickwheel is gebaseerd op de Zippy AN-serie. Het wiel heeft 24 ‘klikjes’ en geeft twaalf pulsen per complete rotatie. Het clickwheel is rondom voorzien van twaalf rgb-leds, die hun licht via een diffuser en door een ringvormige lightguide naar buiten toe stralen.

Voor de uitvoer van geluid gebruikt de Voice een Texas Instruments AIC3204, een audiochip met ondersteuning voor 48kHz-geluidsuitvoer: niet erg geschikt voor muziek, maar dat is ook niet het beoogde doel. De gegenereerde audio wordt de ruimte ingestuurd door een Simpusun MH4-HR-monospeakertje, dat is geplaatst in een gesloten behuizing met een poort die de audio naar buiten toe leidt.

De hardware in de assistent is erg licht uitgevoerd. Dat kan doordat het achterliggende platform eigenlijk het zware werk verricht. Het energiegebruik van de Voice valt daardoor erg mee. In rust verbruikt de Voice 0,6W en tijdens het luisteren 1,3W.

Het installeren van de Voice is eenvoudig. Na de eerste opstart adverteert het apparaat zichzelf via Improv. Dat bluetoothprotocol zit in ESPHome, de software waarop de Voice gebaseerd is. Je Home Assistant-installatie zal over bluetooth moeten beschikken om het apparaat hiermee te herkennen. Dat kan via een aangesloten bluetoothmodule, een externe ESPHome-bediende bluetoothmodule of simpelweg met de Companion-smartphoneapplicatie die de bluetoothradio van je telefoon gebruikt om het apparaat te herkennen.

In Home Assistant komt de nieuwe hardware naar voren bij de integraties onder Instellingen. Tijdens het toevoegen geef je de wifigegevens op, waarna het apparaat opnieuw opstart en zichzelf aanmeldt als spraakassistent bij Home Assistant. Zoals eerder vermeld is de software die op de Voice draait ESPHome. Dit is dan ook de integratie waaronder de spraakassistenten terug te vinden zijn in de instellingen.

Als je nog geen ander ESPHome-apparaat gebruikt, krijg je tijdens het instelproces de vraag om het pakket te installeren. Dat kan verwarrend overkomen voor een gebruiker die niet bekend is met het pakket en zich richt op het installeren van een Home Assistant Voice.

Bediening

Als de Voice eenmaal draait, kun je het volume aanpassen met het wiel aan de bovenzijde. Met de drukknop in het midden start je een spraakcommando zonder het hotword uit te spreken of pauzeer je media die afspeelt. Als je de knop indrukt terwijl je het wiel draait, kun je de lichtkleur veranderen die de assistent uitstraalt als hij luistert. Met de schakelaar aan de zijkant deactiveer je de microfoons als je daaraan behoefte hebt; de lichtring is dan rood gekleurd om aan te geven dat de assistent niet luistert.

Via Home Assistant kun je meer instellen aan de Voice. Naast het volume, lichtinstellingen en de mutefunctie kun je via deze weg ook het bevestigingsgeluid dempen dat de speaker afspeelt na het ontwaken. Daarnaast kun je een assistentiepijplijn toewijzen en instellen hoe agressief de assistent stopt met luisteren na het geven van een spraakcommando. De Voice biedt ook een aantal sensoren en geeft door of deze geactiveerd worden. De drukknop geeft dubbelklikken, driemaal klikken en langdurig klikken door om daaraan een automatisering te kunnen koppelen.

Bij een aantal acties, zoals klikken op de knop of activeren van de mutefunctie, geeft de Voice een bevestigingsgeluid; vooralsnog kon ik behalve het volume op nul zetten geen eenvoudige manier vinden om die geluiden uit te schakelen. Dat is misschien niet ideaal als je een dubbelklik wilt gebruiken om je leeslampje uit te schakelen zonder je slapende wederhelft te storen. Niet getreurd, want dit soort geavanceerde zaken zijn aan te passen als je de firmware van de Voice 'overneemt' met ESPHome. Je krijgt dan toegang tot de yaml-basisconfiguratie en kunt naar hartenlust het gedrag van de hard- en software naar je hand zetten.

Spraakassistentie instellen

Nadat je de Voice Assistant hebt verbonden, moet je in Home Assistant een assistentiepijplijn maken en aan de assistent 'entiteiten' toevoegen om te bedienen.

Voor spraakherkenning gebruikt Home Assistant drie componenten: spraak-naar-tekst is nodig om inkomende audio om te zetten naar tekst. De tekst wordt vervolgens geïnterpreteerd door de gespreksagent en om deze te laten antwoorden kan de tekst die hij als antwoord genereert, worden omgezet naar spraak door de tekst-naar-spraakcomponent. De Voice reageert standaard op ‘OK Nabu’, maar eventueel is in de assistentiepijplijn een ander hotword in te stellen.

Verschillende spraakpijplijnen in Home Assistant

De assistentiepijplijn is gekoppeld aan een taal. Als er meerdere talen worden gesproken, kun je hiervoor verschillende pijplijnen aanmaken; automatische taalherkenning behoort nog niet tot de opties. Bij de speakerinstellingen kun je een specifieke pijplijn aan een speaker koppelen, waardoor het mogelijk is dat iedere speaker met een eigen hotword wordt geactiveerd en ze zodoende elk een andere taal kunnen herkennen. Dat is een mooie optie voor meertalige huishoudens, maar daarvoor heb je dus per pijplijn een aparte speaker nodig.

De componenten die een assistentiepijplijn vormen zijn los te selecteren en je kunt ook alternatieven voor de standaardcomponenten downloaden. Zo kun je naar wens de ingekomen spraak lokaal verwerken of een cloudgebaseerde dienst gebruiken die dat misschien sneller of nauwkeuriger kan. Ook de tekst-naar-spraakconversie of de gespreksagent kunnen worden vervangen door andere lokale of cloudgebaseerde componenten. Ook hiervoor kun je aparte pijplijnen aanmaken om snel te schakelen tussen bijvoorbeeld lokaal of cloudgebruik.

Het is een veelgehoorde wens dat spraakassistentie volledig lokaal wordt afgehandeld zonder dat er een cloudserver aan te pas komt. Home Assistant heeft hiervoor mogelijkheden die met name in 2023 goed onder handen zijn genomen in het kader van het 'year of Voice'. De componenten om lokaal spraak af te handelen met Home Assistant zijn onderdeel van het pakket. Spraak-naar-tekst komt voor rekening van Whisper, de tekst-naar-spraak regelt Piper en Home Assistant heeft zelf een ingebouwde gespreksagent om commando’s te herkennen.

Op dit moment hangt het nog heel erg af van de taal die je spreekt of Whisper je goed begrijpt. In het Nederlands is dit in elk geval duidelijk nog niet het geval. Een simpele zin: ‘Maak de woonkamer schoon’ die ik 25 keer achter elkaar uitsprak, werd slechts drie keer goed herkend, waarbij de eerste geslaagde herkenning zes pogingen kostte. In alle gevallen ontbrak het lidwoord ‘de’ en tussen de verkeerde interpretaties zaten pareltjes als ‘Maak wolkamer schoon’, 'Markmolgommershoek', ‘Mijn bovenkamer is gewoon…’ en ‘Maak gewoon kamers gewoon!’.

Het Engelse model functioneert beter: 'Clean the living room' werd bij de eerste poging direct herkend en dat gold ook voor veel andere commando's. Het is wel belangrijk om je apparaten dan een Engelse naam of alias te geven die niet al te exotisch is.

Als Whisper je zin eenmaal correct heeft ontcijferd, gaat de gespreksagent met de tekst aan de gang om de intentie te ontcijferen. Simpele commando’s als het inschakelen van een lamp of schakelaar worden goed herkend, maar ingewikkelde opdrachten zoals het starten van een stofzuiger of op kleur zetten van een lamp worden niet ondersteund of vereisen een specifieke syntax. Wat wordt ondersteund is hier terug te vinden, maar het kan zijn dat je een heel specifiek commando of specifieke zin wilt laten herkennen. Dat kun je zelf bouwen via een automatisering die de Conversation-component als trigger gebruikt. Daaraan kun je een template opgeven om je commando of varianten daarvan te herkennen, waarna de automatisering wordt uitgevoerd. Delen van het commando kunnen daarbij dienen als variabelen, bijvoorbeeld een aantal ruimtes die de stofzuiger moet schoonmaken.

Tekst naar spraak

Het is fijn als de assistent terug kan praten, bijvoorbeeld als je de temperatuur van een ruimte opvraagt. Voor tekst-naar-spraak gebruikt Home Assistant de Piper-add-on. Deze kan in veel talen praten, maar op dit moment is er een probleem met de Nederlandse stem. Daarvan lijken de klanken door elkaar gehaald, want deze klinkt wel Nederlands, maar het resultaat is onverstaanbare wartaal. Deze situatie bestaat al enkele maanden en wanneer hierin verandering komt is onbekend; het ticket op GitHub lijkt vooralsnog maar weinig vervolg te krijgen. Gelukkig is er een alternatief door de taal van Piper op Belgisch in te stellen: deze stemmen zijn in orde, maar hebben vanzelfsprekend een duidelijk Vlaamse tongval.

Snelle verbetering

De ervaring met lokale herkenning was begin november, toen we de assistent ontvingen, nog niet erg positief. De Nederlandse taal herkennen en uitspreken is vele stappen verwijderd van bruikbaarheid in de praktijk. In het Engels gaat dat al (stukken) beter, maar uiteindelijk is de werking niet te vergelijken met alternatieven zoals die Google en Apple bieden.

Dat heeft deels te maken met verwerkingskracht: de datasets om spraak te genereren en herkennen zijn bewust nogal klein zodat deze niet veel verwerkingskracht vereisen van het achterliggende systeem. Veel gebruikers draaien Home Assistant op een singleboardcomputer of thuisserver met beperkte verwerkingsmogelijkheden, waar krachtigere modellen uitmonden in meer verwerkingstijd. Op dat soort hardware draaien de huidige modellen best vlot, maar de precisie laat met name in het Nederlands stevig te wensen over. Doordat de gespreksagent standaard vrij star is in het herkennen van commando’s, wordt in de praktijk een commando erg vaak niet goed begrepen. Daarnaast is de intentieherkenning niet enkel star maar ook traag als een commando niet begrepen wordt.

In de periode dat wij de Voice bekeken zijn er een aantal updates uitgekomen die helpen met de snelheid en starheid van de lokale gespreksagent. Zodra een commando niet herkend wordt door deze agent kan de pijplijn dit omleiden om door een beter getraind, extern llm te laten verwerken. Doordat je commando in zo’n geval dubbel verwerkt wordt door twee modellen loopt de responstijd van de assistent op, maar niet zoveel als voorheen, omdat ook de trage methodieken achter de lokale intentieherkenning zijn aangepakt en sneller gemaakt.

Beschik je over minder krachtige hardware of ben je niet tevreden met de prestaties van Whisper en Piper, dan kun je de componenten vervangen door een cloudgebaseerd alternatief. Dat betekent dat je de verwerkingskracht bij een andere partij neerlegt en daarbij ontkom je niet altijd aan een prepaid- of abonnementsdienst. De abonnementsdienst van Nabu Casa, die ingebouwd is in Home Assistant, is de eenvoudigste. Dit abonnement bevat toegang tot de servers van Nabu Casa, die een geavanceerde vorm van alle componenten van de spraakpijplijn aanbieden, met uitzondering van de gespreksagent.

De spraakpijplijn die Nabu Casa biedt werkt vlot: in mijn ervaring net zo snel als en in sommige gevallen zelfs sneller dan Google Home. Ook de stemmen zijn goed getraind en spreken de meeste woorden en zinnen op natuurlijke wijze uit zonder al te veel rariteiten. De verscheidenheid in stemmen is ook goed. In het Amerikaans Engels heb je de keuze uit maar liefst 25 stemmen. Voor Nederlands zijn drie stemmen beschikbaar, waarvan één mannelijke. Vlamingen krijgen de keuze uit één man of vrouw.

Een ander, gratis alternatief voor betere spraak-naar-tekst en vice versa vind je bij Azure, de clouddienst van Microsoft. Om hiervan gebruik te maken dien je te beschikken over een account bij Azure en een creditcard om verplicht te koppelen aan je account. Azure biedt per maand vijf uur gratis spraakanalyse, wat voldoende is voor gemiddeld gebruik met een spraakassistent. De spraakherkenning die Azure biedt is, net als die van Nabu Casa, beter en vlotter dan Piper en Whisper lokaal bieden. Het installeren is echter een klus waarvoor je echt even de tijd moet nemen als je nog niet erg bekend bent met de interface en diensten van Azure. De stemmen van de tekst-naar-spraak zijn dezelfde als Nabu Casa biedt.

Zowel Nabu Casa als Azure zorgen voor een vlottere verwerking dan lokaal mogelijk is met beperkte hardwarecapaciteit, maar beide vervangen niet de gespreksagent. Die draait lokaal en is standaard beperkt in functionaliteit. Je kunt veel apparaattypes bedienen of aanpassen met spraakcommando’s, maar enkel met heel doelgerichte commando’s. Dat is flexibeler te krijgen door zelf aanpassingen te doen via automatiseringen. Een andere mogelijkheid is een llm aan het roer zetten dat iets ‘intelligenter’ en minder star kan omgaan met al je commando’s en vragen.

Home Assistant is te koppelen aan twee populaire llm’s: Gemini van Google en ChatGPT van OpenAI. Beide vereisen een account om een api-sleutel te generen voor Home Assistant en ChatGPT ook een creditcard, aangezien deze dienst niet gratis is. Net als bij Azure is het koppelen een klusje waarvoor je even moet gaan zitten en de documentatie goed moet volgen. Daarbij is het verstandig om limieten in te stellen bij betaalde opties om te voorkomen dat een bug of onbedoelde instelling zorgt voor hogere kosten dan je had verwacht. De kosten van ChatGPT zijn afhankelijk van het model dat je inzet. Het gpt-3.5-turbo-model voldoet erg goed als spraakassistent en zal je bij ‘normaal’ gebruik niet zo gauw meer dan 10 dollar per maand kosten. Gemini is gratis tot een limiet; geavanceerdere taalmodellen of intensief gebruik leiden wel tot kosten, afhankelijk van de zwaarte.

Met het koppelen van een llm transformeert de spraakassistent van een vrij star bedienmodel dat regelmatig niet snapt wat je bedoelt, in een breedsprakige assistent die je vaak stukken beter begrijpt, met name als je even afwijkt van je normale commando. Je merkt duidelijk dat je in een conversatie met een llm terechtkomt: je kunt over allerlei onderwerpen antwoorden krijgen of een gesprek voeren en het onderwerp is niet meer beperkt tot huisbediening. In feite ben je in gesprek met een llm met al zijn mogelijkheden en dat toevallig ook nog bediening van je huis kan verzorgen.

Dat heeft ook nadelen, want llm’s zijn nogal behulpzaam geprogrammeerd en vragen om de haverklap of alles naar je zin is, of juist om verduidelijking als iets niet helemaal goed wordt begrepen. Home Assistant is daarop nog niet helemaal voorbereid. Het is niet mogelijk om de microfoon van de Voice op afstand te activeren om een antwoord te geven op een vraag van de assistent. Je blijft wel in dezelfde conversatie als je het hotword uitspreekt voordat je een antwoord geeft, maar het doet erg af aan de gesprekservaring.

Een ander nadeel van deze aanpak is dat je geen toegang meer hebt tot uitgesproken tekst, doordat de gespreksagent zich buiten Home Assistant bevindt. Dat betekent dat automatiseringen die wachten op een bepaalde tekst niet meer werken. Dat maakt je afhankelijk van het begrijpend vermogen van je llm. Dat krijg je echt niet wijsgemaakt hoe je de robotstofzuiger naar de hal stuurt met intern ID-nummer 15, een functie die met een automatisering prima te bouwen is.

De Home Assistant Voice is absoluut de kroon op het 'year of Voice'. De hardware werkt goed en is vlot te installeren. Zoals bij de andere hardware van Nabu Casa kun je de hardware makkelijk uitbreiden of modificeren. De aansluitingen die daarvoor nodig zijn, zijn bereikbaar en gemarkeerd op het pcb. De bediening met het clickwheel is intuïtief en het is mooi dat een hoop functies van het apparaat op afstand bediend kunnen worden, desgewenst met een automatisering.

Met een adviesprijs van 59 dollar is de Voice niet goedkoop, vergeleken met andere spraakassistenten. Voor die prijs krijg je ook niet de krachtigste hardware, maar wel een open ontworpen apparaat waar je, ondersteund door het achterliggende platform, ongekende vrijheid krijgt om je spraakassistentie in te stellen zoals je wilt.

De hotwordherkenning en kwaliteit van de spraakopname zijn goed. Goed getrainde modellen zoals Nabu Casa en Microsoft aanbieden, kunnen de ingekomen audio daardoor vrij accuraat verwerken. Als je niet eerder een spraakassistent gebruikt hebt, zul je even vertrouwd moeten raken met de assistentiepijplijn en de componenten daarvan. Met die assistentiepijplijn biedt Home Assistant een heel mooie modulaire opzet om je spraakassistent helemaal in te richten zoals je wilt.

De spraakfuncties van Home Assistant zijn de afgelopen tijd aardig uitgebreid. Alle functionaliteit voor een spraakassistent is helemaal lokaal te gebruiken, zelfs op minder krachtige hardware zoals een Raspberry Pi. Op die hardware is de werking nog niet helemaal te vergelijken met de commerciële tegenhangers. De verwerkingstijd is langer en de spraakherkenning minder nauwkeurig. In het Engels word je beter verstaan dan in het Nederlands en de Nederlandse stemmen zijn op het moment van schrijven al enkele maanden defect.

Door de modulaire opzet is het mogelijk om die functies te vervangen. Je kunt kiezen voor cloudcomponenten of om de stemherkennings- en tekst-naar-spraaksoftware zelf op stevige hardware te draaien. Daarmee zijn de mogelijkheden vrijwel alleen begrensd door de kracht van de hardware en het niveau van de modellen die je gebruikt.

Een makkelijke optie is om de spraakdiensten af te nemen bij Nabu Casa. Daarmee verbetert de spraakherkenning en het niveau van de stem enorm ten opzichte van de mogelijkheden met minder krachtige hardware. De gespreksagent blijft wel lokaal draaien. Standaard is deze, met name in het Nederlands, vrij star in het herkennen van commando’s. De reactiesnelheid van deze combinatie is te vergelijken met Google Home. Met het Azure-platform van Microsoft is hetzelfde te bereiken, maar daarmee steun je natuurlijk niet de ontwikkeling van Home Assistant en de hardware eromheen.

Als je de gespreksagent vervangt door een llm, wordt de intentieherkenning een stuk beter. Je kunt dan creatief zijn met je opdrachten of zelfs het llm laten bepalen wat de beste actie is naar aanleiding van je vraag. Met een gekoppeld llm merk je wel dat er nog een conversatiemodus ontbreekt waarbij Home Assistant de microfoon weer activeert nadat er een tegenvraag is gesteld.

Aan het gebruik van een llm kleven wat bezwaren. Het eerste betreft privacy, tenminste, als je het llm van een ander bedrijf gebruikt. De gratis variant van Googles Gemini analyseert en leert van je conversaties. Daarnaast deel je ook best veel gegevens van je huis met het taalmodel. Of dat de functionaliteit waard is, zul je voor jezelf moeten afwegen. Het tweede bezwaar heeft te maken met energiegebruik. Training en gebruik van een llm voor (ingewikkelde) vragen is energie-intensief. Gedurende de testperiode kwam er een nieuwe mogelijkheid om je commando eerst lokaal te verwerken op de interne, energiezuinige modellen. Pas als je commando niet begrepen wordt, wordt de cloud ingezet.

De koppeling met een llm is in mijn ervaring bijna onmisbaar ten opzichte van de starrere intentieherkenning: het maakt de assistent een stuk vaardiger en geeft de mogelijkheid om wat persoonlijkheid toe te voegen aan de antwoorden. Het zou dan ook een logische stap zijn dat Nabu Casa dit in de toekomst toevoegt aan het dienstenpakket, naast de spraakherkenning en tekst-naar-spraak.

Pluspunten

Minpunten

Getest

Nabu Casa Home Assistant Voice Preview edition

Prijs bij publicatie: € 56,18

Vergelijk prijzen Vanaf € 58,95

Laagste prijzen voor: Nabu Casa Home Assistant Voice Preview edition

Winkel Beoordeling Prijs

ROBBshop 2.5 van 5 sterren (6 shopreviews)

|€ 7,95 € 58,95 Bekijk
123led.nl 3.5 van 5 sterren (5 shopreviews)

|Gratis € 69,95 Bekijk

Vooruitgang in lokale spraakherkenning

Introductie

Samengevat

Pluspunten

Minpunten

Getest

De hardware

De verpakking

Wat zit erin?

Installatie en configuratie

Bediening

Spraakassistentie instellen

Lokale assistentiepijplijn met Whisper en Piper

Tekst naar spraak

Snelle verbetering

Cloudgebaseerde spraakherkenning met Nabu Casa of Azure

Cloudgebaseerde gespreksagent met een llm

Conclusie

Pluspunten

Minpunten

Getest

Inhoudsopgave

Lees meer

Reacties (88)

Introductie

Samengevat

Pluspunten

Minpunten

Getest

De hardware

De verpakking

Wat zit erin?

Installatie en configuratie

Bediening

Spraakassistentie instellen

Lokale assistentiepijplijn met Whisper en Piper

Tekst naar spraak

Snelle verbetering

Cloudgebaseerde spraakherkenning met Nabu Casa of Azure

Cloudgebaseerde gespreksagent met een llm

Conclusie

Pluspunten

Minpunten

Getest

Inhoudsopgave

Lees meer

Reacties (88)

Sorteer op:

Weergave: