Ieder jaar beginnen er in de lage landen tientallen techstart-ups, die grootse dromen hebben, maar technische hobbels moeten overwinnen om ze waar te maken. In dit artikel bespreken we waar Whispp zoal tegenaan liep bij het ontwikkelen van zijn AI-spraaktechnologie voor gefluister.
Er zijn in Nederland een hoop mensen die leven met een stemaandoening en daardoor hun stem blijvend zijn kwijtgeraakt. Denk aan mensen met stembandverlamming, keelkankerpatiënten en mensen met spasmodische dysfonie, een stoornis waarbij de spieren van de stembanden onvrijwillige samentrekkingen vertonen. Er zijn ook veel andere ziekten waarbij het spreken en de stem worden aangetast, zoals ALS, Parkinson en long covid. Veel betrokkenen hebben moeite met praten en kunnen niet veel meer dan fluisteren. Jezelf al fluisterend verstaanbaar maken kan een heel karwei zijn, vooral op drukke plekken. Daarom hebben sommigen van hen een spraakversterker bij zich. Zo’n apparaat is te groot om even in je broekzak te stoppen en dus enigszins onhandig om overal mee naartoe te nemen. Bovendien wordt alle ruis meeversterkt, waardoor het al met al een verre van ideale oplossing is.
Dat moet anders kunnen, dacht Joris Castermans. Hij kwam op het idee doordat hij stottert en erachter kwam dat als mensen die hevig stotteren fluisteren, ze wél in staat staat zijn om ontspannen en vloeiend te spreken. Hij besloot een spraakversterkerapp te maken waarmee niet alleen achtergrondruis wordt gedempt, maar de 'fluisterstem' ook wordt omgezet in de natuurlijk klinkende stem van de spreker, met de juiste intonatie en emotie. Castermans wilde bereiken dat als je door middel van die app belt, de andere kant van de lijn niet doorheeft dat je fluistert. De AI-spraaktechnologie die hij daar samen met zijn team voor ontwikkelt, blijkt technisch een stuk complexer dan hij zich initieel had voorgesteld.
- Bedrijf: Whispp
- Opgericht: 2018, Leiden
- Initiatiefnemer: Joris Castermans
- Product: app met AI-spraaktechnologie om fluisterspraak om te zetten in een natuurlijk klinkende stem voor zowel face-to-face- als belgesprekken
- Productiefase: de soft launch van de app is gepland voor november; de volledige versie moet volgend jaar verschijnen
- Prijs: voor de app moeten gebruikers na een gratis proefperiode een nog niet vastgesteld maandelijks bedrag betalen
:strip_exif()/i/2005404742.jpeg?f=imagenormal)
Castermans had zelf geen kaas gegeten van AI-technologie - hij is van oorsprong industrieel ontwerper - dus was het aan onder meer AI-developer Akash Raj om het idee tot werkelijkheid te maken. Raj was net afgestudeerd in elektrotechniek en computer science engineering in India. Hij kwam naar Nederland voor zijn master en daar kwam hij in contact met Bram Kooiman. Kooiman had net een masterthesis gedaan met Castermans over het idee om AI te maken die fluisterspraak kan omzetten in de natuurlijke spraak van de spreker. Raj was enthousiast en wilde graag meehelpen met de uitwerking van het concept. Nadat ze van verschillende instanties subsidies hadden binnengehaald en zo een startbudget bij elkaar hadden gesprokkeld, konden ze serieus aan de gang met de ontwikkeling.
Slimme spraakversterker
Het idee om fluisterstemmen om te zetten in normale stemmen door middel van een neuraal net dat door machinelearning getraind wordt, is niet nieuw. Er zijn al verschillende onderzoeken naar geweest, vooral van Chinese en Japanse onderzoekers. Hoewel die onderzoekers geen daadwerkelijke applicatie hebben gebouwd, zou je zeggen dat het gewoon een kwestie is van het eerdere onderzoek volgen en voilà. Niets bleek minder waar, beweert Raj. "De kwaliteit was erg slecht. Dat lag aan verschillende dingen. Als je iets fluistert en door het machinelearningmodel haalt, moet de output, de synthetische stem, verstaanbaar zijn. Die stem moet ook natuurlijk klinken. Een robotstem leidt af en hetzelfde geldt voor de prosodie, oftewel het ritme, de klemtoon en de intonatie. Wij wilden daarbij niet alleen een natuurlijke stem, maar een stem die precies zo klonk als de stem van de spreker. Deze dingen ontbraken in alle bestaande modellen."
De architectuur en modules die de Chinese en Japanse onderzoekers gebruikten, werden het uitgangspunt. Voor het deeplearningframework kon PyTorch worden gebruikt, maar hoewel de start-up zo al een opzetje had, moest er nog veel gebeuren. "Er zit een groot verschil tussen academisch onderzoek en het daadwerkelijk bouwen van een app", legt Raj uit. Om ervoor te zorgen dat fluisterstemmen 'normaal' kunnen klinken, moet eerst het gefluister zelf worden versterkt. Wat de stemversterker van Whispp daarbij 'slim' moest maken, is dat alle achtergrondgeluiden, zoals blaffende honden en autotoeters, automatisch gedempt zouden worden. "Maar met dat soort externe factoren houdt zo’n onderzoek geen rekening, dus dat was een heel nieuw gebied voor ons om uit te pluizen."
Ruis simuleren
Er moesten verschillende algoritmen ontwikkeld worden die het verschil kunnen bepalen tussen fluisterstemmen, die geboost moeten worden, en het achtergrondgeluid, dat gedempt moet worden. Raj: "Dat doen we door een model te leren dat slechts bepaalde frequenties van deze audio relevant zijn voor spraak, en de rest allemaal ruis is." Het verschil in frequentiebereik waarin mensen praten, is volgens Raj redelijk beperkt; grofweg van 50 tot 300 hertz. Fluisteren gebeurt tussen de 1000 en 3000 hertz. "Dus we beginnen met simpele digital-signal-processing-technieken genaamd band-pass filtering. We zeggen dan tegen de AI: alles buiten deze frequenties is ruis en moet worden weggefilterd."
De start-up maakt daarvoor ook gebruik van speech activity detection. In elk gesprek vallen kleine stilten en je wilt dat gedurende die periode geen enkel geluid versterkt wordt. Met intervallen van 10 milliseconden gaat deze spraakherkenningstechniek daarom telkens na of er gepraat wordt. "We hebben gekozen voor 10 milliseconden omdat we ervan uitgaan dat ruis niet binnen 10 milliseconden kan komen en verdwijnen." Na 300 milliseconden begrijpt het machinelearningmodel de omgeving - is het er rumoerig, is er veel echo – en wordt er een noise profile van gemaakt. "Je kunt dan iets doen genaamd spectral subtraction; door alle audio van ná deze 300 milliseconden aan het noise profile toe te voegen kun je de ruis makkelijk detecteren en dus reduceren.
Klinkt simpel, het is een vrij standaard proces bij active noise cancelling, maar volgens Raj wordt het voor de toepassing van Whispp toch wat ingewikkelder omdat er ook geluiden zijn die dezelfde frequenties hebben als spraak. De digital signal processing- (dsp)-algoritmen kunnen dat onderscheid zelf niet maken, dus moest de start-up hulp inschakelen van de leermogelijkheden van het neurale net. Dat gebeurt door een rumoerige situatie te simuleren. Er wordt een gesprekje opgenomen, zowel met fluisterstemmen als met normale stemmen, zonder enige vorm van achtergrondgeluid en vervolgens wordt kunstmatige ruis toegevoegd.
Door dat vaak genoeg te doen leert het neurale net beetje bij beetje het onderscheid te maken, al melden de oprichters dat vooral het leren om gefluister te onderscheiden van ruis een flinke tijdsinvestering vereiste. Toen dat eenmaal was gelukt, begon het bedrijf aan wat Raj een hybrid dsp AI strategy noemt. "Daarbij laten we de AI bepaalde ruisfilters genereren. Die filters kunnen we dan gebruiken voor de dsp-algoritmen." De start-up hoopt dat op deze manier vrijwel alle ruis weggefilterd wordt, of je nou hard of zacht praat.
Eerste versie
:strip_exif()/i/2005417352.webp?f=imagemedium)
De eerste versie van de app moet in november verschijnen voor iOS en dient ‘slechts’ als een slimme spraakversterker. Hierbij worden het spraakvolume geboost, achtergrondruis onderdrukt, en harde en schelle stemgeluiden gedempt op de hierboven beschreven manieren. Voor (video)belgesprekken wordt hiervoor de ingebouwde luidspreker van de smartphone gebruikt. Bellen met de Whispp-app is volgens Castermans erg vergelijkbaar met bellen via WhatsApp, aangezien gebruikers er hun databundel voor moeten aanzetten. In tegenstelling tot bij WhatsApp wordt gebruikgemaakt van een op WebRTC-gebaseerde verbinding die peer-to-peer werkt, maar het dataverbruik is volgens de oprichter vergelijkbaar.
De app kan ook gebruikt worden voor face-to-facegesprekken, maar daarvoor is een sprietmicrofoontje vereist. "Deze toepassing is namelijk specifiek voor als je op een rumoerige plek bent en elkaar anders niet kunt verstaan", verklaart Castermans. Volgens de start-up moet hiervoor een cardioïde sprietmicrofoon gebruikt worden, dus een microfoon die de nadruk legt op het geluid uit een bepaalde richting en niet het achtergrondgeluid meepikt.
Een belangrijke functie ontbreekt nog bij deze versie. De fluisterstem wordt nog niet omgezet in de natuurlijk klinkende stem van de spreker, maar blijft klinken als een fluisterstem. Het team is nog volop bezig met de ontwikkeling van de technologie om het als een natuurlijke stem te laten klinken. Hoewel de oprichters toegeven dat dat het grootste selling point is van het product, is de druk hoog om al snel iets uit te brengen, zegt Castermans. "Zo kunnen we sneller tractie genereren. Als start-up moeten we namelijk snel laten zien dat we daadwerkelijk een probleem oplossen en commercieel levensvatbaar zijn."
Whispp werkt met een abonnementenmodel waarbij na een gratis proefperiode maandelijks betaald moet worden om de app te kunnen gebruiken. Hoewel de app bij de soft launch eind dit jaar nog niet de belangrijkste feature heeft, wordt wel al meteen met dit model gestart. Castermans vindt dat de toegevoegde waarde ten opzichte van een gewone stemversterker al groot genoeg is om geld te kunnen vragen. Hoeveel het maandelijks moet kosten, is echter nog niet duidelijk. De inkomsten die Whispp hieruit ontvangt, moet helpen om de 'volledige versie' van de app te kunnen maken, waarvan de release van een prototype momenteel is gepland voor de zomer van 2023. In die versie moeten fluisterstemmen wél omgezet worden in de natuurlijk klinkende stemmen van de spreker.
Fluister-naar-spraak
Volgens Raj wordt er nog volop gewerkt aan deze 'fluister-naar-spraak'-technologie, want makkelijk is het niet om zoiets te bewerkstelligen. "Het eerste wat we moeten doen, is ervoor zorgen dat wat er gefluisterd wordt en wat de gesynthetiseerde audio vervolgens doorgeeft, precies hetzelfde zijn." Om de stem te transformeren in een natuurlijk klinkende stem, is het namelijk niet meer genoeg om filtertjes te plakken over de audio. Waar het voor de slimme spraakversterker voldoende is om de AI te laten weten dát er gepraat wordt, moet de AI voor deze stap elk woord snappen van wat je zegt.
Omdat er nog gewerkt wordt aan de octrooien, willen Castermans en Raj niet veel precieze details over hoe ze dit technisch voor elkaar hebben gekregen, uit de doeken doen. Ze zeggen wel dat ze, nadat het machinelearningmodel de gesproken woorden kan herkennen, de geconverteerde audio natuurlijker proberen te laten klinken. Het machinelearningmodel moet hiervoor leren een natuurlijke prosodie na te bootsen. Dat realiseert Whispp naar eigen zeggen door 'een heel grote dataset te genereren' en daarbij 'heel veel stemtalenten' te betrekken, maar verdere toelichting willen de heren niet geven.
In sommige gevallen werkt de technologie om fluisterstemmen natuurlijk te laten klinken al goed, beweren de oprichters, maar zeker nog niet altijd. "We moeten ervoor zorgen dat als de akoestiek van een kamer verandert, de audio te allen tijde goed geconverteerd wordt." Zo heeft het algoritme nog problemen met het goed detecteren van audio in galmende ruimten.
Ook een flinke uitdaging is zorgen dat de app op elke telefoon even goed werkt. Aangezien de microfoon verschilt per apparaat, moet rekening gehouden worden met verschillende gevoeligheden en frequency responses. Met high-end studiomicrofoons werkt de fluister-naar-spraaktechnologie, maar het moet natuurlijk ook op de kwalitatief slechtere telefoonmicrofoons werken. Whispp is daarom druk bezig om de robuustheid van de fluisterversterking te verbeteren. "Dan wordt eerst het fluistergeluid verbeterd en die input wordt vervolgens aan het whisper-to-speechmodel gegeven. Zo proberen we meer controle te krijgen over wat er bij het AI-model binnenkomt."
Geen vertraging
Castermans en Raj willen dat de uiteindelijke versie van de Whispp-applicatie in real time een fluisterende stem kan omzetten in een normale stem. Dat betekent dat als je videobelt, de andere partij idealiter geen vertraging moet merken. Een grote uitdaging, legt Raj uit, want waar de eerste versie voor de audioprocessing louter gebruikmaakt van het apparaat zelf, wil het bedrijf de AI-verwerking voor de volledige versie in de cloud laten plaatsvinden. Overigens belooft de start-up 'uiterst zorgvuldig' met het bewaren van de data van gebruikers om te gaan.
Volgens Raj mag Whispp bij belgesprekken maximaal 300 milliseconden vertraging hebben voordat deze merkbaar wordt. "Maar daar zit ook nog grofweg 200 milliseconden netwerklatentie bij, dus in feite heeft het AI-model slechts 100 milliseconden om berekeningen uit te voeren." Dat was ook een aspect waar de Chinese en Japanse papers geen rekening mee hielden.
De start-up blijft vaag over de bedachte oplossing. "Het komt erop neer dat we de afmetingen van het machinelearningmodel verkleinen", aldus Raj. "We proberen de hoeveelheid lagen te verminderen, maar de functionaliteit per laag te verhogen. De doelstelling die de AI per laag moet bereiken, proberen we aan te passen. Naar de manier waarop doen we nu volop onderzoek." Ook wordt gebruikgemaakt van 'causaliteit', vervolgt Raj. "Dat houdt in dat mijn voorspelling voor het huidige tijdpunt enkel afhangt van de eerdere tijdpunten." Castermans onderbreekt hem: "Misschien is het beter om het hierbij te laten."
Ingebouwd in andere hardware
Voorlopig heeft Whispp zijn handen vol aan de technische ontwikkeling. Toch wordt er ook al voorzichtig vooruitgekeken naar het moment waarop de volledige Whispp-app uitgebracht zal zijn. Waar het product nu voornamelijk aanbevolen wordt voor mensen met stemaandoeningen die hun stem zijn kwijtgeraakt en dus 'verplicht' fluisteren, heeft de start-up ook andere toepassingen in gedachte. Bijvoorbeeld als je in de trein wilt bellen en niet wilt dat iedereen kan meegenieten van het gesprek. Zo willen ze de doelgroep flink vergroten.
Het liefst wil de start-up als 'eindstation' samenwerkingen aangaan met grote bedrijven om zijn AI-technologie te licentiëren voor gebruik in andermans hardware. Castermans geeft als voorbeeld van een droomscenario dat een Bose-koptelefoon in de toekomst automatisch de 'whisper-to-speech'- en spraakversterkertechnologie van Whispp heeft ingebouwd en je met een druk op de knop dergelijke gesprekken kunt voeren. Dat moet dan niet alleen via de smartphone kunnen, maar ook met een virtual microphone-applicatie op de computer, zegt de oprichter. Het machinelearingmodel moet dan ook gewoon lokaal op de pc aangestuurd kunnen worden in plaats van via de cloud. De eerste contacten hoopt Castermans hiervoor bij de komende CES in Las Vegas te leggen.
/i/2005417350.webp?f=imagenormal)
Techuitdagingen van start-ups
In de serie Techuitdagingen van start-ups lichten we de technische problemen waar jonge start-ups mee worstelen uit. Ken je kleine techstart-ups met een interessant verhaal? Laat het ons weten. Let op: het gaat niet om commerciële uitingen en de redactie bepaalt onafhankelijk of een onderwerp interessant genoeg is.
Eerder in deze reeks verschenen:
- Transparante lcd-schermen voor gebruik in ramen
- Papier als onderdeel van het internet of things
- Eerste stappen in hologramtechnologie
- 'IT'ers wisten niet hoe databots werken'
- Een AI-zoekmachine voor databases
- DuckDB's databasesysteem voor snelle analyses
- Een braillecontroller voor smartphones
- Een buitenspeelcontroller ontwerpen
Bannerfoto: smartboy10 / Getty Images