Slimme spraakversterking van Philips

Mensen die wel eens gebeld worden in een rumoerige omgeving, zoals een café, kennen wellicht het volgende probleem: de beller is lastig te verstaan en het volume harder zetten helpt niet of nauwelijks. New Scientist maakt melding van een eind mei door Philips aangevraagd patent op een 'selectieve booster' die het geluid verstaanbaarder maakt door klinkers en medeklinkers (of preciezer: fonemen) verschillend te versterken. Philips zegt dat de techniek ook voor televisies nuttig kan zijn. Het is niet bekend wanneer het bedrijf van plan is deze technologie te gaan toepassen.

Talk louder De patentaanvraag legt uit dat klinkers zoals A, E en I veelal harder uitgesproken worden dan medeklinkers, terwijl vooral de doorgaans het zachtst uitgesproken 'stemloze' medeklinkers zoals S, T en F belangrijk zijn voor de verstaanbaarheid. Als al het geluid harder wordt gezet in een poging het omgevingsgeluid te overstemmen, dan kunnen de klinkers te hard worden, het oor overbelasten en de medeklinkers verdringen. Daardoor kan het geluid nog moeilijker te verstaan worden. De aanvraag beschrijft een methode waarmee aan de hand van frequentie en geluidssterkte onderscheid gemaakt wordt tussen klinkers en medeklinkers, en ook tussen 'gestemde' en stemloze medeklinkers. Op basis daarvan wordt de verstaanbaarheid vergroot door medeklinkers ongeveer tweemaal zoveel als klinkers te versterken en er bij stemloze medeklinkers nog een schepje bovenop te doen. De booster past zich automatisch aan de mate van omgevingsgeluid aan en zou zonder merkbare vertraging werken.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Mick de Neeve

Feedback • 04-08-2005 08:57 46

04-08-2005 • 08:57

Bron: New Scientist

Lees meer

MS patenteert automatische censuur audio-uitzendingen Nieuws van 6 mei 2006

Spraakgestuurde home-entertainmentsoftware van Opera Nieuws van 24 februari 2005

Samsung toont telefoon die spraak naar tekst vertaalt Nieuws van 9 januari 2005

Apparaat in PDA-formaat dat gesproken taal vertaalt Nieuws van 8 oktober 2004

Interview met Microsoft over spraakherkenning Nieuws van 14 oktober 2003

Meer producten en artikelen

Wetenschap

IT-banen

Meer vacatures

Reacties (46)

-Moderatie-faq

Wijzig sortering

Gerco

4 augustus 2005 08:59

Kijk, hier kunnen de patenteerders van de dubbelklik en hyperlink een voorbeeld aan nemen. Dit is een techniek die het waard is om te patenteren omdat hier ook een flinke hoeveelheid onderzoek in zit. Bovendien is het nog eens vernieuwend en nuttig ook

Verwijderd @Gerco • 4 augustus 2005 10:22

Toen ze gelanceerd werden waren de dubbelklik en hyperlink ook vernieuwend en nuttig. Of er veel onderzoek naar gebeurd is, is geen criterium bij het aanvragen van een patent, en ook niet relevant: onderzoek is geen noodzaak voor een goed idee.

Dat wij de dubbelklik en hyperlink nu als banaal beschouwen is enkel het gevolg van het succes ervan, en dat kan je de makers moeilijk kwalijk nemen. Als over enkele jaren deze techniek van Philips overal gebruikt wordt en niets bijzonder meer is zullen er ook wel mensen vinden dat het patent erop niet eerlijk is.

Verwijderd @Verwijderd • 4 augustus 2005 11:16

Of er veel onderzoek naar gebeurd is, is geen criterium bij het aanvragen van een patent

Maar is het niet zo dat een patent je moet beschermen om je tijd kosten en geld (zoals bij onderzoek) terug te verdienen?

Maar aan de andere kant, een goed idee dat werkelijk nuttig is (en juist jij komt er op) mag ook wat waard zijn. Maar ik denk dat het patent primair is bedoeld om je kosten terug te kunnen verdienen.

Parasietje @Verwijderd • 4 augustus 2005 11:17

Dus dan is het tegen die tijd ook weer ongeldig. De patenteerders van dubbelklik en hyperlink vroegen hun patent aan als _reactie_ op het populair worden, niet voor de uitvinding gebruikt werd.

Rey Nemaattori @Verwijderd • 4 augustus 2005 11:21

Maar dan is het patent er al, da's iets anders dan iets ontwikkelen en als het een beetje succesvol is, patenteren..... of gewoon iets patenteren dat al succesvol is, vanwege de extra inkomsten

Olaf van der Spek @Verwijderd • 4 augustus 2005 11:36

Toen ze gelanceerd werden waren de dubbelklik en hyperlink ook vernieuwend en nuttig.

Maar hoeveel miljoen euro R&D hebben die twee uitvinden gekost?

florizla @Verwijderd • 4 augustus 2005 16:57

Onderzoek is wél nodig voor een patent... Een patent geld namelijk op een technische vinding, en niet op een idee of concept! (althans, dat is de bedoeling)

Verwijderd @Gerco • 4 augustus 2005 12:25

Ja, leuk en vernieuwend.

Alleen zou het nog leuker zijn geweest als iemand een linkje had die deze nieuwe techniek kan laten horen.

Het verhaal begrijp ik wel maar een geluidsfragment zegt meer dan 1000 regels.

Verwijderd 4 augustus 2005 10:02

Ik kan me echter nog herinneren dat er oordopjes bestaan (ter bescherming) die bijv. het geluid van een slijptol wel onderdrukken, maar de spraak niet. Je kunt dus normaal met elkaar praten, maar zodra er schelle geluiden worden waargenomen, dempt het.

Ik heb het hier dan over 10+ jaar geleden, dat ik die dingen gezien heb. Ik denk wel dat het anders werkt dan deze uitvinding van Philips, maar toch..... Erg interessant.

Ook ken ik een plugin voor XMMS (WinAMP voor Linux) die de stemmen onderdrukt waardoor je bijna een instrumentaal nummer kunt afspelen. Niet feiloos, maar wel merkbaar verschillend. Omgekeerd moet het dus ook mogelijk zijn, want je kiest om iets te onderdrukken, dus je kunt positief of negatief manipuleren lijkt me.

- Unomi -

Parlor_Inventor @Verwijderd • 4 augustus 2005 10:09

Dat effect wordt met alle oordopjes, en zelfs met je vingers in je oren bereikt. Als je iemand in een luidruchtige omgeving niet verstaat dan moet je gewoon je oor dichtdoen (dat oor waar hij/zij in praat dus!), en je kunt degene naast je zonder moeite verstaan. Het staat een beetje maf en het moet zodoende vaak uitgelegd worden, maar het helpt echt!

84hannes @Verwijderd • 4 augustus 2005 10:57

Die karaoke plugins die jij bedoelt werken (helaas) volgens een heel ander principe: stem is vaak op zowel het linker als het rechterkanaal identiek. Door het rechterkanaal van het linkerkanaal af te trekken verwijder je de stem en blijft de muziek (en de achtergrondkoortjes) over.

Rey Nemaattori @84hannes • 4 augustus 2005 11:27

Daarmee zou je dus ook instrumenten die op beide kanalen even hard worden gespeeld eruit filteren....

Verwijderd @Verwijderd • 4 augustus 2005 10:44

dat principe in XMMS werkt enkel goed met de originele, volledige audio (.wav etc) of na lossless compressie, met mp3tjes lukt dat al een stuk minder (compressie rechts/links loopt niet synchroon waardoor er zwevingen in het resultaat zitten) en mono al helemaal niet.

Wat je hoort is het verschil tsn links en rechts (mogelijks met nog wat extra filters om de basweergave te verbeteren). Het resultaat van zo'n vocal cut is mono.

sys64738 Moderator F&V 4 augustus 2005 09:09

Wat mij betreft hadden ze beter een selectieve muter uit kunnen vinden... stuk handiger

bgever @sys64738 • 4 augustus 2005 10:21

Zo'n gek idee nog niet. Ik zie deze techniek ook wel inzetbaar voor het omgekeerde.

Er zijn namelijk van die mensen waar je half doof van wordt als je ze aan de telefoon hebt, omdat ze zo schel klinken. Als je daar de medeklinkers van versterkt, klinken ze nog enigzins normaal, of nog beter: de klinkers verzwakken.

Kun je eindelijk weer met tante Fien bellen of iemand die juist in een rumoerige omgeving staat en daardoor harder praat.

JarnoD @sys64738 • 4 augustus 2005 17:25

Vooral wanneer je met je schoonmoeder belt

"Oh, had je via de telefoon gezegd dat je vandaag langs zou komen? Nee, niets gehoord ... sorry!"

MerijnB 4 augustus 2005 09:44

ik werk voor een bedrijf dat software voor kunstmatige spraak maakt. Wij hebben hier een jaar of 2 geleden al mee ge-experimenteerd. Op zich heel interessante techniek, grote nadeel is alleen dat spraak heel onnatuurlijk gaat klinken (zeker als je het _wel_ goed kan horen). De kans dat het tijdens reclame blokken gebruikt gaat worden lijkt me dan ook zeer klein.

Verwijderd @MerijnB • 4 augustus 2005 10:35

Ik denk (hoop) dat het verschil met toen en nu is, dat het nu wat minder onnatuurlijk klinkt.

Anders zal het natuurlijk nooit doorbreken..

edit:
Philips zelf heeft nooit beweerd dat ze het voor de televisie ofzo willen gebruiken, alleen voor de GSM.
Stemmen over de telefoon klinken zowiezo natuurlijk al wat onnatuurlijk.. en dan valt dit nadeel vanzelf weg.

Het belangrijkste van een GSM is dat je de ander gewoon verstaat.

ultimasnake @MerijnB • 4 augustus 2005 10:04

vraag dan prior art aan en patenteer het

maar jah ik zie ook in dat dit misschien wat problematisch kan zijn als je wel alles goed kan horen

ja ik ziT nu in een kroeg, StrakS even naar heT uiTZendbureau

ofzo

(wat een onzin

)

serhat @MerijnB • 4 augustus 2005 12:06

een 'selectieve booster' die het geluid verstaanbaarder maakt

@MerijnB
ik zet hem dus wel uit als het onnatuurlijk klinkt terwijl het wel goed verstaanbaar moet zijn

StGermain 4 augustus 2005 09:17

Gd gvndn van phlps, hld!

orange.x @StGermain • 4 augustus 2005 20:39

is de "a" ook niet een klinker?

Rekcor 4 augustus 2005 09:44

Even theoretisch hoor, maar zou deze methode nog verschillen per taal?

Als ik bijv. Engels en Duits vergelijk, worden de klinkers/medeklinkers anders uitgesproken (hebben ze een andere rol tijdens het uitspreken).

.muts @Rekcor • 4 augustus 2005 14:36

weet niet hoe de techniek werkt maar...

Philips gaat niet kijken of je een klinker of een medeklinker uitspreekt, maar gewoon naar de frequentie. Taal speelt zich af in een bepaald gebied, jouw stem in een deelgebied (vrouwen hoger, mannen lager (generalisatie). Dus je telefoon luistert even mee en berekend welk frequentiegebied de spreker zit, daar kun je dan de lastige letters in passen, plus dat je er vanuit gaat dat de lastige letters al zachter werden uitgesproken. Dan weet je dus dat je de zacht uitgesproken frequenties meer moet versterken.
Eigenlijk zoals als digitale gehoorapparaatjes ook werken. Je audiogram word gebruikt om te bepalen hoeveel er versterkt moet worden. 4kHz is meestal het slechts aan toe en die versterk je meer terwijl je zware bromgeluiden niet versterkt.

Nu ik dit zo bedenk -nogmaals ik weet niet of dit de truuk is- is het best simpel. En dan vraag ik me met Guru Evi af of je dit wel kunt patenteren.

Nyarlathotep 4 augustus 2005 09:28

Zou je met deze techniek ook censuur in b.v. tv-programma's toe kunnen passen? Dan worden de aanstootgevende woorden eruit gefiltert ("gemute"), die niet door de programmamakers zelf al gecensureerd worden...

@Bephtera: Je hebt gelijk... De uitzendingen zouden dan met een 5 sec. vetraging op je beeldbuis moeten verschijnen. En dat is denk ik (nog) niet mogelijk...

Verwijderd @Nyarlathotep • 4 augustus 2005 10:18

Niet mogelijk?
Het wordt NU al toegepast!

1 minuut vertraging, om bijvoorbeeld te ondertitelen..
of in USA, na de nipplegate, is het zelfs verplicht!

Elephtera @Nyarlathotep • 4 augustus 2005 09:34

Ik denk t niet, t gaat hier om klanken en frequenties die elk een ander volume krijgen. censuur gaat dus niet, dan moet namelijk eerst t hele woord ontvangen zijn, en vervolgens door een soort database met klanken gaan. Dit werkt dus heel anders.

edit: T is Elephtera met EL ipv B

Als we digitale tv krijgen dan zou het wel mogelijk moeten zijn Nyarlathotep. Dat word on demand uitgezonden en is makkelijker te controleren denk ik.

DenialOfService 4 augustus 2005 10:09

Het lijkt me twijfelachtig dat de hardware in een gsm al zo op punt staat om bepaalde klanken te boosten en andere te filteren in real time. Iedereen spreekt zijn klinkers wel anders uit, door ofwel te diftongeren (eigenlijk van één klank naar een andere gaan) of doordat de hoogte van de klinker beïnvloed wordt door assimilatie van de medeklinkers die erlangs liggen. Medeklinkers hebben daarenboven ook een fonologisch complexe vorm, wat me ook moeilijk lijkt om in real time te kunnen herkennen en bewerken.

Als ik in mijn gsm al probeer de voice dialing te gebruiken, heeft ie toch wel een seconde of twee drie nodig om gewoon mijn gesproken woord te vergelijken met een database van max 50 andere woorden.

Maw, klinkt wel allemaal mooi, maar veel te complex om nu zelfs maar in een gewone computer in te bouwen, laat staan in een handheld.

djexplo @DenialOfService • 4 augustus 2005 11:19

Zoals als iedereen wel weet is de bandbreedte van een gsm kanaal zeer beperkt (kijk b.v. naar snelheid wap). Oftewel jouw'n spraak moet eerst worden gecomprimeerd voor dat het wordt verzonden, dat gebeurd niet met mp3 of ogg of zo.

De compressie in de telefoon gebeurd door middel van een chip met een database aan klanken (zoals stukken van klinkers en medeklinkers). Als je praat wordt elke keer de meest gelijkende klank uit de database gehaald dat geeft een bepaald (klank)nummer, daarnaast word de pitch, volume van je stem en nog wat andere (parameters) nummers op gestuurd.
Dit beperkt dus enorm de benodigde bandbreedt. Aan de andere kant van de lijn wordt met de zelfde database het geluid weer gedecomprimeerd.
(compressie is dus veel hoger dan bij mp3 en eigenlijk alleen bedoelt voor spraak)

Wat philips dus simpelweg doet is bij bebaalde klanknummers (stukken van medeklinkers) in de database, het volume iets extra op te schroeven.

Bij voice dialing duurt het inderdaad lang voor dat hij het goede nummer vindt, maar dat komt omdat er een preciesere techniek voor wordt gebruikt, die het achtergrond geluid eerst filterd, moet uitzoeken waneer jij begint en eindigt met praaten, en daar na hele woorden uit een database gaat vergelijken met het uitgesproken woord. En een woord vergelijken kost natuurlijk veel en veel meer tijd dan alleen een (deel) klank opzoeken.

Guru Evi 4 augustus 2005 11:35

Ik vraag mij af hoe je een meerband-dynamische-softwarematige parametrische equalizer kunt patenteren. Het bestaat al een tijdje als LADSPA plugin.

lasermen 4 augustus 2005 09:02

Het klinkt beetje zoals de tomtom ook zichzelf aanpast aan het omgevings geluid.
Maar die doet niet dat bepaalde letters harder worden uitgesproken dan andere letters.
Het lijkt mij een erg goeie uitvinding van onze vrienden uit Eindhoven

SuperDre @lasermen • 4 augustus 2005 09:34

Dat is niets nieuws hoor, want zoiets zit al langer in autoradio's van bv VDO (en dat is/was ook een philips dochtertje)..

MikeyMan @lasermen • 4 augustus 2005 09:52

Tomtom past het geluid alleen aan aan de via de gps doorgegeven snelheid... Heeft niks met omgevingsgeluid te maken...

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (46)

Sorteer op:

Weergave: