Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 18 reacties

Een IsraŽlisch bedrijf ontwikkelt een kleine laser die initieel ingezet kan worden voor headsets en helmen om te assisteren bij spraakherkenning. Een sensor met de laser meet minuscule vibraties van de huid, wat gebruikt kan worden om fouten bij spraakherkenning terug te brengen.

VocalZoom laserDe sensor van VocalZoom kan dankzij de laser trillingen van de huid, vanaf de ogen tot aan de keel en nek, waarnemen en werkt tot op een meter afstand. Die trillingen worden omgezet in een audiosignaal dat niet gestoord is door omgevingsgeluid. De ceo en oprichter van het bedrijf, Tal Bakish, vertelt Technology Review dat de sensor traditionele spraakherkenningstechnologie met microfoons kan assisteren, om de foutmarge met 60 tot 80 procent terug te brengen.

In augustus zou een eerste prototype van een headset van het Chinese spraakherkenningsbedrijf iFlytek met de technologie moeten verschijnen. Bakish verwacht dat de techniek aanvankelijk in motorhelmen en headsets van bedrijfsmedewerkers terechtkomt, maar ook zegt hij samen te werken met autofabrikanten voor stembediening in voertuigen. Een obstakel hierbij vormt dat automobilisten hun hoofd meer bewegen en er minder mogelijkheden zijn de lasersensor dicht bij het gezicht te plaatsen.

Moderatie-faq Wijzig weergave

Reacties (18)

Interessante techniek. Ik heb mijn afstudeer onderzoek over spraakherkenning en spraak analyse bijna afgerond. Ik gebruikte zelf de microfoon van een smartwatch voor de spraakherkenning. Het resultaat van mijn onderzoek is dat een smartwatch niet geschikt is :+

De foutmarge met 60 tot 80 procent terugbrengen zou erg mooi zijn. Wat ik zelf nog het meeste mis is interpunctie. Zo lang zinnen grammaticaal niet correct zijn, kan je niet een een analyse toepassen. De eerste stap is vaak het segmenteren in zinnen. Hier gaat het al fout als er geen punten in je tekst zitten. Want een punt is vaak het einde van een zin.

De tweede stap is vaak het segmenteren van woorden. Als er hoofdletters ontbreken gaat het mis bij woorden zoals Den Haag. Een woord als 'den haag' wordt van vaak gezien als twee aparte woorden. Met hoofdletters kan je het makkelijker herkennen als ťťn woord.

Mijn inziens zou het dan juist helpen als er een systeem ontwikkeld wordt waarbij automatisch interpunctie wordt toegevoegd bij spraakherkenning. Je zult dan wel moeten trainen op de stem en manier van spreken van iemand. Maar volgens mij kan je er dan pas echt verder mee dan 'simpele' commando's wat nu gebruikt wordt.
Als we de logica geheel overziend bekijken, lijkt het mij verstandiger aan te nemen dat interpunctie en hoofdletters niet vooraf toegepast kunnen worden. Voornamelijk met hoofdletters; er is geen audisch verschil anders dan de pauze tussen "maan dag" en "Maandag".
Ook is er geen duidelijk herkenbaar verschil tussen leestekens als een punt en een komma (de laatste valt vaak in gesproken zinnen zelfs geheel weg) in de spraak, je spreekt ze immers niet uit.
Zodoende kan je beter aannemen dat het niet-toegepast is dan dat je mogelijk foutere interpretaties creŽert door iets te doen dat geen daadwerkelijk onderscheid heeft... naast dat je dan extra false-positives creŽert creŽer je onvermeidelijk false-negatives die vanaf dat moment echt onmogelijk te controleren worden.
Stel dat je een reeks woorden hebt, verkregen door spraakherkenning. Ga de woorden ťťn voor ťťn af en bouw telkens een iets langer zin bouwt. Bij elk woord dat je toevoegt ontleed je de zin en bepaal je de POS tags.

Een grammaticaal correcte zin bevat over het algemeen een werkwoord en een zelfstandig naamwoord. Als je op deze manier te werk gaat in combinatie met een hele bak training data moet je denk ik wel kunnen bepalen waar een punt of komma zou zijn geplaatst in de schrijftaal.
Deed mij denken aan dit resultaat van een onderzoek van MIT, waarin ze geluid halen uit camerabeelden:
https://www.youtube.com/watch?v=FKXOucXB4a8
Dit is ideaal om te bepalen waar geluid een machine verlaat.

Denk aan het interieur van een auto, het kan best zijn dat bijvoorbeeld een stuk van het dashboard het grootste gedeelte van het motorgeluid doorgeeft. Door dan heel specifiek daar een beetje extra demping te plaatsen of de eigen frequentie aan te passen kan je goedkoop en efficient de geluidsniveau's in een auto terugbrengen, in plaats van kilo's isolatie/dempingsmateriaal te plakken op plaatsen die 'logisch' lijken.

Overigens zie je dat laserscanning en camera's langzaam aan naar elkaar toe groeien. Er ontstaat steeds meer overlap in het werkgebied.
De oplossing die ze daar hebben gaat ervan uit dat de oorzaak van het geluid ook direct gekoppeld is aan de bron. Maar stel je hebt de zijkant van een bus, die zit misschien op 30 plaatsen vast, terwijl de resonantie in 'het midden' het meeste geluid produceert.
Hoe weet je welke koppeling je moet veranderen/aanpassen om het geluid te verminderen? Een high-speed camera of laser kan daarbij weer helpen om de trillingen te lokaliseren/visualiseren.

Overigens niet helemaal mijn vakgebied, maar de tijd van 'een beetje gokken' en 'ervaring' is langzaam over aan het gaan naar meten = weten.
Dus wacht, een microfoon zonder microfoon? Het idee vind ik ondanks dat ik het begrijp heel lastig.... te begrijpen maar is o zo vet! Dit zou in theorie dus ook omgevingsgeluid kunnen volledig kunnen opheffen in een telefoongesprek waardoor je echt alleen nog maar de beller hoort (of zou dit alleen voor computers praktische input hebben).
Ik begrijp het als een soort liplezen voor computers. Niet de daadwerkelijke geluidstrilling detecteren.
De huid absorbeert en reflecteert ook omgevingsgeluid dus -100%- vrij van omgevingsgeluid is het niet.

Overigens wel een interessante (en gevaarlijke) techniek. In theorie is het hiermee mogelijk geluiden op verre afstanden te "zien" en daarmee hoorbaar te maken. Zo kan een satelliet in een baan om de aarde zien wat er gesproken wordt bij een doel op de grond. Nu werkt het (nog) tot 1 meter, maar dat zal ongetwijfeld verder ontwikkeld worden (of is al gedaan in het geheim, gezien de herkomst van het bedrijf)

[Reactie gewijzigd door Mocro_Pimpģ op 10 juni 2016 11:30]

Je heb gelijk over omgevingsgeluid, dat was nl. ook mijn eerste gedachte. Afluisteren met lasers gebeurt al heel lang:

https://www.google.nl/web...TF-8#q=laser%20microphone

Kon niet zo snel vinden of je ze kan kopen, maar hier is een anti afluister apparaat te koop :)

http://www.ebay.com/itm/L...ping-Device-/361428998759

Het geluid op je wang (de trillingen) zijn natuurlijk wel voor het grootste deel afkomstig van jouw spraak, daarmee is dit dus inderdaad een handige aanvulling op de trillingen in de lucht die met normale microfoons wordt waargenomen. Daarnaast zou je hiermee misschien ook nog de verplaatsing van de wangen kunnen meten om die ook te gebruiken voor de spraakherkening (soort liplezen maar dan via je wang). In een auto zou je ook misschien kunnen liplezen via een camera (en eventueel een lasermic op een wang richten via gezichtsherkenning).
Het effect van absorberen en reflecteren zal wel heel minimaal zijn. Immers zit in geluid weinig energie en neemt het af met de derde macht van de afstand. Dus het verschil tussen eigen geluidsenergie en omgevingsgeluidsenergie zal groot zijn.
De laser vangt geen geluid op dus een sateliet zal niet gaan werken. Op hun website staat daar het volgende over:
"Acoustic microphones, alone, do not provide enough directional acquisition capabilities to achieve this level of speaker isolation, even with multiple microphones and microphone arrays."
Het geluid wordt niet gemeten maar er komt extra visuele informatie voor spraakherkenning, zoals een liplezer zou doen:
This information comes from the optical data generated during speech as the facial skin vibrates around areas including the mouth, lip, cheek and throat.
Ik ben er sceptisch over. Ik kan me niet voorstellen dat een ding op een wiebelig stokje bevestigd aan je hoofd minutieuze trillingen kan oppikken, terwijl het de ruis van de trillingen van het bevestigingspunt moet uitfilteren.
Dat is ook wat ik een beetje terug hoor in dat gelinkte artikel.

Op dit item kan niet meer gereageerd worden.



Nintendo Switch Google Pixel Sony PlayStation VR Samsung Galaxy S8 Apple iPhone 7 Dishonored 2 Google Android 7.x Watch_Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True