Ontwikkeling spraaksystemen met menselijkere intonatie

Bij Scientific American is een artikel verschenen over speech synthesizing, oftewel de techniek waarbij een computer stukken tekst voorleest. Het stuk, dat geschreven is door twee onderzoekers bij IBM, bespreekt de techniek waarbij klanken aan elkaar geplakt worden door middel van opgenomen samples. De Engelse taal bevat 40 verschillende van deze klanken. De auteur gaat er onder andere op in hoe deze klanken aan elkaar gelijmd worden en hoe bepaald wordt waar de klemtoon ligt. Die klemtoon blijkt erg belangrijk voor de betekenis van zinnen, en op dit gebied is dan ook nog veel verbetering mogelijk:

This sort of expressiveness is the biggest remaining challenge for technology like Supervoices, even though it already sounds astonishingly close to live human speech. After all, the software doesn't truly comprehend what it's saying, so it may lack subtle changes in speaking style that you'd expect from an eighth grader, who can interpret what he or she is reading. Given the limitless range of the human voice, we'll have our work cut out for us for a long time.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Kevin Levie

Nieuwsposter

Feedback • 23-03-2003 00:03 21

23-03-2003 • 00:03

Bron: Scientific American

Lees meer

Interview met Microsoft over spraakherkenning Nieuws van 14 oktober 2003

Microsoft brengt beta-versie spraakherkenningsoftware uit Nieuws van 14 juli 2003

Natuurlijke spraakherkenning wordt steeds beter Nieuws van 9 juli 2003

Intel leert computers liplezen Nieuws van 30 april 2003

Intel werkt aan 'Star Trek-achtige' spraakherkenning Nieuws van 10 september 2002

ST brengt spraakherkenning naar embedded systemen Nieuws van 14 maart 2002

IBM focust de komende periode op spraaktechnologie Nieuws van 26 juni 2001

Meer producten en artikelen

Software

Reacties (21)

-Moderatie-faq

Wijzig sortering

Biermeester 23 maart 2003 01:19

Een spraak synthesizer waar ik zelf erg van onder de indruk ben is RealSpeak. Er is een on-line demo beschikbaar: http://www.scansoft.com/realspeak/demo/

Vooral de Vlaamse stem is erg vermakelijk.

[edit] Oh ja. Je moet waarschijnlijk wel een aantal keren proberen voordat je er doorheen komt. De site is nogal populair volgens mij.

rept @Biermeester • 23 maart 2003 11:24

Dit is inderdaad een zeer goede spraaksynthesizer!!!

De link die je krijgt bij het behoren is http://demo.lhsl.com/realspeak/speak.asp en die LHSL is volgens mij afkomstig van het failliet Lernhout en Hauspie.

Rubman @Biermeester • 23 maart 2003 21:27

dit is een erg mooie spraak synthesizer de stemmen zijn mooi duidelijk en de vlaamse is idd erg vermakelijk (bedankt voor de info)

Xandrios 23 maart 2003 00:37

oa IBM heeft al een hele tijd een zeer goede speech generator. Het lijkt me erg moeilijk om een betere engine te maken dan bijvoorbeeld deze:
http://www-3.ibm.com/able/hpr.html

Download maar eens een trial: http://www-3.ibm.com/able/hprreg3tr.html

Biermeester @Xandrios • 23 maart 2003 01:32

Ik heb die trial even geprobeerd, maar het klinkt nog altijd het zelfde als mijn Commodore Amiga eind jaren tachtig.
Mijn andere post in deze thread verwijst naar een speech engine die écht realistisch klinkt.

Densetsu 23 maart 2003 00:45

Naar mijn inziens moet deze technologie niet alleen worden doorgevoerd op het perfectioneren van het spraakmechanisme, maar ook op een vorm van AI. En dan AI in die zin, dat de reader context gevoelig is. Vooral bij ports naar andere talen zoals het nederlands lijkt me dit noodzakelijk.

Uit het originele artikel:

For example, we've developed systems that can "read" a breaking news story or a bunch of e-mail messages aloud over the phone.

In de nederlandse taal wordt veel gebruik gemaakt van engelse woorden, zoals in "Ik ben een tweaker".
Een correcte uitspraak van het woord "tweaker" is noodzakelijk om iets van de zin te begrijpen als het wordt uitgesproken door een computer. De speech software zou bijvoorbeeld in een dictionary kunnen opzoeken of een bepaald woord engels of nederlands is en aan de hand daarvan een correcte uitspraak produceren. Maar wat als deze software een e-mail moet voorlezen waarin het woord "lamp" voorkomt? "lamp" is een zowel nederlands als engels woord. De software moet gebaseerd op, in welke context in het bericht zich dit woord bevind, een correcte uitspraak produceren. Als het programma dit niet onderzoekt, weet het niet of "lamp" uitgesproken moet worden als "lamp" (nederlands) of "lemp" (engels).

Daarom denk ik dat het nog wel een tijdje duurd voordat bijv. blinde nederlanders breaking news stories kunnen krijgen voorgelezen door een machine.

lordsnow 23 maart 2003 02:03

Intonatie meegeven aan synthesized voices lijkt een beetje op het probleem van spraakherkenning:

"What is that on the road ahead?"

"What is that on the road, a head?"

't is een klein verschil, maar een hele andere betekenis

HarrySnotter 23 maart 2003 00:14

wel leuk dacht ik zo...
kan wellicht een toepassing worden voor slechtziende mensen....

hup.. boek laden in de PC en "lezen" maar...

misschien ook makkelijk als er dan een soort zakcomputertje voor komt?

FiRePaTH @HarrySnotter • 23 maart 2003 00:27

Zo'n programma bestaat allang hoor voor blinde en / of slechtziende mensen! Zelfs in Windoos XP zit al zoiets (Narrator) maar die heeft maar 1 monotone intonatie. Die Text To Speech Syntesizer is dacht ik van het inmiddels failliete Lernout&Hauspie...

Wel een goede ontwikkelling dat er nu gewerkt wordt aan intonatie, maar het werkt dus nog steeds dmv samples...

Ik zie liever de ontwikkelling dat de computer echt helemaal zelf alles uitrekend zonder dat er een mensen stem vantevoren aan te pas komt.

De ontwikkelling van nu zie ik meer als de evolutie van midi-software synth naar midi-wavetable synth... Nu op naar de volgende evolutie!

Verwijderd @HarrySnotter • 23 maart 2003 00:22

een Digi-cam... met tekst herkenning en die software erop... dat is pas een ideale uikomst!

HarrySnotter @Verwijderd • 23 maart 2003 00:25

voor enkele pagina's wellicht...

tenzij je alle delen van LOTR wilt ehm.. inscannen/fotograferen....
ben je uren mee bezig..

nee, dan kun je beter een e-book downloaden en 'm door die speech synthesizer knallen..

Bl@ckbird @HarrySnotter • 23 maart 2003 01:16

offtopic:
Laat iemand dit al eens gedaan hebben!

Een hoorspel van de BBC, op 14 CeeDees.

En dat al in 1981... Zonder gebruik van e-books.

Interstice 23 maart 2003 01:31

Krijg je der ook zo'n vrouw bij

Biermeester @Interstice • 23 maart 2003 01:33

Ja, maar die headset moet je er appart bijkopen.

pSycho-Y2K 23 maart 2003 09:08

Ik ben zelf meer fan van AT&T's Natural Voices
http://www.naturalvoices.com/

Je kunt wat demo's beluisteren, maar ook zelf eigen teksten

Frash 23 maart 2003 10:45

Ook mooi voor vrijgezellen, toch nog iemand die op een realistiche manier 'I love you' tegen ze kan zeggen

Verwijderd 23 maart 2003 12:34

Ik vind het ook een mooie ontwikkeling, maar er moet nog wel ene hoop gebeuren idd. De AI moet idd kijken in welke taal hij iets moet uitspreken en de klemtonen moet ie beter zetten.

Maar volgens mij moet er ook rekening gehouden worden met spelfouten. De techniek om achter te komen welke woordEN er mischien bedoeld zijn met het foutgespelde woord is niet zo moeilijk (bijv 'Word'), maar om automatisch de goeie eruit te kiezen die bij het context past wel.

Mastermind 23 maart 2003 12:52

Mag KPN ook wel gaan gebruiken met hun SMS-naar voice computer...

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (21)

Sorteer op:

Weergave: