Bij Scientific American is een artikel verschenen over speech synthesizing, oftewel de techniek waarbij een computer stukken tekst voorleest. Het stuk, dat geschreven is door twee onderzoekers bij IBM, bespreekt de techniek waarbij klanken aan elkaar geplakt worden door middel van opgenomen samples. De Engelse taal bevat 40 verschillende van deze klanken. De auteur gaat er onder andere op in hoe deze klanken aan elkaar gelijmd worden en hoe bepaald wordt waar de klemtoon ligt. Die klemtoon blijkt erg belangrijk voor de betekenis van zinnen, en op dit gebied is dan ook nog veel verbetering mogelijk:
This sort of expressiveness is the biggest remaining challenge for technology like Supervoices, even though it already sounds astonishingly close to live human speech. After all, the software doesn't truly comprehend what it's saying, so it may lack subtle changes in speaking style that you'd expect from an eighth grader, who can interpret what he or she is reading. Given the limitless range of the human voice, we'll have our work cut out for us for a long time.