Op C|Net is een interview verschenen met Kai-Fu Lee, een wetenschapper die onderzoek doet naar spraakherkenning binnen Microsoft's NISD (Natural Interactive Services Division). Uit het verhaal van Lee wordt duidelijk dat deze technologie geen grote sprongen maakt. De mogelijkheden voor consumenten zijn nog steeds beperkt en professionele opstellingen zijn erg prijzig. Toch staat het niet stil: ieder jaar wordt ongeveer 10 tot 15% verbetering geboekt. Volledig foutloos zal het nooit kunnen worden, maar het streven is dat de computer over een jaar of zeven net zo goed spraak zal kunnen herkennen als een mens, misschien zelfs nog iets beter. De software zou in ieder geval niet de beperkende factor zijn, zolang computers snellere processors en meer geheugen krijgen kan er beter gebruik gemaakt worden van enorme hoeveelheden statistische gegevens om woorden uit geluiden te herkennen.
Het uiteindelijke succes is volgens Lee meer afhankelijk van ontwikkelaars en bedrijven. Deze moeten nu alvast kennis gaan maken met de mogelijkheden, zodat ze bereid zijn om er tijd en geld in te investeren. Begin 2004 verschijnt Microsoft Speech Server, een 'scherp geprijsd' pakket om de markt voor spraaktoepassingen alvast een beetje op te warmen. Ook gebruikers zullen er aan moeten wennen om tegen hun computer te praten. Lee denkt dat computers een opdracht als "verzet m'n afspraak met Hans naar woensdag" de komende vijf jaar nog niet zullen begrijpen, maar binnen tien jaar moet het toch zo ver zijn dat ook deze commando's uitgevoerd kunnen worden, net alsof er ergens een secretaresse verborgen zit:
People also have to be taught to talk to the computer. This will happen. It will just take time. I don't see that happening within the next five years but definitely in the next 10. The human social interface is by speech, not typing. If you want a natural, social interface, you have to talk--and people will expect a more anthropomorphic response on the other side.