Googles bedrijfsonderdeel voor kunstmatige intelligentie DeepMind heeft een grote sprong gemaakt met door de computer gegenereerde spraak. De tekst-naar-spraakmachine WaveNet kan Engels en Mandarijn uitspreken op een manier waarmee het vrijwel echt lijkt.
Het zelflerende, neurale netwerk WaveNet produceert ruwe geluidsgolven en leerde zijn 'spraak' door te trainen op data met tienduizenden geluidssamples per seconde. Een enkele WaveNet kan de natuurlijke manier van spreken van verschillende sprekers overnemen en ertussen wisselen. Naast trainen op spraak, lieten de onderzoekers WaveNet ook muziekfragmenten analyseren, waarna WaveNet nieuwe en realistisch klinkende pianomuziekstukken kon maken. Het model herkent ook verschillen tussen fonemen, ofwel de kleinste klankeenheden die een betekenisverschil laten horen.
Voorbeeld van de opbouw van 1 seconde spraak: tot wel 16.000 sampledeeltjes. Bron: DeepMind
De onderzoekers wisten de resultaten te bereiken door WaveNet te trainen met ruwe geluidsgolven. Dit is een methode die vaak vermeden wordt, schrijven de onderzoekers op hun blog. Een geluidsfragment bestaat uit zo'n 16.000 samples per seconde of meer. Om goed klinkende spraak te krijgen, moet elke sample op de juiste manier beïnvloed worden door alle voorgaande stukjes. Omdat de samples dus per stapje worden opgebouwd, is er veel rekenkracht nodig. De kans dat deze techniek binnenkort in consumentenproducten terechtkomt, is dan ook klein.
Wijze waarop WaveNet stukjes meeneemt van de voorgaande sample om tot de volgende te komen. Bron: DeepMind
Om te weten te komen hoe goed de uitspraak van WaveNet te vergelijken is met andere tekst-naar-spraaksystemen en met door echte mensen uitgesproken tekst, lieten de onderzoekers testsamples horen aan een panel. WaveNet wist een score te halen van 4,21 in het Amerikaans Engels en 4,08 in Mandarijn op een schaal van 1 tot 5. Echte mensen haalden een echtheidscore van 4,55 bij Engels en 4,21 bij Mandarijn. Ook lieten de onderzoekers WaveNet zelf een soort 'taal' verzinnen. Dit klinkt als een menselijke taal, maar is het niet.
Op de website van WaveNet staan verschillende samples. Daarnaast verscheen een onderzoeksartikel. DeepMind, het bedrijfsonderdeel waaruit WaveNet voortkomt, is de kunstmatige-intelligentietak van het bedrijf. Het wist al verschillende successen te behalen, onder andere bij het spelen van het spelletje go en bij oogonderzoek.
Parametric-spraaksynthesizer
Concatenative-spraaksynthesizer
WaveNet