Onderzoekers van Google werken aan een manier om spraak direct te vertalen in een andere taal, zonder dat deze eerst wordt omgezet naar tekst. Googles Translatotron kan daarbij ook het stemgeluid van de spreker behouden.
De techniek werkt met een neuraal netwerk dat spectogrammen analyseert en deze omzet in een spectogram dat overeenkomt met de taal waarnaar vertaald moet worden. Volgens de onderzoekers is Translatotron het eerste end-to-endmodel dat spraak direct kan vertalen in een andere taal.
Het is al mogelijk om ingesproken teksten te vertalen en weer uit te laten spreken in een andere taal, maar daarbij wordt de spraak eerst omgezet in tekst, die wordt vervolgens vertaald en weer omgezet in spraak. Dat is ook de manier waarop Google Translate nu werkt.
Door spraak direct te vertalen, zonder er eerst tekst van te maken, kan ook het stemgeluid van de spreker behouden worden volgens Google. Daarvoor wordt een optionele speaker encoder gebruikt, die ervoor moet zorgen dat de kenmerken van de vertaalde spraak behouden blijven.
Of en wanneer Translatotron ingezet zal worden in de praktijk, is nog niet bekend. Voorbeelden van de nieuwe vertaalmethode staan op GitHub. Het volledige onderzoek staat op ArXiv.