Google werkt aan methode om spraak direct te vertalen

Onderzoekers van Google werken aan een manier om spraak direct te vertalen in een andere taal, zonder dat deze eerst wordt omgezet naar tekst. Googles Translatotron kan daarbij ook het stemgeluid van de spreker behouden.

De techniek werkt met een neuraal netwerk dat spectogrammen analyseert en deze omzet in een spectogram dat overeenkomt met de taal waarnaar vertaald moet worden. Volgens de onderzoekers is Translatotron het eerste end-to-endmodel dat spraak direct kan vertalen in een andere taal.

Het is al mogelijk om ingesproken teksten te vertalen en weer uit te laten spreken in een andere taal, maar daarbij wordt de spraak eerst omgezet in tekst, die wordt vervolgens vertaald en weer omgezet in spraak. Dat is ook de manier waarop Google Translate nu werkt.

Door spraak direct te vertalen, zonder er eerst tekst van te maken, kan ook het stemgeluid van de spreker behouden worden volgens Google. Daarvoor wordt een optionele speaker encoder gebruikt, die ervoor moet zorgen dat de kenmerken van de vertaalde spraak behouden blijven.

Of en wanneer Translatotron ingezet zal worden in de praktijk, is nog niet bekend. Voorbeelden van de nieuwe vertaalmethode staan op GitHub. Het volledige onderzoek staat op ArXiv.

Translatotron

Door Julian Huijbregts

Nieuwsredacteur

16-05-2019 • 08:14

52

Reacties (52)

52
51
22
4
0
23
Wijzig sortering
Google heeft ook een heleboel audiobestanden geupload waar je het verschil kunt horen: https://google-research.github.io/lingvo-lab/translatotron/
Ik zal ze er nog even bijzetten. Ik kreeg de cascade- en s2st-samples niet werkend, maar dat ligt blijkbaar aan Firefox. In Chrome geen probleem 8)7
Klopt, met FF werkt het niet.
Met mijn "standaard reserve Windows 10 browser" (Edge) werkt het wel.
Voor Google, door Google :+
Zal niet aan FF liggen, Google zal wel weer iets doen/gebruiken om te zorgen dat het alleen op Chrome werkt.
Waarom krijgt dit bericht een -1? Het is gewoon bekend dat Google dit soort dingen expres doet.
Omdat het niet enkel en alleen werkt in chrome, maar ook in Edge. Waarmee het waarschijnlijker is dat het aan firefox ligt.

disclaimer; ik tik dit vanaf firefox ;)

[Reactie gewijzigd door jaenster op 23 juli 2024 06:45]

Youtube doet het ook oke op Firefox en Chrome. Zal dus wel aan IE/Edge liggen.

Google krijgt hier niet het voordeel van de twijfel.
Youtube doet het ook oke op Firefox en Chrome. Zal dus wel aan IE/Edge liggen.

Google krijgt hier niet het voordeel van de twijfel.
'Doet het ook ok' is een beetje subjectief. Maar het is wel een feit dat Google youtube slomer heeft gemaakt in browsers die niet op Chrome zijn gebaseerd. https://www.cnet.com/news...n-on-non-chrome-browsers/
Ga Edge nu gebruiken op YouTube en je zult zien dat je ervaring echt heel anders is dan op Firefox of Chrome.

Het gebeurt nu nog.
Anoniem: 333920 @Dennisdn16 mei 2019 12:46
... Dat is een preview versie. Lees het artikel dat je linkt.
Anoniem: 470811 @Dennisdn16 mei 2019 14:21
Edge wordt gebaseerd op Chromium. Chrome is ook gebaseerd op Chromium.
Volgens mij loopt Google een beetje achter, Huawei had al een NPU (Neural Processing Unit) gebouwd. Hun Kirin 970 heeft dit.

Volgens mij is dit al bruikbaar ook in toestellen.

zie: https://www.microsoft.com...soft-huawei-nmt-ondevice/

en

https://asia.nikkei.com/B...ced-chip-to-counter-Apple

maar volgens mij wordt er alleen direct text vertoond en geen spraak naar spraak

[Reactie gewijzigd door mahsalti op 23 juli 2024 06:45]

Een NPU (hardware) inbouwen en daar iets nuttigs mee doen (software) zijn toch nog echt twee heel verschillende dingen ;).

Maar NPUs gaat zeker steeds belangrijker worden met dit soort zaken (spraak, vertalingen, objectherkenning, fotografie).
Wat is het verschil met Microsoft Translator Live? Was dit ook niet Live tijdens Skype gesprekken?

https://www.microsoft.com/nl-nl/translator/business/live/
Dit klinkt heel futuristisch en eigenlijk ongeloofwaardig. We zien natuurlijk al decenia-lang universal translators en babelfishes en andere real-time gimmicks is sciencefiction, maar iedereen die wel eens iets heeft vertaald weet hoe onmogelijk dat is. De zinsopbouw in een andere taal is vaak geheel anders, waardoor je echt tot het einde van een zin moet wachten voordat je de gehele zin kunt vertalen. En zelfs een hele zin is soms niet genoeg. Vaak genoeg zie ik in Google Translate en vertaling die op zichzelf staand wel klopt, maar in de context waarin hij is gegeven helemaal nergens op slaat. Dat gezegd hebbende zijn we in sommige opzichten veel verder dan ik 5 jaar geleden voorspeld zou hebben, dus we zullen zien.
Op CES vielen ze ook keihard door de mand met een Chinese journalist die in een rollenspel aan de Google hotel manager vroeg of hij een goed restaurant kende, ze had alleen wel een allergie voor schaaldieren. De Google vertaler kwam met dat ze graag zand wilde eten. 8)7

Liet wel direct zien hoe zelfs subtiele misinterpretaties gevaarlijke situaties kunnen opleveren.
Dialecten kunnen inderdaad funest zijn. Net als het bezoek van Willem Alexander aan Mexico, waarbij er een dialect-taalfout op zijn speech stond:
"Een slapende garnaal gaat naar de kl*te" i.p.v. "Een slapende garnaal wordt meegenomen door het getij"

Zie ook: https://www.youtube.com/watch?v=XAawNCfiA2E
Je zult inderdaad vaak een complete zin nodig hebben voordat je m kunt vertalen, maar ik geloof best dat semi-realtime vertaling mogelijk is. De techniek is er nog te dom voor maar als je ziet wat er al bereikt is in korte tijd, is dat best indrukwekkend.

Vroeger leek een replicator ook onmogelijk, terwijl een 3D printer een heel eind in de goede richting komt. Ze moeten ze alleen nog sneller en nauwkeuriger maken en klaar. Touchscreens waren in de jaren 70/80 futuristisch en nu gemeengoed, en een soort van tricorder heeft bijna iedereen tegenwoordig in z’n broekzak zitten.

Nu nog een transporter maken en de bouw van de USS Enterprise kan beginnen. Bedrijven als SpaceX zijn al druk bezig het ruimtedeel voor elkaar te krijgen. :+
Door middel van neurale netwerken maken zij echter nu al verschillende voorspellingen over de rest van de zin. Ingeval de verschillende voorspellingen convergeren, of zelfs overeenkomen kan de vertaling eigenlijk al na een paar woorden beginnen.
Ik snap niet waarom je een lage score krijgt, want je hebt gewoon gelijk. We lezen al zeker tien jaar over allerlei doorbraken voor automatische vertalingen, maar in de praktijk zie je er weinig van terug. Het lijkt wel accutechnologie. ;-)

Wat ik vooral zie zijn zorgvuldig gekozen proefteksten die toevallig een redelijk resultaat opleveren, vaak ook tussen het Spaans en Engels vertaald, toevallig een combinatie waarbij je maar heel weinig aan de structuur van zinnen hoeft te veranderen (want juist dat is een zwak punt van dat soort software).
Daarnaast worden de woorden vaak niet goed verstaan, bijvoorbeeld omdat de bron mompelt, zacht praat, letters inslikt etc.
Ook in Star Trek (met name in Discovery*, maar uit mijn hoofd iig 1x in Voyager, en ik heb het vaker voorbij zien komen) wordt hieraan niet voorbij gegaan hoor, en hebben ze heel sporadisch een taal die de "Universal Translater" niet kan vertalen omdat hij "te" alien is.
*Gelukkig kan Hoshi Sato het dan altijd wel snel vertalen ;)

Over het algemeen is zinsopbouw redelijk snel te tackelen lijkt mij, en zal het ding niet vanaf nul hoeven te beginnen normaliter, hij zal al een behoorlijke database meekrijgen van reeds bekende zinnen/uitspraken.

Zelfs talen als Xhosa (ja, gegoogled ;)) zijn al redelijk goed gedocumenteerd dus, kennen we zelfs op aarde al redelijk wat "vreemde" talen, en is opslag/cpu ondertussen voldoende voorhanden om een redelijk grote database op te slaan van wat al bekend is zodat je daar redelijk snel een kloppende zin uit zou moeten krijgen.

Ik vind het voornamelijk weer een mooi voorbeeld van hoe de geesten van wat Sci-fi schrijvers ervoor gezorgd hebben dat we een apparaat zien wat gemaakt is op basis van een toekomst visie van iemand van enkele decennia geleden :Y

[Reactie gewijzigd door zion op 23 juli 2024 06:45]

Volgens mij gaat dit systeem net zo werken als in de werkelijkheid. Zet 2 anderstaligen face2face en als 60% goed is vertaald in combinatie met gezichtsuitdrukkingen en lichaamstaal, komen ze er samen wel uit. Voor geschreven tekst is dat inderdaad iets heel anders.

[Reactie gewijzigd door Dennisdn op 23 juli 2024 06:45]

Voor vertalingen gebruik ik standaard deepl.com google en anderen kunnen niet tippen aan deze vertaalmchine. Als ik de google tekst vertalingen als standaard neem dan zal voice dus niet veel beter zijn.
Dit klinkt heel futuristisch en eigenlijk ongeloofwaardig
Je leest teveel in wat ze zeggen. Ze werken eraan, ze hebben nog helemaal niks af.
onmogelijk
Ik gebruik Google Translate regelmatig om teksten uit bijvoorbeeld het Hebreeuws of Duits of Frans te vertalen naar het Engels en dat werkt redelijk goed. Het levert vrijwel altijd teksten op die in ieder geval correct geïnterpreteerd kunnen worden door de lezer. Dat het grammaticaal niet klopt is geen probleem. In het zakenleven is Engels de voertaal en ondanks dat veel mensen gebrekkig Engels spreken lukt het toch altijd weer om de correcte informatie over te brengen en/of samen te werken :)
Je hebt wel een punt als je zegt dat je vaak moet wachten tot het einde van een zin voordat je hem kan vertalen. Benieuwd hoe ze dat gaan oplossen.
Maar we maken stappen en er is geen enkele reden om aan te nemen dat de huidige ontwikkelingen tot stilstand zullen komen.
Ik heb niet zoveel aan dit soort berichten. Ik heb sterk het idee dat ze op zoek waren naar een verwacht probleem en een mooi voorbeeld vonden.
Ik werk al jaren in een internationale zakelijke omgeving, ik woon veel vergaderingen bij waarin Engels de voertaal is. En hoewel niet iedereen vloeiend is komt de juiste informatie *altijd* over. Natuurlijk kan ik voorbeelden verzinnen waar dat niet goed werkt. Er zijn landen waar cultuur in combinatie met een gebrek aan beheersing van het engels een probleem vormt. Maar in het algemeen en zeker in mijn omgeving is de communicatie in het engels meer dan voldoende om geen problemen te veroorzaken, ook als niemand de taal goed beheerst.
Anoniem: 457607 @84hannes16 mei 2019 14:15
Het kan nog erger: Facebook translate. Vertaald spaans in het hongaars.
Deed Microsoft dit niet al een tijdje met Skype?
Daar zat dus nog de tussenlaag naar text tussen.
Soms wel, maar er zijn een stuk of 10 talen waarbij het ook met voice moet kunnen.
Deed Microsoft dit niet al een tijdje met Skype?
Ja, daarvoor heb je de Skype Translator bot.
https://www.skype.com/en/features/skype-translator/
Zolang het uiteindelijk maar een klein, geel en bloedzuiger-achtig apparaatje gaat worden ben vind ik het geweldig!
Anoniem: 1204122 @Allanon16 mei 2019 08:40
true!

Voor de niet kenners : https://hitchhikers.fandom.com/wiki/Babel_Fish
Het hoeft niet altijd Star Trek te zijn :)

[Reactie gewijzigd door Anoniem: 1204122 op 23 juli 2024 06:45]

Of en wanneer Translatotron ingezet zal worden in de praktijk, is nog niet bekend.
... maar bronnen binnen Google speculeren over een gezamelijke release met de USS Enterprise :)
Universal translator van star trek weer een stukje dichterbij. :)
Een aantal samples van de verschillende vertaalslagen staan op github.
Vooral nr 11 (https://google-research.g...totron/#conversational_11) geeft een goed voorbeeld.
The next big thing als ze dit goed werkende krijgen. Een universele vertaler, de Star Trek-realiteit is weer een stapje dichterbij :)
Kijk eens aan dit zijn pas handige hobby's.
Mijn schoonouders/ouders zullen dankbaar zjn als dit kan.
Wellicht handig voor de domotica fanaten die iets met geluid en alerting willen doen

Op dit item kan niet meer gereageerd worden.