Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 58 reacties

Google gaat met neural machine translation de resultaten van Google Translate verbeteren in negen verschillende talen waaronder Engels, Frans en Duits. De nieuwe techniek vertaalt hele zinnen tegelijk in plaats van woord voor woord.

Naast Engels, Frans en Duits zijn volgens Google ook Spaans, Portugees, Chinees, Japans, Koreaans en Turks aangepast. Samen zouden die talen meer dan 35 procent van alle Google Translate-invoer beslaan. Het bedrijf zei in september, ten tijde van de aankondiging en beschrijving van deze wijziging al dat Chinees naar Engels vertalen overigens 'het moeilijkste paar talen' zou zijn om te verwerken. Doordat het algoritme kijkt naar gehele zinnen, kan het de grammatica beter kloppend maken.

De verbeterde vertalingen werken alleen met deze negen talen onderling. Wanneer het Duitse voorbeeld van Google bijvoorbeeld naar het Nederlands vertaald wordt, valt meteen te zien dat het resultaat bij vergelijking tekortschiet: "Geen probleem kan worden opgelost door hetzelfde bewustzijn dat zij zijn ontstaan", aldus Google Translate. Uiteindelijk wil Google uiteraard deze nieuwe manier van vertalen toepassen op alle 103 talen die het systeem in huis heeft. Google publiceerde in september ook een uitgebreide paper over het onderwerp.

Google Translate met Neural Machine Translation

Moderatie-faq Wijzig weergave

Reacties (58)

En vandaag ook Microsoft Translator launching Neural Network based translations for all its speech languages https://blogs.msdn.micros...all-its-speech-languages/
Het systeem welke de meeste "leerstof" krijgt en welk het meest gebruikt zal worden zal ook uiteindelijk het beste werken. Dus daar kun je weer een conclusie uit trekken welke de beste zal worden. Want zo werken Neural Networks nou eenmaal.
kan iemand deze activiteit van Microsoft ook toevoegen aan het artikel? Het ljkt me relevant om er toch tenminste naar te verwijzen .. anders eindig je altijd met van die promo-artikels..
Toffe ontwikkeling van Google om meer naar end-to-end translation (In dit geval Neural Machine Translation [NMT]) te gaan kijken en af te stappen van het klassieke Phrase-Based Machine Translation [PBMT].

Zoals in het paper te lezen valt zijn er met NMT een aantal zaken die deze techniek een stapje achter PBMT zet:
  • Het trainen van dergelijke modellen is mega traag, er is heel veel data voor nodig.
  • De inference speed is erg laag, door het grote aantal parameters in het gehele model.
  • Weinig voorkomende (zeldzame) woorden, worden niet effectief vertaald.
  • Niet alle woorden worden altijd vertaald uit de bronzin.
Nu heeft Google een aantal van deze problemen op proberen/weten te lossen met hun Google Neural Machine Translation [GNMT] model. Zo hebben ze een implementatie van "wordpiece" modeling gebruikt, zodat de inference speed beter wordt en er beter omgegaan kan worden met onbekende woorden. Als tweede hebben ze hun model en data zo ingericht dat ze het parallel kunnen trainen, waardoor de modellen in ongeveer een week te maken zijn. Daarnaast wordt de inference speed sneller, doordat ze grote modellen al deployen in hun productieomgeving. Verder passen ze kleine verbeteringen toe zoals length-normalization en coverage penalties, wat goed blijkt te werken op "echte" data.

De resultaten genoemd in het paper zijn erg mooi:

Table 10: Mean of side-by-side scores on production data
Language PBMT GNMT Human Relative Improvement
English → Spanish 4.885 5.428 5.504 87%
English → French 4.932 5.295 5.496 64%
English → Chinese 4.035 4.594 4.987 58%
Spanish → English 4.872 5.187 5.372 63%
French → English 5.046 5.343 5.404 83%
Chinese → English 3.694 4.263 4.636 60%

(Het lukt me niet om dit netjes in een tabel te zetten, eerste getal is elke keer de PBMT, tweede getal de GNMT, derde getal de Human translation score en het laatste getal de relative improvement van GNMT op PBMT).

Dit is een score die mensen hebben gegeven aan de vertalingen van het PBMT model, het nieuwe GNMT model én een vertaling gemaakt door een mens. Het GNMT model komt een stuk dichter bij de menselijke vertalingen!

Ook rapporteren ze resultaten in BLEU, wat een beetje de standaard is voor dit soort taken. Hier zie je ook verbeteringen, maar ik vind bovenstaande wel overtuigend dat dit de goede richting is!

[Reactie gewijzigd door Reynouts op 16 november 2016 11:57]

Ik heb het gevoel dat ook voor taal de 80/20 regel opgaat.
Kunnen systemen als Google translate niet kijken naar alle vertalingen van de davinci code of dergelijke, waarbij de context in iedere taal hetzelfde zal zijn en de taal correct is geschreven>
De vraag is of alle vertalingen (van dit soort boeken) wel 100% perfect zijn? Ik kan me voorstellen dat de vertalers ook hun creatieve inbreng hebben, waardoor alinea's (licht) herschreven worden. Een betere bron lijkt me dan de EU-wetgeving (voor EU talen). Al moet aangestipt worden dat bvb in het twee(drie)talige België wetten in het Frans net iets anders zijn dan in het Nederlands, wat uiteraard voor heel wat juridische "fun" garant staat.
Google gebruikt al alle publieke diplomatieke documenten voor zijn vertalingen. ook oud spionage materiaal uit de soviet tijd voor Russisch <> Engels vandaar dat die zo goed is trouwens. Russich naar engels is echt heel goed.

Let wel dat al die vertalingen met de hand zijn gedaan, kijk naar bijvoorbeeld dat Oekraine associatie verdrag, dat iedereen opeens ging lezen, onze vertaling vanuit het engels naar Nederlands was een vlug vlug klusje en je kan veel fouten ontdekken.
Google gebruikt al alle publieke diplomatieke documenten voor zijn vertalingen. ook oud spionage materiaal uit de soviet tijd voor Russisch <> Engels vandaar dat die zo goed is trouwens. Russich naar engels is echt heel goed.
Mijn ervaring is anders. Sowieso verslikt Google Translate zich nog wel eens in samentrekkingen als I'm en don't. En het wil nog wel eens de betekenis van en zin omdraaien, zodat wanneer je zegt dat iets geen probleem is, het vertaald wordt als dat het wel een probleem is. Dat kan een aardige spraakverwarring opleveren. Voor Russisch <> Engels is Yandex (zeg maar de Russische Google) veel beter.
Weer een stap dichter bij de Universal Translator :)
Nu nog inbouwen in een visvormig apparaatje die je in je oor stopt :)
Nu nog inbouwen in een visvormig apparaatje die je in je oor stopt :)
Klinkt alsof dit op zeer kort termijn mogelijk gaat zijn !
Oordopje in je oor en veel talen gewoon kunnen verstaan.

Wordt leuk als een medewerker van een restaurant of dergelijke in zijn/haar eigen taal gek loopt te doen tegen je, en je verstaat de hele boel XD
Er bestaan volgens mij al wel dergelijke apparaatjes, ze zullen nog wel niet alle talen kunnen en het ook vast nog niet altijd goed doen.

Deze bijvoorbeeld en nog een heel aantal die nog in startup zijn.
https://smallbiztrends.co...translation-earpiece.html
20 jaar terug had postbank al de talkmate voor dat soort zaken :)
Kan al met de Google translate app (die vertaalt gesprekken via de mic van je smartphone).
Oh, dat zou handig zijn, doe mij er maar meteen 42 dan!
hehheh. and there's more! order 42 and get a TOWEL!
:) Leuke reactie. -1? Tweakers hebben geen humor...
Wat moet je nou met 42 visjes in je oor. :+
Tot ziens en bedankt voor de vis :Y)
Vergeet je je handdoek niet?
Jammer dat je het dan alleen geen Babel Fish meer kan noemen, gezien die naam al bezet is.
Verkleinwoorden zoals "apparaatje" zijn onzijdig, dus het is niet "apparaatje die", maar "apparaatje dat". Daarom is het ook niet "de meisje", maar "het meisje". Misschien dat dat apparaatje van je dat ook kan oplossen?
Weer een stap dichter bij de Universal Translator :)
ja... nog even en we kunnen iedereen verstaan :P
Ik hoop dat het ook nieuwe talen zelf leert, zonder hulp van de gebruikers.
Dat is hard nodig voor First Contact.
Klinkt leuk maar of het goed werkt moeten we eerst maar eens zien.

Doe altijd de volgende test. engels, naar duits, naar frans naar spaans en terug naar engels. Kijk dan eens wat er overblijft.
He ja, dat is leuk. Laten we dat gewoon echt eens doen. Deze zin is afkomstig uit de New York Times, dus het is 'echt' Amerikaans Engels:

Untreated sewage fuels algal blooms in the world’s largest freshwater lake, home to scores of unique plant and animal species.

naar Duits:
Unbehandelte Abwasserkraftstoffe Algen blüht in der weltweit größten Süßwassersee, die Heimat von Scores von einzigartigen Pflanzen-und Tierarten.

naar Frans:
Combustibles non traités d'eaux usées prolifération d'algues dans le plus grand lac d'eau douce du monde, ŕ la maison ŕ des dizaines d'espčces animales et végétales uniques. (en ja, die Franzen gebruiken veel letters zeg!)

Naar Spaans:
Combustibles sin tratar la proliferación de algas de aguas residuales en el lago de agua dulce más grande del mundo, hogar de decenas de especies vegetales y animales únicas docenas. (nog meer letters ... groeit de tekst?)

En terug naar Engels:
Untreated fuels the proliferation of sewage algae in the world's largest freshwater lake, home to dozens of unique plant species and dozens of animals.

Inderdaad niet echt meer te begrijpen. Maar het kan nog gekker. Als we die Franse vertaling nou eens naar Koreaans laten vertalen in plaats van Spaans, en dan terug naar Engels, dan krijgen we dit:

연료 세계에서 가장 큰 민물 호수에서 처리되지 않은 폐수 조류 꽃, 독특한 식물과 동물 종의 수십 곳.

en eindigen we hiermee:
Untreated wastewater from the largest freshwater lakes in the world of fuel birds flowers, dozens of unique plant and animal species.

Persoonlijk, als ArcheAge speler (MMORPG van Koreaanse makers), ben ik dus erg blij dat Koreaans in het lijstje van talen staat waarvan de vertaling met neural machine translation verbeterd gaat worden!
Tja het is net menselijk. Laat 10 mensen iets aan elkaar doorvertellen en aan het einde krijg je ook heel iets anders.
Lijkt er dus op dat google de perfecte menselijke vertaalmachine heeft.
Dat is een ander fenomeen; mensen vergeten de helft en verzinnen er dingen bij die ze niet gehoord hebben. Computers vergeten niets en verzinnen er niets bij. Dit zijn gewoon vertaalfouten die ontstaan door het verschil in zinsbouw in de verschilende talen. vertaal zelf maar eens een zin met een woordenboek woord voor word. Dan krijg je vanzelf hele rare zinnen in die andere taal.
Zolang we maar niet het resultaat krijgen uit de film 'Mars Attacks'. :+

"We come in peace..." :w
Google Translate behoort tot mijn dagelijks gebruikte websites. Nu inderdaad voor losse woorden, maar wellicht zinsdelen of zinnen in de toekomst. Hele zinnen vertalen gaat nu vaak niet goed.

[Reactie gewijzigd door stijnos1991 op 16 november 2016 08:35]

Overlaatst gebruikte ik het voor Duits. Ik wist ongeveer wat het origineel vertelde, maar heb toch nog even vertaald naar het Engels, en daar kwam zowaar een vloeiende zin uit.
Naar Engels? Duits kan je beter naar Nederlands vertalen, gezien die kwa vocabulair dichter bij elkaar zitten. Zou je het voorbeeld in het artikel letterlijk vertalen naar Nederlands zou je een (zo goed als) perfecte zin moeten hebben.
Je redenatie klinkt logisch, maar dat is niet hoe Google Translate (en vrijwel elke ander vertaal programma) werkt.
Er wordt vanuit één basistaal gewerkt, voor Google Translate is dat Engels. Wanneer je Duits naar het Nederlands vertaalt, wordt de Duitse tekst dus eerst naar het Engels vertaald en vervolgens naar het Nederlands. Nu weet je meteen waarom die vertalingen vaak zo beroerd zijn.

Wanneer je Google Translate wilt gebruiken om een eigen tekst naar een andere taal dan Engels te vertalen en je beheerst het Engels redelijk, dan kun je het beste vanuit het Engels gaan vertalen. Beheers je Engels niet goed genoeg om vanaf scratch een tekst te schrijven, maar wel goed genoeg om duidelijke fouten in de betekenis te zien, dan kun je eerst vanuit het Nederland naar het Engels vertalen, de Engelse tekst corrigeren en vervolgens de Engelse tekst naar de gewenste taal vertalen.
Nu is Google Translate over het algemeen redelijk, maar weinig specifiek geoptimaliseerd voor een talenpaar (al komt er nu voor de genoemde negen talen wel een aanzet). Voor specifieke talen zijn er vaak sites/ apps die in het betreffende taalgebied gemaakt worden waar meer aandacht aan optimalisatie van vertalingen van en naar Engels kan worden gegeven dan Google omgekeerd kan doen. Zo levert de vertaal site/app van Yandex (de Russische equivalent van Google, met vergelijkbare diensten) een betere vertaling tussen Engels en Russisch dan Google Translate of Microsoft Translate. Ik kan het zelf niet contoleren, maar hetzelfde zal waarschijnlijk voor Baidu in het Chinees gelden.
Die zin hierboven vertaald komt er zo uit:
"Geen probleem kan worden opgelost door hetzelfde bewustzijn dat zij zijn ontstaan."

Is niet (zo goed als) perfecte zin in mijn ogen, aangezien het niet om bewustzijn gaat maar gedachtegang. Ik denk ook niet dat het veel uitmaakt in zulke gevallen, gezegdes gebruiken vaak woorden die op verschillende manieren geďnterpreteerd kunnen worden. Door context weten wij wat er bedoelt wordt, maar wanneer woord voor woord vertaald wordt dan is dit vaak niet juist.
"Geen probleem kan worden opgelost door hetzelfde bewustzijn dat zij zijn ontstaan." Is niet (zo goed als) perfecte zin in mijn ogen, aangezien het niet om bewustzijn gaat maar gedachtegang.
Wat je hierboven noemt is dan ook niet een letterlijk vertaling, maar een vage interpretatie. Wat CivLord uitlegt in zijn reactie, dat het vertaald word met Engels als basistaal, was mij niet bekend, waardoor het kwa correctheid inderdaad geen fluit uit ga maken of je nu DE naar NL of EN vertaal.

Denkweise hoort natuurlijk ook niet naar bewustzijn vertaald te worden, dat is gewoon denkwijze. Engels mist een hoop woorden (en nuances) die wij in het Nederlands en Duits wel hebben, die onderling letterlijk (en correct) te vertalen zijn.

[Reactie gewijzigd door SirNobax op 16 november 2016 11:38]

Jammer deze ontwikkeling, voorheen kon je eenvoudig spam berichten identificeren omdat deze door google translate waren vertaald :+
Dit is misschien bedoelt als grap, maar ik kan me best voorstellen dat je in de zeer nabije toekomst niet meer zo gemakkelijk zal kunnen zien aan de tekst dat het spam is.
Op de lange termijn wordt het helemaal spannend natuurlijk. Stel je voor wat je kan doen met een AI die spraak en tekst perfect beheerst.
Inderdaad! Toen ik laatst die text to speech van Deepmind hoorde, was ik echt enorm onder de indruk. Ik zou niet meer weten of die nu een computer of mens is, ofwel het verslaat de Turing test mogelijk.

https://storage.googleapi.../us-english/wavenet-1.wav
Het zal niet zo heel lang meer duren gok ik, voordat call centers hiermee gaan werken en mensen thuis zullen denken dat ze gewoon een persoon aan de lijn hebben.

Maar het heeft ook wel enge kanten. Als je spraak van een bestaand persoon perfect kan nabootsen dan kan je daar wel duistere dingen mee doen. Helemaal in combinatie met perfecte CGI beelden van iemands gezicht.

[Reactie gewijzigd door Atmosfeer op 16 november 2016 14:20]

Inderdaad, beetje Mission Impossible 1 tafarelen... Aan de andere kant, ik denk dat een AI uitspraak laten toen tijdens een gesprek, moet je wel heel snel je antwoorden typen, zodat de AI deze kan uitspreken. Maar in de verdere toekomst zeker mogelijk dat de AI zelf zijn antwoorden weet, en je alleen de richting aan klikt tijdens het gesprek.
Precies, vooral dat laatste kan nu al in principe. Je hebt ook al chat bots die in bepaalde mate kunnen antwoorden op je vragen. En als de software het echt even niet snapt kan het altijd zeggen "Ik verbind u even door met een van mijn collega's" :+

Ik durf te wedden dat je met wat goede spraak software en AI voor antwoorden geven al zo 90% van de belletjes bij bijvoorbeeld de helpdesk van T-Mobile kan afhandelen zonder dat mensen denken dat ze met een computer praten. En voor die andere uitzonderlijke gevallen heb je dan nog wat mensen in dienst.

[Reactie gewijzigd door Atmosfeer op 16 november 2016 14:25]

Ik denk dat je een goed punt heb, over tien jaar mogelijk wel realiteit bij helpdesken!
En als doel heeft iedereen viagra te verkopen?
Dit zal waarschijnlijk zo blijven. In veel spam is het slechte Engels namelijk opzettelijk. Dit om al heel snel mensen te filteren. De mensen die de e-mail als echt beschouwen zijn vaak al iets minder intelligent, en daardoor ook uiteindelijk makkelijker op te lichten. ;)
Of dat je vriendin als een bouwvakker vloekt en hele gemene dingen zegt maar translate dit allemaal heel beschaafd maakt :X
Dit is een goede ontwikkeling. :) Met de trend van nu zullen we binnen 5 jaar hele alinea's kunnen vertalen en de onderwerpen uit de tekst gemakkelijker naar elkaar kunnen refereren.

Voor nu gebruik ik Google Translate alleen voor een paar woordjes zo nu en dan.
Interessante ontwikkeling, het vertalen woorden ging altijd wel goed. Echter was het vertalen van alinea's nog lastig. Ik ben benieuwd hoe deze ontwikkeling dat gaat veranderen :)
Dit nieuws zal menig officieus mangavertaler als muziek in de oren klinken ;)
Dat Japans erbij zit is best spannend - Japans vertalen blijft tot nu toe een ramp. Ik ben benieuwd of het merkbaar beter werkt.


Om te kunnen reageren moet je ingelogd zijn



Nintendo Switch Google Pixel Sony PlayStation VR Samsung Galaxy S8 Apple iPhone 7 Dishonored 2 Google Android 7.x Watch_Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True