UvA-onderzoekers verbeteren computervertaalsystemen

UvA-onderzoekers hebben een methode ontwikkeld om vertaaldiensten als Google Translate betere vertalingen te laten afleveren. Met behulp van kunstmatige neurale netwerken kiest het algoritme de juiste woordvorm door de zinsopbouw en naburige woorden in de brontaal te analyseren.

In de praktijk is het moeilijk om een relatief eenvoudige brontaal correct te vertalen naar een complexere doeltaal. Een team onderzoekers verbonden aan de Universiteit van Amsterdam hebben zich daarom specifiek gericht op morfologisch rijke talen, waarbij de taal diverse woordvormen per woordgroep kent. Als voorbeeld wordt door het UvA-team het morfologisch rijke Duits aangehaald: afhankelijk van de grammaticale functie van het Duitse woord voor 'de man' dient ‘der Mann’, ‘des Mannes’, ‘dem Mann’ of ‘den Mann’ te worden gebruikt. Computeralgoritmen hebben - in tegenstelling tot goede menselijke vertalers - moeite om de juiste vorm te kiezen en selecteren veelal de meestvoorkomende woordvorm.

Het UvA-team denkt een betere methode te hebben ontwikkeld. Daarbij wordt gebruikgemaakt van kunstmatige neurale netwerken op basis van modellen van de menselijke hersenen. In plaats van het kiezen van de meestgebruikte woordvorm analyseert het algoritme eerst de zinsopbouw en naburige woorden om vervolgens de correcte woordvorm te kiezen. Volgens UvA-onderzoeker Ke Tran kan het neurale netwerk zelf grammaticale functies van woorden afleiden, zonder dat het expliciete kennis van grammatica heeft.

Niet alleen moet het nieuwe algoritme betere vertalingen opleveren, ook zou het sneller te ontwikkelen en daarmee goedkopere vertaalsysteem mogelijk maken. Dit komt omdat de nieuwe methode niet langer afhankelijk is van handgeschreven functies om woorden te leren. Hierdoor kan het aantrekkelijker worden om ook vertaaldiensten te ontwikkelen voor talen die weinig worden gesproken. De UvA-ontwikkelaars willen hun algoritme implementeren in Oister, een vertaalsysteem waar de UvA nog aan sleutelt.

Door Dimitri Reijerman

Redacteur

23-10-2014 • 18:31

28

Submitter: dvdgrs

Reacties (28)

28
27
17
3
0
6
Wijzig sortering
Ik kan wel begrijpen dat Nederlanders hier aan werken.
Als er ook maar 1 taal is met een miljoen-tal uitzonderingen en zelfs nog meer speciale regeltjes, is het de nederlandse taal wel.

Klasse gedaan.
Het blijft leuk om in het Nederlands te praten/schrijven. Zeker met een beetje bewust "gepruts" geef je de vertaalcomputrers een dagtaak.

"Ja tog, niet dan, nou dan, tsal tog is tijd worden." :p
Met alle respect, maar Nederlands is objectief gezien echt niet een moeilijke taal. Dus niet subjectief vanuit een andere taal gesproken (waar sommige onderzoeken wel naar keken), maar gewoon als taal an sich. We hebben één van de meest consistente spellingen en relatief simpel regelstelsel. Nu, jammer genoeg is niet alles simpel en mooi, want het nederlands is totaal chaotisch op het vlak van zinsbouw en welke vorm het meest natuurlijk is en dat soort zaken. Hoe dan ook, ik heb ondertussen 7 talen moeten leren in de laatste 21 jaar en geloof me, er zijn talen die simpeler zijn dan de onze, talen die zo anders zijn dat ze niet te vergelijken zijn en talen die een stuk stuk complexer zijn (zelfs nadat je andere aanverwante talen uit dezelfde familie kent).

De reden dat de mythe dat Nederlands één van de meest complexe talen is bestaat is puur omdat Nederlanders er van houden en onze taal relatief uniek is binnen de context van Europa, maar goed, dat zijn de saxische talen ook, dus het is vooral dat eerste.
Interessant stukje en ben het met je eens dat het Nederlands niet de meest moeilijke taal is. Uit eigen ervaring weet ik dat ik Chinees op veel vlakken zeker moeilijker Is dan het Nederlands, maar ook op veel andere vlakken ook weer logischer en makkelijker. Zo heb je bijvoorbeeld maar één vorm van alle werkwoorden (ik, jij, zij, wij, tegenwoordig tijd, Toekomstig of in het verleden het Is altijd hetzelfde geschreven).

Nu ben ik verder totaal geen talen wonder, zou jij of iemand anders uit kunnen leggen wat nou simpelere, complexere en gelijke talen aan het Nederlands zijn?
Het cliché in de taalkunde is dat alle talen ongeveer even moeilijk zijn. Een argument daarvoor is dit: drop een baby in een willekeurig taalgemeenschap en die baby - even aangenomen dat het geen heftige stoornis heeft en de bevolking aldaar die baby gaat verzorgen - leert gewoon die taal. Kliktalen (Khoisantalen in Afrika), toontalen (Chinees, maar bv ook het Limburgs), talen met 20 naamvallen (Fins) of 15 geslachten (Swahili), rare medeklinkercombinaties: een kind kan de was doen.

Nu is het natuurlijk wel zo dat sommige delen van een taal makkelijker zijn dan de andere. Een Chinees kind hoeft geen tijd te besteden aan het uit elkaar peuteren van allerlei naamvallen, want die bestaan niet in het Chinees. En werkwoordstijden (zoals hierboven gezegd) ook niet. Dus dat hoeft zo'n kindje ook niet te kunnen. Wel moet het dan weer heel goed leren om uit de context af te leiden of iets in het nu, verleden of in de toekomst gebeurt. En daar is een wisselwerking: wat voor de spreker makkelijker is (1 werkwoordsvorm) is voor de hoorder juist weer lastig (die moet harder werken om te begrijpen wat er wordt bedoelt). Een ander voorbeeld is het Italiaans: daar kun je zeggen canto ('zing') in plaats van io canto ('ik zing'), omdat die -o op de persoonsvorm al laat zien dat het om de eerste persoon enkelvoud (de ik-vorm) gaat. Maar dan moet je die -o dus wel eerst leren (en al die andere uitgangen op het werkwoord).

Toch is hier geloof ik geen Nederlander die het Chinees en/of het Italiaans en/of het Nederlands als 'even moeilijk' zou willen beschouwen, en dat komt ook omdat we die vraag beantwoorden vanuit het Nederlands: voor volwassenen is de meest makkelijke taal de taal die het beste aansluit op de taal die je al spreekt, maar ook dan zie je verschillen: met de zinsbouw of (nauwelijks bestaande) morfologie van het Engels hebben Nederlanders over het algemeen niet veel moeite, maar het verschil in uitspraak tussen bijvoorbeeld bad, bat, en bed (bad, vleermuis/knuppel, bed) is juist wel best lastig.

Hier ('moeilijke' en 'makkelijke' talen) wordt in Amsterdam trouwens ook onderzoek naar gedaan; Sterre Leufkens schrijft er een proefschrift over.

@ Laloeka: 'uniek' zit niet in de inviduele eigenschappen van het Nederlands, maar in de combinaties van die eigenschappen en de verschillen daartussen.

Ontopic: Ik ben niet zo ingevoerd in NLP maar ik ben benieuwd of de fouten die dit vertaalsysteem maakt een beetje lijken op de fouten die mensen maken. Dat zou dan misschien iets kunnen zeggen over de mate waarop het gebruikte model inderdaad lijkt op de menselijke hersenen. (Nu snap ik wel dat dat twee verschillende doelen zijn, hoor: een model maken dat een goed resultaat boekt hoeft niet een model te zijn dat ook de werkelijke processen nabootst, maar toch.)

[Reactie gewijzigd door Window op 24 juli 2024 22:37]

De manier waarop het systeem lijkt op menselijke hersenen valt nog wel wat op af te dingen. De grootste overeenkomst is dat de intelligentie zit in de structuur en verbindingen van/ heel veel parallele 'domme' dingen (neurons). De manier waarop die kunstmatige neurons werken (als ze iets hebben geleerd) is een grote abstractie, geinspireerd op hersencellen en de manier waarop ze leren (meestal backpropagation) is puur wiskunde en geen biologie.

Zie http://en.wikipedia.org/wiki/Artificial_neural_network

[Reactie gewijzigd door Eomer op 24 juli 2024 22:37]

Misschien wat off-topic ten opzichte van het nieuwsartikel, maar ik ben wel benieuwd: Wat maakt onze taal dan zo 'uniek'? Ik vind Nederlands altijd erg op Engels of Duits lijken qua hoe de taal in elkaar steekt.

Bijwoorden gaan voor bijvoegelijk naamwoorden, welke weer voor zelfstandig naamwoorden gaan: "frequently used ball" - "vaak gebruikte bal". Daarnaast hebben woorden een 'geslacht', wat je terug ziet in het Duits. Zo noemen we "de poltie" ook wel "ze" en "het aanrecht" is geslachtsloos, iets wat je in het Duits ook terugziet.

Wat maakt onze taal dan zo uniek?
Niet zo heel veel eigenlijk, te meer omdat we door de jaren heen onze taal ook flink hebben zitten te versimpelen. Niet altijd naar mijn smaak overigens, maar dat terzijde.

Unieker dan vele andere talen in Europa is het gebruik van (de hoeveelheid) leenwoorden, we gebruiken en passant woorden en uitdrukkingen die an sich niet uit het Nederlands komen, maar en masse door nederlanders begrepen wordt, zelfs voordat het uberhaupt in het woordenboek is opgenomen.

Ik vind het in de meeste gevalllen een verrijking, maar kan ook gruwelen als ik zinnen hoor als "meid, die dress die je hebt geshopt staat je zo fabulous, je gaat er helemaal van shinen".

Soms vind ik ook dat we moeten nagaan of het leenwoord wel beter is dan een eigen alternatief, is bijvoorbeeld een "zelfje" niet een veel mooier woord dan een "selfie"? In dat opzicht vind ik dat onze zuiderburen daar meestal een stuk consequenter mee omgaan.
Bedankt voor je reactie -- ondanks dat ik hem nu pas zie :)
Alleen is dat absoluut geen Nederlands, maar gewoon taalverloedering.


Ik vind het stukje in het artikel waar staat dat mensen de Duitse naamvallen simpel op de juiste manier gebruiken toch wel een beetje overenthausiast geschreven, een Duitser doet dit misschien simpel, maar ik heb er na al die jaren nog steeds geen benul van welke de juiste is en doe dus ook meestal maar iets dat leuk klinkt :P
Naamvallen in het Duits zijn niet zo logisch als ze lijken. In veel gevallen zijn ze eerder een complicerende factor.
Het opvallende van dit onderzoek is dat het zo gericht is op grammatica. De afgelopen jaren was de trend bij dit soort software juist om grammatica te laten voor wat het was en gewoon naar veelgebruikte woordcombinaties te kijken. Als je een grammaticaal vertaalsysteem wilt bouwen lijkt me Latijn een betere taal, omdat die grammatica veel minder uitzonderingen heeft dan het Duits. Maar misschien was dat juist weer te makkelijk.
Volgens mij hebben veel Duitsers er ook moeite mee.
Duitsers spreken doorgaans de naamvallen wel correct, maar komt vanuit het gegeven dat ze hun hele leven de taal al spreken en niet zozeer omdat ze het vanuit de regels kennen.

Een beetje vergelijkbaar met dat je weet dat het "het paard" is en niet "de paard". Toch weet 90% van de Nederlanders niet de achterliggende reden uit te leggen.

Zelf vind ik het nogal zuur dat Duitse les op de middelbare school wel erg veel nadruk legt op het goed kennen van de naamvallen, ik spreek/mail nu grote delen van de dag in het Duits wat me goed afgaat (en nu langzamerhand ook naamvallen automatisch goed begin te krijgen), maar ik heb er op school nooit een voldoende voor kunnen krijgen.
Anoniem: 372378 @HMC24 oktober 2014 11:25
Kon het niet laten. google translate detecteerde het als nederlands. Naar het engels is het:
NL: Ja tog, niet dan, nou dan, tsal tog is tijd worden.
EN: Yes tog, is not it, well then, Tsal tog is about time.

Vind het lang niet slecht.
Nederlands is geen makkelijke taal, maar lang niet de lastigste op de wereld.
Ik vraag me af hoe dit precies werkt? Is het een stukje software dat je draait op een main frame of kan het ook draaien op een server? Op welke taal is het gebaseerd? Zitten er API's ingebouwd om er makkelijk mee te kunnen communiceren?
Ik denk dat dit meer een algorithme is dan een compleet kant en klaar product wat je als service zou kunnen draaien met zijn API. Of zo een service nou op een X86 server draait of op een IBM mainframe zie ik niet echt een wezenlijk verschil in.
Een verbetering in automatisch vertalen zou voor vele mensen echt een pluspunt zijn! Hoe sommige uitspraken nu nog vertaald worden door de translators slaat echt nergens op.
Maar ik vraag me af of je het uberhaupt ooit perfect gaat krijgen? omdat sommige woorden gewoon zoveel verschillende betekenissen hebben.
Het grote verschil is duidelijk dat de computer de grammatica niet dient te kennen, maar dit aangaande leert. Zoals een mens veelal wel leert spreken, zonder eigenlijk te begrijpen hoe een zin precies is opgebouwd. Termen plakken op wat de functie van elk woord in een zin is gebeurt pas later.
Ja, inderdaad. Vooral het woord 'voorkomen' is zo'n absurd vaak dubbel gebruikt:

"We moeten voorkomen om bij de rechter te moeten voorkomen, maar het kan bij sommige mensen toch wel eens voorkomen."

3x zelfde woord in andere context, vooral de klemtoon kan de woorden duidelijker maken. :*)
"We moeten voorkomen om bij de rechter te moeten voorkomen, maar het kan bij sommige mensen toch wel een voorkomen"
Google vertaling in het Engels:
"We must avoid having to prevent the courts, but it can still sometimes occur in some people."

"We moeten vermijden om bij de rechter te moeten verschijnen, maar het kan bij sommige mensen (toch) gebeuren."
Google vertaling in het Engels:
"We need to avoid having to appear in court, but it can happen in(?) some people (yet)."

Ik denk toch dat de tweede zin een iets betere vertaling oplevert dan de eerste.
Maar je ziet zelf dat dit (nu toch nog) niet perfect gebeurt.

[Reactie gewijzigd door Ronald_VR op 24 juli 2024 22:37]

Maar ik vraag me af of je het uberhaupt ooit perfect gaat krijgen? omdat sommige woorden gewoon zoveel verschillende betekenissen hebben.
Eigenlijk vraag je of een menselijk brein zo fundamenteel anders is dat computers het onmogelijk na kunnen doen. Ik geloof niet in hogere machten of dat het leven iets bovennatuurlijks is. Hersens zijn uiteindelijk gewoon opgebouwd en atomen en electrische impulsen. Het is misschien ingewikkeld maar ik geloof niet dat we dingen kunnen die niet gereproduceerd kunnen worden. Ik denk dat een nagenoeg perfecte vertaling wel degelijk mogelijk is.

Er wordt wel vaker geroepen dat iets te moeilijk is voor de computer. Tientallen jaren lang was de algehele opinie dat computers wel nooit zouden leren schaken. Tegenwoordig verliezen de meeste mensen het zelfs van een eenvoudig schaakprogramma. Over computergestuurde auto's werd hetzelfde gezegd maar die maken nu ook grote stappen vooruit.

Het grootste probleem dat ik zie is gebrek aan algemene kennis en context. Een menselijk hoofd zit vol met kennis over de wereld die gebruiken om taal te begrijpen. Toen ik hierboven over computergestuurde auto's schreef heb jij waarschijnlijk aan de Google-auto gedacht. Om echt goed te kunnen vertalen moet je dat soort kennis hebben.

Perfect is overigens een beetje vervelend woord in deze context omdat we allemaal een beetje anders spreken. Wat een Limburger goed in de oren klinkt kan een Amsterdammer juist verkeerd vinden, of andersom. Van de andere kant is dat een voordeel. We zijn er aan gewend dat teksten vaak net een beetje anders zijn dan we het zelf zouden doen en kleine foutjes bevatten. Van een computer zullen we die kleine foutjes dan ook wel accepteren.
ben ik de enige die dacht dat dit al jaren werdt toegepast? hopelijk wordt dit snel in de vertaal engines gebruikt. de kennis van taal gaat denk ik al jaren achteruit door het gebruik van vertaalcomputers.
Ik had dit ook verwacht, echter zegt het artikel niet echt heel veel en is typisch een gevalltje van "devil is in the details". De manier waarop je de neurale netwerken kan modelleren is zo uiteenlopend dat je niet simpelweg kan zeggen dat neurale netwerken 10 jaar geleden al gebruikt werden en we daar dus geen verbetering meer in mogen verwachten.

Ben benieuwd naar het wetenschappelijke paper, echter ben ik nooit helemaal thuis geweest in Natural Language Processing dus dit wordt leesvoer voor langere tijd om het compleet te begrijpen.
Paper hier: http://ilps.science.uva.n...nl/files/EMNLP2014175.pdf
Ik vraag mij af of dienstdn zoals Google Translate hier gebruik van mogen maken, of dat Google met het team samen kan werken a la nieuws: Google neemt onderzoekers Oxford University in de arm voor machine learning
Universiteit van Antwerpen?
Een team onderzoekers verbonden aan de Universiteit van Amsterdam hebben zich daarom specifiek gericht op morfologisch rijke talen, waarbij de taal diverse woordvormen per woordgroep kent.

Op dit item kan niet meer gereageerd worden.