De stand van zaken in machinaal vertalen

Technology Review heeft een artikel gepubliceerd over de stand van zaken in geautomatiseerd vertalen. Hoewel de kwaliteit van vertalingen die door computers zijn geproduceerd de laatste twintig jaar aanzienlijk is verbeterd, zijn sommige resultaten nog grotendeels onbegrijpelijk. Eerder deze maand was AvMedia in het nieuws met Translating Proxy dat on-the-fly chatgesprekken vertaalt. In augustus vorig jaar kwam Googles vertaaldienst nog als beste uit een test die door DARPA was gesponsord. Ook de vertaaldienst van Babel Fish geniet al de nodige bekendheid. Al deze services schieten echter tekort als het gaat om professionele vertalingen. Wanneer bedrijven onderhandelingen voeren of wanneer militaire plannen worden gemaakt, is er geen ruimte voor onduidelijkheden veroorzaakt door vertaalfouten. Volgens Kevin Knight, verbonden aan Information Sciences Institute van de University of Southern California (USC) en mede-oprichter van het bedrijf Language Weaver, komen de huidige problemen voor omdat vaak nog een traditionele aanpak wordt gebruikt bij het vertalen.

Woordenboek Traditioneel gebruikt vertaalsoftware algoritmen die door duizenden grammaticaregels zoeken voor de omzetting van een taal naar een andere. Veel van deze regels en de uitzonderingen op de regels worden handmatig ingevoerd. De complexiteit van de verzameling regels heeft tot gevolg dat er regels zijn die elkaar tegenspreken. 'Door bijvoorbeeld de vijfduizendste regel toe te voegen, gaan er soms eerdere dingen kapot', aldus Knight. Zijn bedrijf en een handvol onderzoekers - waaronder van Google - hebben een andere aanpak voor het probleem. In plaats van het volgen van vaste grammaticaregels, worden woorden en zinsneden tussen talen gematcht op basis van de kans dat die woorden en zinsneden in een bepaalde context voorkomen. Deze statistische aanpak is gebaseerd op een groot aantal reeds vertaalde documenten en is in de negentiger jaren voor eerst door IBM toegepast. IBM gebruikte hierbij de database van verslagen van het Canadese parlement die in zowel Frans als Engels beschikbaar waren.

De statistische variant produceert niet alleen betere vertalingen, maar de vertalingen die deze methode voortbrengt, worden ook steeds beter. Des te meer documenten de vertaalsoftware tegenkomt, des te waarschijnlijker wordt het dat zinsneden uit de twee talen correct worden gekoppeld. Knight geeft aan dat een aantal jaar geleden het alleen mogelijk was om het algemene onderwerp te ontcijferen uit Arabische of Chinese teksten naar het Engels. Nu is het mogelijk om tot op zinsniveau de tekst te ontleden. De winst die Google in augustus wist te behalen in de vertaalwedstrijd, is volgens Knight te danken aan het feit dat Google het gehele internet kan gebruiken voor zijn database met vertaalde documenten. Ook het grote aantal servers dat het internetbedrijf kan inzetten zal meegeholpen hebben om de overwinning veilig te stellen.

Vertaalmachine In 2005 kondigde DARPA het 'Global Autonomous Language Exploitation'-programma aan. GALE heeft tot doel om het machinaal vertalen van documenten te versnellen die door het overkoepelende programma van het 'Linguistic Data Consortium' zijn verzameld. GALE zal de talige inhoud van nieuwsbronnen en talkshows in het Arabisch, Chinees en Engels verzamelen en opslaan. Daarnaast categoriseert het nieuwsbronnen, discussiegroepen op internet en blogs in deze drie talen. Voorlopig is het project alleen gegevens aan het verzamelen, waarbij veel werkzaamheden nog handmatig worden uitgevoerd door onderzoekers.

Ook met een grote verzameling voorvertaald materiaal blijven er uitdagingen bestaan. De volgende stap zal zijn om grammaticale fouten uit de vertalingen te halen die ontstaan wanneer woorden en zinsneden aan elkaar worden geplakt. Dit corrigeren kan worden gedaan door het indexeren van miljoenen zinnen waarvan de structuur door de University of Pennsylvania (Penn) in de jaren negentig is vastgelegd. Hiervoor hebben de onderzoekers destijds vijftigduizend zinnen uit de Wall Street Journal gebruikt. Ook op de grammatica kan vervolgens de statistische methode worden toegepast om de meest waarschijnlijke woordvolgorde te bepalen. Traditioneel worden ook de grammaticaregels vastgelegd in algoritmen. Door gebruik te maken van de geanalyseerde zinnen, kan de vertaalsoftware waarschijnlijkheden en gewichten aan de grammaticaregels toekennen. Hierdoor kan de juiste context met een grotere zekerheid bepaald worden, waardoor de kans toeneemt dat de juiste grammaticaregel toegepast wordt.

Lost in Translation In bepaalde opzichten zal de statische aanpak echter slechts zo goed werken als de eerder genoemde IM-vertaler van AvMedia. Eigennamen bijvoorbeeld kunnen zelfs de beste machinevertaler laten struikelen. Vaak worden de namen gewoon vertaald met de rest van de tekst. Volgens zijn eigen vertaalsysteem is de Spaanse versie van Knights naam bijvoorbeeld nog steeds 'Caballero'.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Thijs Terlouw

Nieuwsposter

Feedback • 21-01-2006 18:03 49

21-01-2006 • 18:03

Bron: Technology Review

Lees meer

Google start vertaalbemiddeling om algoritmes te voeren Nieuws van 4 augustus 2008

Google brengt vertaal-api uit Nieuws van 23 maart 2008

Nederlanders claimen realtime vertaaltool Chinees-Engels Nieuws van 2 november 2006

Google wil microfoon inzetten voor gerichte reclames Nieuws van 4 september 2006

Oxford en Webster nemen Google op als werkwoord Nieuws van 7 juli 2006

Yahoo verslaat Google op Chinese markt Nieuws van 22 juni 2006

Yahoo biedt Babel Fish een nieuw onderkomen Nieuws van 30 april 2006

Google gebruikt nieuw algoritme voor resultaatweergave Nieuws van 10 april 2006

Zoekterrein Google gaat van nu tot nul Nieuws van 11 februari 2006

Directe vertaling van Yahoo-chats met Translating Proxy Nieuws van 8 januari 2006

Google wint vertaaltests Nieuws van 23 augustus 2005

Meer producten en artikelen

Wetenschap

IT-banen

Meer vacatures

Reacties (49)

-Moderatie-faq

Wijzig sortering

PipoDeClown 21 januari 2006 18:39

hoe weet een machien wat ik bedoel met "i saw the girl with the binoculars" ?

PAKMAN79 @PipoDeClown • 21 januari 2006 18:47

@ altavista babelfish: ik zag het meisje met de verrekijkers...

@translate.google.com: ich sah das Mädchen mit den Binokeln... (geen UK >> NL mogelijk)

Helemaal correct dus

En er wordt niet gezaagd

it0 @PAKMAN79 • 21 januari 2006 19:57

Hoe weet je nou dat het helemaal correct is?

ik zag het meisje met de verrekijkers

1) er is maar 1 verrekijker en geen meervoud
2) zag je met behulp van een verrekijker een meisje
3) zag je een met meisje dat een verrekijker vast hield
4) zaagde je een meisje met een verrekijker

2,3 en zelfs 4 zijn mogelijk, 4 is natuurlijk krom geschreven maar zelfs wij kunnen niet zeggen of je zin 2 of 3 bedoelde zoals door de vorige opgemerkt. Dus als wij als mens dat onderscheid niet kunnen maken afgaande op 1 zin hoe moet de machine dat doen?

Normaal doe je dat met context en dan nog maken mensen fouten. De machien doet het hier met statistieken omdat de context ontbreekt.

Met natuurlijke taalverwerking blijft het probleem van de laatste loodjes..

Milky Way @it0 • 22 januari 2006 16:27

binoculars is meervoud dus zal de vertaling dat ook zijn.
en je kunt maar door 1 verekijker (binocular) naar het meisje kijken.

dan vallen 1 en 2 af.

martijnvanegdom @PipoDeClown • 21 januari 2006 19:03

Ook jij kan op basis van deze ene zin niet bepalen wat de juiste vertaling is. Daarvoor is er een context nodig.. (En ja deze zin is zeker wel ambigue) en dus zal ook een vertaler naar de context moeten kijken

microsofty710 @PipoDeClown • 21 januari 2006 18:43

Lijkt me niet ambigue toch? Jij bent een dame mbv een verrekijker aan het zagen...

Tootoo @microsofty710 • 21 januari 2006 18:51

Maar ook Ik zag een dame met een verrekijker welke je op 2 manieren kan opvatten

En dat is dus inderdaad erg lastig te vertalen

ATS @Tootoo • 22 januari 2006 00:24

Het leuke is: jouw vertaling is precies goed. Het heeft dezelfde dubbelzinnigheid als de originele zin, waardoor er veraaltechnisch helemaal geen probleem is. Het wordt pas ingewikkeld als er:
a) geen context is waaruit de correcte betekenis blijkt, en
b) de verschillende mogelijkheden in de doeltaal twee (of meer) verschillende niet-dubbelzinnige vertalingen zijn.

Verwijderd @PipoDeClown • 22 januari 2006 15:03

Er zijn nog wel lastigere zinnen te bedenken: the label on the case said in case of fire break glass, in upper case letters.
De essentie van het probleem is volgens mij, dat je pas echt goed kunt vertalen als je de tekst ook echt begrijpt. En wat dat betreft heeft AI nog een hele lange weg te gaan.

McChouffe 21 januari 2006 18:19

Ik vraag me ook af hoe deze systemen kunnen inspelen op wijzigende taalomstandigheden. Taal is een dynamsch iets, wat constant in evolutie is.

MneoreJ @McChouffe • 21 januari 2006 19:45

1. Professionele, zakelijke taal, waarop dit project zich richt, is juist niet aan snelle verandering onderhevig. Het verandert wel, maar langzaam. Nieuwe begrippen ontstaan wel steeds, maar die zijn eenvoudig toe te voegen.
2. Juist bij de statistische aanpak is aanpassing veel eenvoudiger dan de aanpak met regels, als je het systeem maar blijft voeren. Je zet hierbij een soort "lopend gemiddelde" op dat min of meer overeen zou moeten komen met hoe taal gebruikt wordt.

Voeg hierbij wel de standaard disclaimers in... Hoe "bruikbaar" zulke systemen ook zullen worden, "goed" zullen ze niet vaak genoemd kunnen worden. Er is nog nooit een vertaalsysteem geweest dat niet makkelijk overklast werd door menselijke vertalers -- waar het op kwaliteit aankomt. Kwantiteit is een heel ander verhaal, en daar gaat het hier natuurlijk om.

PAKMAN79 21 januari 2006 18:27

Wat betreft het 'probleem' met eigennamen lijkt me makkelijk te omzeilen met een teken achter het woord bij invoeren van de originele tekst.
Gewoon Giuseppe* Verdi* zo (met *) schrijven zodat het geen Joe Green wordt

Toch zie ik wel voordeel in het gebruik van een softwarematige vertaling samen met een menselijke vertaler die de boel naloopt. Het zal toch tijd schelen dan alles manueel te vertalen, hoeveel tijd het scheelt is afhankelijk van de kwaliteit van de software.

Professionele vertalers hoeven zich volgens mij nog geen zorgen te maken.

HellPunk @PAKMAN79 • 23 januari 2006 11:40

Uit eigen ervaring weet ik dat correctiewerk vaak even lang duurt als vertaalwerk, het is geen kwestie van 'even de fouten eruit halen'. Alleen al daarom moeten vertalers zich geen zorgen maken: als de software feilbaar blijkt moet er toch nog gecorrigeerd worden

paazei 21 januari 2006 18:23

Hoe dan ook, zal een machine ooit sarcasme kunnen onderscheiden? Daar is wel meer voor nodig dan regels en matchen.

martijnvanegdom @paazei • 21 januari 2006 19:01

ja hoor... AI .. Sarcasme heeft ook gewoon kenmerken.. en dus inprincipe na te bootsen.

AI begint zich steeds meer te ontwikkelen.. En zal waarschijnlijk in veel dingen beter dan de mens. Vele voorbeelden zijn al te vinden..
Schaken bijvoorbeeld.. Gebaseerd op regels, maar toch speelt gevoel mee..

Omdat wij mensen informatie verwerken met onze hersenen, de werking van onze hersenen na te maken valt via neurale-netwerken komen we uit eindelijk best in de buurt..

H!GHGuY @martijnvanegdom • 21 januari 2006 21:47

ik vraag mij af of er veel onderzoek is naar taal adhv AI.

het lijkt me namelijk logisch dat als je dan je AI traint door middel van het WWW je een behoorlijk goed getrainde machine krijgt die een taal kan ontleden en omzetten in een soort IL die dan met de omgekeerde machine terug kan omgezet worden naar een andere taal.

araminta @H!GHGuY • 22 januari 2006 11:05

Daar wordt veel onderzoek naar gedaan, maar connectionistische (neuronale netwerken) en statistische parsers/vertalers zitten nog dermate in de kinderschoenen dat je er niet vaak successen over hoort.

Iet @martijnvanegdom • 21 januari 2006 19:49

Uhm, nee... schaken is puur kansberekening. Alleen bij mensen heeft dat met gevoel te maken.

the_stickie @Iet • 21 januari 2006 21:38

@let:hoewel er al wel een massa schaakprogramma's zijn die "gokken" welke zetten het nuttigst zijn om eerst door te rekenen. Dit gebeurt op basis van "vage" paramters zoals borddekking.
Natuurlijk is dat niet "op het gevoel". Maar ons "gevoel" werkt imho ook volgens vastgestelde parameters.

In vertalingen komt dit ook nog steeds naar voren: "het gevoel". Maar taal is veel vaster omschreven dan we soms denken. Niet dat alles mooi volgens gestructureerde regels verloopt en een georganiseerd geheel vormt, maar het is wél voorspelbaar, vast en welomschreven. zelfs constructies die uitig brengen aan sarcasme en dergelijke bestaan en zijn vast. maar het "vatten" ervan, is aan sommigen niet besteed, soms ook niet aan programmeurs

Los daarvan, gaat het hier vnl of de strakke 1-op-1 vertaling van zakelijke teksten of wetgeving... daar is sarcasme helemaal niet van toepassing

Morax @paazei • 23 januari 2006 06:50

Waarom zou het systeem sarcasme moeten herkennen dan? Het vertalingssysteem hoeft de tekst alleen te vertalen, niet te begrijpen

Verwijderd @Morax • 23 januari 2006 16:41

Dat hangt af van je definitie van 'begrijpen'.

Als er een tekst is met daarin een zekere 'gelaagdheid', dan valt het niet mee die zo te vertalen dat geproduceerde tekst die ook bevat. Denk maar eens aan religieuze teksten; veel mensen zoeken een betekenis achter de tekst, deze zal bij een 'letterlijke' vertalen niet meer te vinden zijn.

Elke vertaling is een interpretatie.

Verwijderd 21 januari 2006 18:13

Het is natuurlijk fantastsch dat je een machine kan laten vertalen.

Maar zal een machine ooit even slim zijn als een mens, op het gebied van vertalen?
Ik denk het niet.

Vaak hebben machine's maar een paar vertalingen van woorden, die vaak voorkomen, maar juist door zeldzame vertalingen van een woord, wordt het vertalen moeilijk.

Google en Dictionary.com zijn mijn favorieten.

Maar de ultieme vertaalmachine ben ik zelf, met een woordenboek erbij!

ebx @Verwijderd • 21 januari 2006 18:19

Ik vermoed zelf dat er een tijd komt dat machines beter kunnen vertalen dan een mens, zeker voor objectieve teksten.

Uiteindelijk is een taal volledig gebaseerd op regels en afspraken.
Ook uitdrukkingen en gezegden behoren tot een lijst dat in ons geheugen zit, dus ook op de PC zijn geheugen kan gezet worden.

Subjectieve teksten met sarcasme en info tussen de regels wordt natuurlijk een stuk moeilijker, maar ik geloof dat het moet kunnen.

Natuurlijk is een taal een complexe zaak, dus zal het nog enige tijd vergen eerdat er goede soft komt, maar zijn computer nu juist niet goed in complexe zaken uitrekenen als er goede regels bestaan ?

Enige vereiste is natuurlijk dat de input correct is .. en daar durft het wel eens haperen.

Brupje @ebx • 21 januari 2006 19:46

Uiteindelijk is een taal volledig gebaseerd op regels en afspraken.
Ook uitdrukkingen en gezegden behoren tot een lijst dat in ons geheugen zit, dus ook op de PC zijn geheugen kan gezet worden.

Die regels en afspraken zijn een aftekening van onze taal. Onze taal is zo onlogisch en complex dat we het zelf niet eens perfect kunnen.

Aaargh! @ebx • 21 januari 2006 21:26

Uiteindelijk is een taal volledig gebaseerd op regels en afspraken.
Ook uitdrukkingen en gezegden behoren tot een lijst dat in ons geheugen zit, dus ook op de PC zijn geheugen kan gezet worden.

Om een computer echt te laten vertalen (dus niet woordjes opzoeken in het woordenboek maar echt de betekenis omzetten) is het nodig dat hij 'begrijpt' wat er staat. Dit is heel erg moeilijk, omdat er een heleboel kennis over hoe de wereld werkt nodig is om een stuk tekst te kunnen begrijpen.

Verwijderd @Aaargh! • 22 januari 2006 01:45

Dit is heel erg moeilijk, omdat er een heleboel kennis over hoe de wereld werkt nodig is om een stuk tekst te kunnen begrijpen.

Inderdaad, alleen al om die reden zijn voor talen studies geschiedenis en cultuur ook al heel belangrijk. Voor een menselijke vertaler zijn dit soort uiterest gespecialiseerde dingen al van belang. Een computer heeft niet eens 'begrip' van de basis wereld.

Als voorbeeld:

"Het orange-gevoel was weer helemaal terug in het land."

Vrij moeilijk te vertalen als je helemaal niks weet van de nederlandse cultuur.

"De man gaf mij een boek. Ik keek nog even naar de plant en gaf het toen aan hem terug."

De menselijke vertaler begrijpt de gebeurtenis. Er gaat een fysiek object van persoon 1 naar persoon 2. Persoon 2 voert een actie uit en geeft het object terug.

Een computer kan (nog) niet in die termen beredeneren. Die ziet met moeite dingen als "zelfstandig nw, ww, mwvw, nw". Met nog een beetje meer moeite weet de computer dat "het" in de 2de zin op een zw moet terugslaan, maar welke?

Voor een vertaling kan dit soort 'begrip' van de zin van essentieel belang zijn. Inderdaad zie je ook soms kromme vertalingen waarbij juist dit soort dingen fouten introduceerd.

Crazz @ebx • 21 januari 2006 21:22

Ik vermoed zelf dat er een tijd komt dat machines beter kunnen vertalen dan een mens, zeker voor objectieve teksten.

Dat lijkt me volstrekt onmogelijk aangezien mensen degenen zijn die bepalen wat een (bijv.) Engels woord in het Russisch betekent. Of gaan we de richting van de Matrix op waarin machines de dienst uitmaken?

microsofty710 @Verwijderd • 21 januari 2006 18:36

Vaak hebben machine's maar een paar vertalingen van woorden, die vaak voorkomen, maar juist door zeldzame vertalingen van een woord, wordt het vertalen moeilijk.

Dit is juist iets wat (genormaliseerde) statistische vertalers aan kunnen pakken. Het kan zijn dat een van de minst waarschijnlijke vertalingen (op woord niveau) de juiste is. Maar dat dit uiteindelijk de meest waarschijnlijke wordt als er rekening gehouden word met de waarschijnlijkheid van de woordvolgorde.

simplistisch voorbeeld:
W = ArgMax( P(woord) x P(zin) )

ofwel: de beste vertaling is de combinatie van de waarschijnlijkheid van de betreffende vertaling van het woord en de waarschijnlijkheid van het voorkomen of de betekenis van de zin. Natuurlijk kunnen er meer variablen meegenomen worden._Denkstof!_

Verwijderd 21 januari 2006 20:28

Goed, even de eerste alinea van dit artikel vertaald naar het Engels met Babel Fish. Vervolgens terugvertaald naar het Nederlands:

Het Overzicht van de technologie heeft Artikel betreffende het overzicht in geautomatiseerd vertaalt gepubliceerd. Hoewel de kwaliteit van vertalingen die door computers de laatste twintig jaar aanzienlijk zijn veroorzaakt heeft verbeterd, zijn vloeit wat nog hoofdzakelijk voort onbegrijpelijk. Maand vroeger was dit AvMedia in het nieuws met het Vertalen van Volmacht die tijdens de vlucht vertalen chatgesprekken. In augustus kwam het vorige jaar Googles vertaaldienst nog als bests uit test die door DARPA het was gesponsord. Ook geniet vertaaldienst van de Vissen van Babel reeds van de noodzakelijke reputatie. Al deze diensten ontspruiten nochtans tekort als het professionele vertalingen betreft. Wanneer onderhandelingengedrag bega of wanneer de militaire plannen worden gemaakt, is geen ruimte voor obscurities veroorzaakt langs vertaalfouten. Volgens Kevin Knight, met betrekking tot het Instituut van de Wetenschappen van de Informatie van Universitair of Zuidelijk Californië (USC) en mede-oprichter van de Wever van de bedrijftaal, komen de huidige problemen voor omdat vaak nog een traditionele behandeling bij het vertalen wordt gebruikt.

Tot zover Babel Fish. Het valt me nog mee, maar is het Nederlands?

MneoreJ @Verwijderd • 21 januari 2006 23:20

Ja hee, wel eerlijk blijven. Die programma's zijn niet ontworpen voor meerdere vertaalslagen achter elkaar. Ze kunnen ook niet beoordelen of het resultaat wel in orde is.
Je kunt wel een vertaalprogramma schrijven dat van A naar B en weer terug kan vertalen zodanig dat het origineel er weer uitrolt, maar dat is niet interessant.

Daarnaast, dat gaat mensen ook niet goed af, hoor. Een vertaling van een vertaling zal altijd minder kwaliteit hebben dan een rechtstreekse vertaling, al zal het bij menselijke vertalers natuurlijk wel zo zijn dat het resultaat grammaticaal is.

Verwijderd @MneoreJ • 22 januari 2006 23:41

Mmm... Als ik een tekst eerst naar het Engels vertaal en jij vertaalt daarna het resultaat terug naar het Nederlands is het uiteindelijke resultaat nog steeds wat, al zal het niet gelijk zijn aan het origineel. Het resultaat van de Vissen van Babel is pure flauwekul...

Maar goed, een enkelvoudige vertaling dan. Hier is de opening van BBC News vandaag (zondagavond):

[quote]
Liberal Democrats must show "unity and purpose" after Mark Oaten resigned over an alleged affair with a rent boy, said acting leader Sir Menzies Campbell.
A newspaper claimed the father-of-two, who quit as home affairs spokesman, had a relationship with a 23-year-old man.

The Winchester MP, 41, has apologised to his family and appealed for privacy.
[\quote]

Hier zijn de Vissen van Babel:

[quote]
De liberale Democraten moeten "eenheid en doel" na Oaten Teken tonen gelaten over een zogenaamde zaak met een huurjongen, bovengenoemde waarnemende leider de Heer Menzies Campbell. Een krant eiste vader-van-twee, die ophielden met aangezien Binnenlandse Zaken de woordvoerder, een verhouding met een 23-jaar-oude mens had. De Winchester MP, 41, heeft zich aan zijn familie verontschuldigd en verzocht om privacy.
[\quote]

Tsss... Een huurjongen...

Verwijderd 21 januari 2006 20:46

Dit bevestigt alleen maar dat er geen enkele taal is die logisch in elkaar zit

Paitor @Verwijderd • 22 januari 2006 04:57

technisch gezien heb je ongelijk

Dit bevestigt dat er geen twéé talen zijn die logisch zijn.
Een logische taal zou namelijk nog niet perfect in een niet-logische taal kunnen vertalen, slechts een tweetal logische talen kan dat.

Verwijderd @Paitor • 23 januari 2006 00:39

Ah, maar misschien zijn die talen wel logisch, maar heeft Babel Fish die logica niet echt door.

Bijvoorbeeld, als Babel Fish de woorden "Babel Fish" vertaalt als "Vissen van Babel" heeft het systeem kennelijk niet door dat "fish" hier enkelvoud is en geen meervoud.

Om dat te weten heb je nogal wat achtergrondkennis nodig (komt uit de "Hitchhiker's Guide"), maar ook hele eenvoudige regeltjes worden overtreden. Neem bijvoorbeeld de volgende niet-zin, die uit Babel Fish komt rollen:

Een krant eiste vader-van-twee, die ophielden met aangezien Binnenlandse Zaken de woordvoerder, een verhouding met een 23-jaar-oude mens had.

Een taalgebruiker weet dat er na "een krant eiste" het woord "dat" moet volgen, en dat er daarna een zin
volgt. Maar de Vissen hebben dat niet door. Dus er zit wel logica in de taal, maar niet in de Vissen.

Dat hoeft overigens helemaal niet. Er zijn inmiddels goede systemen ontworpen die gewone taal kunnen ontleden en er de logica uit kunnen halen. Zie bijvoorbeeld
hier
of hier.

hondeman 22 januari 2006 10:07

Als de vertaal-machines ook de verschillende fora (forums?) meenemen in hun statistieken, kan er best een grappige vertaling uitrollen. Met al die stijl- en spelfouten die hierin gemaakt worden....

Verwijderd @hondeman • 22 januari 2006 18:20

Dat brengt geen zoden aan de dijk: de machines hebben een tekst nodig die in twee of meer talen beschikbaar is; welke fora vertalen alle inzendingen, al dan niet vol stijl- en spelvauten in een andere taal?

dyna18 21 januari 2006 18:50

Dat het zo moeilijk is voor computers om taal te begrijpen (en bijv naar een andere taal om te zetten), ligt dat niet gewoon eraan dat de taal die in de loop van vele jaren is ontstaan gewoon hardstikke moeilijk en onlogisch is?

Moet je alleen al eens kijken hoeveel fouten mensen in taal maken.

Misschien een ideetje om een duidelijkere taal te ontwerpen die wel logisch is

user109731 @dyna18 • 21 januari 2006 19:23

Misschien een ideetje om een duidelijkere taal te ontwerpen die wel logisch is

Zo'n taal bestaat al... Zoek eens op Esperanto...

ATS @dyna18 • 22 januari 2006 00:29

Nee, het voornaamste probleem is dat het juiste gebruik van een taal een enorme kennis van de wereld en zelfs van de cultuur van de spreker vereist. Taal verwijst op zeer complexe manieren naar de wereld om ons heen, en krijgt zo betekenis. Het goed interpretteren en gebruiken van een taal vereist kennis van die wereld. Goed vertalen is in feite nog lastiger, omdat je niet alleen kennis moet hebben van de culturele context van de bron, maar ook van het doel. De benodigde kennis is dus nog veel groter dan bij het sec begrijpen van een enkele taal.

martijnvanegdom @dyna18 • 21 januari 2006 19:04

Talen zijn ook gewoon gebaseerd op regels. Alleen er zijn heel erg veel regels, en sommige regels spreken elkaar een beetje tegen.. En dus is het heel erg moeilijk want kloppen de regels nog wel?

araminta @martijnvanegdom • 22 januari 2006 11:12

'Gewoon'?! Talen zijn gerepresenteerd in je hersenen. Het is nog maar zeer de vraag of er een verzameling regels op te stellen is die een taal in een geautomatiseerd systeem kan representeren. Grey matter is wel even wat anders dan een CPU.

nottofret @martijnvanegdom • 22 januari 2006 13:48

Succes in machinaal vertalen via de statistische manier zou kunnen leiden tot taalverarming. Betekenisdragende elementen dragen vaak meerdere vormen van betekenis. Als de context als bepalend wordt gezien voor de interpretatie van die vorm van betekenis (zoals in de beschreven statistische methode) en de vertaalsoftware de mediaan pakt, de interpretatie met de meeste hits, zou een toename in het aantal automatisch vertaalde documenten logischerwijs het aantal hits voor die interpretatie kunnen vergroten. Wanneer de verhouding tussen automatisch vertaalde teksten en handmatig vertaalde teksten dan een bepaalde drempel bereikt, zal het systeem zichzelf gaan voeden. Het zou dan mogelijk zijn dat bepaalde vormen van betekenis uit de betekenisdrager zouden verdwijnen. De taalomgeving zou zich dan wellicht aanpassen door het ontstaan van nieuwe betekenisdragers als alternatief, of door het verlies van betekenis in de taal. Het zou anderzijds evengoed mogelijk zijn dat de taalomgeving zich niet aanpast. In dat scenario zou het domein van automatische vertalingen via de statistische methode nooit de variatie in het betekenisbereik van de natuurlijke taal kunnen halen.

Een mooi voorbeeld van het verlies van betekenis laat zich zien bij de generatieven, de huidige bezetting van de Taalunie. Zij hebben besloten dat Frankrijk voortaan zal worden afgebroken als Fran-krijk ipv Frank-rijk, omdat zij er zelf geen gelede samenstelling meer uit weten te halen (namelijk Frank en rijk). Zij zien kennelijk zelf de betekenis van het woorddeel Frank niet meer (NB de Franken waren een volk). Door hun beperkte visie op te leggen aan alle gebruikers van de Nederlandse taal via het nieuwe "Groene Boekje" is het mogelijk dat over tien twintig jaar inderdaad de betekenis van Frank in Frankrijk zal zijn verdwenen.

piderman @dyna18 • 21 januari 2006 19:25

Enter Esperanto. Ik heb er zelf nooit naar gekeken, maar het schijnt dat alle regels op een A4tje passen (met normale lettergrootte

), en het heeft geen uitzonderingen. Ik vraag me af of die computer-vertalers daar minder moeite mee hebben.

EDIT: Weer te laat

Slevin 22 januari 2006 14:49

Volgens zijn eigen vertaalsysteem is de Spaanse versie van Knights naam bijvoorbeeld nog steeds 'Caballero'.

Wat al meteen fout is, want Knights is meervoud en Caballero is enkelvoud, het zou dus Caballeros moeten zijn.
Zeer goed vertaalsysteeme die Knights dus

Verwijderd @Slevin • 22 januari 2006 18:23

Err --- het is Kevin Knight, zie artikel. Zijn progje heeft het dus gewoon juist.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (49)

Sorteer op:

Weergave: