Google wint vertaaltests

Het Amerikaanse National Institute of Science and Technology heeft onlangs een test uitgevoerd van een aantal automatische vertaalmachines. De test bestond uit het vertalen naar het Engels van honderd Chinese en Arabische artikelen afkomstig van een Frans en een Chinees persbureau. De vertaalmachine van Google deed het het beste, met voor de Arabische vertaling een score van 0,51 op een schaal van 0 tot 1 en voor de Chinese vertaling een score van 0,36. Het programma van het Information Sciences Institute van de universiteit van Zuid-Californië werd tweede, met een score van 0,47 voor Arabisch en 0,31 voor Chinees.

Google logoAutomatisch vertalen wordt al zeker twintig jaar gedaan, maar de resultaten waren tot dusverre uiterst pover. De onderzoekers constateerden echter dat er de laatste jaren toch wel enige vooruitgang is geboekt, die vooral wordt toegeschreven aan snellere processors en grotere verzamelingen gegevens, die weer mogelijk zijn geworden doordat de capaciteit van harde schijven en RAM-geheugens flink is toegenomen. Google heeft hier kunnen profiteren van de miljarden webpagina's die zijn zoekrobots hebben geïndexeerd.

Alle verbeteringen ten spijt deed zelfs de vertaalmachine van Google het nog niet zo goed als een menselijke vertaler, en het lijkt er op dat de mens op dit gebied voorlopig nog niet geheel door de machine zal worden vervangen. Wie zelf eens wil proberen hoe de Google-vertaalmachine werkt kan hier kijken. Nederlands kent hij nog niet.

Door Arie Jan Stapel

Nieuwsposter / PowerMod

23-08-2005 • 20:46

53

Bron: News.com

Reacties (53)

53
53
36
17
4
4
Wijzig sortering
Anoniem: 111783 23 augustus 2005 20:48
Gramatica blijft toch echt een probleem voor computers.
Noch grammatica noch spelling zijn probleemgebieden voor computers, omdat hier vaak vrij duidelijke regels voor zijn. Het probleem is semantiek.

Engels: "The label on the case said 'in case of fire, break glass' in upper case letters".

Nederlands: "Het merk aan de zaak sprak 'in kast van afschieten, pause brillenglas' in hoger geval brieven".
Hoezo voor alleen niet computer? :?
Het is "Grammatica" (8>

gram·ma·ti·ca (de ~ (v.), ~'s)
1 leer van het systeem van een taal, geheel van regels volgens welke woorden en zinnen in een taal gevormd worden => spraakkunst
2 boek waarin een grammatica behandeld wordt => spraakkunst

Bron: http://www.vandale.nl
Leer eerst maar eens zelf "grammatica" spellen.
computers zijn beter in spelling dan mensen, dus dat houdt het weer een beetje in evenwicht.


gramatica: 404
Niet eerder 415 ofzo? "Unsupported Media Type" :+
Maar ze winnen het op gebied van spelling ;)

(hey Dikkop, niet je posting gaan wijzigen als ik net ga posten ;))
geen "edit" te vinden ;)

en om het weer on-topic te houden...


Zat er al aan te denken om een vertaalmachine Nederlands - Nederlands online te "gooien" en uit te laten testen door het zelfde instituut..
Gelukkig kwam ik er nog net op tijd achter dat zoiets een spellingscontrole heet..... :D
Volgens mij is 'gebezigt' toch echt met een d in plaats van een t.
Maar goed, ik behoor tot de schoolgaande jeugd dus...
Nou de taal gebezigt door de hedendaagse schooljeugd kan het anders best gebruiken, zo'n 'Nederlands' -> Nederlands vertaler. Het taalvermogen van een groot deel van de jeugd is echt bedroevend.
:o

Nouja mijn excuus is dat ik een lange werkdag achter de rug heb :Z
zijn toch ook wel 'ietsjes' sneller ;)
Hier is een artikel over hoe Google's vertaalsysteem werkt (of hoe ze in de toekomst willen gaan werken, daar wil ik even vanaf zijn). Het is een vertaalsysteem dat zijn taalkennis op doet via statische vergelijkingen tussen brondocumenten in de ene taal, en bestaande vertalingen daarvan in andere talen. Het voordeel is dat je de "vertaalmachine" geen grammatica of woorden hoeft te leren. Het systeem leert van bestaande menselijke vertalingen.

Ik vroeg een kennis van mij die een vertaalbureau heeft naar haar mening hierover, en dit was haar antwoord:

"Ja, het is interessant om te lezen, maar een bedreiging zal het voorlopig niet worden, als dat al ooit gebeurt. Taal is veel te dynamisch en ook heel erg persoonlijk. Gaat het om bijvoorbeeld een technische tekst met instructies en je wilt puur de zakelijke inhoud weten, zullen ze hier misschien een eind mee komen, maar hoe gaat een computer bv op de juiste manier persoons-, straat-, productnamen etc. onderscheiden van te vertalen woorden? Juridische vertalingen loop je op vast, want kent de computer behalve taal ook de rechtssystemen van elk land? Onderscheidt hij het Spaans uit Spanje, Argentinië of Ecuador? Herkent hij contructies die zorgen voor een sarcastische gevoelswaarde, waardoor de auteur eigenlijk het tegenovergestelde bedoeld als dat er letterlijk staat? Elke taal en daarbij nog eens elk taalgebied heeft zijn eigen specifieke subtiliteiten die een hele andere draai kunnen geven aan een zin. Daarom bestudeer je op een vertaalopleiding behalve talen ook rechtssystemen, cultuur, geschiedenis etc. van taalgebieden. In het dagelijks werk moeten vertalers afspraken maken met bedrijven over bepaalde vaktermen/bedrijfsspecifieke termen. Soms moeten zaken perse niet worden vertaald en andere keren moet er een beschrijving of uitleg worden toegevoegd. Literatuur vertalen op deze manier lijkt me al helemaal ver gezocht, omdat een vertaler een boek vaak min of meer herschrijft en meer gedachten overbrengt dan woorden en tekst aanpast op een specifieke doelgroep. Wat ze in wezen doen is vertaalgeheugen opbouwen door grote hoeveelheden brontekst en vertaling in te voeren. Dat gebeurt allang in CAT tools (Computer Aided Translation) zoals Trados dat wereldwijd door vertalers wordt gebruikt om geen dubbel werk te hoeven verrichten en sneller te kunnen werken en consistentie te behouden voor bepaalde klanten. Maar ik zou er niet blind op varen."
nog niet zo goed als een menselijke vertaler
Dat is ook vrij logisch. Als je een deftige vertaling wil maken moet je begrijpen wat er staat.
Ik gebruik meestal freetranslation.com.

Ook niet helemaal perfect, maar houdt in ieder geval behoorlijk rekening met de gramatica.
Met als resultaat dat:

Ich weiß nicht,ob das im internet steht...weiß nicht wie das heißt...warte geh mal gucken

wordt:

I do not know go looking whether that in the internet steht...weiß not like the heißt...warte once.

Niet echt veel beter dan babelfish / google translate
dus
En de meer gebruikelijke vertalingen tussen Engels, Frans, Duits en Spaans zijn niet getest? Dat is voor velen toch wel belangrijker denk ik...
toevallig zit ik nu net met een duitse te praten... gelijk ff gecopypasted in de google translator:
ich weiß nicht,ob das im internet steht...weiß nicht wie das heißt...warte geh mal gucken
en dat wordt:
I do not know whether in the InterNet is not located... white as is called... wait go times to look
nou niet bepaald flawless te noemen... het vreemde hoofdlettergebruik in het woord InterNet verbaast me trouwens nogal...
Grappig. Ik heb deze zin ook even bij altavista ingeklopt. Met als resultaat: I do not know whether in the InterNet is not located... white as is called... wait go times to look.

Zijn google translate en Babelfish van altavista hetzelfde?
Lijkt me dat tranlate.google dan net als babelfish.altavista ook nederlands zou ondersteunen.
tsss... ik zou het zelfs niet goed willen noemen, wat een baggervertaling!

Het lijkt er zelfs op dat die vertaalmachine geen onderscheid kan maken tussen werkwoorden en zelfstandige naamwoorden en het knoeit met negaties.
oh jawel, de vertaalmachine kan dit wel... Maar de Duitse tekst is grammaticaal ALLESBEHALVE correct, het is spreektaal

ich weiß nicht,ob das im internet steht...weiß nicht wie das heißt...warte geh mal gucken

I do not know whether in the InterNet is not located... white as is called... wait go times to look


1/ zinnen scheiden door ... , opvallend
2/ het tweede deel: bij die weiss komt al geen Onderwerp voor, geen onderwerp => minder kans dat weiss een werkwoord is. Aangezien weiss dus geen werkwoord lijkt, vertaal men die "wie" dan door "wat, of zoals" ipv "hoe", logisch toch
3/ het laatste stuk: warte is hier werkwoord omdat hij geen andere woordbetekenis zou vinden. Maar, het is gebiedende wijs, maar wordt onmiddellijk gevolgd door nog een werkwoord. En er staat helemaal geen komma tussen die woorden. Wat moet een machine daar mee gaan doen.


Baggerduits dus ;)


Even dit proberen:
ich weiß nicht,ob das im internet steht. Ich weiß nicht, wie das heißt... warte, ich geh mal gucken.

levert:
I do not know whether in the InterNet is located. I white, as is called... wait, I do not go looking times.

Nog steeds vreemd, maar al een stuk begrijpbaarder.
@ dmantione

heh, never f*ck with a bitch :Y)
En de meer gebruikelijke vertalingen tussen Engels, Frans, Duits en Spaans zijn niet getest? Dat is voor velen toch wel belangrijker denk ik...
Ik wacht nog steeds op de eerste Nederlands <-> Belgisch vertaler :+
"Belgisch"? Sommigen zullen het nooit onthouden! ;)
$vertaling = "Awel, " . $origineel;


klaaaar :Y)
Het verschil is dat Belgen wel perfect de Nederlandse taal machtig zijn, zowel op het vlak van spelling als op het vlak van grammatica.
Als je sommige reacties op T.net van Nederlanders leest, zie je dat spelling niet hun sterkste kant is (de eerste reactie zegt genoeg). De Belgen zijn hier veel beter in en besteden hier meer aandacht aan. Kijk maar naar Tien voor Taal of het Grote Dictee.
Mijn punt, wat ben je met Nederlands als je het niet kan spellen.
Chinees en Arabisch zijn best we belangrijke talen anders, hoewel ze op internet minder aanwezig zijn dan in de echte wereld.
google maakt toch gebruik van dezelfde vertaalmachine als babelfish (powered by systran)? iig vertaling van japans->engels levert bij beide hetzelfde resultaat op, op wat weggelaten karakters door google na.
Babelfish maakt voor zijn ondersteuning van Nederlands gebruik van NL-translex.

http://www.tst.inl.nl/nltranslex.htm
Er is hier al eens gebruik gemaakt van zo'n vertaling bij een beschouwing van een franse tekst over camera's. ( tweakers artikel )

Ga voor de gein eens kijken: Franse pagina over digitale camera's
Het is tenminste wel te begrijpen. En door iemand die goed Nederlands kent is het goed te verbeteren.
Jammer dat er geen resultaten bijstaan van de software van Systran. Deze wordt onder andere gebruikt voor de veelgebruikte Babelfish van Altavista en heeft bovendien een aardige hoeveelheid verschillende talen(inclusief Nederlands).

Daarnaast ben ik benieuwd naar wat de gemiddelde menselijke vertaler scoort. Als je tenslotte kijkt naar hoe vooral Chinese handleidingen vaak naar het Engels vertaald worden, dan scoren die volgens mij ook geen cijfer dat ook maar enigszins in de buurt van de 1 komt.
die handleidingen zijn bablefish vertalingen ;)
maar ff zonder dollen. ik vertaal regelmatig van engels naar simplefied chinese en terug en dan is het voor wederzijds goed te begrijpen. lappen tekst is een ander verhaal. wat ik wel merk is vaak dat bv chinezen engels verchinezen. in de zin van dat ze er een eigen draai aan geven. en dan gaan ze dat later weer terug vertalen naar het engels en dan wordt het vreemd
Erg leuk allemaal, maar zolang ze geen Nederlands geimplementeerd hebben, is het toch een beetje jammer allemaal. Ik blijf dus voorlopig bij www.worldlingo.com :).
Met als resultaat dat de Duitse testzin van hierboven zich laat vertalen tot:

I do not know,whether in the InterNet is located...white as is not called...wait go times looking

Exact hetzelfde als Google translate en Babelfish dus
Als ik Frans Bakker intyp (vertaal naar Frans) krijg ik:
français le boulanger

:+
Die deutsche Sprache ist eine flektierende Sprache, d. h. die grammatischen Beziehungen zwischen den Wörtern werden mit Hilfe von Affixen und teilweise durch Wurzelflexion ausgedrückt. Dadurch ist ein im Vergleich zu nicht flektierenden Sprachen sehr flexibler Satzbau möglich. Zur besonderen Betonung einzelner Satzglieder oder zum Ausdrücken feiner Bedeutungsnuancen kann ein Satz umgestellt werden. (Z. B.: Gleich füttere ich den Hund. ...
wordt...
The German language is an inflecting language, i.e. the grammatical relations between the words is partly expressed by affixes and by root inflection. Thus a satzbau very flexible compared with not inflecting languages is possible. For the special stress of individual parts of a sentence or for expressing fine meaning meanings a sentence can be changed over. (e.g.: Directly I feed the dog. [ stress of the time ] I feed the dog directly....
Best netjes voor een vertaalmachine imho. Doen we het daarna nog een keer en-de en daarna weer de-en krijgen we:
Like that a very flexible is satzbau compared with did not speak possible.
}>
Er is ook zo'n vertaalmachine die heet InterTran, die is echt erg beroerd. Ik heb die eens hun eigen website laten vertalen. Ze hebben een produkt dat NeuroTran heet, en ze vertalen dat naar ZenuwZiek :'(
Anoniem: 117866 23 augustus 2005 23:29
"All your base are belong to us!"
(8>
als je dit vertaalt naar japans en weer terug is het al een stuk duidelijker, mits je nog wat komma's toevoegt.... :P
Eh, heb dat even gedaan en kreeg dit:

"As for your basis everything there are we, it belongs! "

:?

Op dit item kan niet meer gereageerd worden.