Google wint vertaaltests

Het Amerikaanse National Institute of Science and Technology heeft onlangs een test uitgevoerd van een aantal automatische vertaalmachines. De test bestond uit het vertalen naar het Engels van honderd Chinese en Arabische artikelen afkomstig van een Frans en een Chinees persbureau. De vertaalmachine van Google deed het het beste, met voor de Arabische vertaling een score van 0,51 op een schaal van 0 tot 1 en voor de Chinese vertaling een score van 0,36. Het programma van het Information Sciences Institute van de universiteit van Zuid-Californië werd tweede, met een score van 0,47 voor Arabisch en 0,31 voor Chinees.

Google logo Automatisch vertalen wordt al zeker twintig jaar gedaan, maar de resultaten waren tot dusverre uiterst pover. De onderzoekers constateerden echter dat er de laatste jaren toch wel enige vooruitgang is geboekt, die vooral wordt toegeschreven aan snellere processors en grotere verzamelingen gegevens, die weer mogelijk zijn geworden doordat de capaciteit van harde schijven en RAM-geheugens flink is toegenomen. Google heeft hier kunnen profiteren van de miljarden webpagina's die zijn zoekrobots hebben geïndexeerd.

Alle verbeteringen ten spijt deed zelfs de vertaalmachine van Google het nog niet zo goed als een menselijke vertaler, en het lijkt er op dat de mens op dit gebied voorlopig nog niet geheel door de machine zal worden vervangen. Wie zelf eens wil proberen hoe de Google-vertaalmachine werkt kan hier kijken. Nederlands kent hij nog niet.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Arie Jan Stapel

Nieuwsposter / PowerMod

Feedback • 23-08-2005 20:46 53

23-08-2005 • 20:46

Bron: News.com

Lees meer

Google start vertaalbemiddeling om algoritmes te voeren Nieuws van 4 augustus 2008

Google brengt vertaal-api uit Nieuws van 23 maart 2008

Nederlanders claimen realtime vertaaltool Chinees-Engels Nieuws van 2 november 2006

Yahoo biedt Babel Fish een nieuw onderkomen Nieuws van 30 april 2006

De stand van zaken in machinaal vertalen Nieuws van 21 januari 2006

Google zoekt contact met Nederlandse rss-feeds Nieuws van 25 oktober 2005

Google viert zevenjarig bestaan Nieuws van 27 september 2005

Google bezig met GoogleTV? Nieuws van 24 september 2005

Speculaties over GoogleNet Nieuws van 29 augustus 2005

Apparaat in PDA-formaat dat gesproken taal vertaalt Nieuws van 8 oktober 2004

IBM werkt aan universeel vertaalapparaat Nieuws van 25 april 2003

Nieuw apparaat vertaalt gesproken tekst Nieuws van 13 februari 2002

Meer producten en artikelen

Bedrijfsnieuws

IT-banen

Meer vacatures

Reacties (53)

-Moderatie-faq

Wijzig sortering

Verwijderd 23 augustus 2005 20:48

Gramatica blijft toch echt een probleem voor computers.

Verwijderd @Verwijderd • 24 augustus 2005 09:03

Noch grammatica noch spelling zijn probleemgebieden voor computers, omdat hier vaak vrij duidelijke regels voor zijn. Het probleem is semantiek.

Engels: "The label on the case said 'in case of fire, break glass' in upper case letters".

Nederlands: "Het merk aan de zaak sprak 'in kast van afschieten, pause brillenglas' in hoger geval brieven".

NeOTheMaTriXM @Verwijderd • 23 augustus 2005 21:00

Niet alleen voor computer.

Verwijderd @NeOTheMaTriXM • 23 augustus 2005 23:21

Hoezo voor alleen niet computer?

Eric Oud Ammerveld @Verwijderd • 24 augustus 2005 11:01

Het is "Grammatica"

gram·ma·ti·ca (de ~ (v.), ~'s)
1 leer van het systeem van een taal, geheel van regels volgens welke woorden en zinnen in een taal gevormd worden => spraakkunst
2 boek waarin een grammatica behandeld wordt => spraakkunst

Bron: http://www.vandale.nl

aval0ne @Verwijderd • 24 augustus 2005 10:27

Leer eerst maar eens zelf "grammatica" spellen.

Verwijderd @Verwijderd • 23 augustus 2005 21:09

computers zijn beter in spelling dan mensen, dus dat houdt het weer een beetje in evenwicht.

gramatica: 404

kamerplant @Verwijderd • 23 augustus 2005 22:09

Niet eerder 415 ofzo? "Unsupported Media Type"

Fuzzillogic @Verwijderd • 23 augustus 2005 21:10

Maar ze winnen het op gebied van spelling

(hey Dikkop, niet je posting gaan wijzigen als ik net ga posten

)

Verwijderd @Fuzzillogic • 23 augustus 2005 21:22

geen "edit" te vinden

en om het weer on-topic te houden...

Zat er al aan te denken om een vertaalmachine Nederlands - Nederlands online te "gooien" en uit te laten testen door het zelfde instituut..
Gelukkig kwam ik er nog net op tijd achter dat zoiets een spellingscontrole heet.....

Artjuh @Verwijderd • 23 augustus 2005 21:40

Volgens mij is 'gebezigt' toch echt met een d in plaats van een t.
Maar goed, ik behoor tot de schoolgaande jeugd dus...

Fuzzillogic @Verwijderd • 23 augustus 2005 21:30

Nou de taal gebezigt door de hedendaagse schooljeugd kan het anders best gebruiken, zo'n 'Nederlands' -> Nederlands vertaler. Het taalvermogen van een groot deel van de jeugd is echt bedroevend.

Fuzzillogic @Verwijderd • 23 augustus 2005 21:55

Nouja mijn excuus is dat ik een lange werkdag achter de rug heb

DarkTemple @Fuzzillogic • 23 augustus 2005 22:37

zijn toch ook wel 'ietsjes' sneller

Zoufiax 24 augustus 2005 11:10

Hier is een artikel over hoe Google's vertaalsysteem werkt (of hoe ze in de toekomst willen gaan werken, daar wil ik even vanaf zijn). Het is een vertaalsysteem dat zijn taalkennis op doet via statische vergelijkingen tussen brondocumenten in de ene taal, en bestaande vertalingen daarvan in andere talen. Het voordeel is dat je de "vertaalmachine" geen grammatica of woorden hoeft te leren. Het systeem leert van bestaande menselijke vertalingen.

Ik vroeg een kennis van mij die een vertaalbureau heeft naar haar mening hierover, en dit was haar antwoord:

"Ja, het is interessant om te lezen, maar een bedreiging zal het voorlopig niet worden, als dat al ooit gebeurt. Taal is veel te dynamisch en ook heel erg persoonlijk. Gaat het om bijvoorbeeld een technische tekst met instructies en je wilt puur de zakelijke inhoud weten, zullen ze hier misschien een eind mee komen, maar hoe gaat een computer bv op de juiste manier persoons-, straat-, productnamen etc. onderscheiden van te vertalen woorden? Juridische vertalingen loop je op vast, want kent de computer behalve taal ook de rechtssystemen van elk land? Onderscheidt hij het Spaans uit Spanje, Argentinië of Ecuador? Herkent hij contructies die zorgen voor een sarcastische gevoelswaarde, waardoor de auteur eigenlijk het tegenovergestelde bedoeld als dat er letterlijk staat? Elke taal en daarbij nog eens elk taalgebied heeft zijn eigen specifieke subtiliteiten die een hele andere draai kunnen geven aan een zin. Daarom bestudeer je op een vertaalopleiding behalve talen ook rechtssystemen, cultuur, geschiedenis etc. van taalgebieden. In het dagelijks werk moeten vertalers afspraken maken met bedrijven over bepaalde vaktermen/bedrijfsspecifieke termen. Soms moeten zaken perse niet worden vertaald en andere keren moet er een beschrijving of uitleg worden toegevoegd. Literatuur vertalen op deze manier lijkt me al helemaal ver gezocht, omdat een vertaler een boek vaak min of meer herschrijft en meer gedachten overbrengt dan woorden en tekst aanpast op een specifieke doelgroep. Wat ze in wezen doen is vertaalgeheugen opbouwen door grote hoeveelheden brontekst en vertaling in te voeren. Dat gebeurt allang in CAT tools (Computer Aided Translation) zoals Trados dat wereldwijd door vertalers wordt gebruikt om geen dubbel werk te hoeven verrichten en sneller te kunnen werken en consistentie te behouden voor bepaalde klanten. Maar ik zou er niet blind op varen."

McChouffe 23 augustus 2005 20:50

nog niet zo goed als een menselijke vertaler

Dat is ook vrij logisch. Als je een deftige vertaling wil maken moet je begrijpen wat er staat.

Gepetto @McChouffe • 23 augustus 2005 22:02

Ik gebruik meestal freetranslation.com.

Ook niet helemaal perfect, maar houdt in ieder geval behoorlijk rekening met de gramatica.

Leaky @Gepetto • 23 augustus 2005 22:40

Met als resultaat dat:

Ich weiß nicht,ob das im internet steht...weiß nicht wie das heißt...warte geh mal gucken

wordt:

I do not know go looking whether that in the internet steht...weiß not like the heißt...warte once.

Niet echt veel beter dan babelfish / google translate
dus

Verwijderd 23 augustus 2005 20:48

En de meer gebruikelijke vertalingen tussen Engels, Frans, Duits en Spaans zijn niet getest? Dat is voor velen toch wel belangrijker denk ik...

jwbagger @Verwijderd • 23 augustus 2005 20:56

toevallig zit ik nu net met een duitse te praten... gelijk ff gecopypasted in de google translator:

ich weiß nicht,ob das im internet steht...weiß nicht wie das heißt...warte geh mal gucken

en dat wordt:

I do not know whether in the InterNet is not located... white as is called... wait go times to look

nou niet bepaald flawless te noemen... het vreemde hoofdlettergebruik in het woord InterNet verbaast me trouwens nogal...

Leaky @jwbagger • 23 augustus 2005 22:36

Grappig. Ik heb deze zin ook even bij altavista ingeklopt. Met als resultaat: I do not know whether in the InterNet is not located... white as is called... wait go times to look.

Zijn google translate en Babelfish van altavista hetzelfde?

84hannes @Leaky • 24 augustus 2005 01:05

Lijkt me dat tranlate.google dan net als babelfish.altavista ook nederlands zou ondersteunen.

Verwijderd @jwbagger • 23 augustus 2005 21:15

tsss... ik zou het zelfs niet goed willen noemen, wat een baggervertaling!

Het lijkt er zelfs op dat die vertaalmachine geen onderscheid kan maken tussen werkwoorden en zelfstandige naamwoorden en het knoeit met negaties.

Verwijderd @Verwijderd • 24 augustus 2005 01:15

oh jawel, de vertaalmachine kan dit wel... Maar de Duitse tekst is grammaticaal ALLESBEHALVE correct, het is spreektaal

ich weiß nicht,ob das im internet steht...weiß nicht wie das heißt...warte geh mal gucken

I do not know whether in the InterNet is not located... white as is called... wait go times to look

1/ zinnen scheiden door ... , opvallend
2/ het tweede deel: bij die weiss komt al geen Onderwerp voor, geen onderwerp => minder kans dat weiss een werkwoord is. Aangezien weiss dus geen werkwoord lijkt, vertaal men die "wie" dan door "wat, of zoals" ipv "hoe", logisch toch
3/ het laatste stuk: warte is hier werkwoord omdat hij geen andere woordbetekenis zou vinden. Maar, het is gebiedende wijs, maar wordt onmiddellijk gevolgd door nog een werkwoord. En er staat helemaal geen komma tussen die woorden. Wat moet een machine daar mee gaan doen.

Baggerduits dus

Even dit proberen:
ich weiß nicht,ob das im internet steht. Ich weiß nicht, wie das heißt... warte, ich geh mal gucken.

levert:
I do not know whether in the InterNet is located. I white, as is called... wait, I do not go looking times.

Nog steeds vreemd, maar al een stuk begrijpbaarder.

dmantione @Verwijderd • 23 augustus 2005 21:21

(blunder, leeggemaakt)

Verwijderd @Verwijderd • 23 augustus 2005 22:22

@ dmantione

heh, never f*ck with a bitch

H!GHGuY @Verwijderd • 23 augustus 2005 23:15

En de meer gebruikelijke vertalingen tussen Engels, Frans, Duits en Spaans zijn niet getest? Dat is voor velen toch wel belangrijker denk ik...

Ik wacht nog steeds op de eerste Nederlands <-> Belgisch vertaler

Verwijderd @H!GHGuY • 24 augustus 2005 05:40

"Belgisch"? Sommigen zullen het nooit onthouden!

jwbagger @H!GHGuY • 23 augustus 2005 23:58

$vertaling = "Awel, " . $origineel;

klaaaar

aval0ne @H!GHGuY • 24 augustus 2005 10:25

Het verschil is dat Belgen wel perfect de Nederlandse taal machtig zijn, zowel op het vlak van spelling als op het vlak van grammatica.
Als je sommige reacties op T.net van Nederlanders leest, zie je dat spelling niet hun sterkste kant is (de eerste reactie zegt genoeg). De Belgen zijn hier veel beter in en besteden hier meer aandacht aan. Kijk maar naar Tien voor Taal of het Grote Dictee.
Mijn punt, wat ben je met Nederlands als je het niet kan spellen.

GreatDictator @Verwijderd • 23 augustus 2005 22:55

Chinees en Arabisch zijn best we belangrijke talen anders, hoewel ze op internet minder aanwezig zijn dan in de echte wereld.

abeker 23 augustus 2005 21:07

google maakt toch gebruik van dezelfde vertaalmachine als babelfish (powered by systran)? iig vertaling van japans->engels levert bij beide hetzelfde resultaat op, op wat weggelaten karakters door google na.

dmantione @abeker • 23 augustus 2005 21:23

Babelfish maakt voor zijn ondersteuning van Nederlands gebruik van NL-translex.

http://www.tst.inl.nl/nltranslex.htm

eggieman @dmantione • 23 augustus 2005 23:06

Er is hier al eens gebruik gemaakt van zo'n vertaling bij een beschouwing van een franse tekst over camera's. ( tweakers artikel )

Ga voor de gein eens kijken: Franse pagina over digitale camera's

Verwijderd @eggieman • 23 augustus 2005 23:28

Het is tenminste wel te begrijpen. En door iemand die goed Nederlands kent is het goed te verbeteren.

BarôZZa 23 augustus 2005 20:57

Jammer dat er geen resultaten bijstaan van de software van Systran. Deze wordt onder andere gebruikt voor de veelgebruikte Babelfish van Altavista en heeft bovendien een aardige hoeveelheid verschillende talen(inclusief Nederlands).

Daarnaast ben ik benieuwd naar wat de gemiddelde menselijke vertaler scoort. Als je tenslotte kijkt naar hoe vooral Chinese handleidingen vaak naar het Engels vertaald worden, dan scoren die volgens mij ook geen cijfer dat ook maar enigszins in de buurt van de 1 komt.

n4m3l355

Bedrijfsnieuws

@BarôZZa • 23 augustus 2005 21:31

die handleidingen zijn bablefish vertalingen

maar ff zonder dollen. ik vertaal regelmatig van engels naar simplefied chinese en terug en dan is het voor wederzijds goed te begrijpen. lappen tekst is een ander verhaal. wat ik wel merk is vaak dat bv chinezen engels verchinezen. in de zin van dat ze er een eigen draai aan geven. en dan gaan ze dat later weer terug vertalen naar het engels en dan wordt het vreemd

flipjevandejam 23 augustus 2005 21:53

Erg leuk allemaal, maar zolang ze geen Nederlands geimplementeerd hebben, is het toch een beetje jammer allemaal. Ik blijf dus voorlopig bij www.worldlingo.com

Leaky @flipjevandejam • 23 augustus 2005 23:06

Met als resultaat dat de Duitse testzin van hierboven zich laat vertalen tot:

I do not know,whether in the InterNet is located...white as is not called...wait go times looking

Exact hetzelfde als Google translate en Babelfish dus

Nap

@flipjevandejam • 23 augustus 2005 23:08

Als ik Frans Bakker intyp (vertaal naar Frans) krijg ik:
français le boulanger

-DarkShadow- 23 augustus 2005 21:35

Die deutsche Sprache ist eine flektierende Sprache, d. h. die grammatischen Beziehungen zwischen den Wörtern werden mit Hilfe von Affixen und teilweise durch Wurzelflexion ausgedrückt. Dadurch ist ein im Vergleich zu nicht flektierenden Sprachen sehr flexibler Satzbau möglich. Zur besonderen Betonung einzelner Satzglieder oder zum Ausdrücken feiner Bedeutungsnuancen kann ein Satz umgestellt werden. (Z. B.: Gleich füttere ich den Hund. ...

wordt...

The German language is an inflecting language, i.e. the grammatical relations between the words is partly expressed by affixes and by root inflection. Thus a satzbau very flexible compared with not inflecting languages is possible. For the special stress of individual parts of a sentence or for expressing fine meaning meanings a sentence can be changed over. (e.g.: Directly I feed the dog. [ stress of the time ] I feed the dog directly....

Best netjes voor een vertaalmachine imho. Doen we het daarna nog een keer en-de en daarna weer de-en krijgen we:

Like that a very flexible is satzbau compared with did not speak possible.

AlBundy 23 augustus 2005 21:41

Er is ook zo'n vertaalmachine die heet InterTran, die is echt erg beroerd. Ik heb die eens hun eigen website laten vertalen. Ze hebben een produkt dat NeuroTran heet, en ze vertalen dat naar ZenuwZiek