Technology Review heeft een artikel gepubliceerd over de stand van zaken in geautomatiseerd vertalen. Hoewel de kwaliteit van vertalingen die door computers zijn geproduceerd de laatste twintig jaar aanzienlijk is verbeterd, zijn sommige resultaten nog grotendeels onbegrijpelijk. Eerder deze maand was AvMedia in het nieuws met Translating Proxy dat on-the-fly chatgesprekken vertaalt. In augustus vorig jaar kwam Googles vertaaldienst nog als beste uit een test die door DARPA was gesponsord. Ook de vertaaldienst van Babel Fish geniet al de nodige bekendheid. Al deze services schieten echter tekort als het gaat om professionele vertalingen. Wanneer bedrijven onderhandelingen voeren of wanneer militaire plannen worden gemaakt, is er geen ruimte voor onduidelijkheden veroorzaakt door vertaalfouten. Volgens Kevin Knight, verbonden aan Information Sciences Institute van de University of Southern California (USC) en mede-oprichter van het bedrijf Language Weaver, komen de huidige problemen voor omdat vaak nog een traditionele aanpak wordt gebruikt bij het vertalen.
Traditioneel gebruikt vertaalsoftware algoritmen die door duizenden grammaticaregels zoeken voor de omzetting van een taal naar een andere. Veel van deze regels en de uitzonderingen op de regels worden handmatig ingevoerd. De complexiteit van de verzameling regels heeft tot gevolg dat er regels zijn die elkaar tegenspreken. 'Door bijvoorbeeld de vijfduizendste regel toe te voegen, gaan er soms eerdere dingen kapot', aldus Knight. Zijn bedrijf en een handvol onderzoekers - waaronder van Google - hebben een andere aanpak voor het probleem. In plaats van het volgen van vaste grammaticaregels, worden woorden en zinsneden tussen talen gematcht op basis van de kans dat die woorden en zinsneden in een bepaalde context voorkomen. Deze statistische aanpak is gebaseerd op een groot aantal reeds vertaalde documenten en is in de negentiger jaren voor eerst door IBM toegepast. IBM gebruikte hierbij de database van verslagen van het Canadese parlement die in zowel Frans als Engels beschikbaar waren.
De statistische variant produceert niet alleen betere vertalingen, maar de vertalingen die deze methode voortbrengt, worden ook steeds beter. Des te meer documenten de vertaalsoftware tegenkomt, des te waarschijnlijker wordt het dat zinsneden uit de twee talen correct worden gekoppeld. Knight geeft aan dat een aantal jaar geleden het alleen mogelijk was om het algemene onderwerp te ontcijferen uit Arabische of Chinese teksten naar het Engels. Nu is het mogelijk om tot op zinsniveau de tekst te ontleden. De winst die Google in augustus wist te behalen in de vertaalwedstrijd, is volgens Knight te danken aan het feit dat Google het gehele internet kan gebruiken voor zijn database met vertaalde documenten. Ook het grote aantal servers dat het internetbedrijf kan inzetten zal meegeholpen hebben om de overwinning veilig te stellen.
In 2005 kondigde DARPA het 'Global Autonomous Language Exploitation'-programma aan. GALE heeft tot doel om het machinaal vertalen van documenten te versnellen die door het overkoepelende programma van het 'Linguistic Data Consortium' zijn verzameld. GALE zal de talige inhoud van nieuwsbronnen en talkshows in het Arabisch, Chinees en Engels verzamelen en opslaan. Daarnaast categoriseert het nieuwsbronnen, discussiegroepen op internet en blogs in deze drie talen. Voorlopig is het project alleen gegevens aan het verzamelen, waarbij veel werkzaamheden nog handmatig worden uitgevoerd door onderzoekers.
Ook met een grote verzameling voorvertaald materiaal blijven er uitdagingen bestaan. De volgende stap zal zijn om grammaticale fouten uit de vertalingen te halen die ontstaan wanneer woorden en zinsneden aan elkaar worden geplakt. Dit corrigeren kan worden gedaan door het indexeren van miljoenen zinnen waarvan de structuur door de University of Pennsylvania (Penn) in de jaren negentig is vastgelegd. Hiervoor hebben de onderzoekers destijds vijftigduizend zinnen uit de Wall Street Journal gebruikt. Ook op de grammatica kan vervolgens de statistische methode worden toegepast om de meest waarschijnlijke woordvolgorde te bepalen. Traditioneel worden ook de grammaticaregels vastgelegd in algoritmen. Door gebruik te maken van de geanalyseerde zinnen, kan de vertaalsoftware waarschijnlijkheden en gewichten aan de grammaticaregels toekennen. Hierdoor kan de juiste context met een grotere zekerheid bepaald worden, waardoor de kans toeneemt dat de juiste grammaticaregel toegepast wordt.
In bepaalde opzichten zal de statische aanpak echter slechts zo goed werken als de eerder genoemde IM-vertaler van AvMedia. Eigennamen bijvoorbeeld kunnen zelfs de beste machinevertaler laten struikelen. Vaak worden de namen gewoon vertaald met de rest van de tekst. Volgens zijn eigen vertaalsysteem is de Spaanse versie van Knights naam bijvoorbeeld nog steeds 'Caballero'.