Mozilla test Firefox-extensie voor vertalen van webpagina's zonder clouddiensten

Mozilla test zijn Bergamot-extensie voor het vertalen van webpagina's in Firefox Nightly. Het betreft een client-side extensie die volledig lokaal in de browser draait. Daarmee maakt Bergamot geen gebruik van clouddiensten als Google Translate.

De Bergamot-extensie kan momenteel alleen getest worden in de meest recente versie van Firefox Nightly, schrijft ook Oostenrijkse ontwikkelaar Sören Hentzschel, die regelmatig schrijft over Mozilla- en Firefox-ontwikkelingen. Het betreft versie 0.3 van de vertaalextensie, die momenteel Spaans, Estisch en Engels ondersteunt. De extensie kan ook Engelse webpagina's vertalen naar het Duits, maar nog niet andersom.

Andere talen worden momenteel nog niet ondersteund, omdat de taalmodellen nu nog direct in de extensie worden gebundeld. De huidige testversie van de extensie heeft een bestandsgrootte van 124MB. De extensie werkt momenteel nog niet in de releaseversie van Firefox.

Om de functie te testen, dienen gebruikers dan ook de Firefox Nightly-webbrowser voor desktops te downloaden en verschillende instellingen in de about:config-pagina aan te passen. Zo moet onder andere het vernieuwde Proton-ontwerp, dat wordt geïntroduceerd in Firefox 89, ingeschakeld worden. De volledige installatie-instructies staan vermeld op de Github-pagina van Bergamot.

Het Bergamot-project is in 2019 opgezet door Mozilla, in samenwerking met universiteiten uit Engeland, Estland, Schotland en Tsjechië. Het project wordt gefinancierd door de Europese Unie. Het doel van het project is een vertaalfunctie aan Firefox toevoegen die volledig lokaal draait, zonder clouddiensten als Google Translate. Dit moet onder andere privacyvoordelen hebben, aangezien er geen gegevens worden gedeeld met dergelijke clouddiensten.

Mozilla Bergamot-extensie in Firefox NightlyMozilla Bergamot-extensie in Firefox NightlyMozilla Bergamot-extensie in Firefox NightlyMozilla Bergamot-extensie in Firefox Nightly

Versie 0.3 van de Bergamot-extensie, getest in Firefox Nightly 89.0a1

Door Daan van Monsjou

Nieuwsredacteur

04-04-2021 • 17:14

42

Submitter: TheVivaldi

Reacties (42)

42
42
20
4
2
15
Wijzig sortering
Bij automatiche/electronische vertalingen vraag ik mij ook altijd af of de vertalingen rechtstreeks zijn of via een tussen taal. Voor de meeste vertaal systemen ga ik er van uit dat een niet nader bepaalde variant van het Engels wordt gebruikt.

Bij deze vraag ik mij af of/hoe dat bij deze vertaal machine gaat gebeuren. Het kan natuurlijk goed zijn dat de machine die vertaalt zodanig is dat er gebruik gemaakt kan worden van meerdere tussentalen.
Om te beginnen zou het systeem open moeten staan voor het definiëren/populeren van meer rechtstreeks vertalingen. Zodat de vertaling Fries - Nederlands of Frans - Duits rechstreeks vertaald wordt en niet via het Engels, wat je tegenwoordig vaak in de vertaling terug kunnen zien.
Dat hangt er heel erg van af hoe de vertaling werkt en hoe oud het verhaal is. In het verleden was het inderdaad vaak zo dat je van Russisch naar Engels naar Nederlands ging maar tegenwoordig met steeds meer machine learning technieken die gebruikt worden om de vertalingen te verbeteren zie je steeds vaker dat de machine van taal A naar taal B kan vertalen en andersom zonder tussen stap. Dit heeft er mee te maken dat je heel erg veel meer teksten kunt verwerken en in beide talen en de machine op deze manier zelf kan leren hoe dingen het best vertaald kunnen worden.

Dat houd niet geheel in dat er geen tussen taal is, dat houd alleen in dat er geen tussen taal is die wij kennen. Hier is een leuk artikel hier over: https://www.newscientist....nguage-to-translate-with/
Dit is niet veel anders dan vertalen naar Engels en dan naar Nederlands als je een Koreaanse pagina wil lezen alleen heeft de machine een "betere" taal uitgevonden om te gebruiken dan Engels. Op die manier kan de machine concepten die zich moeilijk laten vertalen naar het Engels behouden en zal de vertaling dus beter zijn dan als er eerst een tussen stap gemaakt zou moeten worden naar het Engels.

Al met al is ne blijft het een erg lastig iets om te doen en is het maken van een fatsoenlijke vertaler echt een zeer moeilijke klus. In de basis is twee talen die dicht bij el kaar liggen zo als Nederlands en Duits naar elkaar vertalen is nog wel te doen maar als je bijvoorbeeld Mandarijn of Hindi naar het Spaans wil vertalen dan is het op eens een stuk lastiger. Om die reden zijn de modellen die gebaseerd zijn op machine learning ook zo in opmars en kun je bij bijvoorbeeld Google Translate ook altijd aangeven dat een bepaalde vertaling niet klopt en wat een betere vertaling zou zijn volgens jouw. Dit is puur en alleen om het machine learning model te sturen en aan te geven waar dingen nog niet helemaal goed gaan.

Wat ik me heel erg af vraag is of deze oplossing ooit echt goed zal worden. Offline beperkt je heel erg in wat je kunt vertalen omdat de meeste mensen nu eenmaal niet een paar GB aan data willen downloaden om de mogelijkheid te hebben van het Surinaams naar het Grieks te vertalen en zo nog een enorme waslijst met vertalingen die zeer weinig gebruikt zullen worden omdat er nu eenmaal niet heel veel sprekers zijn van die talen, of websites zijn in die talen die ook voor de buiten wereld echt interessant zullen zijn.
Wat dat betreft lijkt het me een stuk handiger om juist de cloud diensten te gebruiken omdat ze nu eenmaal geen beperkingen hebben wat be treft de data die ze beschikbaar moeten hebben om honderden talen te kunnen vertalen ook lijkt het me een stuk makkelijker om de onderliggende modellen van een cloud aanbieder te trainen omdat je nu eenmaal input van duizenden gebruikers per dag zult hebben waar je bij een thuis installatie alleen de modellen hebt die de maker origineel heeft gebouwd en ze alleen via een update van die maker aangepast kunnen worden.
Al met al denk ik dat dit weer eens zo'n leuk idee is van de EU om een flinke lading mensen jaren lang lekker bezig te houden waarschijnlijk flink wat geld in te pompen om het project te ondersteunen en uiteindelijk zullen de belangrijkste mensen die hier aan gewerkt hebben bij een van de grote tech bedrijven hun plekje vinden en deze EU droom altijd een droom blijven omdat een project als dit nu eenmaal niet op kan tegen een cloud provider die gewoon om eens wat te proberen enkele tienduizenden servers een model kan laten door rekenen zonder dat het echt iets op hoeft te leveren. Dan kun je nog zo hard werken op de universiteit en met je collega's in andere EU landen maar het is simpel weg niet te doen om tegen dat soort groot machten op te boksen en jullie model zal altijd achter lopen op wat een Google, Amazon of een Microsoft kan doen.
Ik denk dat direct vertalen een hele onderneming zou worden. Even van uitgaande dat deze site klopt
https://www.trouw.nl/nieu...talen%20verdwenen%20zijn.
zijn er nu 6000 talen. Dat betekent dus al dat je elke woord al 6000 keer vertaald moet hebben. Dat zou dus betekenen dat je 6000 de juiste taalregels moet laten leren. Het werkt nog geeneens perfect om alles naar 1 taal te vertalen en omgekeerd (al wordt het wel steeds beter natuurlijk). Dus laat staan dat je de rest ook nog eens direct zou moeten vertalen. Zelfs al zou je de negatieve schatting 400 talen tot positieve schatting 3000 talen overhouden over 100 jaar (volgens die website) dan blijft het gewoon heel heel veel talen over om het goed te krijgen. Dus ja het zou leuk zijn als het direct kon maar ik zie het voorlopig nog niet gebeuren. En dan natuurlijk ook nog het punt van hoeveel typfouten mensen kunnen maken (en ja ik ben ook iemand die genoeg fouten maakt). Dat maakt vertalen ook niet makkelijk.
Dat betekent dus al dat je elke woord al 6000 keer vertaald moet hebben.
Was het maar zo makkelijk :o Vertalen is vele malen ingewikkelder dan dat. Er zijn talloze dingen die roet in het eten gooien: synoniemen, homoniemen, spreekwoorden, ... Wat is de correcte Nederlandse vertaling van het Engelse "temple"? Normaal gesproken "tempel", maar het kan ook "slaap" betekenen. Nee, niet "sleep", maar het lichaamsdeel, vlak boven je ogen. En inderdaad, in dit geval kunnen we de vraag ook omdraaien: wat is de vertaling van "slaap".

En dan is Nederlands (samen met Duits) nog zo lief om woorden die samen één begrip zijn aan elkaar te schrijven, maar er zijn ook talen die dat niet doen. Engels schrijft bijvoorbeeld "train station" (twee woorden); er is niet één Engels woord waarvan de Nederlandse vertaling het (enkele) woord "treinstation" is. Engels is dan wel weer (net als Nederlands) een taal die niet *) aan naamvallen doet. Dat is een probleem als je naar bijvoorbeeld het Duits vertaalt en opeens "uit het niets" de correcte naamval moet zien te vinden.

En oh ja, taal bestaat uit meer dan woorden, er is ook nog zoiets als grammatica, dat maakt vertalingen pas echt moeilijk.

*) Met uitzondering van een heel klein aantal woorden zoals ik/mijn/mij en hij/zijn/hem.
En dan natuurlijk ook nog het punt van hoeveel typfouten mensen kunnen maken (en ja ik ben ook iemand die genoeg fouten maakt).
Hulde voor het maken van een spelfout in het woord "typefouten". :+ Maar van de serieuze kant: spell checkers zijn inmiddels erg goed (en dat is ook een veel eenvoudiger probleem dan vertalen), dus ik vermoed dat je dat gewoon als preprocessing stap in kunt bakken en het probleem daarmee (grotendeels) oplossen. Daarnaast zou het kunnen helpen om het model te trainen op invoer met spelfouten; zeker voor veelvoorkomende spelfouten zou het model dan snel genoeg door moeten hebben dat beide spellingen dezelfde betekenis hebben.

[Reactie gewijzigd door robvanwijk op 27 juli 2024 06:29]

Elke taal heeft een aantal basisregels in de zinsopbouw. De algoritmes voor vertalen maken daar ook gebruik van. Zij herkennen de zinsonderdelen en weten zo van een groot deel van de woorden al om wat voor woordsoort het gaat. Zonder ook maar iets van de taal zelf te kennen zijn dit soort algoritmes al snel in staat om talen te herkennen en de zinnen voor ca 90% goed te ontleden. Zelfstandig naamwoorden moet je noot met een werkwoord vertalen en andersom. Als je dit eenmaal weet wordt het vertalen ook al een stuk gemakkelijker.
Ik weet niet of het ooit is gepubliceerd, maar in Estland zijn mensen bezig geweest met dit soort algoritmes en daar kon de software met alleen de basistalen Engels, Spaans en Ests vrij snel en totaal nieuwe taal (Esparanto) leren vertalen.

Gezien de combinatie van talen zullen dezelfde onderzoekers (of studenten daarvan) ook bij FireFox betrokken zijn.

Ik denk overigens niet dat de cloud niet gebruikt wordt. Voor de vertaling zelf zal het niet nodig zijn, maar de lerende mechanismen en woordenboeken kunnen haast niet zonder regelmatige updates van en naar de cloud.
Dan pakken ze net een taal die erg lijkt op Engels en Spaans. Hoe zou dit werken met Hongaars, Mongools of Japans?
Dan pakken ze net een taal die erg lijkt op Engels en Spaans. Hoe zou dit werken met Hongaars, Mongools of Japans?
Heb je het nu over Ests? Dat lijkt totaal niet op Engels en Spaans; al op het allerhoogste niveau van taalfamilies zit Ests bij Fins en Hongaars in de groep, niet bij Engels en Spaans. Binnen Europa zullen er weinig talen zijn die minder op Indo-Europese talen (zoals Engels en Spaans) lijken dan de Uralic talen (Fins, Ests, Sami, Hongaars, ...) en misschien Baskisch. Hoe het verschil tussen Indo-Europees en Uralic zich verhoudt tot het verschil tussen Indo-Europees en Mongools (of Indo-Europees en Japans) durf ik niet te zeggen. Ik durf niet eens te zeggen of zo'n maatstaf überhaupt ergens op zou slaan. Maar ik kan je wel verzekeren dat ze met Ests zichzelf er niet makkelijk vanaf gemaakt hebben.
Je had het toch over het model dat Esperanto leerde? Ik weet niet waar Ests opeens vandaan komt. Mijn vraag gaat over het leren van een nieuwe taal. Ests kende het toch al of snap ik je comment verkeerd?

[Reactie gewijzigd door devices op 27 juli 2024 06:29]

Je had het toch over het model dat Esperanto leerde?
Nee, dat was ik niet, die post over Esperanto was van WillySis.
Ests kende het toch al of snap ik je comment verkeerd?
Nee, ik snapte jouw comment verkeerd. Sorry!
Ests (@robvanwijk) was één van de basistalen en die zit in de zelfde hoofdfamilie als het Hongaars.

Vertalen naar talen die een ander schrift gebruiken is weer een stap verder. In Estland is men goed bekend met het cyrillische alfabet. Er bestaat ook een goede transliteratie voor. Finoegrische talen (waaronder Ests valt) worden ook in delen van Rusland gebruikt. Russisch is een Indo-Europese taal, maar er zijn wel Finoegrische talen die in de zinsopbouw veel gemeen hebben met een Indo-Europese taal.

Het hele model ging al uit van drie verschillende taalfamilies (Finoegrisch, Germaans en Romaans) die aan elkaar grenzen. Dat een taal als Esperanto snel geleerd word is niet verwonderlijk, want die is vooral op Germaans en Romaans gebaseerd. Aangrenzende talen uit verschillende taalgebieden kennen over het algemeen in de zinsopbouw wel overeenkomsten en ik verwacht dat de algoritmen dat wel op zullen pikken en dat de verandering van het schrift niet zo'n probleem zal zijn. Dat Esperanto eigenlijk in een mum van tijd werd geleerd, bewijst dat het algoritme overweg kan met verschillende taalfamilies.

De karakter gebaseerde talen zullen een groter probleem zijn. De karakter gebaseerde talen kunnen echter wel met een Westers toetsenbord worden ingetikt. Er is dus wel een aanknopingspunt om zo'n taal te leren, maar ik vermoed dat daar wel heel veel training (verbetering) voor nodig is.

Het onderzoek is overigens in het Russisch gepubliceerd.
Vertalen naar talen die een ander schrift gebruiken is weer een stap verder.
Hoewel ik geen expert ben kan ik me dat niet voorstellen; dat is een (bijna??) perfecte één-op-één mapping. Als een systeem een gruwelijk complex probleem als vertaling op kan lossen, dan is ondersteuning voor verschillende alfabetten snel genoeg toegevoegd. Jij zegt "schriften", ik zeg "alfabetten"; hoe het zit met niet-alfabetische schriften durf ik niet te zeggen. Een mooi voorbeeld is Servië: dat is ééntalig, maar tweeschriftig; een bank zal bijvoorbeeld zowel "banka" als "банка" op de gevel hebben staan. Na een middagje rondwandelen kom je een heel eind met het lezen van Cyrillisch (al spreek je nog steeds geen Servisch natuurlijk). De regels uitleggen aan een stuk software zou niet moeilijk mogen zijn. De regels netjes uitschrijven is al voor je gedaan: UN Working Group on Romanization Systems (de regels voor bijvoorbeeld Servisch en Russisch zijn één kantje; in essentie een simpele lookup table).
Het hele model ging al uit van drie verschillende taalfamilies (Finoegrisch, Germaans en Romaans) die aan elkaar grenzen.
Ik had de post van devices verkeerd begrepen; mijn interpretatie was "van En/Sp naar En/Sp/Ests", maar bedoeld was "van En/Sp/Ests naar En/Sp/Ests/Esperanto".
Dat een taal als Esperanto snel geleerd word is niet verwonderlijk, want die is vooral op Germaans en Romaans gebaseerd. [..] Dat Esperanto eigenlijk in een mum van tijd werd geleerd, bewijst dat het algoritme overweg kan met verschillende taalfamilies.
Esperanto is grotendeels op Germaanse en Romaanse talen gebaseerd, dus dan zegt het toch juist niets als een systeem dat al werkt met een Germaanse en een Romaanse taal (Engels en Spaans) relatief eenvoudig Esperanto oppikt?
De karakter gebaseerde talen zullen een groter probleem zijn. De karakter gebaseerde talen kunnen echter wel met een Westers toetsenbord worden ingetikt. Er is dus wel een aanknopingspunt om zo'n taal te leren, maar ik vermoed dat daar wel heel veel training (verbetering) voor nodig is.
Voor mij persoonlijk is het probleem dat ik nagenoeg niets weet van talen met een karakter-schrift. Verandert de uitspraak van een woord op basis van de zinsconstructie (zoals bij naamvallen), worden werkwoorden vervoegd (zonder dat je dat aan het gebruikte karakter kunt zien)? Dat is van wezenlijk belang. Er zijn uiteraard mensen die al die vragen perfect kunnen beantwoorden, maar zonder die antwoorden wordt het nogal lastig om iets zinnigs te zeggen over hoeveel lastiger vertalen daardoor wordt.

Van de andere kant, zelfs een systeem dat alleen vertalingen kan maken van en naar Indo-Europese talen zou al ontzettend nuttig zijn, als die vertalingen van voldoende kwaliteit zijn. Het zou niet heel logisch zijn om meteen te beginnen met het nog veel moeilijkere probleem om ook tussen verschillende taalfamilies te werken; we hebben eerst het vliegtuig ontwikkeld, daarna zijn we pas de ruimte in gegaan.
Het onderzoek is overigens in het Russisch gepubliceerd.
Als ze het nou in het Ests hadden geschreven, dan had ik meteen kunnen kijken hoe goed de vertaling naar het Engels is. :)

[Reactie gewijzigd door robvanwijk op 27 juli 2024 06:29]

Ik weet ook niet veel van talen, maar ik heb wel veel contacten over de hele wereld. Met de universiteit van Riga bestaan die contacten al heel lang en daarom kende ik dit project.
Zelf ben ik gewoon een data-kraker en daardoor kom ik steeds vaker met modellen en algoritmes in aanraking. Deze vond ik wel interessant en ik heb de inmiddels de Engelse substracts opgevraagd. Het artikel is van 2008 en helaas niet digitaal beschikbaar.

Ik vermoed dat Esparanto voornamelijk op politieke gronden als test is gekozen. Ests was de moedertaal en Engels en Spaans zijn veruit de grootste talen die van het zelfde alfabet gebruik maken. In Estland heeft alles een politiek tintje, want men wil graag bij West-Europa horen, maar men moet altijd ernstig rekening houden met de grote buur Rusland.
Het Nederlands is echt een drama voor anderstaligen.
Inderdaad is er het samentrekken van woorden tot één woord.
Dan is er de grote hoeveelheid beeldspraak en dan nog dat kleine woordje dat we er tussen gooien: "er"
Ik ken een groot aantal mensen die hier al jaren wonen die het er gewoon benauwd van krijgen.
Er staat er altijd maar meestal op de verkeerde plaats.
Elke taal heeft eigenaardigheden.
Zolang er voldoende mensen bereid zijn om foutieve vertalingen te corrigeren moet een algoritme (of noem het AI) in staat zijn om na enige tijd behoorlijke vertalingen te maken.
Het leren van een nieuwe taal begint overigens met het inlezen van een aantal standaard teksten. Er bestaan gelukkig al heel wat documenten die in bijna iedere taal zijn vertaald.
Ik zeg ook niet dat het zo makkelijk is als alleen de woorden in een database hebben staan. De regel erop staat ook
Dat zou dus betekenen dat je 6000 de juiste taalregels moet laten leren.
En hiermee bedoel ik dus ook de rest van jouw verhaal.

https://taaladvies.net/ta...ag/1525/typfout_typefout/
Volgens deze site is typfouten ook goed sinds 2015 ;). En zeker dat spell checkers steeds beter worden maar het blijft toch lastig. Ja sommige fouten zullen ze best kunnen vinden tijdens het vertalen zoiets als dat Google ook doet tijdens het typen in de zoekbalk. Maar toch zullen er dingen moeilijk blijven te herkennen. Als ik probeer woorden te typen en ik typ worden is het woord nog steeds een goed geschreven Nederlandse woord en zal de spell checker het mogelijk niet vinden. Of bepaalde namen die zo apart zijn dat de vertaal programma misschien niet weet wat die er mee moet doen. En namen zoals Jasmine wat dan jasmijn wordt.
Volgens deze site is typfouten ook goed sinds 2015 ;).
Oei, daar val ik door de mand... Mijn spell checker zette een rood golfje onder "typfout" en stelde de correctie "typefout" voor, wat ik vervolgens zonder verder controleren voor waar aannam (ik kan de regels voor het spellen van Engelse woorden niet exact opdreunen, maar het eerste uitgangspunt is "net zoals in de oorspronkelijke taal", vandaar dat het geloofwaardig leek). Mijn excuses!
Als ik probeer woorden te typen en ik typ worden is het woord nog steeds een goed geschreven Nederlandse woord en zal de spell checker het mogelijk niet vinden.
Een "klassieke" spell checker niet inderdaad, maar iets als MS Word heeft al vele jaren een gecombineerde spelling- en grammatica-controle die verrassend goed werkt. Of ie "worden" vs "woorden" (in allerlei verschillende scenario's) zou herkennen als een fout en de correcte verbetering voorstelt durf ik niet te zeggen. Maar in bijna alle gevallen haalt ie bijvoorbeeld "word" vs "wordt" er wel degelijk uit.

In alle eerlijkheid, Word is natuurlijk wel een tekstverwerker; uit mijn hoofd zou ik zeggen dat alle in-browser spell checkers nog steeds van het "klassieke" typen zijn die elk woord dat je typt botweg opzoekt in een woordenlijst. Nu ik erover nadenk... het zou eigenlijk wel eens tijd worden dat we daar een keer vooruitgang in maken!. De gemiddelde persoon tikt waarschijnlijk veel meer tekst in zijn browser dan in MS Word (ik durf niets te zeggen over de spell checker van LibreOffice Word). Jammer dat MS waarschijnlijk niet heel erg bereid zal zijn om hun Word spell checker aan te bieden als een Firefox-extensie. :+
[...]
(ik durf niets te zeggen over de spell checker van LibreOffice Word).
Daar valt dan ook niets over te zeggen ;)

De spell checker van LibreOffice Writer... daar zou wat van kunnen vinden (of niet)
Je hoeft helemaal niet voor al die talen de vertaling te kennen. Sterker nog alles wat je hoeft te doen is voor al die talen te begrijpen wat er staat als je dat begrijpt in elke taal dan kun je dus de tekst lezen en dan in een andere taal opschrijven zonder dat je de vertalingen hoeft te kennen je moet de concepten begrijpen dat is alles.

En dat is precies wat steeds meer vertaal modellen doen. In plaats van een tweetalig worden boek de grammatica regels van beide talen en een veelvoud aan standaard zinnen met hun standaard vertalingen. Werken deze modellen op basis van de concepten begrijpen en als ik het concept: "Warme zomer dag" begrijp in 6000 talen dan kan ik het dus opschrijven in die 6000 talen.
Op deze manier leert het systeem dus een eigen taal te spreken en kan het simpel weg van uit de eigen taal naar alle andere talen vertalen. Klinkt misschien gek maar dat is hoe bijvoorbeeld Google translate werkt en instaat is om zonder menselijke tussen taal van A naar B te vertalen.

Dat werkt lang niet altijd even goed natuurlijk, denk aan de hoeveelheid worden mensen in de woestijn hebben om zand te omschrijven of mensen in het poolgebied om de verschillende soorten sneeuw te beschrijven. Waar in Nederland zand zand is en sneeuw sneeuw... Ook zijn er nog vaak problemen met situaties waarin een wordt twee berekeningen kan heeft en beide zouden passen in de zin maar de context van het verhaal maar een de juiste is. Dat wil nog wel eens fout gaan. Ook zijn vervoegingen en dat soort dingen lang niet altijd juist omdat het nu eenmaal moeilijk is om dat te vertalen uit een taal die die context niet heeft zo als het Nederlands naar een taal waar dat wel heel belangrijk is zo als het Russisch bijvoorbeeld waar je niet zegt: "Hij werkt" maar zegt: "Werkt" waarbij de vervoeging van het werkwoord aangeeft dat het om hij gaat en niet om zij of ik... Dat soort dingen zijn af en toe nog wat lastig voor de computer maar je ziet dat het met ieder jaar met enorme stappen vooruit gaat.

Ik weet nog dat we jaren geleden een email van het Nederlands naar het Spaans vertaalde en het onleesbaar was voor iemand die niet beide talen machtig was. Nu is het veel al goed te doen, natuurlijk is het niet geheel perfect maar wel zo goed dat het leesbaar en in veel gevallen werkbaar is om op die manier vertalingen te doen.
Ik heb nog wel vertalingen van lappen tekst gedaan door ze door Google translate te halen en dan op te knappen zodat ze leesbaar waren. Zelfs heb ik proefschriften gelezen in talen die ik niet machtig ben om vervolgens met suggesties te komen welke delen meer werk nodig hebben omdat ze nog niet duidelijk genoeg zijn, of juist zo diep gaan dat ze de rest van het werk wat aan de magere kant doen lijken, en het misschien beter is om dat stuk op te splitsen zodat het werk meer in balans is tussen de hoofdstukken.
Als je dat kunt doen dan is de vertaling aardig goed en in middels be ik aardig onder de indruk van wat de cloud aanbieders kunnen doen als het op vertalingen aan komt.
AI's zijn nog bezig om te leren wat het sentiment van tekst is. Iets wat niet zomaar uit de geschreven tekst is af te leiden, maar enkel uit de context en zelfs daar hebben veel mensen het nog moeilijk mee. Ik heb ooit ergens eens gelezen dat er een experiment was waarbij AI's onderling een soort van rudimentaire "taal" hadden ontwikkeld waarvan de onderzoekers versteld stonden, omdat het helemaal niet de bedoeling was van het experiment.
Het zit geheel in het algoritme gebakken. De vertaling vindt plaats via voorbeeldvertalingen. Als er rechtstreekse voorbeeldvertalingen zijn dan zal het algoritme die al snel als beste weg beoordelen en die gebruiken voor de vertaling. Is er evenwel gebrek aan voorbeeldvertalingen, dan zal de computer een weg via een tussentaal kiezen. Voorheen was dat statisch, maar tegenwoordig is dat ook geheel dynamisch afhankelijk van wat het algoritme beslist.

Een vertaling tussen Nederland en Duits zal daarom bijvoorbeeld heel vaak rechtstreeks plaatsvinden, omdat er veel voorbeeldvertalingen te vinden zijn. Een vertaling tussen Nederlands en Japans zal vrijwel altijd via een tussentaal verlopen, omdat er weinig voorbeeldvertalingen te vinden zijn.
De vertalingen met cloud (google of elders) zijn in mijn ervaring vaak al slecht van kwaliteit, zeker zinsopbouw en minder gangbare talen (lees: anders dan naar Engels) dus ik vraag me af hoe goed het zonder alle "cloud-magie", machine learning, ai en welke buzzwords er deze week populair zijn werkt...
Helemaal eens, echter worden ze steeds beter, ik gebruik al jaren deepl.com deze is aanzienlijk beter dan google translate of bing translate. Heb zojuist even de vertaling op een artikel van el pais getest en moet zeggen dat de vertaling volledig correct was. Wel duurde het ongeveer 30 seconden voor de pagina vertaald was (11e gen i7 laptop) en bleef de melding dat de pagina vertaald werd constant draaien ook al was hij al klaar wat afleidend was.
@maevian schreef het al www.deepl.com steekt met kop en schouders boven alle andere vertaalmachines uit.
Recent zijn er een boel talen toegevoegd. In tegenstelling tot google translate en andere krijg je geen letterlijke vertalingen maar kijkt men naar de hele zin.

Deepl blijft ook bijleren en draait om die reden ook in de cloud. Als ik dan denk aan een lokale vertaalmchine dan vraag ik me af of dat ook niet gewoon de typische letterlijke vertaling is. Letterlijke vertalingen zijn meestal krom en onjuist. Tenzijn er een slimme zelflerende logica achter zit die dan iedere keer geupdate moet worden. Denk niet dat dat het geval zal zijn. Bij deepl zitten er een boel cloud servers achter met neem aan hele zelflerende database die continue dag in dag uit betere vertalingen geeft.
Het zou mooi zijn als ze een app of PWA aanboden
Ze hebben een app voor Windows en macOS: https://www.deepl.com/app
Aan een Android- en iOS-versie wordt momenteel gewerkt.
Klopt maar die is zo ver is zie niet bedoeld om live websites te vertalen.
Maar dat zei @Halfscherp, op wie ik reageerde, er ook niet bij…

[Reactie gewijzigd door TheVivaldi op 27 juli 2024 06:29]

Hij zal sowieso geupdate moeten worden, immers zelfs als hij zelflerend is, dan draait hij alsnog alleen lokaal, je wil liever iets dat globaler leert. Maar dat hij met enige regelmaat een update krijgt lijkt mij toch geen probleem? En in principe is bij deeplearning toepassingen het leren een stuk zwaarder dan het toepassen van het model.
Vraag me dan nog steeds af hoe groot de database op bijv de deepl cloud is en of je die überhaupt lokaal kan draaien.
30 seconden??? Welke manier heb je het gedaan? Via website of deepl voor windows? Stukje tekst of hele website? 30 seconden vind ik wel lang, tenzij website druk was geweest.

Deepl (via web) kan geen website vertalingen uitvoeren merk ik.
De 30 seconden ging over de nieuwe firefox add-on, niet over deepl
Deepl voor vetalingen naar Frans is echt zo geweldig
Voor de Nederlandse taal is er echter nog wel wat werk aan de winkel zo te zien..
weet ik niet, gebruik het daarvoor nooit
Zelfs in professionele computer-assisted translation tools is machinevertalen gewoon nog niet te doen. Er zijn hele goeie pakketten die in combinatie met bijvoorbeeld DeepL redelijk nette zinnen kunnen bouwen, wat al belachelijk veel voorloopt op bijv. Google Translate, maar ook dat is as-is verre van interessant voor professionele vertalingen.

Tzt zul je zien dat vertaalwerk wat makkelijker wordt en vooral verschuift naar heel veel correctie en naleeswerk, maar we zijn echt nog heel ver weg van een computer die een kwalitatieve en consequente vertaling kan leveren van een heel document of een hele website.
Anoniem: 58485 @spnw4 april 2021 17:54
Ik blijf erbij dat handmatig overschrijven c.q vertaling altijd beter is dan een AI of translation service. Je hebt dan ook echt het idee hee daar heeft iemand op gezeten.
Probeer deepl.com eens zou ik zeggen die steekt met kop en schouder boven alle anderen uit.

Daarnaast wil je echt goed vertalen zul je een kei in beide talen moeten zijn. Vertaalmachines worden daarnaast ook steeds beter en beter.
Bij deepl kan ik zelf ook nog woorden vervangen als ik zelf denk dat is niet het juist wordt. Daarop veranderd het systeem misschien ook de zinsopbouw op andere woorden.
Het nieuwste buzzword is toch echt de 'edge'; dit lijkt daar mooi aan mee te doen. Het model kan getraind worden in de cloud, en vervolgens gedeeld worden met nodes op de edge die verder lokaal hun magie doen. Best of both words, wat dat betreft.
Het feit dat andere browsers en plugins (Google Chrome Enhanched spell check etc.) het via de cloud doen is eigenlijk veel zorgwekkender... elke vertalings- en spellingscontrole gebeurd dan op centrale servers, wat inhoudt dat elke tekst die je typt al op de servers van Google staat, ongeacht of het een Google dienst is.
Kan iemand eens testen hoe goed de vertaling van de extensie is? Ik heb wel FIrefox, maar niet de nightly-built...
Ha, dat is toevallig. Van de week nog gezocht naar de status van dit project. Het enigste wat ik toen vond was een paar posts op reddit naar mensen die zich ook afvroegen wat de status van dit project was. Bij deze dus, ik ben benieuwd en ga het eens testen ;)
Zou dit werken met de spellingscontrolles? Omdat die ook al in de browser zitten?

Ik heb de laatste tijd onder Firefox in fedora trouwens dat met Amazon prime video en bepaalde andere video sites het beeld soms bevriest en geluid gewoon doorgaat. Daarna vraagt Firefox of ik wil wachten of geforceerd wil afsluiten.

Iemand een idee hoe dit komt?

Op dit item kan niet meer gereageerd worden.