Microsoft test realtime vertalen van streams en videogesprekken in Windows 11

Microsoft is begonnen met het testen van realtimevertalingen in Windows 11. Dat vereist wel een Copilot+-pc met Intel- of AMD-processor. De software kan audio uit 44 talen realtime vertalen naar het Engels.

Daardoor kunnen gebruikers met een dergelijke machine een Nederlandstalige stream volgen in het Engels, blijkt uit informatie van Microsoft. De software ondersteunt 44 talen, maar de vertalingen gaan alleen naar het Engels toe en zijn vooralsnog niet beschikbaar in andere talen.

Microsoft test dit in Windows 11 Insider Preview Build 26120.2705, al is het de bedoeling dat de functie later ook in de stabiele versie van Windows uitgebracht wordt. Of en wanneer dat gebeurt, is niet bekend. Ook is onduidelijk of het een vereiste blijft dat de gebruiker een Copilot+-pc heeft met Intel- of AMD-processor. Die pc's zijn er namelijk ook met Qualcomm-socs.

Windows 11 Live Captions
Windows 11 Live Captions

Door Arnoud Wokke

Redacteur Tweakers

19-12-2024 • 16:59

25

Reacties (25)

25
25
9
0
0
16
Wijzig sortering
Dit is reeds generally available voor ARM Based Copilot+PC's via de live captions feature, ik heb het vorige wwek gedaan met een Surface Pro 11th Edition.
Klopt, ook al enkele keren lopen mee testen. Werkt voor geen meter als je wat meer exotische talen gebruikt zoals uit het verre oosten.
We zitten pas aan het begin van deze ontwikkelingen en jij schrijft het al af omdat het nog niet werkt met exoten. Met zo'n houding weten we zeker dat er nooit iets ontwikkeld zal worden....
Als het nu voor geen meter werkt, werkt het toch voor geen meter?
Live vertalen is hinderlijk als ze halverwege de woordvolgorde in de zinnen aanpassen omdat het beter past in het taalmodel van de vertaalde taal
zoiets als
Ik heb zojuist een boterham met pindakaas gegeten
I have just a sandwich with peanutbutter .... correctie
I have just eaten a sandich with peanutbutter

dat leest heel hinderlijk
Sommige talen hebben nu eenmaal een hele andere grammatica. Wij hebben in het Nederlands meestal de persoonsvorm als eerste werkwoord in de zin, maar bij zat talen is dat juist aan het einde.

Japans is een bekende, klassiek Latijn deed het op een andere manier, maar dat zijn lang niet de enige, zie ook het Wikipedia artikel over "SVO-volgorde" of de wat uitgebreidere Engelse artikelen (pagina's?) "Subject–verb–object word order" en "V2 word order".

Als iets live vertaald moet worden, is het gewoon niet altijd mogelijk om daadwerkelijk te weten wat de juiste betekenis is van de gehele zin voordat deze voltooid is. Sterker nog, dat is een aspect dat men ook als stijlmiddel inzet omdat de betekenis van de zin op het einde daarmee heel anders kan worden, pas als die persoonsvorm is uitgesproken.

edit:
paar woorden vergeten en uitgebreidere EN link toegevoegd

[Reactie gewijzigd door Vyo op 19 december 2024 19:06]

maakt nietuit als je niet naar het orgineel luistert. De vertaling loopt wat achter omdat de zin begrepen moet worden dat wel, dus het zal er wel aanliggen hoegoed de ai het onderwerp begrijpt

[Reactie gewijzigd door tw_gotcha op 19 december 2024 21:14]

Nee je begrijpt mij verkeerd

De uitgesproken zin is: Ik heb zojuist een boterham met pindakaas gegeten
Er komt dan in beeld te staan (woord voor woord, zodra het is uitgesproken)
I have just a sandwich with peanutbutter
terwijl je aan het lezen bent (bijvoorbeeld zit je dan bij het woord 'with') verdwijnt de zin weer half
en staat er alleen: I have just
om het vervolgens weer af te maken als: I have just eaten a sandich with peanutbutter
Dat is inherent aan live vertalen denk ik. Hoe zou je dat anders kunnen doen behalve constant minimaal een zin achter lopen?. Dat lijkt me eerlijk gezegd nog veel irritanter, zeker als het een taal is die je deels begrijpt.
Het enige wat ik mij kan bedenken is de stream vertragen zodat er tijd is voor de live vertaling
Maar uiteindelijk zal je ook live meetings willen vertalen. En dan kan je de media niet vertragen. Als de vertaling slim genoeg wordt kan het in veel gevallen redelijk voorspellen wat er gaat komen. Als de tekst "ik heb een boterham met pindakaas" langskomt dan heb je 2 opties: gegeten of gemaakt (en in mindere mate: tegen de muur gegooid). Afhankelijk van de context kan je dan bepalen of de kans op gegeten of gemaakt het grootst is. Het zal allemaal nog niet perfect zijn, maar het zal beter voorspellend worden als het eenmaal gebruikt gaat worden. Jij kan in veel situaties ook voorspellen wat een volgend woord wordt, vertaalmachines moeten dat gaan leren.
het lkijkt me niet dat het woord voor woord gaat, dat zou helemaal niet handig zijn. Een zin kan makkelijk een delen worden opgedeeld anders zozu je nooit van Frans naar Duits kunnen vertalen want die h8ebben een toaal andere zinsconstructie. In jouw voorbeeld "I have just" en "a peanutbutter sandwich" zijn elementen van die zin die je kunt herkennen, en een AI kan dat wel afmaken op den duur.
dat is het nadeel aan realtime-vertalingen en voor tolken is dat nog steeds het moeilijkste aspect van hun werk: Je moet een middenweg vinden tussen snelheid en context die onbekend is op het moment dat elk woord wordt uitgesproken. Je mag het niet vergelijken met nagerenderde ondertiteling, omdat ze daarbij de luxe van de volledige context hebben.
Je videoplayer (of WIndows zelf) zou dan eigenlijk de video even moeten bufferen zodat de AI de tijd heeft om de vertaling goed te krijgen. Een paar seconden is dan al genoeg.
Haha, wat een bizar idee dat we uiteindelijk stapje voor stapje richting iets gaan dat lijkt op de universele vertaler uit Star Trek, haha. Dat had ik 15 jaar geleden niet zo snel verwacht
En we zitten veel dichter bij realtime vertaling dan we denken. Ik denk dat zelfs mensen van in de 50 nog in hun werkzame leven gaan meemaken dat je internationale gesprekken in je eigen taal kunt doen.
Dit kan vandaag al hoor. Dit zit ingebakken in Teams Premium en komt in januari 2025 ook standaard in de Microsoft 365 Copilot licentie. Ik heb het zelf al getest. Extreem verbazingwekkend was het om mezelf in het Chinees te horen spreken - mijn eigen stem, effectief. Omdat ik dit niet kon fact checken, heb ik het ook in Spaans en Frans gehoord. Heel merkwaardig en accuraat. Er zit altijd een delay op van enkele seconden; dit net om de zinsconstructie en boodschap goed te begrijpen alvorens het woord voor woord, letterlijk te vertalen. Hierdoor gaan veel taal- en cultuurverschillen eindelijk minder impact hebben op zakenrelaties en beslissingsnemers in global organisaties.
Dit zit al geruime tijd in Teams Premium voor Enterprise tenants. En niet alleen van diverse talen naar Engels, maar ook van bijvoorbeeld Nederlands naar Duits of Chinees.
Hoe gaat dit met je privacy? En gevoelige informatie? Stel dat je een Teams meeting hebt, moet dan iedereen akkoord gaan? En ik neem aan dat de communicatie via de servers van Microsoft verlopen dus ga ik ervan uit dat Microsoft op den duur ook alles van je weet.

Dus ook als je stem een keer anders klinkt, dus misschien ziek bent? Of dat je bedrijf ineens bezig is met allerlei investeerders en het dus financieel misschien wat minder gaat? Etc.

Technische vooruitgang betekent ook een verschuiving van de machtbalans..
Bij een Teams meeting verloopt de communicatie al via Microsoft Servers, dus daar zijn geen aanpassingen van de voorwaarden nodig zover ik me kan bedenken.

En de vereiste dat het apparaat CoPilot+ nodig heeft, vertelt mij dat het genereren van deze vertalingen lokaal op de eigen machine plaatsvind.
Dit laat mij denken aan ondertiteling van films, zeker bij Engelstalige films met Nederlandse ondertitels. Als je Engels verstaat dan is het soms lachwekkend hoe ver vertalingen soms afwijken van het origineel. Dus in die zin heb ik ook wel zo mijn twijfels bij dan realtime vertaling, zeker ook al wat synchronisatie betreft. En tja voor mij persoonlijk is dat zo goed als nooit voor gekomen dat ik een stream uit een totaal andere taal volg. Meeste streams zijn veelal wel in het Engels, Duits of Nederlands en alle 3 de talen versta ik vloeiend.
Leuke vraag: wat zou copilot doen met: YouTube: I wanna fuck you - Van Kooten en De Bie :+

[Reactie gewijzigd door Anoniem: 57411 op 20 december 2024 00:58]

Gezien het puriteinse karakter van het doorsnee Amerikaanse bedrijf iets als dit: imgur
Zal denk ik dan iets worden van pieeppp pieeeppp :)
Staat nog niet op punt, maar wel interessant om te zien hoe snel dit zich allemaal ontwikkelt.

Op dit item kan niet meer gereageerd worden.