Meta heeft een demo online gezet van een AI-model dat gesproken tekst in meerdere talen kan omzetten in tekst en spraak in een andere taal. Het model kan ermee omgaan als een spreker midden in een zin van taal wisselt.
Het model SeamlessM4T is beschikbaar als online demo, download op GitHub en demo op Hugging Face, meldt Meta. Het kan spraak en tekst als input gebruiken en vervolgens transcriberen en vertalen van spraak of tekst naar een combinatie van beide. Het ondersteunt spraakinput in bijna 100 talen en output naar tekst in 35 talen.
Het komt voort uit de SeamlessAlign-dataset met 270.000 uur aan spraak en tekstfragmenten met vertalingen. De onderzoekers van Meta vinden het model een vooruitgang vanwege de ondersteuning van veel talen en de mogelijkheid om spraak en tekst als input en output te hebben. Het model is nu beschikbaar voor onderzoekers en ontwikkelaars. Het is onduidelijk of Meta in een later stadium het vertaalmodel een plek gaat geven in eigen apps en diensten, zoals WhatsApp, Instagram en Facebook.