Meta heeft een text-to-speechprogramma getoond waarmee gebruikers geschreven tekst kunnen omzetten naar audio. Voicebox werkt in zes talen, waaronder Frans en Duits, maar Nederlands werkt nog niet. De tool wordt voorlopig niet openbaar om misbruik te voorkomen.
Meta zegt dat Voicebox een generatieve AI is die audiobestanden kan maken op basis van tekst. Met een stuk audio van minimaal twee seconden, kan de tool de audio daarvan bovendien matchen. De tool kan zo bijvoorbeeld de gegenereerde audio laten matchen met iemands stem. Voicebox kan de tekst vervolgens zelf verder maken in zes talen. Dat zijn naast het Engels ook Frans, Duits, Spaans, Pools en Portugees.
Voicebox kan daarnaast ook een audiobericht waarin een tekst gesproken wordt uit zichzelf bewerken. Zo kan de tool verkeerd uitgesproken woorden corrigeren of achtergrondgeluiden zoals een blaffende hond wegfilteren.
Meta heeft een flow matching-model gebruikt om de tekst natuurlijk te laten klinken. Flow matching is een AI-trainingsmodel dat Meta zelf heeft ontworpen, dat is gebaseerd op continuous normalizing flows. In een onderzoekspaper zegt Meta dat het model is getraind op 50.000 uur aan audio in ieder van de zes ondersteunde talen. Het model zou een errorrate van slechts 1,9 procent hebben in uitgesproken woorden.
Meta maakt zowel de tool als het achterliggende model voorlopig niet openbaar. Het bedrijf zegt dat een dergelijke tool 'mogelijkheden heeft om misbruikt te worden en mensen pijn te doen'. Daarom wil het alleen een aanpak en de resultaten in een wetenschappelijke paper uitbrengen, maar de tool zelf niet. Of dat in de toekomst wel gaat gebeuren, zegt Meta niet. Het bedrijf heeft wel een aantal demo's online gezet waarin voorbeelden te horen zijn van de AI.