Meta toont text-to-speech-AI die tekst naar audio kan omzetten

Meta heeft een text-to-speechprogramma getoond waarmee gebruikers geschreven tekst kunnen omzetten naar audio. Voicebox werkt in zes talen, waaronder Frans en Duits, maar Nederlands werkt nog niet. De tool wordt voorlopig niet openbaar om misbruik te voorkomen.

Meta zegt dat Voicebox een generatieve AI is die audiobestanden kan maken op basis van tekst. Met een stuk audio van minimaal twee seconden, kan de tool de audio daarvan bovendien matchen. De tool kan zo bijvoorbeeld de gegenereerde audio laten matchen met iemands stem. Voicebox kan de tekst vervolgens zelf verder maken in zes talen. Dat zijn naast het Engels ook Frans, Duits, Spaans, Pools en Portugees.

Voicebox kan daarnaast ook een audiobericht waarin een tekst gesproken wordt uit zichzelf bewerken. Zo kan de tool verkeerd uitgesproken woorden corrigeren of achtergrondgeluiden zoals een blaffende hond wegfilteren.

Meta Voicebox

Meta heeft een flow matching-model gebruikt om de tekst natuurlijk te laten klinken. Flow matching is een AI-trainingsmodel dat Meta zelf heeft ontworpen, dat is gebaseerd op continuous normalizing flows. In een onderzoekspaper zegt Meta dat het model is getraind op 50.000 uur aan audio in ieder van de zes ondersteunde talen. Het model zou een errorrate van slechts 1,9 procent hebben in uitgesproken woorden.

Meta maakt zowel de tool als het achterliggende model voorlopig niet openbaar. Het bedrijf zegt dat een dergelijke tool 'mogelijkheden heeft om misbruikt te worden en mensen pijn te doen'. Daarom wil het alleen een aanpak en de resultaten in een wetenschappelijke paper uitbrengen, maar de tool zelf niet. Of dat in de toekomst wel gaat gebeuren, zegt Meta niet. Het bedrijf heeft wel een aantal demo's online gezet waarin voorbeelden te horen zijn van de AI.

Door Tijs Hofmans

Nieuwscoördinator

16-06-2023 • 18:22

22

Reacties (22)

22
19
11
2
0
5
Wijzig sortering
Qua natuurlijke stem heeft Microsoft een krachtige in handen.

https://www.microsoft.com.../vall-e-x-rebuild/vall-e/

Verbluffend hoe goed dit klinkt na slechts een paar zinnen te hebben gesproken
Er staat iets in het artikel dat niet klopt @TijsZonderH. Ik doel daarbij specifiek op dit stuk:
Meta zegt dat Voicebox een generatieve AI is die audiobestanden kan maken op basis van tekst. Daarvoor is volgens Meta alleen een stuk audio bij nodig van minimaal twee seconden.
Er is geen stuk audio van minimaal twee seconden nodig om audiobestanden te kunnen maken, dat kan die sowieso, zie mijn gelinkte bronnen hieronder. Er is echter wel een stuk audio van minimaal twee seconden nodig om de audio stijl te matchen. Dat deel van de techniek is eerder bedoelt om audio te kunnen generen die klinkt als de persoon die het betreffende stuk heeft ingesproken.

Bron: het artikel waar je artikel zelf naar refereert, maar ook het artikel waar Meta zelf naar refereert en dat nog veel verdiepender is (aanrader) ....

[Reactie gewijzigd door Morkatog op 22 juli 2024 23:20]

Maar hoe dicht komt het bij Microsoft Sam in de buurt? Dat is de echte graadmeter natuurlijk.
Ik hoop dat de meeste de grap snappen :+
Da's niet Microsoft Sam. (Staat ook onderin)
Microsoft Sam klinkt net ietsje anders maar het komt in de buurt.
Voorbeeldje
https://youtu.be/Dh01lrGoLEY

[Reactie gewijzigd door Waswat op 22 juli 2024 23:20]

Laat Microsoft eerst maar eens in de buurt komen van de superioriteit van Commodore 64 SAM. :P

https://discordier.github.io/sam/
Obnoxious TikTok Voiceover chick: OMG, This guy falls in the water like it's NOBODY's BUSINESS
Fitter, happier, more productive
Comfortable, not drinking too much
Regular exercise at the gym three days a week
Getting on better with your associate employee contemporaries
De voorbeelden in de video klinken wel duidelijk minder dan die van ElevenLabs (dat is de AI tool die vaak gebruikt wordt om stemmen van bekende mensen na te maken).
Het artikel leest alsof het een spraak naar tekst is, maar het gaat om de tekst naar spraak toch?
[Working] Hi mam, heb wat boodscha.... 'DEZE WEEK: KORTING OP WASPOEDER BIJ DE AH !' ppen gebracht bij je...
Meta doet toch juist al lange tijd heel veel open-source dingen voor AI?
Ja, maar Meta bashen is voor kortzichtige mensen de norm. Meta doet al langer mee met AI, zoals LLama, volledig lokaal te draaien enz.
Dus je zou liever geen vooruitgang hebben en nog steeds dezelfde systemen van de jaren stilletjes gebruiken? Dat is bijna zoals zeggen "3D games bestaan al tientallen jaren. Doe eens iets nieuws", alsof elke iteratie geen vooruitgang is tegenover de vorige state of the art.
Videospelletjes zijn juist een goed voorbeeld van weinig innovatie. Je krijgt steeds meer van hetzelfde, zowel qua verhaal, en nog veel meer qua algehele spelervaring. Ieder nieuw spel is een steeds kleinere variatie op iets wat al gemaakt is.

Misschien moet je ook eens zoeken op het web naar 'refinement culture', een culturele theorie van Paul Skallas.

Auto's bijvoorbeeld, zijn daar nog wel het beste voorbeeld van, zowel qua vorm (windtunneleffect) als qua kleur lijken ze steeds meer op elkaar: https://pbs.twimg.com/media/FpMhJvVX0AUONQ1.jpg

[Reactie gewijzigd door ByteArray op 22 juli 2024 23:20]

Ik had het over het visuele aspect.
De meeste mensen zien niet zo'n groot verschil.

Toon me een screenshot van een PS4- en een PS5-spel, en de verschillen zullen klein zijn. De tijd dat iedere generatie spelcomputer grafisch merkbaar beter is, is voorbij. Vergelijk maar eens de NES met de SNES en daarna de N64, dat zijn echte sprongen.
Yup. Je merkt het nog wel een paar generaties verder, maar de laatste tijd stagneerd het ook. De volgende tijdlijn merk ik zelf vooral op bij de PlayStation generaties (want die gebruik ik het meest kwa oud spul). In algemene zin dan, er zijn altijd wel uitzonderingen.

Bij de PS1. Alle schaduwen zijn nog op de defuse map getekend, en de grondschaduw is vaak een 4 polygons tellende plane met een texture van een cirkel die steeds verder transparant wordt.

PS2 heeft duidelijk meer polygons per model en daadwerkelijk gerenderde schaduwen op alles.

PS3 krijgt veel betere anti-aliasting en anisotropic filtering. Ook worden bump maps veel meer gebruikt.

Daarna verbeterd alles wel, maar de echte verschillen worden steeds kleiner. Ik kan me zo geen grote doorbraak kwa technieken bedenken van PS3 naar PS4 zoals bij de voorgaande consoles. Enkel wat we hadden wordt verbeterd, en wat kleine extras. Wat mij part begint de stagnatie daar dus. Het verbeterd wel, maar erg mondjesmaat imho.

Ik speel vaak genoeg spellen die er nog prima uit zien waar ik compleet vergeet hoe oud ze zijn, tot ik opeens een reminder krijg ergens dat het oospronkelijk meer dan 10 jaar geleden verscheen op de PS3. Maarja, ook die PS3 voelt nog niet zo oud voor mij, ondanks dat hij oud genoeg is om hier in het retro forum te plaatsen 🥲.

[Reactie gewijzigd door Cambionn op 22 juli 2024 23:20]

Op dit item kan niet meer gereageerd worden.