Spotify test vertalingen van podcasts met door AI gegenereerde stemmen

Spotify is begonnen met het testen van vertalingen van podcasts met door AI gegenereerde stemmen die de stemmen van de makers moeten nabootsen. De vertalingen zijn beschikbaar in onder meer Duits, Spaans en Frans.

De test is met Engelstalige podcasts, meldt Spotify. Gebruikers kunnen de vertalingen horen in een verzameling daarvan. Het audiobedrijf werkt daarvoor samen met OpenAI, waarvan Spotify de technologie gebruikt om stemmen te genereren.

De bedoeling is om podcasts voor meer mensen beschikbaar te stellen in de eigen taal, zonder verlies van de specifieke elementen van de stem van de podcasthost. Het gaat vooralsnog om een beperkt aantal podcasthosts en afleveringen.

Spotify Voice Translation
Spotify Voice Translation

Door Arnoud Wokke

Redacteur Tweakers

25-09-2023 • 15:17

27

Reacties (27)

Sorteer op:

Weergave:

Ik heb het net even getest. Ik versta Spaans dus heb een paar stukken naast elkaar beluisterd.
- Er zit soms een engels accent bovenop de spaanse woorden. Ik kan me inbeelden het ergerlijk kan zijn voor spaanstaligen.
- Het spaans is erg duidelijk ook voor mensen die taal minder goed onderde knie hebben zoals ik . Spaanse podcasts zijn soms extreem snel. Lijkt me ideaal om Spaans te leren ;-)
- De AI versie is trager, er worden meer pauzes genomen. 2u13 vs 2u43 voor de AI.
- Op min 26 van E256 zit je echt op de limieten van AI, de podcast host is een Engels woord aan het problemen uitspreken (Autophagy) en doet meerdere pogingen. De AI probeert dat in het Spaans mee te nemen. Best wel grappig maar het verliest wel een minuut en het klinkt erg klungelig.
- De originele versie klinkt wel een heel stuk helderder en volumineuzer.

Ondanks het niet perfect is, is het wel waanzinnige knap dat AI de stem kan kopieren naar een andere taal. Op sommige passages na klinkt het redelijk natuurlijk.

Er zijn soms goede Amerikaanse podcasts die ik niet kan beluisteren omdat ik me irriteer aan de nasale accenten stem van de hosts. Als ze die kunnen omzetten naar een andere stem zou top zijn! Ook in luisterboeken zou je dan een stem kunnen kiezen die je graag hoort.

Eigenlijk zijn de mogelijkheden eindeloos. Je zou een AI podcast kunnen maken van een boek. Of een boek van een podcast. Soms luister ik liever dan ik iets moet lezen.

Of een wekelijks podcast bulletin van alle publicaties in een bepaald vakgebied zoals ruimtevaart + een samenvatting van de belangrijkste stemmen op Twitter om te kijken wat er resoneert tussen wetenschappers.

[Reactie gewijzigd door Coolstart op 23 juli 2024 04:55]

Tja, in Duitsland synchroniseren ze alles na, en het is in Europa een grote taal (Spaans is dat wereldwijd). Frans in beide gevallen minder dan eerdergenoemden, maar nog steeds zeer significant, en dat geldt voor beide regio's. Daarnaast hebben alledrie de talen veel native speakers die geen Engels (ofwel nauwelijks Engels) spreken.

Ik zie in het plaatje als voorbeeld Lex Friedman (welke kunstmatige intelligentie heeft gestudeerd). Dat zijn podcasts die vaak 3 uur duren en diep op een onderwerp ingaan. Daarnaast is hij niet al te kritisch als host en hij is populair, dus geïnterviewden komen met bosjes op hem af want het is makkelijk scoren. Meer reach in meer talen is in deze context (inclusief eerdergenoemde) geheel logisch.

Het is ook niet superingewikkeld. Eerst zet je de spraak om naar tekst (STT). Dat kan met machinelearning zoals whisper.cpp. Vervolgens vertaal je de tekst. En dan moet je nog TTS. Die laatste twee kan al jarenlang. De eerste is waar de recente jaren innovatie zit. En het moet ook nog eens allemaal zeer accuraat zijn.
Ze beloven hier ook dat de gegenereerde stem de originele stem nabootst. Ze zeggen niet echt hoever ze gaan maar als je het eerst naar tekst omzet ben je veel info kwijt. Je zou dan misschien wel de algemene stijl kunnen nabootsen met een TTS maar je wilt ook dat als een spreker ergens de nadruk oplegt, dat dit ook goed naar voren komt. Maar nu is Lex misschien wel de slechtste testcase ervoor aangezien hij best wel monotoon praat.
Als dat ze lukt kunnen Duitstalige stemacteurs wel inpakken. Was toevallig op de Duitstalige trailer van Cocaine Bear terecht gekomen en het net alsof je weer op een zondagmiddag in de vroege jaren '90 The A-Team zat te kijken op het Duitse RTL.
Oh ja dat was ook zo slecht!!! :*) 8-)
Yep, en wat me tegenwoordig vooral opvalt is dat er vaak nagesynchroniseerde zaken zijn waar bijvoorbeeld volume en positionering totaal niet kloppen. Je ziet gewoon voor je hoe men voor een microfoon een script voorleest.

van een goede AI zou ik verwachten dat deze ook automatisch volume en locatie correct meepakt, de emotie tot op zekere hoogte en natuurlijk dat in het oorspronkelijke stemgeluid.
Dit klinkt in het geval van Cocaine Bear meer als een plus dan min punt. Brengt de voice acting kwaliteit naar het zelfde niveau als de rest van de film. ;)
Je kunt per woord de transcriptie timing vast leggen, dan kun je per timing de verandering vastleggen en mappen naar de andere taal.
Uiteraard gaat er dan nog veel fout, niet elke taal intoneert op dezelfde manier, dus sommige dingen zullen onnatuurlijk klinken in de vertaling, maar over het algemeen zal dit simpele model waarschijnlijk prettiger klinken dan een monotone voorlees machine.

Veel voorleesmodellen weten trouwens al aardig intonaties van een zin te doen. Los van de oorspronkelijke spreker. Start de audio op deze pagina eens:
https://aws.amazon.com/bl...gents-for-amazon-bedrock/
Dit is gemaakt zonder text uitspraak annotatie, het artikel is de enige input.

[Reactie gewijzigd door djwice op 23 juli 2024 04:55]

Ze beloven hier ook dat de gegenereerde stem de originele stem nabootst
Ja, dat kan AI tegenwoordig al op basis van een paar excerpts.

Is ook een manier om iemands voice te clonen. Scammers gebruiken dat dmv een telefoongesprek van jou opnemen of OSINT toepassen (bijv je YouTube of Facebook afstruinen). Dit vervolgens gebruiken en je kunt iemands stem nagenoeg perfect nabootsen.

Of dat ook met andere talen werkt (dus dat een andere taal wordt gegenereerd) weet ik niet. Ik weet wel dat Apple Maps en Google Maps aardig goed zijn met Nederlandse straatnamen (en dat is al een tijdje zo). Soms verknoeien ze het enorm (dat het lachwekkend wordt) en ik woon in een straat waar dat van toepassing is. Maar over het algemeen werken ze goed, en als je het op Engels zet krijg je termen die hier niet gangbaar zijn of zelfs langer zijn, zoals 'roundabout'.

[Reactie gewijzigd door Jerie op 23 juli 2024 04:55]

En het probleem schuilt hem in je allerlaatste zin. Zodra je gesproken tekst die niet perfect is opgelezen gaat transcriberen met STT, of nog veel erger, een gesprek, gaat STT echt faliekant mis. Ik ben heel benieuwd hoeveel winst hier uit te halen valt door AI. :)
Je zou STT kunnen laten checken door een medewerker, of een transcriptie gebruiken. Dat laatste is misschien voor de grotere podcasts laaghangend fruit omdat dat voor doven soms al gedaan wordt. Dan heb je alleen de vertaalslag en TTS nodig, en die zijn tegenwoordig al een stuk minder riskant.
Ik heb Whisper gebruikt om songteksten uit liedjes te halen met timings er bij. Elke run krijg je een ander resultaat, zelfs op het zelfde bron materiaal en met kale nieuwe installaties.
Het gekke is dat goede transcripties er soms uitrollen maar niet altijd, ondanks dat je dezelfde parameters gebruikt. En soms is de timing in run X beter terwijl de transcriptie in run Y beter is.
Ook komen er regelmatig spookzinnen of spookwoorden in het eindresultaat. Vaak is dat een copyright claim die onder alle artikelen op een bepaalde website staat, die per abuis niet uit het model gefilterd is.

Ik zet het vaak om naar LCR formaat voor liedjes.

[Reactie gewijzigd door djwice op 23 juli 2024 04:55]

Bekijk deze video eens die ditzelfde laat zien, maar dan met beeld: je spreekt een video in en wat je zegt wordt vertaald en uitgesproken met jouw eigen stem en als bonus wordt je mond ook nog gesynchroniseerd met wat je zegt. Een podcast vertalen is dan nog maar een eitje

https://www.linkedin.com/...vity:7110565618151485440/
Ik zat gisteren een spel te spelen dat automatisch vertaald was. Toen ik op toneelstuk moest klikken om het spel te starten moest ik toch even nadenken wat ze bedoelden. Niet zo erg, maar in een podcast lijken dat soort dingen me wel heel storend.
Mooi dat het kan, maar dat gaat de content creaters wel raken als ze normaal hun eigen tweede kanaal hebben.
Nee juist niet.
Want dat tweede kanaal hoeven ze nu niks meer aan te doen, die bestaat automatisch.
En daarbij ook nog alle andere talen.
Mits die wordt aangemaakt door die content creater zelf.. je kan nu ook een nieuwe channel starten, onder een andere naam met dezelfde content maar dan in een andere taal maar daar wel lekker geld voor vangen. En succes met het vinden van iets in compleet andere talen.
De tool is dan ook bedoeld zodat content creators hun content in meer talen kunnen maken.

Dat wil zeggen, dat je bereik dus aanzienlijk vergroot wordt. En dus meer geld voor te vangen is,.


Jouw suggestie van het stelen van content, dat kan nu ook al, daar zal niks aan veranderen maar dat is ook niet waar dit over gaat.
Tuurlijk kan dat nu ook, maar nu kan je het makkelijk vinden als het jou taal is. Als het een Taal is die jij niet spreekt is het anders.
of je hebt 10k op 1 kanaal met de relevante inkomsten gerekend over een kanaal met 10k bezoekers,

of je hebt één kanaal met 2k en nauwelijks inkomsten
én een kanaal met 8k en een beetje inkomsten

ik weet niet of je er uiteindelijk wel zoveel slechter van wordt,

in the end met je voor die verlating normaliter ook gewoon betalen en gaat dat nog eens af van je 2k reclame-inkomsten.

voor de eindgebruiker is het ook een 2ledig zwaard enerzijds krijg je toegang tot content die niet eerder voor jou beschikbaar of bedoeld was maar tegelijkertijd raak je content kwijt (of in ieder geval gaat kwaliteit verloren) ten aanzien van betere vertaling.

[Reactie gewijzigd door i-chat op 23 juli 2024 04:55]

Waarom? Zo'n tweede kanaal met vertalingen wordt dan wel minder beluisterd, maar daarvoor krijgt kanaal 1 er juist meer bij. Dus het verplaatst zich gewoon.
Lijkt me toch dat de inkomsten juist omhoog gaan? Breder publiek, meer inkomsten.
Ik neem aan dat het een opt-in is.
Ik zag onlangs een video waarin de spraak door AI werd vertaald in iets van 8 verschillende talen. Kan die video niet maar vinden, maar dit is ook een perfect voorbeeld. Ik zou nu eigenlijk nog wel eens een Nederlandse vertaling willen horen om te bepalen hoe goed dit nu eigenlijk echt klinkt. Want ik kan slecht beoordelen hoe goed de Franse en Poolse vertalingen zijn.
Dit lijkt mij vooral interessant om talen te oefenen en leren en minder voor het daadwerkelijk beluisteren van podcasts.

Podcasts zijn vaak juist leuk door de persoonlijkheden en stemmen, niet louter de content.
Benieuwd wat dit op de langere termijn gaat betekenen voor stemacteurs. Lijkt me goedkoper om te vertalen dan om alles opnieuw in te laten spreken.
Ik verwacht eigenlijk niet dat AI bepaalde intonaties of nadrukken (altijd) goed uit kan "spreken" (of überhaupt detecteren in de bron) die dan ook echt passen bij elke scène. Of woordgrapjes waarbij je zelf iets expres verkeerd uitspreekt, zou die dan niet per se de correcte/normale versie willen gebruiken? Voice acting is behoorlijk wat meer dan alleen een beetje tekst oplezen/vertalen hè. ;] Ik denk dat zelfs als AI het uiteindelijk wel zou kunnen, je alsnog makkelijk significant langer bezig bent om de teksten op de juiste manier uitgesproken te krijgen. Misschien dat je er de allerduurste VA's uiteindelijk mee zou kunnen vervangen, maar voor de rest bespaar je denk ik niet echt noemenswaardig.

Op dit item kan niet meer gereageerd worden.