CD Projekt Red gebruikt AI om stemgeluid van overleden acteur na te maken

De Poolse gameontwikkelaar CD Projekt RED heeft AI gebruikt om de stem van een overleden acteur na te maken. Dat meldt de studio aan Bloomberg. Het Poolse bedrijf had toestemming van de familie van de overleden acteur. De AI werd gebruikt voor Cyberpunk 2077: Phantom Liberty.

CD Projekt heeft het stemgeluid van de Poolse stemacteur Miłogost Reczek met behulp van AI nagemaakt. Reczek speelde ripperdoc Viktor Vektor in de Poolse versie van Cyberpunk 2077, dat in 2020 uitkwam. Hij overleed in 2021. Het personage maakt echter een terugkeer in de nieuwe Phantom Liberty-uitbreiding van Cyberpunk 2077. De nieuwe teksten van het personage konden daarmee met AI alsnog worden ingesproken met de stem van Reczek.

De studio vertelt in een verklaring aan Bloomberg toestemming van de familie van Reczek te hebben gekregen. Het bedrijf had overwogen om de stem van Viktor Vektor helemaal opnieuw in te laten spreken, maar besloot dat uiteindelijk toch niet te doen. Volgens Mikołaj Szwed, localization director van CD Projekt, wilde de studio dat niet doen omdat Reczek 'een van de beste Poolse stemacteurs' was. Szwed noemt zijn optreden in Cyberpunk 'uitmuntend'.

CD Projekt huurde voor Phantom Liberty een nieuwe stemacteur in om de nieuwe zinnen van het personage in te spreken. Vervolgens werd een applicatie genaamd Respeecher gebruikt om het stemgeluid van de nieuwe acteur te vervangen door dat van Reczek. Phantom Liberty verscheen eind september voor de PS5, Xbox Series X en S en pc.

Update, 14 oktober: Titel is aangepast. Titel was voorheen: 'Cyberpunk 2077 gebruikt AI om stemgeluid van overleden acteur na te maken'. Met dank aan rockney.

Door Daan van Monsjou

Nieuwsredacteur

13-10-2023 • 14:44

96

Submitter: Xtuv

Lees meer

Reacties (96)

96
96
34
0
0
53
Wijzig sortering
Voor een game zoals cyberpunk kan het goed. Als de stem niet helemaal realistisch klinkt, maar een beetje A.I.-achtig, past dat juist bij het thema van de game.
want een AI gegenereerde stem klinkt automatisch robot achtig ?
Niet persé robotachtig, maar vaak klinkt het wel alsof het niet helemaal klopt. Zoek maar eens wat deepfakes op over Obama, Joe Biden en Donald Trump die samen minecraft spelen.
Dat zijn low-effort generaties op lichte hardware. Als je goede hardware hebt dan is het niet meer van echt te onderscheiden
Tot mijn schok had James Earl Jones niet Darth Vader ingesproken in de Obi Wan miniserie. Het is door software gedaan. Ik zat wel even met mijn ogen te knipperen toen ik dat las.

Wat het voor mij extra schokkend maakte - in Rogue One deed hij dat nog wel zelf en ik vond hem niet echt meer als Darth Vader klinken; hij klonk als James Earl Jones. De wil om zijn natuurlijke accent te verbergen zat er niet echt meer in.

Maar in Obi Wan was de stem weer alsof ik naar A New Hope zat te kijken. De software deed het voor mijn gevoel beter dan de acteur zelf.
In Rogue One is ook princess Leia's stem AI, maar ook het gezicht is AI. Er worden grote stappen gemaakt op dat vlak
Alleen weet ik niet of we daar blij moeten van worden. We moeten toch kunnen accepteren dat dingen eindig zijn en niet maakbaar. Ik zou het echt eng vinden om plots mijn moeder te horen die al 30 jaar overleden is, ik moet er echt niet aan denken
Dat kan best creepy zijn, maar als dergelijk film/tv/serie personage ligt dit iets anders, maar dit is wel waarom ze de familie om toestemming vragen. En het is veel makkelijker iets dergelijks te ontwijken als je het niet wil horen.

Maar hoe zit dat met oude familie filmpjes?
Die zijn er niet ! Eind jaren 80 was dat toch wel enkele de coole oom die een camera had. De enige filmpjes die ik heb zijn van begin jaren 70 nog op 8mm film en natuurlijk zonder geluid.
Waarom natuurlijk zonder geluid? Super 8 met geluid was schrikbarend duur, maar het bestond wel. Daarnaast had je voor de gevorderde amateur ook gewoon Super 8 met separaat opgenomen geluid via een draagbare (Uher) bandrecorder met pulsen. Daarnaast kwamen begin jaren 70 de eerste videocamera's op de markt. (Zwart/wit van Akai)
Maar je hebt gelijk dat je er niet op zit te wachten dat je de stem van je overleden familieleden weer hoort. En dan nog met beeld erbij, alsof ze gewoon nog bij je zijn.
Waarom niet wat?
Ik meen dat James Earl Jones het ook niet echt meer kan. Die man wordt inmiddels ook wel een dagje ouder. 92 verjaardagen om precies te zijn.
Wat het voor mij extra schokkend maakte - in Rogue One deed hij dat nog wel zelf en ik vond hem niet echt meer als Darth Vader klinken; hij klonk als James Earl Jones. De wil om zijn natuurlijke accent te verbergen zat er niet echt meer in.
Vergeet niet dat de man al 92 is, Rogue One is ook al weer bijna 7 jaar geleden, de man was toen 85 jaar oud. Hij ziet er nog goed uit voor 85, maar op die leeftijd is etteren met je stem geen goed idee meer. Dus dat is wel te begrijpen waarom hij dat niet meer doet...
Ik heb zelfs AI-stemmen gehoord die een perfecte Engelse/Amerikaanse accent hadden, terwijl die personen origineel geen woord Engels spraken. Dat vond ik indrukwekkend en tegelijkertijd ook eng. Maar het was niet te onderscheiden van die persoons eigen stem.
Ik gebruik tools zoals Wellsaid voor voice overs, maar ik moet zeggen dat je het toch wel vaak hoort. Het heeft niet zozeer te maken met het accent maar meer met de intonatie en uitspraak van bepaalde woorden. Het is wel al een heel eind verder gekomen tov de TTS functionaliteit van Ventrilo :o.
Hier gaat het niet om tekst naar spraak, maar spraak naar spraak. Een acteur heeft het eerst ingesproken en daarna wordt de stem veranderd. Dat klinkt als het goed is gedaan echt veel beter. Omdat ook de emotie van de oorspronkelijke inspreker meekomt.
Ja, bv een boeing zevenhonderdzevenenveertig. En toonval. 100%
De slechte zijn echt slecht, ik negeer elke video die computer stem gebruikt.
Niet persé robotachtig, maar vaak klinkt het wel alsof het niet helemaal klopt. Zoek maar eens wat deepfakes op over Obama, Joe Biden en Donald Trump die samen minecraft spelen.
AI-stemmen zijn al zo ver gevorderd dat wanneer je met een stemacteur een beetje in de buurt komt van de intonatie en uitspraak van een ander, je de originele stem daar met deepfake overheen kunt leggen, en werkelijk niemand zal het verschil nog horen. Het voorbeeld dat jij aanhaalt, betreft een andere AI-techniek waarbij de woorden van tekst naar stem worden omgezet. Dit zorgt voor de aparte, soms onnatuurlijke intonatie en uitspraak, en de vreemde AI-haperingen in het geluid die je gebruikelijk hoort. Dat komt doordat de AI dan ook de intonatie en uitspraak van het woord correct moet inschatten op basis van de context waarin het wordt gebruikt. Dat heb je met een stemacteur die vooraf inspreekt niet, of veel minder, want de AI gebruikt de ingesproken intonatie in plaats van deze zelf te verzinnen.

Compleet willekeurig voorbeeld maar dit is iets dat door een ander ingezongen/gerapt is door iemand die 2pac's maniertjes, uitspraak/intonatie na deed en daar is later de AI stem van 2pac (en een stukje Nate dogg) overheen gelegd: https://www.youtube.com/watch?v=71yyYr2hE1Y
Compleet nieuw, eigen geschreven nummer, nooit eerder uitgebracht, in de stijl van 2pac. Tuurlijk zijn er zat mensen die roepen dat ze het niet de ziel van 2pac oid heeft, maar dat is naar mijn idee meer onderbuik dan iets anders. Als je mij had gezegd dat dit een onuitgebrachte track van 2pac was die ergens uit een archief tevoorschijn gekomen is, had ik het direct geloofd.

(Side note: De text to speech methode is in sommige gevallen ook al erg goed tegenwoordig, maar dan moet je niet iets op youtube gemaakt op een huis tuin en keuken laptop vergelijken met wat een professional kan)

[Reactie gewijzigd door Verwijderd op 22 juli 2024 18:16]

Ik vind de 'Joe Rogan AI experience' een stuk geloofwaardiger overkomen.
Zoek maar eens op Spotify, of op Youtube.

https://www.youtube.com/watch?v=T20CtNuIqg8
Ik heb Rogan genoeg gehoord om stellig te kunnen zeggen dat het wel klinkt als hem, maar niet praat als hem. En voor Trump hetzelfde. Het is te klinisch.
Mensen die bekende personen imiteren focussen naast uiteraard het stemgeluid ook enorm op stembuigingen, klemtonen, dictie.
Zoals hier al door anderen wordt opgemerkt zal het effect anders zijn wanneer je daadwerkelijk ingesproken tekst manipuleert.
Steriel.
Maar als je dus iemand zoals hem laat praten dan kun je met RVC Trumps stem erover heen knallen en werkt het wel met dezelfde stembuigingen, klemTOnen etc
Bwa, het wilt soms toch al wel vrij goed lukken.
https://www.youtube.com/watch?v=5GRfFY3hs0c

Maar dat is dan ook eerder een stem aanpassen naar een andere stem - dat klinkt natuurlijker dan een volledige AI stem die op basis van geschreven teksts iets gaat zeggen.
Jij detecteert alleen degene waarvan je het detecteert. Klassieke redenatie fout.
Dat heet geloof ik: Survivor bias
Op Dumpert wel deze laatst gevonden met Thierry , Rutte , Geert en Pieter
ik heb me kapot gelachen
https://www.dumpert.nl/item/100073368_60006f44
Nouja, ik weet niet of je wel eens AI gegenereerde audio heb gehoord voor langer dan een zin, maar dat hoor je er wel aan hoor. Een voorbeeld zijn die Biden/Trump/Obama Letsplay video’s op YouTube. De stem zelf klinkt niet als blik, maar zelfs als het geedit is hoor je het onnatuurlijk er aan.
En daarom is dat perse altijd en overal zo?

Dat is natuurlijk waarom hij er naar vraagt, om te benadrukken dat de ene ervaring niet hoeft te spreken voor de andere ervaring...
Zoek maar eens op Tiktok LOTR With James Earl Jones.
Daar hoor je totaal niet dat het AI is.
I don't know... Ik kwam deze tegen op YT, het klinkt vreselijk monotoon, niet iets wat ik met JEJ voiceovers normaal heb. Daarnaast hoorde ik ook wat artifacts in het geluid, waardoor je al sneller gaat twijfelen, heeft JEJ dit wel ingesproken?

Ik denk dat dit beter kan en ik vermoed dat dit beter gebeurd, kijk bv. naar deze Darth Vader Kenobi clips:
https://www.youtube.com/watch?v=c8-grRzFaPA
Daar zit meer emotionele inflexie in dan bij het YT LotR stuk. Ik vermoed dat dit wordt gedaan met modifiers in de text, waarmee de software een andere emotie muleteer in de stem...
Ik wil geen reclame maken, maar zou eens een kijkje nemen bij Elevenlabs op https://elevenlabs.io/, volgens mij momenteel de meest realistische software voor tekst naar spraak.
Nouja, ik weet niet of je wel eens AI gegenereerde audio heb gehoord voor langer dan een zin, maar dat hoor je er wel aan hoor. Een voorbeeld zijn die Biden/Trump/Obama Letsplay video’s op YouTube. De stem zelf klinkt niet als blik, maar zelfs als het geedit is hoor je het onnatuurlijk er aan.
Dit is echt wat anders, beide AI, maar de voorbeelden die je geeft zijn gemaakt met text to speech, niet met een stemacteur die de woorden eerst zo veel mogelijk inspreekt als de persoon die nagemaakt moet worden. Later wordt daar de AI stem overheen gelegd. Wanneer je dit goed doet is het zo goed als niet van echt te onderscheiden. Zie mijn eerdere reactie voor een YouTube link met voorbeeld.

[Reactie gewijzigd door Verwijderd op 22 juli 2024 18:16]

Joost mag ‘t weten
correctie: joost00719 mag het weten :+
er zal ook wel een uncanny valley zijn voor geluid? geen idee?
want een AI gegenereerde stem klinkt automatisch robot achtig ?
Dat zou ik wel verwachten ja. Hoe zou een robot een stem hebben als het niet middels AI-gegenereerd was?
Het karakter Viktor klinkt helemaal niet robotachtig, niet in de originele game in ieder geval.
Maar stel dat via software generatie het hypothetisch zo zou zijn dat de stem tinnig wordt dan is daar vooral in een setting als Cyberpunk prima een draai aan te geven. Implant, klaar.

Dat is best wel de kracht van het universum. Vrij weinig is ongeloofwaardig.
Ik lees hier nu dat het zo was maar ik hoorde het niet hoor. Honderden uren in dit spel zitten.

Edit: Gaat dus om de Poolse vertaling... staat niet duidelijk in artikel.

[Reactie gewijzigd door Polderviking op 22 juli 2024 18:16]

Oh ok, dat had ik ook niet begrepen. Maar voor een Pool is het ook wel erg goed engels anders :) (kan wel natuurlijk).

Ik vind de engelse Viktor trouwens ook heel erg goed.
Zoals in de tekst te lezen is, heeft een andere stemacteur de tekst eerst in gesproken, omdat een computer/AI nog altijd niet overweg kan met intonatie bijvoorbeeld. Vervolgens is een AI aan de slag gegaan om die audio te analyseren en met behulp van de eerdere opnames de stem van de originele acteur kunnen nabootsen om de nieuwe teksten "in te spreken".
Ik heb Phantom Liberty uitgespeeld, en de scènes met dit karakter hebben mij nooit het idee gegeven dat de stem gegenereerd is door AI.

//Ah, dat kan ook niet... De beste man deed niet de Engelse teksten :F

[Reactie gewijzigd door Verwijderd op 22 juli 2024 18:16]

Een AI gegenereerde stem klinkt net zo goed tegenwoordig als een echte stem, zeker als je ze niet 1 op 1 naast elkaar hoort.
Bah. Afgezien van de mogelijke kwaliteitsproblemen: laat de beste man gewoon rusten. Ik vind dit niet netjes, ook niet als de familie akkoord is. Of eigenlijk zeker niet, want dan doen ze het blijkbaar alleen maar voor het geld.
Als het mijn stem was zou ik apetrots zijn om in een triple AAA game te bestaan als voiced character, en in mijn geval kent mij familie me heel goed en zouden ze het hopelijk net zo hebben gespeeld. Stel ze zouden daar nog centen voor krijgen dan is het helemaal win-win-win, mijn stoffelijke resten hebben geen centen meer nodig en ik houd(hield ;-) ) van ze. Wij ervaren de 'eer' en 'hoe het hoort' dus wezenlijk anders in deze zaak.

Beetje weird dat je het na het akkoord van de familie hebt bepaald dat het ze om het geld is, dat zegt meer over jou dan over die familie.
Sorry, maar AI is tegenwoordig zo goed dat jij het verschil niet kunt horen. Hoe meer originele content beschikbaar is, hoe natuurgetrouwer de stem nagebootst kan worden, en zoveel is niet eens nodig.
Misschien had hij zelf toestemming gegeven. Hij is aan kanker overleden volgens Wikipedia, 3 jaar ziek geweest dus genoeg tijd om zaken te regelen.
Nee, het artikel zegt dat zijn familie toestemming heeft gegeven.
Staat er ook dat er vooraf geen toestemming van de acteur is geweest?
Bronartikel staat achter een paywall.

En niet netjes? Tsja dat is helemaal afhankelijk van iemand's wens. Het is ook een soort eerbetoon.
Hoe is dit anders dan een auteur die overlijdt voor hij zijn laatste werk af maakt en iemand die het dan overneemt, verder afwerkt en uitbrengt met toestemming van de nabestaanden?
Dan hoor je iemands stem niet meer. Maar ook daar ben ik geen fan van, overigens. Liever dat het werk half wordt afgemaakt dan heel met iemand anders die denkt te weten hoe de oorspronkelijke auteur het bedoeld had/zou hebben geschreven.
Postuum een eerbetoon dus aan deze acteur. Ik denk niet dat hij zoiets vervelend zou vinden dat zijn stem voortleeft na zijn dood. Credits voor de familie dus.
Eens! Als ik zo naar het cv van de acteur kijk dan maak ik de aanname dat zijn beroep zijn passie was en hij hier steengoed in was. De keuze van CD Projekt RED lijkt mij daarom de juiste.
Eens, helemaal omdat de familie expliciet toestemming heeft gegeven. Ik ga er van uit dat zijn naasten een goed beeld hebben van wat de man graag had gewild.
Het is ook helemaal de goede aanpak van CDPR om de toestemming van de familie te vragen.

Dit is een teken van liefde en respect. O+
Ik denk niet dat hij zoiets vervelend zou vinden dat zijn stem voortleeft na zijn dood.
Ik denk dat wij hem niet kennen en dat dus helemaal niet kunnen beoordelen. Gelukkig hebben ze wel zijn familie gevraagd, dat lijkt me wel een vriendelijke zet.
En verwacht ook maar dat de familie gewoon geld heeft gekregen.
Lees je eigen comment eens, dat zei je dus niet.
Credits voor de familie dus, zei ik?
Misschien dat jij het zo bedoelt, maar denk dat, net zoals ik deed, 99% van de tweakers 'credits' hier las als, 'pluimpje', want niemand zal credits lezen alszijnde dat ze geld krijgen.
Misschien wat luchtiger omgaan met mijn reactie?
Misschien wel duidelijk, maar niet uit het bericht te halen:

Michael Gregory doet de stem van Viktor in de Engelse versie, Miłogost Reczek zorgt voor de Poolse versie.
@AverageNL Is het een idee om dit mee te nemen in de tekst? :)
AuteurAverageNL Nieuwsredacteur @CH4OS13 oktober 2023 17:47
Absoluut! Ik heb in de eerste alinea na de lead verduidelijkt dat het gaat om de Poolse versie. Dank! Ook aan @Sk313t0r :)
Was dit niet juist onderdeel van de SAG-AFTRA staking? Voice actors vallen daar ook onder volgens mij.

"Performers need the protection of our images and performances to prevent replacement of human performances by artificial intelligence technology."
https://www.sagaftrastrike.org/why-we-strike
Als er een duidelijk contract opgesteld wordt waarin staat beschreven dat de stem enkel gebruikt mag worden voor dit ene karakter, is het geen probleem lijkt me.

Daar kunnen dan ook afspraken w.b.t. royalties in verwerkt worden, en e.v.t. toekomstige rechten of dat het om een eenmalig iets gaat.
Dan zetten studios dat gewoon standaard in ieder contract en word hun beeltenis 50 jaar later nog gebruikt. Nee, toestemming per geval (zoals dat hier ook gebeurt is) lijkt me beter.
Niet helemaal. In eerste insantie, waar de grote staking om was, niet. Die draaide om film/tv. SAG-AFTRA heeft nu echter wel onderhandelingen met game devs en publishers om inderdaad ook dit voor games te doen.

Ik vermoed echter dat een geval als dit niet helemaal is waar ze tegen zijn en zeker ook omdat het met inspraak van de nabestaanden is gebeurt.
SAG-AFTRA => Screen Actors Guild-American Federation of Television and Radio Artists
Miłogost Reczek was een Poolse stemacteur, CD Projekt Red is een Poolse ontwikkelaar/uitgever.
Daar gaat het alleen om dat het niet gebruikt mag worden zonder toestemming. En ook dat niet in een contract mag staan dat de stem bv bij het originele project gebruikt wordt daarna zonder enige compensatie of toestemming via AI gebruikt mag worden voor opvolgende of andere projecten.
Wel ironisch omdat een belangrijk thema van CP2077 juist 'zonder ziel na de dood doorgaan' is. :)

[Reactie gewijzigd door The Zep Man op 22 juli 2024 18:16]

Juist het preserveren van iemands ziel buiten het menselijk lichaam toch?
It is (...) revealed (...) that the Soulkiller only copies the psyche and memories of a person, effectively killing the person in the process and does not transfer a consciousness to the engram or net.
Daarom 'Soulkiller'. Wat overblijft is een echo van de persoon die er ooit was. In het CP-universum is er geen bewustzijn zonder de originele hersenen, en is de enige manier om niet door ouderdom te overlijden het vervangen van delen van het lichaam, met op termijn cyberpsychosis tot gevolg.

En daarmee kom je terug op het klassieke sci-fi- en cyberpunkthema: onsterfelijkheid bestaat niet anders dan hoe anderen jou herinneren (in hersens of in data). Wat ben je bereid om van je menselijkheid daarvoor op te offeren?

[Reactie gewijzigd door The Zep Man op 22 juli 2024 18:16]

Ah ja. We zijn het eens, maar ik leg het anders uit. :)
Dit is echt super interessant. ze hebben met James Earl Jones z’n stem gesampelt voor de basis van z’n stem voor Vader. Tegenwoordig doen ze dat met AI en kan z’n stem bijvoorbeeld duits of frans spreken in plaats van die gare voice actors die je totaal niet kent. De effect van de stem is dan zo weer beter. Want we weten dat James een erg diepe stem had perfect voor vader. Nu hopen dat ze de stem weer kunnen gebruiken voor Mario, want die was ook super iconisch dmv ai

[Reactie gewijzigd door ASx2608 op 22 juli 2024 18:16]

Klinkt inderdaad super. Nu alleen maar hopen dat we straks niet bij één of andere re-re-re-release, James Earl Jones heel hard 'ikke ben je vader' in het Nederlands horen roeptoeteren :(
Hahaha nee alsjeblieft zeg, persoonlijk ben ik allergisch voor Hollands talige muziek en film.

(Paar uitzonderingen na)
Ik kan het Bloomberg artikel helaas niet lezen, hoe zit het met deze rechten?
Mag de AI-stem hierna ook gebruikt worden of alleen voor deze use case? Ik vraag me af of er niet een mogelijkheid is voor CDP om deze stem vaker te gebruiken (wellicht onbedoeld door de familie)
Oh wat rot dat hij dood is... Was een goede stemacteur idd, ik vond hem erg melancholisch klinken in deze rol.
Jij hebt cyberpunk 2077 in het Pools gespeeld?
Oh ik dacht dat hij de Engelse stem had gedaan 8)7
Ai is eng hoor je de laatste tijd vaak en daar zit vast wel wat in maar als het bij uitzondering gebruikt word omdat ze de stemacteur goed vinden en hij er helaas niet meer is vind ik het best, en als zijn familie er ook mee akkoord gaat natuurlijk.

Ai kan goed gebruikt worden maar het zal net als met zoveel dingen wel goed gereguleerd en in de gaten moeten worden gehouden.
Dit is een algemeen, nietszeggend statement. AI is niet eng. AI is een stuk gereedschap, het gaat er om hoe je het gebruikt. Er is zijn zoveel nuttige toepassingen van AI dat verbieden meer schade zou aanbrengen dan toestaan. Daarnaast gaat het ook om de context waarin je het toepast. Is het ethisch om iemands stem te gebruiken voor een commercieel doeleinde na zijn/haar dood? De familie heeft wellicht toestemming gegeven, maar maakt het dat ethisch? Ik zeg zeker niet dat het zo is, maar ze zijn er wellicht financieel voor gecompenseerd. Ik denk dat het als stemacteur een goed idee is om dat soort dingen in je testament op te nemen.

Op dit item kan niet meer gereageerd worden.