Microsoft werkt aan Windows-functie waarmee gebruikers eigen stem kunnen klonen

Microsoft heeft in Windows 11-previewbuild 26052 een verborgen functie toegevoegd waarmee gebruikers hun eigen stem kunnen klonen. Hiermee kunnen ze een text-to-speechversie van hun eigen stem maken, en die bijvoorbeeld gebruiken voor onlinemeetings.

X-gebruiker PhantomOfEarth ontdekte de verborgen instellingenpagina van deze 'Speak for me'-functie, al is deze momenteel nog niet functioneel. Met de functie kunnen gebruikers een 'stemavatar' kiezen of hun eigen gesynthetiseerde stem gebruiken om geschreven tekst om te zetten in spraak. Dit kan bijvoorbeeld gebruikt worden voor gebruikers met permanente of tijdelijke spraakproblemen, zodat ze onder meer tijdens digitale meetings nog steeds hun 'eigen' stem kunnen gebruiken.

Speak for me lijkt hiermee op een iOS-functie die Apple vorig jaar uitbracht, genaamd Persoonlijke stem. Daarbij moeten gebruikers een kwartier aan audio opnemen waarna de software lokaal een kunstmatige versie maakt van de stem. Apples versie werkt momenteel alleen in het Engels.

Windows 11 Speak for Me

Naast deze verborgen functie bevat de previewbuild nog enkele vernieuwingen die wel standaard geactiveerd zijn. Zo verandert het Copilot-icoontje op de taakbalk nu in een potlood als gebruikers tekst kopiëren, om aan te geven dat de tool acties kan ondernemen met de gekopieerde tekst. Ook is het in deze build mogelijk om afbeeldingen rechtstreeks te slepen naar het icoontje, waarna ze meteen een prompt over die afbeelding kunnen invoeren. Daarnaast is de sudofunctie toegevoegd en worden Windows Mixed Reality-headsets vanaf deze versie niet meer ondersteund.

Door Kevin Krikhaar

Redacteur

10-02-2024 • 11:46

91

Reacties (88)

Sorteer op:

Weergave:

Goed, voice authentication kan dus ook het raam uit?
Doet me denken aan een scène uit Star Trek: The Next Generation, waarin Data de stem van Picard gebruikt om de Enterprise over te nemen.

Ik vind het bijzonder dat dit nu voor de massa zo beschikbaar komt. Wellicht zie ik het te somber in, maar voorzie een hoop misbruik hiermee ontstaan.

Bijv, die ene saaie meeting waarin je alleen maar met ja en amen hoeft te antwoorden. Koppel het aan AI en je kan ondertussen de planten watergeven?
Doet me denken aan een scène uit Star Trek: The Next Generation, waarin Data de stem van Picard gebruikt om de Enterprise over te nemen.
Eigenlijk is de security in Star Trek belachelijk slecht voor het jaar drieëntwintighonderd-zoveel.

Voor nuttige applicaties: makers van mods, custom campaigns en indie animaties kunnen deze nu fully voiced maken zonder dure stemacteurs in te hoeven huren.
Ach ja, over 30-50 jaar lachen we waarschijnlijk ook over onze huidige ideeën over veiligheid.

Er zijn wel meer zaken in Star Trek die erg achterhaald zijn, ze hebben geeneens iets zo goed als een smartphone :Y)
Over 30~50 jaar doen we overal weer hangsloten op want dan is dat coole retro-tech en het is relatief veilig omdat bijna niemand meer weet hoe het ook alweer werkte.
Waarschijnlijk kan je dan een volledig automatische lockpick kopen voor peanuts, dus heel zinvol is dat dan ook weer niet denk ik :P
Als ze net zo bagger gemaakt worden als nu heet die tool een shim. Kost echt geen drol.
een shim werkt helaas niet met goeie sloten.
Beetje jammer dat het gemiddelde hangslot niet echt heel erg goed is. Het is een shim of een stukje ijzerdraad tussen de cijferwielen en dan ist open sesam!
Een sleutel waarmee je ieder slot kunt openen noem je een masterkey

Een slot die je met elke sleutel kunt openen noem je een masterlock
Dan gebruikt men weer de ouderwetse flipper ;)
ach joh we zullen wrss nog COBOL draaien in die tijd, legacy never dies
Naja, ze hebben een boordcomputer die ze op alle momenten kunnen bevragen en ze hebben een tech-detox vakantie op de aarde als ze daar weer eens zijn :p
The Orville is dan beter
Die item synthesizer is wel dik. Daar moeten we nog eens wat op verzinnen.
Die zijn ook een stuk recenter. Wordt ook nog wel achterhaald op sommige punten ;)
Niet alleen de security. Ook backups maken of data (np) kopieren deden ze nauwelijks aan. Blijkbaar gebruiken ze hetzelfde systeem als de transporters, waar het origineel wordt verplaatst/vernietigd.
[hr]

Dit soort software bestaat al. Mods zullen nog steeds stemacteurs gebruiken, simpelweg omdat ze daarvoor iemand met een mooie stem voor willen gebruiken. Je kan wel fout bezig zijn en stiekem de stem van iemand gebruiken, maar die kan daar dan tegen optreden. Dus ze zullen nog altijd iemand (of zijn stem-model) moeten inhuren.
Tenzij er straks een markt ontstaat waar zulke stem-modellen vrij gedeeld worden. Maar bedenk dan dat je stem ook voor minder leuke doeleinden misbruikt kan worden.
Verwijderd

[Reactie gewijzigd door nullbyte op 23 juli 2024 09:03]

In de toekomst laat je AI gewoon al je werk doen. Zelfs videochat kunnen ze je zo 'klonen' inclusief stem zo te zien.

Hoef je niets meer te doen, helemaal relaxed. Vraag me dan wel af waar we geld vandaan gaan halen. Dan moet iedereen over naar basis inkomen, want heel veel werk gaat geautomatiseerd worden. Op een gegeven moment gaat er een simpel rekensommetje rond waarbij mensen die geen bijdrage aan de economie hebben 'verminderd' moeten worden.

Als ik zie wat ze met toeslagenaffaire hebben gedaan en dat er nu nog steeds geen effectieve oplossing is gemaakt ervoor ben ik bang voor de toekomst.

Noem me pessimistisch, maar als we in het heden niet goed om kunnen gaan en in het verleden al helemaal niet, wat voor garanties hebben we dat het wel goed gaat komen in de toekomst?

Beloftes van politici? :Y) :+
In star trek bestond geld ook niet ;) , dus ik vermoed dat als we zo ver zijn je geen geld krijgt maar dat je afhankelijk van je functie diensten of materiële zaken kan krijgen.
Ik wil even verder met je gaan in je gedachtegang, want misschien kan ik je van je pessimisme afhelpen.
Een videochat is helemaal niet meer nodig als alle deelnemers uit AI bestaat. Daardoor hoef je ook niet meer te doen alsof en dat scheelt gelijk wat stress.
De maatschappij zit niet meer te wachten op jouw intelligentie, ook niet op die van mij of op die van anderen. Wij kunnen doen wat wij leuk vinden. Heel veel vrije tijd.
Hmmm, dit helpt ook niet, hè. Misschien heb je wel een pessimistische medestander erbij gekregen.
Als ik zie wat ze met toeslagenaffaire hebben gedaan en dat er nu nog steeds geen effectieve oplossing is gemaakt ervoor ben ik bang voor de toekomst.
Bovenstaande is niet helemaal juist. De oplossing is er al heel lang, maar de uitvoering is gewoon heel slecht.
De tests met basisinkomen zijn tot nu toe erg slecht gegaan, dus hopelijk trapt de mensheid er (voorlopig) niet in om dit op grote schaal te gaan proberen.
Ik weet niet waar je jou info vandaan haalt maar alle resultaten van tests met basisinkomen die ik kan terugvinden zijn niet goed of niet slecht gegaan, er was simpelweg geen echt effect meetbaar wat vrij eenvoudig te verklaren is door kleinschalige testen en zeker de Finse test was bij voorbaat al nutteloos. Het ging maar om een klein bedrag, beperkt in tijd en dit slechts voor werklozen. Merk echter op dat er ook geen effect werd gemeten in de negatieve zin, het is niet dat men minder aan het werk ging.

Er zijn momenteel wel testen bezig met grotere bedragen verspreid over alle lagen van de bevolking echter de resultaten daarvan zijn nog niet gekend.
Als ik zie wat ze met toeslagenaffaire hebben gedaan en dat er nu nog steeds geen effectieve oplossing is gemaakt ervoor ben ik bang voor de toekomst.
Ja, de toeslagenaffaire of all things is inderdaad wel het summum van onmenselijk kapitalisme 🙄
Je zou een mix kunnen gebruiken voor authenticatie. Of meerdere mixes.
Als je wegkomt met Ja en Amen lijkt de AI methode me prima automatisering van dat proces. Ik zou me gewoon afmelden voor zulke meetings of de notulen lezen. .
Meestal zijn dat de meetings waar je je niet voor kan afmelden zonder veel problemen te krijgen.
Wellicht zie ik het te somber in, maar voorzie een hoop misbruik hiermee ontstaan.

Bijv, die ene saaie meeting waarin je alleen maar met ja en amen hoeft te antwoorden. Koppel het aan AI en je kan ondertussen de planten watergeven?
In dit voorbeeld wat je geeft vind ik het juist een uitkomst. Er worden zoveel nonsens vergaderingen gehouden dat ik me soms afvraag of er nog wel gewerkt wordt.
Goed, voice authentication kan dus ook het raam uit?
Dat was al het geval.. Het is tegen hun TOS, maar je kunt bij o.a. ElevenLabs met een goeie 10 seconde aan schone audio iemand's stem clonen. Je zou dus al een meeting kunnen opnemen, clips van mensen kunnen splitsen, en dan hun stem kunnen hergebruiken.
Met andere woorden we moeten in de toekomst voorkomen dat we saaie meetings hebben. Lijkt mij een geldige toekomst. Laat maar komen die techniek.
Huh?
Massa toegang betekent dat iedereen zichzelf tegen gaat beschermen.
Als zoiets alleen op kleine schaal ondergronds beschikbaar is dan zal niemand zich ertegen beschermen, niet wetende dat voice authenticatie helemaal niet veilig (meer) is.
Goed, voice authentication kan dus ook het raam uit?
Voice Authentication? waar wordt dat precies gebruikt want dat heb ik echt nog nooit gezien

Lijkt me sowieso niet echt een veilige methode maar goed...
Voice authentication kon allang het raam uit. Er zijn al zeker een jaar scams waarbij een stem met ai nagemaakt wordt en een familielid in een voicemail of telefoongesprek om geld gevraagd wordt. "Help, ik ben ontvoerd ze vragen losgeld enz enz"

Het laatste jaar is de duur van de opname van de stem die gekloond wordt alleen enorm afgenomen. Ik geloof dat het nu enkele seconden tot een halve minuut is.

Goed nadenken of je die voicemail nog wel wil inspreken dus.

[Reactie gewijzigd door nullbyte op 23 juli 2024 09:03]

Dit is nou weer een prima idee om paranoide van te worden, voicemails of telefoontjes van vrienden of bekenden die op enige manier om financiele steun vragen kun je straks echt niet meer vertrouwen. Kun je straks controlevragen gaan toepassen om zeker te zijn dat je niet tegen iemand zit te praten die de text to speech functie aan zijn microfoon/telefoon heeft gekoppeld...

[Reactie gewijzigd door biomass op 23 juli 2024 09:03]

Met deze functie die Microsoft introduceert kun je alleen je eigen stem clonen en niet ongevraagd die van een ander. Daar hebben ze wel over nagedacht zoals bij veel voice cloning technieken. Je moet namelijk een aantal unieke zinnen inspreken.
Daar heeft Microsoft misschien over nagedacht. Maar ik wil je even op dit wijzen:

https://opgelicht.avrotro...mmen-van-familieleden-na/
Ik snap niet hoe dit nu misbruik voorkomt?
Ik weet wat voor wereld wij tegemoet treden, maar hier gaan geheid ongelukken van komen. Want alles wat kan, moet ook. Ook de domme (goedbedoelde) ondoordachte ideeën. Dit wordt een soort van walhalla voor criminelen.
Natuurlijk een prachtige tool om een bekend persoon te clonen. Tuurlijk, er bestaan al tig tools hiervoor maar dan nog.
Dat zal niet zomaar gaan, de stem van een ander gebruiken zonder die persoon mee te laten werken. Je moet namelijk om de AI stem te trainen een aantal unieke zinnen inspreken. Hoe ga je dat doen als je alleen wat audio opnames hebt van een bekend persoon?
Met een verborgen opname apparaat diegene wat zinnen laten ontfutselen zodat je met eigen knip en plakwerk (of AI :+) , daar weer een zin uit kan halen.

Net als in de film Thunderbird 6 met Spaceshipe One die gekaapt werd, en waar Penelopes stem gemonteerd werd om International Rescue naar een verlaten vliegveld te sturen.

[Reactie gewijzigd door AW_Bos op 23 juli 2024 09:03]

De technologie is ondertussen zeer goed bruikbaar, er zijn talloze YouTube filmpjes wat hier gebruik van maken, dus vroeg of laat zou dit toch naar de os'en gaan.

https://youtu.be/NdzXluj5wkU
Dus de volgende generatie malware gaat op zoek naar die opnames en stuurt ze door als ze er zijn.
Aangezien het gros van de mensen niks doen tegen cybercrime zal dit zorgen voor flink wat drama's.
Op dit moment kan ik eigenlijk maar 1 use case bedenken.
Mensen die tijdens lange afstandsvergaderingen toch alleen maar Bingo Bullshit inbrengen hoeven tijdens de vergadering alleen maar 'slim' te kiezen uit een lijst met opmerkingen en antwoorden.
Klik, klik, klik..... en tussendoor de aardappels afgieten, de hond uitlaten en noem maar op.
Het vergt nog wel enige oplettendheid om te voorkomen dat je echt iets gaat 'zeggen' dat slaat als een l*l op een drumstel maar daar zal ook nog wel iets op bedacht worden.
Hm, ik ben niet zo'n fan van mijn eigen stem.
Ik hoop dat ze er een paar beautify-filters inbouwen a la Instagram zodat ik wat verstaanbaarder word.
En dat het het gefilterde AI vervolgens gaat doen of 'ie Kalief is in plaats van Kalief? 'Is no good' ;)
Als er een beetje intonatie aan de spraak gegeven kan worden, lijkt het mij ideaal om youtube video's mee te narraten. Je zou zelfs ChatGPT Plus het script laten schrijven (en zelf wat aanpassen) om zo snel een video te kunnen maken.
Ik zou liever zien dat Microsoft wat meer tijd zou steken in het met de stem bedienen van de pc/laptop in het Nederlands en dat deze ook gewoon webpagina's kan voorlezen zonder dat je hiervoor een dure screenreader moet aanschaffen
Jaren geleden toen deze techniek door de R&D afdeling aan Satja Nadella werd gedemonstreerd met een clone van zijn eigen stem heeft Nadella meteen het onderzoek laten stoppen. Hij vond het zo scary en het zorgde voor zoveel ethische vragen dat hij niet wilde dat dit openbaar beschikbaar zou komen.

Ik vraag me af wat er nu veranderd is (ethiek) waardoor microsoft hiermee alsnog de technologie (die al jaren bestond) beschikbaar stelt voor de massa.

Deze anecdote werd trouwens door een bekende microsofter verteld tijdens een AI presentatie 2 jaar geleden over de ethiek van de toepassingen van AI.

Edit:typo

[Reactie gewijzigd door david-v op 23 juli 2024 09:03]

Op dit item kan niet meer gereageerd worden.