Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 37 reacties

Adobe werkt aan audiobewerkingssoftware. De software stelt gebruikers in staat getypte woorden in spraak om te zetten, waarbij een stem op basis van samples nagebootst kan worden. Project VoCo bevindt zich nog in de testfase.

Adobe gaf een sneakpreview van Project VoCo tijdens zijn Adobe MAX 2016-evenement in San Diego. Ontwikkelaar Zeyu Jin demonstreerde hoe hij spraakbestanden kon uitbreiden door getypte woorden toe te voegen. De extra woorden werden in dezelfde stem uitgesproken als het oorspronkelijke bestand. Volgens Jin is een sample van ongeveer twintig minuten voldoende om de spraakeigenschappen van stemmen te analyseren en nieuwe woorden na te bootsen alsof ze van de oorspronkelijke spreker komen.

De directe koppeling tussen spraak en tekst maakt het mogelijk woorden en zinsdelen te wijzigen om spraakbestanden opnieuw op te bouwen zonder opnieuw te hoeven inspreken. Volgens Jin gaat Adobe met VoCo hetzelfde doen op audiogebied als het op grafisch gebied heeft gedaan met Photoshop. Wanneer de audiobewerker op de markt komt en wat de overige mogelijkheden zijn, is nog niet bekend.

Microsoft demonstreerde in 2012 al het nabootsen van stemmen bij vertalingen en Google heeft grote stappen gezet bij het op een natuurlijke manier weergeven van spraak van verschillende sprekers op basis van getypte tekst.

Moderatie-faq Wijzig weergave

Reacties (37)

Hoeveel jaar nog voordat deze techniek per wet verboden is? Lijkt me lastig voor het bewijs materiaal bij een rechtszaak bijvoorbeeld.

"Maar we hebben opnames van de verdachte!"
Verdachte: "Dat was ik niet. Is software"

Ja, bewijs dan maar het tegendeel.

*Om maar even de advocaat van de duivel te spelen

Edit: ik kijk overigens wel vooruit tot het niveau waarbij het onmogelijk is om met het menselijk oor nog verschil te horen danwel technisch. Vroeg of laat zal dat niveau bereikt worden.

[Reactie gewijzigd door NightFox89 op 4 november 2016 16:00]

Bij rechtszaken maak ik me niet zo druk, daar zijn audio-opnames zelden het sluitende bewijsstuk en zoals in deze video wordt gezegd zullen er watermerk-achtige kenmerken worden toegevoegd zodat duidelijk is dat ermee geknoeid is.

Wat veel waarschijnlijker is dat deze techniek misbruikt wordt voor smaad en laster en in opinievorming. Zet een filmpje over Trump met slecht een camper in beeld op internet waarin hij spreekt over 'grab 'm by the pussy' en niemand checkt of dat echt is (niet dat ik twijfel aan de echtheid van dat fragment). En anders is het kwaad bij rectificatie vaak al geschied.

We weten hoe hardnekkig lariekoek kan blijven hangen in de hoofden van het volk.
Ik heb helemaal geen vertrouwen in die watermark. Ik denk dat alleen is ge´ntroduceerd om de publiek gerust te stellen, maar vast makkelijk is of uit het programma te slopen, of in post-production het tegenwerken.
Met behulp van audio visuele tools en een phd in audio kan je er achter komt of het door computer gedaan is of een mens.

[Reactie gewijzigd door BJ_Berg op 4 november 2016 15:27]

Je kan natuurlijk de sample opnemen met een microfoon zodat natuurlijke onzuiverheden ontstaan. Vraag me af of het verschil dan nog te horen is. Zeker als de software niet iedere keer hetzelfde woord op dezelfde manier uitspreekt.
Hij zegt toch op het einde dat ze daar ook aan hebben gedacht :)
Je kunt dit niet voorkomen door het bij wet te verbieden. Het is hoogstens dat je als verdachte moet bewijzen dat jij het niet was maar de software (even ervan uitgaande dat de kwaliteit zo ontzettend goed is dat het niet van echt is te onderscheiden).

En dan heb je ook nog aanvullende bewijs. In veel gevallen zal de content van communicatie dat getapt wordt komen. Dan heb je dus al extra metadata die het bewijs versterken. Dan moet je niet alleen iemands stem namaken (hoe kom je aan de samples?) maar ook nog het telefoonnummer of andere identificatie spoofen.
Hoeveel jaar nog voordat deze techniek per wet verboden is?
Photoshop is ook niet verboden - daarmee is toch ook zeer eenvoudig "bewijsmateriaal" te maken. In de praktijk worden foto's nu gewoon als bewijsmateriaal geaccepteerd. De fotograaf moet soms onder ede verklaren dat hij inderdaad de foto heeft genomen, en er niet mee heeft geknoeid. Als de fotograaf een onafhankelijke derde is (zoals iemand van justitie), is er geen probleem. Als de fotograaf een belanghebbende is, dan weegt het bewijsmateriaal gewoon niet zo zwaar.

Aan de andere kant gaat ook ge´nvesteerd worden in het herkennen van bewerkte opnames, net als dat dat nu met fotobestanden gebeurt.

[Reactie gewijzigd door kvdveer op 4 november 2016 15:43]

Ik denk niet dat dit echt een probleem is. Ik kon echt nog wel het verschil horen tussen het origineel en het stuk dat met een speech synthesizer was gedaan
Bovendien bestaat Photoshop ook al best wel een tijd, en voor zover ik weet is er nooit een probleem in een rechtszaak geweest waarbij iemand beweerde dat fotobewijs was gephotoshopt. Dat soort dingen kan je heel makkelijk herkennen.
Dat kan ook allang met fysiek bewijs (wat niet virtueel of digitaal is) en daar weten ze het vaak ook via onderzoek uit te halen als ermee geknoeid is. Stel dat bewijs tegengesproken worden door ander bewijs. Dan is het dus al snel duidelijk er ergens mee geknoeid is.

Zo zijn er wel meer mogelijk zwakke schakels te vinden... zelfs in het mensenwerk. Maar dat is een andere discussie.
Er zit er nu eentje bij LuckyTV in z'n handjes te wrijven
Hij is idd in z'n eentje. Zal m zeker tijd besparen! :*)
i'm sorry dave i'm afraid i can't let you do that :)
Mooie techniek en feature.
"Shall we play a game?" :+
https://www.youtube.com/watch?v=ecPeSmF_ikc
.
In de jaren 80 kon dit ook al, maar nu wellicht wat minder herkenbaar als computer.
.
Dus extra opletten als je iemand hoort zeggen:
"I should reach DEFCON 1 and launch my missiles in 28 hours.
Would you like to see some projected kill ratios?" ;)

[Reactie gewijzigd door Geekomatic op 4 november 2016 22:09]

Jammer dat ze niet dieper op ingaan in het filmpje hoe ze nu precies de ontbrekende woorden te produceren. Maar het filmpje van laatst van MS of Google was ook erg ver.
Haah, leuk om te zien dat Adobe zich nu ook actief gaat richten op audio. Misschien stappen ze in de toekomst ook wel richting 3D (animatie). _/-\o_
Ik hoopte al langer dat men hiermee zou komen. In de toekomst kunnen ze bijvoorbeeld weer films maken van overleden acteurs d.m.v. deze techniek en CGI.
Hoe moet dit zich verhouden tegen plugins zoals tig choir / voice plugins ism Wordbuilder?
Voorbeelden: https://www.youtube.com/watch?v=JddNFj4ne-c, https://www.youtube.com/watch?v=ksvs_sk0CPA
Misschien geen slecht idee om je stem "in te vriezen". Moest je je stem verliezen door ziekte, ongeval, dan kan je stemcomputer het overpakken met je originele stem ipv. zo'n random computerstem. Daar had Stephen Hawking niet aan gedacht.
dit zal het inspreken van animatiefilms, games etc... wel vereenvoudigen. Betaal een stemacteur 20 minuten om de stem aan te leren en de rest doet de software...
Ik zie een mooie toepassing voor mensen met een spierziekte die langzaam hun spraak verliezen

Op dit item kan niet meer gereageerd worden.



Nintendo Switch Google Pixel Sony PlayStation VR Samsung Galaxy S8 Apple iPhone 7 Dishonored 2 Google Android 7.x Watch_Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True