Adobe werkt aan audiobewerking met gepersonaliseerde spraaksynthese

Adobe werkt aan audiobewerkingssoftware. De software stelt gebruikers in staat getypte woorden in spraak om te zetten, waarbij een stem op basis van samples nagebootst kan worden. Project VoCo bevindt zich nog in de testfase.

Adobe gaf een sneakpreview van Project VoCo tijdens zijn Adobe MAX 2016-evenement in San Diego. Ontwikkelaar Zeyu Jin demonstreerde hoe hij spraakbestanden kon uitbreiden door getypte woorden toe te voegen. De extra woorden werden in dezelfde stem uitgesproken als het oorspronkelijke bestand. Volgens Jin is een sample van ongeveer twintig minuten voldoende om de spraakeigenschappen van stemmen te analyseren en nieuwe woorden na te bootsen alsof ze van de oorspronkelijke spreker komen.

De directe koppeling tussen spraak en tekst maakt het mogelijk woorden en zinsdelen te wijzigen om spraakbestanden opnieuw op te bouwen zonder opnieuw te hoeven inspreken. Volgens Jin gaat Adobe met VoCo hetzelfde doen op audiogebied als het op grafisch gebied heeft gedaan met Photoshop. Wanneer de audiobewerker op de markt komt en wat de overige mogelijkheden zijn, is nog niet bekend.

Microsoft demonstreerde in 2012 al het nabootsen van stemmen bij vertalingen en Google heeft grote stappen gezet bij het op een natuurlijke manier weergeven van spraak van verschillende sprekers op basis van getypte tekst.

Helaas!
De video die je probeert te bekijken is niet langer beschikbaar op Tweakers.net.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Olaf van Miltenburg

Nieuwscoördinator

Feedback • 04-11-2016 15:02 37

04-11-2016 • 15:02

Lees meer

Adobe toont spraakgestuurde interface voor fotobewerking op tablets Nieuws van 12 januari 2017

Microsoft breidt vertaalapplicatie uit met livechatfuncie Nieuws van 14 december 2016

DeepMind produceert met WaveNet 'significant betere' tekst-naar-spraak Nieuws van 9 september 2016

Wikimedia gaat spraakengine via crowdsourcing verbeteren Nieuws van 10 maart 2016

Wetenschappers reconstrueren geluid uit stille videofragmenten Nieuws van 4 augustus 2014

Microsoft-technologie kan tekst in andere taal voorlezen met stem van spreker Nieuws van 9 november 2012

Meer producten en artikelen

Overige audio Adobe

Reacties (37)

-Moderatie-faq

Wijzig sortering

Verwijderd 4 november 2016 15:19

Hoeveel jaar nog voordat deze techniek per wet verboden is? Lijkt me lastig voor het bewijs materiaal bij een rechtszaak bijvoorbeeld.

"Maar we hebben opnames van de verdachte!"
Verdachte: "Dat was ik niet. Is software"

Ja, bewijs dan maar het tegendeel.

*Om maar even de advocaat van de duivel te spelen

Edit: ik kijk overigens wel vooruit tot het niveau waarbij het onmogelijk is om met het menselijk oor nog verschil te horen danwel technisch. Vroeg of laat zal dat niveau bereikt worden.

[Reactie gewijzigd door Verwijderd op 31 juli 2024 06:04]

Polshoogte @Verwijderd • 4 november 2016 15:41

Bij rechtszaken maak ik me niet zo druk, daar zijn audio-opnames zelden het sluitende bewijsstuk en zoals in deze video wordt gezegd zullen er watermerk-achtige kenmerken worden toegevoegd zodat duidelijk is dat ermee geknoeid is.

Wat veel waarschijnlijker is dat deze techniek misbruikt wordt voor smaad en laster en in opinievorming. Zet een filmpje over Trump met slecht een camper in beeld op internet waarin hij spreekt over 'grab 'm by the pussy' en niemand checkt of dat echt is (niet dat ik twijfel aan de echtheid van dat fragment). En anders is het kwaad bij rectificatie vaak al geschied.

We weten hoe hardnekkig lariekoek kan blijven hangen in de hoofden van het volk.

jerkitout @Polshoogte • 4 november 2016 21:11

Ik heb helemaal geen vertrouwen in die watermark. Ik denk dat alleen is geïntroduceerd om de publiek gerust te stellen, maar vast makkelijk is of uit het programma te slopen, of in post-production het tegenwerken.

MrFax @Verwijderd • 4 november 2016 15:26

Met behulp van audio visuele tools en een phd in audio kan je er achter komt of het door computer gedaan is of een mens.

[Reactie gewijzigd door MrFax op 31 juli 2024 06:04]

matroosoft @MrFax • 4 november 2016 16:36

Je kan natuurlijk de sample opnemen met een microfoon zodat natuurlijke onzuiverheden ontstaan. Vraag me af of het verschil dan nog te horen is. Zeker als de software niet iedere keer hetzelfde woord op dezelfde manier uitspreekt.

ActionWaction @Verwijderd • 4 november 2016 15:37

Hij zegt toch op het einde dat ze daar ook aan hebben gedacht

Verwijderd @Verwijderd • 4 november 2016 15:41

Je kunt dit niet voorkomen door het bij wet te verbieden. Het is hoogstens dat je als verdachte moet bewijzen dat jij het niet was maar de software (even ervan uitgaande dat de kwaliteit zo ontzettend goed is dat het niet van echt is te onderscheiden).

En dan heb je ook nog aanvullende bewijs. In veel gevallen zal de content van communicatie dat getapt wordt komen. Dan heb je dus al extra metadata die het bewijs versterken. Dan moet je niet alleen iemands stem namaken (hoe kom je aan de samples?) maar ook nog het telefoonnummer of andere identificatie spoofen.

kvdveer @Verwijderd • 4 november 2016 15:43

Hoeveel jaar nog voordat deze techniek per wet verboden is?

Photoshop is ook niet verboden - daarmee is toch ook zeer eenvoudig "bewijsmateriaal" te maken. In de praktijk worden foto's nu gewoon als bewijsmateriaal geaccepteerd. De fotograaf moet soms onder ede verklaren dat hij inderdaad de foto heeft genomen, en er niet mee heeft geknoeid. Als de fotograaf een onafhankelijke derde is (zoals iemand van justitie), is er geen probleem. Als de fotograaf een belanghebbende is, dan weegt het bewijsmateriaal gewoon niet zo zwaar.

Aan de andere kant gaat ook geïnvesteerd worden in het herkennen van bewerkte opnames, net als dat dat nu met fotobestanden gebeurt.

[Reactie gewijzigd door kvdveer op 31 juli 2024 06:04]

ralphioli @Verwijderd • 4 november 2016 15:50

Ik denk niet dat dit echt een probleem is. Ik kon echt nog wel het verschil horen tussen het origineel en het stuk dat met een speech synthesizer was gedaan
Bovendien bestaat Photoshop ook al best wel een tijd, en voor zover ik weet is er nooit een probleem in een rechtszaak geweest waarbij iemand beweerde dat fotobewijs was gephotoshopt. Dat soort dingen kan je heel makkelijk herkennen.

AdLentis @Verwijderd • 7 november 2016 08:08

Dat kan ook allang met fysiek bewijs (wat niet virtueel of digitaal is) en daar weten ze het vaak ook via onderzoek uit te halen als ermee geknoeid is. Stel dat bewijs tegengesproken worden door ander bewijs. Dan is het dus al snel duidelijk er ergens mee geknoeid is.

Zo zijn er wel meer mogelijk zwakke schakels te vinden... zelfs in het mensenwerk. Maar dat is een andere discussie.

Polshoogte 4 november 2016 15:35

Er zit er nu eentje bij LuckyTV in z'n handjes te wrijven

Psychilles @Polshoogte • 4 november 2016 16:00

Hij is idd in z'n eentje. Zal m zeker tijd besparen!

Aeternum 4 november 2016 15:15

i'm sorry dave i'm afraid i can't let you do that
Mooie techniek en feature.

Geekomatic

@Aeternum • 4 november 2016 16:05

"Shall we play a game?"

https://www.youtube.com/watch?v=ecPeSmF_ikc
.
In de jaren 80 kon dit ook al, maar nu wellicht wat minder herkenbaar als computer.
.
Dus extra opletten als je iemand hoort zeggen:
"I should reach DEFCON 1 and launch my missiles in 28 hours.
Would you like to see some projected kill ratios?"

[Reactie gewijzigd door Geekomatic op 31 juli 2024 06:04]

Mezz0 4 november 2016 15:17

Jammer dat ze niet dieper op ingaan in het filmpje hoe ze nu precies de ontbrekende woorden te produceren. Maar het filmpje van laatst van MS of Google was ook erg ver.

Boost9898 4 november 2016 15:22

Haah, leuk om te zien dat Adobe zich nu ook actief gaat richten op audio. Misschien stappen ze in de toekomst ook wel richting 3D (animatie). $_/-\o_$

Verwijderd 4 november 2016 15:40

Ik hoopte al langer dat men hiermee zou komen. In de toekomst kunnen ze bijvoorbeeld weer films maken van overleden acteurs d.m.v. deze techniek en CGI.

Rataplan_ 4 november 2016 15:57

Hoe moet dit zich verhouden tegen plugins zoals tig choir / voice plugins ism Wordbuilder?
Voorbeelden: https://www.youtube.com/watch?v=JddNFj4ne-c, https://www.youtube.com/watch?v=ksvs_sk0CPA

biglia 4 november 2016 16:04

Misschien geen slecht idee om je stem "in te vriezen". Moest je je stem verliezen door ziekte, ongeval, dan kan je stemcomputer het overpakken met je originele stem ipv. zo'n random computerstem. Daar had Stephen Hawking niet aan gedacht.

muchu 4 november 2016 16:25

dit zal het inspreken van animatiefilms, games etc... wel vereenvoudigen. Betaal een stemacteur 20 minuten om de stem aan te leren en de rest doet de software...

Birkhoff67 4 november 2016 16:25

Ik zie een mooie toepassing voor mensen met een spierziekte die langzaam hun spraak verliezen

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (37)

Sorteer op:

Weergave: