OpenAI toont text-to-speech-AI die stem kan nabootsen na 15 seconden audio

OpenAI heeft een tool gemaakt die op basis van een fragment van vijftien seconden een stem na kan bootsen. Het bedrijf heeft samples van Voice Engine uitgebracht, maar wil niet meteen het hele model openbaar maken.

OpenAI, het AI-bedrijf dat ook ChatGPT maakt, beschrijft de tool in een blogpost. Het model heet Voice Engine en kan teksten oplezen die een gebruiker als tekstuele input geeft. Op basis van een audiofragment beweert OpenAI dat de AI een stem volledig kan nabootsen, inclusief intonatie en emotie. Zo'n fragment hoeft maar vijftien seconden te duren, zegt het bedrijf.

Het bedrijf maakt geen data openbaar over de tool en er is ook geen whitepaper of andere technische beschrijving beschikbaar. Daarom is bijvoorbeeld niet duidelijk op basis van welke audiofragmenten Voice Engine is getraind. OpenAI zegt tegen TechCrunch dat het gaat om een combinatie van gelicenseerde en publiek beschikbare data. Volgens het bedrijf is Voice Engine niet getraind op gebruikersdata. Ook worden samples die gebruikers maken na afloop verwijderd.

Volgens TechCrunch moet de tool in de toekomst geld gaan kosten, al zegt OpenAI daar niets over in het openbaar. Het bedrijf zou volgens documenten 15 dollar vragen per miljoen tekens of zo'n 160.000 woorden die kunnen worden uitgesproken.

Voice Engine is nog niet beschikbaar voor gebruikers, zoals dat tegenwoordig vaker gebeurt bij soortgelijke diensten. Meta toonde vorig jaar Voicebox dat ook op basis van korte audiobestanden gesproken tekst kan genereren, maar het bedrijf maakt die tool ook niet beschikbaar. OpenAI zegt dat het daar nu ook voorzichtig mee is vanwege de implicaties. De tool zou al snel kunnen worden misbruikt. OpenAI verwijst specifiek naar de VS, waar eind dit jaar presidentsverkiezingen worden gehouden en de verkiezingsstrijd inmiddels is losgebarsten.

Het bedrijf heeft wel een aantal voorbeelden op een blog geplaatst waarin het toont wat de tool kan. Daarnaast test OpenAI Voice Engine met een beperkt aantal testers. Die hebben vooraf een verklaring moeten tekenen dat ze geen teksten genereren als ze daar geen toestemming van de betrokken persoon voor hebben. De tool krijgt bovendien een watermerk waaruit blijkt dat de audio gegenereerd is en OpenAI zegt dat het 'proactief monitort' hoe het systeem wordt gebruikt. Als de tool in de toekomst uitkomt, dan wil OpenAI ook een lijst opstellen met stemmen die niet mogen worden gekloond.

Door Tijs Hofmans

Nieuwscoördinator

29-03-2024 • 20:46

122

Lees meer

Reacties (122)

122
121
42
4
0
65
Wijzig sortering
Als de tool in de toekomst uitkomt, dan wil OpenAI ook een lijst opstellen met stemmen die niet mogen worden gekloond.
In de EU is dat dus élke stem tenzij er specifiek toestemming is gegeven en zullen ze met een whitelist ipv een blacklist moeten werken.
Op basis waarvan zeg je dit? Heb je hier een bron voor in bv. het Nederlandse wetboek?
Op basis van de GDPR wetgeving die in elke Europese staat nationale wet is.

Is hier na te lezen: https://eur-lex.europa.eu...CELEX:02016R0679-20160504
Voor de toepassing van deze verordening wordt verstaan onder:

1) „persoonsgegevens” : alle informatie over een geïdentificeerde of identificeerbare natuurlijke persoon („de betrokkene”); als identificeerbaar wordt beschouwd een natuurlijke persoon die direct of indirect kan worden geïdentificeerd, met name aan de hand van een identificator zoals een naam, een identificatienummer, locatiegegevens, een online identificator of van een of meer elementen die kenmerkend zijn voor de fysieke, fysiologische, genetische, psychische, economische, culturele of sociale identiteit van die natuurlijke persoon;
Dus ook een stem.

En verder:
Rechtmatigheid van de verwerking
1. De verwerking is alleen rechtmatig indien en voor zover aan ten minste een van de onderstaande voorwaarden is voldaan:
a) de betrokkene heeft toestemming gegeven voor de verwerking van zijn persoonsgegevens voor een of meer specifieke doeleinden;
Met ander woorden, elke EU burger moet expliciet toestemming geven, anders mag zijn stem niet gekloond worden.
En hoe gaat openAI weten welke stem bij wie hoort? “Please clone my voice” en ik insert vervolgens een audio file met jouw stem, en dan?

Zodra dit publiekelijk toegankelijk wordt ook al zou het achter een betaal muur zijn gaat dit natuurlijk ontploffen als een malle. Deep fakes worden nu al massaal gebruikt om allerlei onzin, memes, porno etc te maken.

Dit kunnen ze nooit gaan beheersen… en dat weten ze zelf ook wel.

[Reactie gewijzigd door Cowamundo op 22 juli 2024 14:39]

En hoe gaat openAI weten welke stem bij wie hoort?
"Spreek de volgende zin(nen) uit: <random gegenereerde unieke zin(nen)>", controleren met spraakherkenning et voila. Heb je en je minimale sample(s) én bevestiging dat de stem uit eigen beweging meewerkt (tenzij natuurlijk een pistool tegen het hoofd staat ofzo... maar er kan iig geen 'heimelijke opname' gebruikt worden).
Criminelen kunnen natuurlijk wel onder het mom van een overtuigende (gok)wedstrijd ofzo je die woorden laten zeggen en ze doorsluizen naar OpenAI.

Ik kan me zo inbeelden dat een louche gokbedrijf iemands gokverslaving zo gaat misbruiken om vervolgens de kennissen van die gokverslaafde met zijn of haar stem geld af te troggelen.
Uhhhh, die woorden beginnen natuurlijk met "I am recording this to clone my voice with OpenAI.". Of iets in die trend.

Never nooit dat iig de variant van de "gerenommeerde" bedrijven niet zo zullen werken.
Dat is maar een kwestie van knip en plakwerk. De persoon hoeft die woorden dus niet in die volgorde uit te spreken.
Wanneer je een AI traint om de menselijke stem goed na te bootsen, leert die ook intonatie en dergelijke herkennen om die vervolgens goed toe te kunnen passen. Losse woorden achter elkaar plakken leidt tot een hele rare "uitspraak", wat de AI zal signaleren. Maar wellicht moet de crimineel in kwestie de losse woorden dan eerst even door de AI halen om dat te voorkomen :+
Dit dus. Als het goed genoeg is om soepel te praten, zal het ook dit soort manipulatie kunnen herkennen.

Dat, en hoe specifieker je de benodigde proef zinnen maakt, hoe moeilijker je het maakt.
Voor mensen in de media kan je dan mogelijk wel met wat edit werk dat geregeld krijgen. Niet zeker wat de kwaliteit dan gaat zijn natuurlijk. Dan moeten ze er best ook wat niet frequente woorden in zetten.
Als je dat kunt, waarom wil je dan die AI nog?
Om andere zaken te laten zeggen en goedkoop al die dingen te laten zeggen voor meer fakenews te verspreiden?
Ai kan dit realtime, dus je kan een telefoongesprek voeren met je moeder die niet je moeder is...
Ik denk dat het eerder je vriendin wordt die niet je vriendin is...
Valt wel mee hoor. https://elevenlabs.io/ Heeft dit al. Ik heb het geprobeerd met mijn eigen stem en werkt al erg goed. Directe fam hou je er nog niet mee voor de gek, maar kennisen wel
Het valt misschien mee met de tool die je getest hebt, de techniek zal alleen snel beter worden.

Combineer dit met AI generatieve video tools en je kunt iedereen alles laten vertellen en doen zonder dat je de mogelijkheid hebt te controleren op juistheid.

Het is één van de grootste gevaren voor de mensheid en kan oorlogen starten. De toenemende argwaan naar de overheid helpt ook niet mee. De gemiddelde mens is ook vrij dom. Dat zien we al als je simpel kijkt naar de dalende vaccinatiegraad en alle complotdenkers.
Het ligt er ook maar net aan hoe je zelf praat, ik denk dat het gemiddelde Noord-Hollandse (gebrek aan) accent nog wel te doen is, maar iemand die echt een accent heeft (bijv. uit Brabant, Limburg, Friesland, Groningen, Drenthe etc) wordt al meteen lastiger.
Zelfs in het Engels gaan stemmen die 'vaag Amerikaans' klinken heel goed, maar iemand die je kunt plaatsen klinkt al meteen verkeerd. Het is uiteindelijk natuurlijk een laag op een basismodel, je traint geen nieuw model vanaf niks
het is aan de dataverwerker om de legitimiteit van de verstrekker te verifiëren, net daarom zullen we een verstrengde toepassing van de GDPR in de komende jaren zien, want bedrijven die dit soort diensten aanbieden hebben ook een duidelijk winstoogmerk en de boetes zijn bij een eerste inbreuk niet min: tot 10% van de wereldwijde omzet, wat in theorie zelfs kan zijn omdat je een klantenbestand in TO ipv BCC hebt gezet bij een mailing.
Oh, ongetwijfeld, maar dat maakt het niet minder strafbaar of vermeldenswaardig.
Het is OpenAI dan ook enkel om het geld te doen. Zo snel mogelijk, zoveel mogelijk vooraleer de boel in elkaar stort.
Men download een app, klikt binnen een paar miliseconden op "ik geef akkoord" want men leest het toch niet, en tadaa je hebt je privacy opgegeven.
Neen want de algemene voorwaarden moeten nog steeds de wetgeving van het land naleven.
Dat is dan geen geldige AVG-toestemming.
zeker wel als jij op akkoord klikt voor het gebruik van je stem, dan ga je daar akkoord mee.
Als je daar apart specifiek toestemming voor geeft, wel ja. Maar het is geen geldige AVG- toestemming als je dat ergens in de AV stopt verstopt samen met allemaal andere doelen.
Cherry picking. Je vergeet voor het gemak even dat in artikel 6 GDPR onder (b) tot en met (f) nog 5 andere gronden bestaan voor het verwerken van persoonsgegevens. Toestemming is zelden de enige grondslag die gebruikt kan worden
En dus niet alleen een stem, maar dus ook audiogeluid waarin iemand praat kan iemand identificeren en valt dus onder persoonsgegevens.
Daar trekken kwaadwillenden zich nogal wat van aan.
Dagelijks worden GDPR regels overtreden en er wordt alleen opgetreden wanneer dit structureel is. Particulieren hebben in de praktijk niets te vrezen.
Zelf met toestemming zou het verboden moeten worden, anders weet je nooit meer wie wat gezegd heeft.
Er zijn ook veel onrechtstreekse manieren om die toestemmingen te krijgen. Door bijvoorbeeld te verbergen in 50 pagina's algemene voorwaarden. Feitelijk zou elke keer de steen gebruikt word opnieuw toesturen gevraagd moeten worden, en telkens met en specifieke motivatie waarvoor de toestemming word gegeven en met beperkte termijn dat de stem gebruikt mag worden (zoals bij zangers)
Ik leef op een planeet waarbij elke jojo ongestraft op een het internet kan roepen wat deze wil. Heel veel tweakers roepen maar wat uit een onderbuikgevoel en iedereen knikt daar dan wijs in mee, zonder daadwerkelijke onderbouwing, dit komt regelmatig voor. Op deze planeet leef ik en jij ook. Dus als iemand iets dergelijks roept zou ik graag een onderbouwing willen zien. En die kreeg ik.

Ik begrijp nu waar de OP vandaan komt, maar er wordt niet specifiek gesproken over de stem van een persoon. Dat was dan ook de reden waarom ik er vraagtekens bijzette omdat ik eigenlijk nog nooit specifieke regelgeving over stem ben tegengekomen. En ik verwacht dat dit best nog wel eens een onduidelijk dingetje zal zijn zonder directe uitspraak van de EU/NL regelgever.
Er zal neem ik aan bewezen moeten worden dat de input die je gebruikt hebt, daadwerkelijk van een bepaalde persoon komt.
Stel dat je bijvoorbeeld een persoon vindt die precies dezelfde stem heeft als een BNer, en je laat diegene jouw 15seconden zin inspreken. Het gebruik daarvan met de toestemming van de inspreker zou volledig legaal zijn vermoed ik.
En aangezien we in Nederland de bewijslast bij de aanklager hebben liggen, zal een BNer moeten aantonen dat zijn stem is gebruikt.
Uiteraard is bij de stem suggereren dat het om die BNer gaat, niet toegestaan.

[Reactie gewijzigd door Zynth op 22 juli 2024 14:39]

Zo moeilijk is dat niet omdat de AI gewoon een willekeurige tekst kan genereren die je als natuurlijk persoon moet opzeggen voor de opname.
Het is nagenoeg onmogelijk om een vooraf opgenomen stem een paar zinnen goed en vloeiend uit te laten spreken.
Maar dit kan toch gewoon niet?
Hoeveel Elvis imitators zijn er zo niet geweest?

Stemmen zijn gewoon niet uniek.

Iedereen heeft toch al eens iemand horen praten die prefect klinkt als een vriend(in).
Om dan te merken dat die persoon toch iemand anders blijkt te zijn?
Wat is dit argument? Er is een gigantisch verschil tussen twee personen die een vergelijkbare stem hebben en bedrijven die AI gebruiken om stemmen na te botsen en hiermee geld willen verdienen. Het is zeker beter dat de EU hier sterke beperkingen op heeft liggen voor bedrijven.
Dit:

Stel: bedrijf A wil graag de stem van, euh, acteur X nabootsen.
Dit mag (in de toekomst?) niet van Europa, zonder de expliciete toestemming van X.
Dus er is geen data om op te trainen.

Oplossing voor A: zoek een persoon (geen dure acteur, maar een gewone persoon.) met een stem die erg sterk aanleunt bij de stem van acteur X. Betaal die persoon een (klein) bedrag, koop daardoor zijn/haar toestemming/rechten en laat die persoon een uurtje voorlezen/zingen/lawaai produceren. Dan heb je hierop de rechten. Eventueel nog een eenvoudig filtertje erover. En voila! Data om op te trainen. Waarop je de rechten hebt!

Dat is mijn argument. Stemmen zijn niet uniek. Het is geen kunst, geen literair werk, geen afgeleide van een reeds bestaande stem. De klank wordt gevormd door het lichaam van de persoon zelf.
Je mag Elvis niet namaken? Geen probleem. Gebruik de (zeer aansluitende) stem van iemand anders.
Er zijn genoeg mensen die graag 500 eurootjes willen verdienen.

Als niemand de echte <-> namaak-getrainde stemmen uit elkaar kan halen, dan doet het er niet toe dat je het 'echte' model verbiedt.
Ok. Laat ons stellen dat elke stem dan uniek is.

Dan nog blijft mijn punt staan: als bedrijf A een stem wil nabootsen, dan is dat nog altijd legaal mogelijk.
Mensen zullen het verschil niet horen. En die zijn de doelgroep.
Voorbeeldje: de stem van David Attenborough is zeer gekend, en (in mijn opinie) rustgevend.
Bedrijf A zal het niet erg vinden dat Nuance kan aantonen dat het niet de echte David is.
Hun doelgroep (= mensen) horen het verschil toch niet.
Maar daar is dan toch ook gewoon niets mis mee? Zonder AI kan je die persoon met vergelijkbare stem toch ook gewoon vanalles Maarten zeggen voor jouw doeleinde?
Inderdaad. Maar dit ging specifiek over een verbod op het trainen van een AI model.
Veel heb je niet aan die maatregel. Je kan dus iemand klonen for niet op de lijst staat. In mijn opzicht mag dat nooit. Et is heb firme treden dat je je voordoet als iemand anders, zelf als er een contract is, want de stem kan letterlijk voor alles gebruikt worden nu en in de verre toekomst. De enige gebruiker van de stem moet de eigenaar van de stem zelf zijn.

De wetgeving had dus beter verboden om stemmen te gebruiken van iemand anders, over geen enkele voorwaarde, ook niet contractueel.
Maar waarom? Waarvoor?
Er zijn redelijk veel landen om Nederland heen waar men minder of geen Engels spreekt, dus om te beginnen: nasynchronisatie met de originele stem.
Er zijn redelijk veel landen om Nederland heen waar men minder of geen Engels spreekt, dus om te beginnen: nasynchronisatie met de originele stem.
Naast een hele beangstigende, is het ergens dus ook wel een hele praktische toepassing. Al moet ik er niet aan denken dat ik mijn internationale film- en tv-helden in ene accentloos Nederlands zou horen praten.
Ik vond wat der8auer niet lang geleden deed vrij impressive. Hij heeft 2 kanalen, één Duitstalig en één Engelstalig met op beide kanalen dezelfde content. Wat betekent dat 'ie alle video's altijd 2 keer moet opnemen, monteren etc. Dat is natuurlijk veel werk. Dus heeft 'ie z'n Duitse video door AI gehaald en die laten vertalen. Ja, het is niet perfect, ja, er zitten glitches in her-en-der, maar het is zéker goed zat om te kunnen volgen en aanschouwen. En niet alleen de stem, maar ook de lipsync en daarmee dus z'n mond is door AI aangepast.

Kijk en luister zelf:
* Origineel (Duits)
* AI (Engels)

[Reactie gewijzigd door RobIII op 22 juli 2024 14:39]

Heeft Mr Beast ook niet zijn bereik bijna verdubbeld toen hij alles naar Spaans had gedubbed?
Kan mij voorstellen dat dit op deze manier voor veel YouTubers interessant wordt om dit te doen.

Edit: link

[Reactie gewijzigd door Patrick_Wolf op 22 juli 2024 14:39]

Geen idee, maar tenzij hij daar ook AI voor gebruikt(e) zie ik de relevantie ook niet heel erg :P Wat ik zo snel kon vinden is dat hij voice actors gebruikt(e).

[Reactie gewijzigd door RobIII op 22 juli 2024 14:39]

Ga naar de helicopta! Met Duits accent :)
Er zijn redelijk veel landen om Nederland heen waar men minder of geen Engels spreekt, dus om te beginnen: nasynchronisatie met de originele stem.
De hele reden dat Engels zo goed geaccepteerd is in Nederland komt (naast scholing) mede doordat we weinig nasynchroniseren.
Ik vraag me af hoe goed dat gaat werken. Veel talen hebben klanken die gewoon anders zijn en niet in bvb in het Engels voorkomen. Anders wel een goede business case!
Denk ook aan mensen die (tijdelijk) niet verbaal kunnen communiceren door medische redenen.
Of mensen die dat niet willen, om niet-medische redenen!
Kan je zo'n ding trainen om "uh-huh" op het goede moment te zeggen? :Y)
Ja, kan natuurlijk ook, maar heeft minder prioriteit. :)
In de blogpost van OpenAI staan niet alleen voorbeelden, maar worden ook nuttige toepassingen besproken.
Ik krijg de indruk dat het in de comments op tweakers steeds meer gaat over privacy en argwaan tegen bedrijven, dan over technologische vernieuwing, de mogelijkheden van de vooruitgang, en de gave aspecten van de innovatie.

Ik wil niet zeggen dat privacy onbelangrijk is, maar voor sommigen hier lijkt het wel alsof privacy nog maar het enige is dat hen bezig houdt. En daarmee walsen ze verder over alles en iedereen heen.
Wat is er een technologisch voordeel aan dat men iemand zijn/haar stem jan clonen, anders dan er misbruik van te maken? Ik kan me weinig legitieme situaties bedenken waarbij her gebruik van ienands clone-stem echt zinvol is, anders dan bv een film oid afmaken omdat de originele actrice/acteur tijdens de opnames overleden is. Maar zelfs voice-overs voor zaken zie ik her niet als legitiem, laat de persoon het maar werkelijk inspreken OF gebruik dus gewoon een AI random gegenereerde stem.
Universal translator van startrek komt zo wel heel dicht bij. Toch een leuke toepassing?
Ok, dat zou nog een andere legitieme reden zijn, dat je de vertaling meteen hoort in de zijn/haar originele stem.
Ik heb net wat reviews opgezocht, maar dat is toch echt nog niet wat ik verwacht van een Star Trek Universal Translator. Of in andere bewoording het mist de Star Trek-achtige ervaring.

Alle begin is natuurlijk moeilijk ;)
Enige praktische toepassing die ik kan bedenken is voor mensen met een 'spraakcomputer', dan had Stephen Hawking zijn eigen stem kunnen behouden.

Wat wel 'cool' is, je kunt WhatsApp berichten laten oplezen in de stem van de persoon die het gestuurd heeft.

In veel andere gevallen heb je inderdaad het probleem dat je 'de stem' dingen kunt laten zeggen die de ander nooit gezegd heeft.
Daarmee is de potentie voor kwaad, vele malen groter.
Als game developer lijkt het me handig dat je rechten koopt van een stemacteur om diens stem te gebruiken voor personage x. Dan kun je als er extra dialoog wordt toegevoegd of wordt aangepast dat gewoon laten genereren zonder dat je steeds terug moet om dat in te laten spreken.

Ook zou ik het persoonlijk best leuk vinden om Sean Connery of Leonard Nimoy als audio boek verteller te hebben.
Gaming, alle NPC's worden aangestuurd door een LLM getraind op de inhoud van het spel en nu zijn hun stemmen nog is reëel klinkend. Daar gaat het imo massaal in gebruikt worden.
Ik heb zoiets gebruikt om voice overs van een game aan te passen zonder acteurs lastig te hoeven vallen (die de voice overs tig jaren daarvoor hadden gedaan omdat het om een remaster ging).
En dat is nou net wat dus in principe al niet meer mag zonder toestemming/betaling van die originele acteurs/actrices.
Ik krijg de indruk dat het in de comments op tweakers steeds meer gaat over privacy en argwaan tegen bedrijven, dan over technologische vernieuwing, de mogelijkheden van de vooruitgang, en de gave aspecten van de innovatie.
In het geval van nabootsen van een stem, is privacy/copyright toch een open deur? Men wíl helemaal niet dat zijn stem gekopieerd wordt.

Maar oke, schiet maar los met niet-kwaadaardige mogelijkheden en 'gave' aspecten van deze innovatie.

Door deze meta-discussie te starten help je ook niet echt mee tot het doel wat je zelf beaamt te bereiken.

Daarnaast, dat jij privacy niet interessant vindt en/of bedrijven vertrouwd, is je eigen keuze.
Maar ik vindt het naïef om te denken dat 'de grote bedrijven' het beste met jouw voor hebben en jouw privacy ongevraagd met rust zullen laten.
2014 belde, het wilde zijn naïviteit terug. :+

Deze bedrijven hebben die argwaan zelf gecreëerd door keer op keer niet transparant te zijn m.b.t. data(her)gebruik.

[Reactie gewijzigd door Martinez- op 22 juli 2024 14:39]

In verdediging van de community, we zitten nu ook in een situatie waar we het ene beveiligingsrisico na het andere machtsmisbruik en illegale dataverzamelingsactie voorbij zien komen. Het is een natuurlijke tegenreactie op het digitale misconduct die al jaren gaande is en waar al jaren voor gewaarschuwd wordt terwijl overheden vaak met lachwekkende "boetes" aan komt en de dader, zei het een Facebook, maar ongestoord door blijft gaan.

Dus dat je een verzuring proeft is niet geheel verwonderlijk of onterecht. Een betere vraag is, hebben we hier te maken met (om even een metaforisch voorbeeld te maken) oude opa's die domweg klagen dat de banen worden ingepikt door buitenlanders, of mensen die zich zorgen maken over de expats die bedrijven naar binnen slurpen, belastingvoordelen geven tijdens een crisis-economie en huizen geven in een huizenmarkt waar een tekort heerst ondanks de economische voordelen die ze bieden aan die bedrijven die dreigen met weggaan als hun oneerlijke voordelen gerectificeerd worden waardoor Nederland plathard gechanteerd wordt door bedrijven?

We zitten in vergevorderde problematiek, en de grote bedrijven denderen er in door, nu ook om je stem en de misbruik er van. Mijn insziens is wat je in fora-reacties nu proeft niets meer dan het equivalent van meer antistoffen in een lichaam bij oplopende ziekte

[Reactie gewijzigd door jackyallstar op 22 juli 2024 14:39]

De komende paar jaar gaan een niet grappige periode worden met ongelofelijk misbruik en misleiding....
Daarom moet er bijna wel een online id komen, een manier om je online te identificeren, op zo’n manier dat het ook voor burgers onderling praktisch bruikbaar is. Niet alleen voor overheden en bedrijven zoals nu digID.

Dit zou gelijk ook een hoop ellende voorkomen qua spam en online oplichting, als er een systeem komt waarbij je niet meer kunt liegen over je identiteit. Oplichters op een zwarte lijst. Familie en vrienden op een voorkeurslijst die wél 24/7 je telefoon kunnen laten overgaan, etc.
Heel leuk idee, maar het is niet meer dan een sprookje. Wie gaat dat systeem bouwen/onderhouden? En nog belangrijker, wie gaat ervoor zorgen dat het systeem niet te hacken of door criminelen na te bouwen is? Gezien ze nu al eenvoudig bv de inlogpagina van een Bank kunnen nabouwen.

Het is 100% onverstandig om je identificatie op 1 locatie op te slaan. Want uiteindelijk maak je het voor criminelen NOG makkelijker om je identiteit te stelen.

Dus nee, ik ben absoluut tegen een dergelijk systeem. Gezien het geen nieuwe beveiliging biedt.
‘Wie gaat het bouwen / onderhouden?’ Een professionele partij, onder toezicht van de overheid of een groep ‘serieuze’ bedrijven. Digid is er al… Banken hebben ook al jaren zoiets, iDin.

Daarnaast is er ook al jaren eHerkenning, ook door en voor bedrijven, al jaren verplicht als je als bedrijf forumulieren in wil vullen bij rvo.nl (Rijksdienst voor Ondernemend Nederland).

Een ‘makkelijk na te bouwen inlogpagina’ hoeft er niet te zijn, want je kiest er bij zo’n systeem logischerwijs voor om het te laten lopen via de app op je telefoon.

Echt, ik begrijp niet waarom sommige zaken niet wat meer aandacht krijgen. Met een béétje sturing van de overheid / EU was er 20 jaar geleden al een model-pdf-met-labels bedacht, voor facturen. Dus dat elke factuur pdf er uit mag zien hoe je maar wil, maar dat er wel een standaard is qua namen van de tekstvelden, zodat boekhoud-software weet wat de btw is en wat het bankrekeningnummer is etc. Maar nee, we laten het bedrijfsleven jarenlang aanmodderen, net zo lang tot er uiteindelijk een soort van ‘recht van de populairste’ standaard ontstaat. Zo jammer van de intussen verspilde tijd en energie. Tegelijkertijd lukt het deze overheden wél om miljarden te verspillen aan het overschot aan nationale luchtvaartmaatschappijen.
‘Wie gaat het bouwen / onderhouden?’ Een professionele partij, onder toezicht van de overheid of een groep ‘serieuze’ bedrijven. Digid is er al… Banken hebben ook al jaren zoiets, iDin.
Zeer gevaarlijk dus, gezien die beveiliging dus makkelijk na te bouwen is.
Daarnaast is er ook al jaren eHerkenning, ook door en voor bedrijven, al jaren verplicht als je als bedrijf forumulieren in wil vullen bij rvo.nl (Rijksdienst voor Ondernemend Nederland).
Dus dan moet in handen van de overheid komen? De overheid is geheel niet te vertrouwen met privacy of kritieke ICT systemen. (bv. Toeslagenaffaire)
Een ‘makkelijk na te bouwen inlogpagina’ hoeft er niet te zijn, want je kiest er bij zo’n systeem logischerwijs voor om het te laten lopen via de app op je telefoon.
Niet iedereen heeft een telefoon, dus er zal altijd een website als alternatief moeten bestaan. Plus kan je een App ook zo namaken. En dankzij de DMA kunnen bedrijven als Apple of Google je daar niet tegen beschermen.
Echt, ik begrijp niet waarom sommige zaken niet wat meer aandacht krijgen. Met een béétje sturing van de overheid / EU was er 20 jaar geleden al een model-pdf-met-labels bedacht, voor facturen. Dus dat elke factuur pdf er uit mag zien hoe je maar wil, maar dat er wel een standaard is qua namen van de tekstvelden, zodat boekhoud-software weet wat de btw is en wat het bankrekeningnummer is etc. Maar nee, we laten het bedrijfsleven jarenlang aanmodderen, net zo lang tot er uiteindelijk een soort van ‘recht van de populairste’ standaard ontstaat. Zo jammer van de intussen verspilde tijd en energie. Tegelijkertijd lukt het deze overheden wél om miljarden te verspillen aan het overschot aan nationale luchtvaartmaatschappijen.
En elke factuur heeft dezelfde informatie nodig? Nee, er zijn duizenden verschillende soorten facturen. Dat ga je niet met één pdfje oplossen.

Echt ik begrijp niet waarom er nog steeds mensen zijn die zo simpel over bescherming van privacy denken.

[Reactie gewijzigd door ShadLink op 22 juli 2024 14:39]

Zeer gevaarlijk dus, gezien die beveiliging dus makkelijk na te bouwen is.
Nabouwen heeft geen zin met 2FA / MFA.
[...]
Dus dan moet in handen van de overheid komen? De overheid is geheel niet te vertrouwen met privacy of kritieke ICT systemen.
Overheden doen dat soort praktische zaken niet zelf. Scheiding der machten en zo. De Nederlandse Bank, de banken die iDin regelen, de bedrijven die eHerkinning faciliteren zijn ook niet in handen van de overheid.
(bv. Toeslagenaffaire)
Met deze logica kun je gelijk overal mee stoppen, want er is altijd wel een voorbeeld te vinden van hoe het gruwelijk mis kan gaan. Je kunt de deur niet meer uit want misschien word je wel aangereden, je bank kan omvallen en dan kun je een hele tijd niet bij je geld, etc etc. De 99 andere zaken die de overheid intussen wel goed doet, daar lees je niets over in de krant.

Wat is je alternatief, stoppen met de Belastingdienst vanwege de Toeslagenaffaire? Dan naai je de mensen die toeslagen nodig hebben pas echt.
Niet iedereen heeft een telefoon, dus er zal altijd een website als alternatief moeten bestaan.
Wat ik voorstel is optioneel hè? Het is niet verplicht. Als iemand liever het risico neemt om opgelicht te worden op Marktplaats, blijft dat gewoon een optie :Y)
Plus kan je een App ook zo namaken.
Succes met het in de AppStore krijgen van malware. Daarnaast is er ook nog zoiets als een ssl-certificaat.
En dankzij de DMA kunnen bedrijven als Apple of Google je daar niet tegen beschermen.
Je koopt zelf een dienst bij een bank of eHerkenning-bedrijf. Als je hun app gebruikt, heb je nooit een foute app.

[...]
En elke factuur heeft dezelfde informatie nodig? Nee, er zijn duizenden verschillende soorten facturen. Dat ga je niet met één pdfje oplossen.
Hoezo zijn er duizenden soorten facturen? Elke factuur bevat verplicht informatie als bedrijfsnaam, naam van de afnemer, kvk-nummer, btw-nummer, omschrijving van de geleverde diensten en of producten, kosten daarvan, bijbehorende btw-percentages en -bedragen, totaalbedrag, bankrekeningnummer van de leverancier.

Als daar in elke factuur-pdf labeltjes voor te vinden zouden zijn, al was het maar onzichtbaar, dan zou dat ENORM veel werk schelen aan handmatige controles door Truus en Willem van crediteuren / debiteuren. Negen van de tien facturen kunnen dan voor het leeuwendeel geautomatiseerd worden ingelezen. Een deel zal je alsnog moeten splitsen en of de juiste categorie moeten geven, maar dat moet je nu ook. Verreweg de meeste info staat dan al in.

Dit is echt zo logisch dat het nauwelijks te bevatten is dat het niet gebeurt. Ja, verschillende bedrijven hebben uiteraard noodgedwongen zelf een standaard bedacht en vroeg of laat komt daar één standaard uit, maar waarom zou je dat niet 25 jaar verkorten door het een handje te helpen?
Echt ik begrijp niet waarom er nog steeds mensen zijn die zo simpel over bescherming van privacy denken.
Je kan mensen juist veel beter beschermen als je maatregelen neemt. Nu krijgt iedereen elke dag spam, worden er dagelijks tig mensen opgelicht en echt niet alleen de domsten. Als je daar eenvoudig wat aan kunt doen, waarom dan niet? En nogmaals: Zoiets kan je optioneel houden. Postcodes, vaccineren en fietshelmpjes zijn ook niet verplicht.

[Reactie gewijzigd door laptopleon op 22 juli 2024 14:39]

Daarom moet er bijna wel een online id komen, een manier om je online te identificeren, op zo’n manier dat het ook voor burgers onderling praktisch bruikbaar is.
...
een systeem komt waarbij je niet meer kunt liegen over je identiteit. Oplichters op een zwarte lijst.
Wat een dystopisch idee is dat dan.
Een (verplicht) online ID staat juist haaks op alle privacy en is de natte droom van elke adverteerder/dictator.

Ik denk dat we beter met zijn alle 'stemgeluid'/stemherkenning kunnen afschrijven als vorm van identificatie/authenticatie.
Wie zegt dat het dan verplicht is en met stemgeluid gaat? Maar nu is deze keuze er niet, behalve bij banken en overheid, daar is het verplicht en het werkt prima.

Wat is hier dystopisch aan? Dit is letterlijk wat digID al jaren doet. Is dat op een dystopia uitgedraaid?
Yes,is ook al bezig. Ik hoop dat er een manier wordt gevonden om de grote massa aan mensen die hun nieuws halen bij niet geverifieerde bronnen terug te laten bewegend naar sites/nieuwsbladen/... Waar wel degelijke bron verificatie is.
Of dat sites verplicht worden al hun media te scannen op watermerken van AI en het er bij moet worden gezet.
Dit doet mij sterk denken aan een presentatie van Adobe ~6-7jr geleden. Bij deze demo/presentatie toonde adobe aan hoe 'ver' men was met AI/Voice 'cloning'.

Ik kan het mis hebben, maar volgens mij hebben zij die software nooit uitegebracht vanwege alle etische/morele en commerciele bezwaren.

zie; https://youtu.be/I3l4XLZ59iw?si=sXyNjmkx71Tyrn6T
Microsoft heeft dit ook al geruime tijd. Het grote verschil is alleen, dat je daar 1 tot 8 uur aan audio materiaal voor nodig hebt om het model te trainen afhankelijk van de kwaliteit die je wil. Dus dat het nu met 15 seconde kan is een groot verschil
Kan me zomaar voorstellen dat die 1-8uur van 2016 niet meer representatief is anno 2024
Voor het huidige model geeft Microsoft aan dat je moet trainen met tussen de 100 en 300 zinnen (utterances).
Gezien de impact van zo'n model, lijkt een opt-in met specifieke willekeurige zin - die zo goed mogelijk tegen fake voices getraind is - wel een vereiste..

Ra-ra hoe je opt-out het best kan verwezenlijken? Door een model te trainen op jouw stem :Y)
Dit kan XTTS op je local host ook. Natuurlijk kan open AI het vast wel weer een haartje beter, maar je levert er wel voor in dat je je data gratis en voor niks opstuurd. Ik begin wel medelijden te krijgen met een ieder die overal z'n hele identiteit heeft neergepleurt op FB, TV, Radio en boeken. Alles wordt gejat en het ligt er voor het oprapen.
Heb tot nu toe altijd elevenlabs.io hiervoor gebruikt met behoorlijk goede resultaten (op basis van 60 seconden volgens mij?). Ben benieuwd hoe deze zich verhoudt :)

[Reactie gewijzigd door vickypollard op 22 juli 2024 14:39]

Voor welk doel was dat?
Wat is hier nou het nut van?
Ik kan me geen legitiem doel bedenken waarbij het nodig is dat de stem al op basis van 15 seconden input gegenereerd kan worden.

Het lijkt me op deze manier erg vatbaar voor misbruik, waarom zouden ze het niet op basis van wat meer bronmateriaal doen?
Dan wordt het al lastiger om stemmen van elke willekeurige persoon te klonen, en kunnen legitieme doeleinden nog steeds gedaan worden.
Je zou bijvoorbeeld tekstberichten kunnen afspelen van je contacten die je een keertje aan de telefoon hebt gehad met hun stem. Misschien toch wel handig in de auto, bijvoorbeeld?
Als je tijdens het autorijden een WhatsApp groepsgesprek wil 'bijhouden' of terug'lezen'.

Dan kun je van elke persoon de natuurlijke stem gebruiken en hoef je niet bij elk bericht de naam van de persoon te laten opnoemen.

Een van de weinige praktische toepassingen...
Dan moeten al die personen wel toestemming geven
Er waren vragen over de toepasbaarheid; dit leek me een uiterst logische toepassing die door veel mensen als een toegevoegde waarde zou worden gezien. Ik denk niet dat ik of @Accretion meteen de moraliteit of regelgeving aan het bestuderen waren.

Zelfs als er regelgeving bestaat, hoe ga je iemand betrappen of beboeten hiervoor? Misschien dat de telefoonmakers wat functionaliteit kunnen weglaten (zoals het makkelijk opnemen van gesprekken) maar anders gaat de regelgeving weinig teweegbrengen.
Helemaal gelijk, ik zie er ook de meerwaarde van in, ik maakte enkel de bedenking of dat een heel haalbare toepassing zou zijn gezien het toestemming nodig hebben van. Als Meta dat zou inbouwen in WA, dan zouden ze een manier moeten maken om ieder toestemming te geven. Niet dat dat niet kan maar ook bijzonder omslachtig. Wat me dan weer leidt tot het misschien minder goed/realistisch vinden van jouw toepassing. Slechts een mening, zoals alle andere hier :-)
Het nut ervan is dat het indrukwekkend is. Ze kunnen wel met een systeem komen waarvoor je twee uur input nodig hebt, maar als de technologie maar 15 seconden nodig heeft, dan zal er gauw een concurrent zijn die ongeveer hetzelfde kan met 10-60 seconden. OpenAI wil voorlopen.
Wat jij beschrijft is de reden dat OpenAI dit deelt misschien. Dat is iets anders dan het nut van die technologie.
De rest van de comment ging alleen maar over waarom het slechts 15 seconden is en niet meer, dus volgens mij wilde de persoon weten wat het nut daarvan is.

Dat is denk ik ook een iets logischere vraag, want er zijn echt ongelooflijk veel handige en waardevolle toepassingen te bedenken voor deze technologie.
Puur onderzoek hoeft niet een direct nut te hebben.
Het opzoeken van de limitaties of verbeteren van bestaande concepten kan een doel an sich zijn.

Maar het is inderdaad zo dat misbruik in dit geval wel makkelijk in te beelden is, omdat spraak nog te veel gezien wordt als iets 'authentiek' / 'uniek' / 'persoonlijk'.
Dat is zo, onderzoek hoeft niet direct nut te hebben. Maar onderzoek is iets anders dan de technologie als een commercieel product aanbieden en van OpenIA verwacht ik dat ze dat wel willen doen. Nu een product hoeft ook niet direct nut te hebben maar ik vind wel dat er daarbij bekeken moet worden of er eventueel schadelijke aspecten aan zijn.
Ik wel, stel je voor, je bent huisarts en je hebt patiënten die een andere taal als 1e taal hebben; je kan nu je gespreksverslag op een manier die je zelf het prettigste vindt (gesproken, getikt etc.) invoeren en de patiënt kan t straks op een onvoorstelbaar veel manieren terugkijken/luisteren. Samengevat/ volledig/ in het NL of eigen taal, met of zonder medische vaktermen etc. terwijl je als ontvanger in dezelfde stem als de arts waarmee je net sprak dit verslag hoort.

Dit kan heel veel communicatiebarrieres slechten terwijl het tegelijkertijd administratieve werkzaamheden beperkt

[Reactie gewijzigd door rik86 op 22 juli 2024 14:39]

Daar gaat het hier niet over.
Hier zijn al apparaten voor, gebruikte die tools al om (voice) opgenomen vergaderingen om te zetten in tekst.
Het gaat hier om het bijna perfect kopiëren van een stem met intonatie en emotie a.d.h.v. een sample en de eventuele gevolgen daarvan als dit vrij beschikbaar komt.
De claim is wat ze nu kunnen, hoe ze het releasen is hopelijk heel anders
Tja, if the cat's out of the bag it will be hard to put it back in. Ofwel, leuk dat ze limitaties willen gaan stellen, maar we weten allemaal dat die omzeilt zullen worden, denk aan geheime diensten, en criminelen, die ook beschikking zullen hebben over deze technologie, ZONDER watermerk.
Dit wordt een drama. Dit wordt een nachtmerrie. Je kan kan straks niets meer vertrouwen. Want dit GAAT misbruikt worden, dat is een gegarandeerd. Het gebeurd namelijk al.

Op dit item kan niet meer gereageerd worden.