Samsung werkt aan functie om telefoontje te antwoorden met eigen AI-stem

Samsung werkt aan een functie om een telefoontje op een Galaxy-telefoon te beantwoorden met een synthetische stem op basis van de stem van de gebruiker. Daarvoor moet een gebruiker tien zinnen inspreken.

De functie zit in de recentste bèta van One UI 6 voor de Galaxy S23, schrijft Android Police. Die functie zit in Bixby Text Call, een functie om telefoontjes automatisch te beantwoorden met transcriptie. Daarbij wordt het mogelijk om een eigen aangepaste stem aan te maken.

Tijdens een test van een Android Police-redacteur leek de stem aardig, al had die een Amerikaans accent die de Britse redacteur zelf niet heeft. Samsung heeft de functie zelf nog niet nader toegelicht, waardoor het onbekend is of en wanneer ze in meer telefoons komt te zitten.

Samsung One UI 6 - voice creatorSamsung One UI 6 - voice creatorSamsung One UI 6 - voice creator

Door Arnoud Wokke

Redacteur Tweakers

04-09-2023 • 08:52

47

Reacties (47)

Sorteer op:

Weergave:

In iOS17 zit een vergelijkbare functie. Omdat het daar als toegankelijkheidsfunctie werd gepresenteerd vond ik het niet zo spannend. Nu ik dit bericht lees denk ik wel: hier gaan we met AI nog onpersoonlijker worden. Ben benieuwd hoe lang je moet trainen. Ik geloof dat het op iOS 17 ongeveer 15 minuten is.
lijkt me uitstekend om ongewenste bellers te beantwoorden?
en door een bug geeft dat ding al je persoonlijke data door aan iemand van de "Microsoft helpdesk" in India? Nee dank u! Wat mij betreft mogen ze zo langzamerhand wel eens stoppen met die AI bullshit.
klopt hoor, of de AI gaat akkoord met een maandelijkse steun van 100 euro voor een goed doel }>
Die kun je toch sowieso al negeren, althans op iOS.
Dit vraagt gewoon om misbruikt te gaan worden. Bv "een telefoongesprek met een bekend persoon", gebaseerd op opnames van de stem van die persoon. Wat zelfs geheel zonder de kennis van die persoon zou kunnen gebeuren.
Dat is op zich niks nieuws. Voor we AI hadden gebeurde dit ook al, met grappenmakers die goed stemmen konden imiteren die wereldleiders opbelden en zo af en toe dingen te horen kregen die misschien niet de bedoeling waren. Deze ontwikkelingen betekenen gewoon dat daar strenger op gecontroleerd gaat worden, en dat ze niet zomaar iedere jodocus die beweert de president van Verweggistan te zijn doorverbinden.

Creatief knip- en plakwerk met samples om iemand iets te laten zeggen dat die persoon nooit gezegd heeft is ook al ouder. Wat AI vooral mogelijk maakt is dat het veel laagdrempeliger is, en vaak overtuigender. Opnieuw, dat betekent vooral gewoon meer controle. De eerste "nee dat was ik niet, dat was een AI" excuses zijn ook al gesignaleerd. :P

[Reactie gewijzigd door MneoreJ op 22 juli 2024 17:42]

Ik zeg ook nergens dat het niet al gebeurde. Ik bedoel idd dat het laagdrempeliger wordt hiermee. En iemands stem imiteren is best een klus en lang niet iedereen kan dat. En zelfs dan kan je altijd een fake herkennen. Ook heb je al dingen als soundboards gehad, maar ook dan heb je vrij snel door dat het fake is.

Met AI, en helemaal als het wat verder ontwikkeld is, heb je straks een mogelijkheid dat je niet meer kan herkennen wat echt of nep is.
Dat blijft een wapenwedloop. Men doet ook al dingen met AI om te herkennen of iets met een AI gemaakt is (dat is bij geschreven tekst erg lastig om definitief vast te stellen, maar bij dingen als beeld en geluid al wat makkelijker).

Worst case gaan we het straks alleen maar geloven met een attest van drie meter waarin diverse getuigen moeten zweren dat het allemaal echt was. Aan de andere kant: het is nu ook al zo dat mensen maar al te graag bereid zijn dingen te geloven (of te ontkennen) ongeacht welk bewijs er wel of niet voor is.
Gewoon een codewoord afspreken en alle alternatieven vallen door de mand.
Identiteitsdiefstallen zijn inderdaad een groter probleem door het steeds eenvoudiger beschikbaar hebben van heel veel data. Vroeger moesten we nog een babbeltje maken met diezelfde persoon bij de Starbucks, om voldoende data te verkrijgen voor een synthetische stem.
Lijkt sterk op de eerste aflevering van het nieuwste seizoen van Black Mirror trouwens. Met (de briljánte!) Salma Hayek.
Dat is ook het eerste wat ik dacht.
Een techniek die cyber criminelen gebruiken/misbruiken voor vishing (voice phishing) wordt nu een standaard feature op een telefoon??
Moet niet gekker worden.

Daarnaast begint er nu een ander vervelend fenomeen te ontstaan.
De continuë twijfel of iets nog wel echt of betrouwbaar is.
Althans, bij mij speelt dit nu sterk en het moet wel zo zijn dat dit ook voor anderen geldt.

Een beetje sceptische kijk op bijvoorbeeld nieuws e.d. is normaal.
Echter begint ML (AI) en fake news, beelden, video, audio, etc in sneltreinvaart steeds dieper door te dringen in ons leven. Dat geeft mij een toenemend onrustig en ongewenst achterdochtig gevoel.
Hoe lang duurt het nog voor de meest betrouwbare bronnen vervuild zijn met deze imitatie 'speeltjes'?

Als dit verder doordringt in de wetenschap, lesmateriaal scholen, politiek e.d. vraag ik me af waar we over 20 jaar staan.
Het maakt het social engineering situatie nog lastiger. Mensen van kleinere bedrijven horen aan de stem dat het collega X is en resetten het wachtwoord. Dat is hiermee dan echt voorbij.
ter info: Op Apple devices heb je een overzicht van alle inkomende en uitgaande gesprekken. je kunt dat systeem op die manier niet "foppen"
Ik las dat je eerst tien zinnen moet inspreken. Ik weet niet of dit eigen zinnen mogen zijn of dat je een tekst voor moet lezen. Als dit laatste het geval is, wordt in ieder geval het misbruik beperkt. Niet helemaal weggenomen, natuurlijk.
Dit kan natuurlijk vreemde situaties gaan geven als de persoon die met de AI spreekt niet doorheeft dat het niet de persoon is. Bijv. een ouder familielid of kind. Ik ben geen fan van dit soort ontwikkelingen.
Het wordt nog vreemder zodra een AI telefoontje door AI wordt beantwoord. Dit gaat een keer komen.
Waarom is dat vreemd(er) dan? Lijkt me heerlijk, ik vind bellen zelf helemaal niks, liever face2face. Als je gewoon een transcriptie krijgt van het gesprek of de samenvatting van de informatie waar het om gaat/ging.

Maar wie weet kan er een onhoorbare toon gebruikt worden om ze aan elkaar te laten weten dat het AI's zijn.
Waar gaat het gesprek dan over? AI belt bijvoorbeeld vanwege een klacht over een product of dienst. Jouw AI neemt op, maar weet niet wat jij acceptabel vindt als oplossing.
Of een AI belt om te werven voor een goed doel (veel meer belcapaciteit door een extra server aan te slingeren). Hoe weet de beantwoordende AI of je geïnteresseerd bent?

Hier zijn uiteraard oplossingen voor te verzinnen, maar in de beginfase zal dit zowel hilarische als problematische situaties op gaan leveren.

[Reactie gewijzigd door mac1987 op 22 juli 2024 17:42]

Die problemen hebben vrij makkelijke oplossingen in de zin dat je een AI kunt instrueren om met een ingeblikte frase als "hier kan ik geen uitspraak over doen, ik ga uw input doorzetten naar een mens" aan te komen als men van het lijstje ondersteunde onderwerpen afwijkt, teveel de diepte ingaat, of expliciet klaagt dat het gesprek niet zinvol is. Dit is nu al gebruikelijk bij bots en zal zeker het geval zijn voor dingen waarvoor "getekend" moet worden. Daarnaast zul je zeker voor dingen als goede doelen gewoon standaardscripts krijgen als "aan de telefoon wordt niet gekocht, ook niet door AI", want het gros van de mensen zit daar gewoon niet op te wachten, ook zonder AI.

Er zal ook wel regulering komen waarbij AI stemmen verplicht worden zich op voorhand te identificeren als AI voor bepaalde doelen juist om problemen te voorkomen. Wordt dan wel weer grappig als je dan als mens gaat doen alsof je een AI bent om onder dingen uit te komen. :+
Heerlijk. Laat ik mijn AI kijken naar een televisieprogramma gemaakt door AI. Heb ik eindelijk tijd om een boek te lezen, geschreven door AI, natuurlijk.
Lezen is vermoeiend. Waarom laat je het niet gewoon door de AI voorlezen? Met je eigen stem, natuurlijk, wel zo vertrouwd.
Op deze manier vertrouw ik mijn eigen stem zelfs niet meer. ;)
Het mooiste is als het daaruit voortvloeiende gesprek ook nog zinvol is en er uitwisseling van informatie plaatsvindt waar de eigenaars iets aan hebben. Dat gaat ook nog een keer komen. :P
Ja, ent als bij die &*(#$ figuren die hun voice mail zo spreken also het een mens is en je in eerste instantie denkt ze aan de lijn te hebben.
Ik heb nu al mensen die bij mijn voicemail denken dat ze me direct spreken, of als ik opneem dat ik mijn voicemail ben.

Dus tja, heb je geen AI voor nodig :)
Het grootste voordeel is dat we minder tijd spenderen aan persoonlijke interacties en dus meer tijd over houden om reclame te kijken en te consumeren, ik zeg win-win!...? /s
Laten we de AI's gewoon met elkaar praten in onze eigen stem. Niemand die er last van heeft ;)
Kunnen wij gewoon met elkaar een bakkie doen.
Wat is hier nou AI aan? Dit heeft toch helemaal niks te maken met Artificial Intelligence?
Hoezo denk je dat?
Omdat voor mijn gevoel "kunstmatige intelligentie" tegenwoordig te pas en te onpas word gebruikt voor alles, terwijl zoals MrMonke hieronder aangeeft, een aantal samples word vergeleken en op basis daarvan een stem word gegenereerd.
Dat is echt niks nieuws, alleen worden er nu GPU/AI accelerators voor gebruikt en dus is het "AI".
Er is niks AI aan, alleen een slim opgezet algoritme.

In de jaren 80 hadden we voice generators op 8bit home computers. Daar is alleen het analyseren van voice samples bijgekomen.

De term AI is compleet uit zijn verband getrokken.
Dat ligt eraan welke definitie je gebruikt. De EU gebruikt onderstaande definitie, en daaraan voldoet deze feature wel degelijk. Want de oplossing genereert zelf output op basis van interpretatie van de input. Of dat het gevolg is van door mensen ingevoerde algoritmes, doet niet ter zake.
“Artificial intelligence (AI) refers to systems designed by humans that, given a complex goal, act in the physical or digital world by perceiving their environment, interpreting the collected structured or unstructured data, reasoning on the knowledge derived from this data and deciding the best action(s) to take (according to pre-defined parameters) to achieve the given goal.

AI systems can also be designed to learn to adapt their behaviour by analysing how the environment is affected by their previous actions.

As a scientific discipline, AI includes several approaches and techniques, such as machine learning (of which deep learning and reinforcement learning are specific examples), machine reasoning (which includes planning, scheduling, knowledge representation and reasoning, search, and optimization), and robotics (which includes control, perception, sensors and actuators, as well as the integration of all other techniques into cyber-physical systems).”
Bron: https://ec.europa.eu/futu...e-real-and-concerned.html
"AI" is in de volksmond inmiddels verworden tot "alles waarbij neurale modellen gebruikt worden om iets voor elkaar te krijgen". Kun je vervelend vinden, maar zo werkt taal nou eenmaal; er zijn heel veel woorden en begrippen die eigenlijk de lading niet goed dekken. Dat gezegd hebbende -- "er is niks AI aan, alleen een slim opgezet algoritme" is zelf ook weinig betekenisvol. Alles wat computers doen is algoritmes uitvoeren; alles wat jij wel "AI" mocht vinden is per definitie ook een slim opgezet algoritme. Het enige waar je zinvol over kunt bakkeleien is hoe dat algoritme precies te werk gaat.

Wat we nu met neurale modellen voor elkaar kunnen krijgen is echt wel van een heel andere orde dan wat je met een spraaksynthesizer op een 8-bit machine kon doen -- die dingen slaagden er nog net in golfvormen te produceren die wij wisten te herkennen als spraak. Het kwam niet eens in de buurt van iets wat we gelijk als menselijk zouden herkennen, nog even afgezien van het feit dat het geen specifiek persoon probeerde te imiteren.
De term is niet uit verband getrokken, jouw definitie match gewoon niet met de daadwerkelijke (hele brede) betekenis ervan...

Ook wordt er niet geclaimt dat het nieuw is enkel dat het nieuw is op/bij Samsung.

[Reactie gewijzigd door watercoolertje op 22 juli 2024 17:42]

Een AI model wordt gebruikt om met jou 15 samples een gelijkende stem te genereren.
Artificial Intelligence, dwz, Machine learning in dit geval, werkt doordat software dankzij voorbeelden van het geluid van jouw stem deze kan nabootsen om geheel nieuwe woorden in jouw stemgeluid alles kan laten zeggen.
Misschien dat Samsung eens moet werken aan core-functionaliteit zoals het niet automatisch ophangen van telefoongesprekken elke 30 seconden, sinds hun laatste update...
"Maar dat heb je zelf gezegd!"

Nu kan je gaan zeggen dat het je AI telefoonbeantwoorder was :+
https://youtu.be/hm6Kkje7bBM?
But of course there's no answering machine in my room
But a pretty young adorer who I swung on tour
And if it rings while we're alone she'll answer the phone
And with the quickness she'll recite like a poem
Hmmm , dan zal het toch wel een keertje leuk zijn om m'n AI stem door Ozzy Osbourne te laten trainen ... een kijken hoe de scam callers dat vinden de volgende keer als ze bellen voor Amazon kosten. :D

Maargoed ik denk wel dat je je AI zo kunt instellen dat ie alleen bepaalde telefoon gesprekken automatisch antwoord.

[Reactie gewijzigd door Metallize op 22 juli 2024 17:42]

Heeft iemand het lijstje met de 10 zinnen die gebruikt worden? Ik ben wel benieuwd. Waarschijnlijk zitten in die zinnen meest gebruikte klanken en klankovergangen en wellicht ook intonaties, dus best een handige set zinnen waar door slimme mensen goed over nagedacht is.
Ik denk dat dit op zich wel de veiligheid van gesprekken kan verbeteren.
In plaats van dat je voicemails van een server van je telefoon provider moet afluisteren staat dit nu lokaal op je mobiel.

Scheelt kosten voor je telefoon provider, maar ook extra veilig voor de gebruiker.
Natuurlijk zijn er scenarios waar het lastig is als bijvoorbeeld je aan het bellen bent of dat de telefoon uit staat.

Maar goed je data op je eigen mobiel in plaats van ergens op een cloud omgeving vind ik voor voicemails wel een goed idee.

Op dit item kan niet meer gereageerd worden.