Apple zet functie voor maken AI-versie van eigen stem in iOS

Apple gaat iOS een functie geven om een AI-versie te maken van de eigen stem. Op die manier kunnen mensen met bijvoorbeeld de spierziekte ALS via de software blijven spreken op een manier die lijkt op hun eigen stem.

Voor de functie moeten gebruikers een kwartier aan audio opnemen met een iPhone of iPad, waarna de software lokaal een kunstmatige versie maakt van de stem, zegt Apple. De functie heet Personal Voice. Daardoor kunnen gebruikers blijven spreken nadat hun stem door een ziekte niet meer goed functioneert. Het is onduidelijk of de functie beperkt is tot mensen van wie de stem zal weggaan of dat alle gebruikers hun eigen stem kunnen laten nabootsen.

Personal Voice is een van de Toegankelijkheids-functies die Apple gaat toevoegen. Live Speech is een text-to-speechfunctie voor in onder meer Facetime. Gebruikers kunnen reacties typen, waarna de software die voorleest aan andere gebruikers. Zo kunnen mensen ook reageren als ze daar met hun stem niet toe in staat zijn.

Ook komen er opties voor gebruikers met een cognitieve of visuele beperking. Daaronder zijn opties om de interface te versimpelen en met grote knoppen weer te geven. Zo kunnen gebruikers communiceren via een emoji-toetsenbord als ze niet kunnen schrijven. Er is een optie om de Contacten- en Facetime-apps te combineren in een Calls-app. Verder zijn er zijn aangepaste versies van Photos, Camera en Music. De functies komen in een iOS-versie die later dit jaar uitkomt. Vermoedelijk gaat het daarbij om iOS 17.

Apple Toegankelijkheid in iOS 2023Apple Toegankelijkheid in iOS 2023Apple Toegankelijkheid in iOS 2023Apple Toegankelijkheid in iOS 2023Apple Toegankelijkheid in iOS 2023Apple Toegankelijkheid in iOS 2023Apple Toegankelijkheid in iOS 2023Apple Toegankelijkheid in iOS 2023

Door Arnoud Wokke

Redacteur Tweakers

16-05-2023 • 16:21

87

Lees meer

Reacties (87)

Sorteer op:

Weergave:

Ik zie ongekende mogelijkheden. Mijn iPhone die 's avonds de kinderen voorleest in mijn eigen stem terwijl ik lekker voetbal kan blijven kijken. Of de Home-hub die elk kwartier de hond even toespreekt zodat die rustig blijft terwijl wij van huis zijn.
Nu nog een AI die mijn werk kan doen, dan vang ik het geld en geniet ik van het leven
Voor de tijd van computers werd het rekenwerk door zalen met vrouwen verzet, zei werden computers genoemd. Na de uitvinding van de computer werden ze vervangen en hebben ze natuurlijk hun loon tot hun pensioen uitbetaald gekregen. Net zoals nu, de kassiers die vervangen worden door zelfscan kiosken, die kassiers worden ook gewoon tot hun pensioen vergoed nu hun werk geautomatiseerd is.
Welke retailer betalen kassiers tot hun pensioen wanneer hun werk geautomatiseerd wordt?
*mompelt iets over een joke die over iemands hoofd vliegt...
Ik zie ergens een klein probleempje met dit plan.
Of de Home-hub die elk kwartier de hond even toespreekt zodat die rustig blijft terwijl wij van huis zijn.
Vooral dit kan voor mensen een ding zijn. Dat dieren een bekende stem af en toe horen.
Maar ik vraag me af of bepaalde dieren het verschil horen tussen een digitale stem en een echte en of ze daar op dezelfde manier op reageren? Daarnaast natuurlijk nog eens of ze makkelijker het verschil horen tussen de AI stem of de normale digitale stem?
Als ik de AI voice techniek zo volg, gaat dat extreem ver. Zo is daar een podcast met puur AI generated covers en de hele podcast episodes zijn puur AI voice gestuurd. Zelfs met tussen poses, zuchten, adem happen, alles zit erin. Heel bizar.
ik zie hier wel een probleem
Waarom : Ai is ontwikkeld voor mensenstem grofweg 200-15000Hz.
Luidsprekers: 20 - 20000Hz.
Het menselijk gehoor is beperkt tot een golflengte van 20 - 20.000 hertz. Een hond daarentegen, kan tonen horen binnen het bereik van 15 – 50.000 hertz.
en waarom is dat nu van belang ? omdat veel geluid ook in harmonischen tonen zit en die zullen al dan niet in de AI stem zitten en hoor een hond het verschil ?
Hoewel wij dus een "normale" stem horen, kan een hond toch een heel ander geluid horen.

Misschien dat de ouderlingen onder ons dat wel weten en geprobeerd hebben.
Stem opnemen op een kasettebandje en die continu laten afspelen op autorepeat.
Kan je vandaag al proberen opname met commando afspelen en kijken of hij reageert….
Menselijke stem bevat inderdaad energie boven 20000 Hz. Ik heb net even gekeken naar een stemopname die met 96kHz is vastgelegd en dus informatie tot ongeveer 48000 Hz zou kunnen bevatten. Er is in ieder geval tot 30000 Hz nog vanalles aanwezig en mogelijk daarboven ook nog maar pikt de gebruikte microfoon het niet op.

Of een hond die inhoud belangrijk vindt? Geen idee. Maar het is er wel, en dit genereren met AI kost flink wat extra rekenkracht: hoe hoger de sample rate van gegenereerd geluid, hoe meer rekenkracht er nodig is.
Er is in ieder geval tot 30000 Hz nog vanalles aanwezig
Ja, dat zijn nou net die harmonischen. Als je je stem opneemt op (gecapped) 20Khz en weer afspeelt op (gecapped) 20Khz ga je die pieken boven de 20Khz ook weer zien als het goed is. Correct me if I'm wrong hoor.

[Reactie gewijzigd door RobIII op 23 juli 2024 17:32]

Het zullen deels harmonischen zijn, maar niet alles. En ook die harmonischen ontstaan niet zomaar weer bij afspelen, als ze ergens in de keten van mic-preamp-adc-opslag-dac-amp-speaker verloren zijn gegaan. Net als het verkleinen van een afbeelding: die info is weg en verschijnt niet weer bij upscalen. Hoewel AI hier ook weer van dienst kan zijn natuurlijk.
Dat is mijns inziens een beetje ver gezocht. Neem eens een stem op en haal alle hoge tonen boven de 8000 Hz weg: Ja als je het naast elkaar hoort kun je verschil horen, maar het verschil is klein en de stem nog steeds herkenbaar. Dat zal voor de hond niet anders zijn.
Met mijn hond kon ik goed merken dat ie instant in de gaten had of het 'echt' of 'digitaal' geluid was.

Zowel via TV of telefoon etc, maar random geluiden van dieren of mensen triggerde hem totaal niet, maar ieder willekeurig geluid in de omgeving pikte die op, zowel mens of dier en andere soort geluiden

Al zijn er ook veel dieren die er wel door getriggerd worden, maar mijn ervaring is dat het niet zo bij alle dieren werkt.

[Reactie gewijzigd door DutchKevv op 23 juli 2024 17:32]

Beetje AI kan daar wel op getraind worden..
Maar je speakers waarschijnlijk niet vwb range.
Dit is nu toch ook prima te automatiseren? Neem verschillende clips op waarin je je hond toespreekt en laat die afspelen wanneer je camera registreert dat je hond onrustig wordt
Of een lokaal draaiende LLM zoals GPT in real time scripts / reacties laten genereren op basis van andere input en die via Apple’s Personal Voice als output serveren in calls etc. Dit is natuurlijk toekomstmuziek omdat je niet kan weten of de LLM jouw eigen reactie goed genoeg kan emuleren maar met genoeg (eigen) trainingsdata kan je misschien een eind komen…
Zal voor veel mensen niet kloppen omdat GPT te beleefd is. :+
Mijn excuses, je hebt gelijk. Voor veel mensen zal dat inderdaad niet het geval zijn. Ik wil je er op attenderen dat ik hier ben om je te helpen, dus als er iets is dat ik voor je kan doen, hoor ik dat graag!
I see what you did there! :+
Volgens mij ondersteunen enkele camera's al wel een reactie op huisdieren. Ik dacht die optie gezien te hebben in mijn Eufy camera.
Wat dacht je van die saaie online vergadering waar je geen zin in hebt :+
Bij ons bedrijf is de regel dat als je niet nodig bent dat je er niet hoeft te zijn. Met klant erbij werkt dat natuurlijk niet altijd, maar intern: wegwezen en echt werk gaan doen.
Moet je wel eerst dat hele boek intikken. :+
Tenminste, als ik het goed begrijp.
Of een paar keywords in een GPT4 story bot en dan realtime de opmerkingen van het kind er in laten verwerken. Koppelen aan Perplexity om tussendoor vragen te beantwoorden. :Y)

[Reactie gewijzigd door FvdM op 23 juli 2024 17:32]

Beeldschermen, en nu LLMs, nog even en we kunnen krijgen zonder ouders te hoeven zijn.
Heb een zeer zeldzame hersenziekte, laatste keer dat ik "goed" sprak was in 2016. Ben benieuwd of dit tool mijn originele stem kan herstellen.
Heb je nog opnames van toen? Bijvoorbeeld opgenomen presentaties van werk oid? Of video’s van je ouders…
Mijn vader is in 1998 overleden, mijn moeder in 2008 overleden aan deze ziekte.
Deze opname is van een soort dashcam van een terreinwagen waar ik in een "Duits gebergte" heb rondgereden.
"Ik zie ongekende mogelijkheden. Mijn iPhone die 's avonds de kinderen voorleest in mijn eigen stem terwijl ik lekker voetbal kan blijven kijken"

Omg, seriously? Wil je dat jouw kinderen jou als hun vader zien of alleen maar je iPhone? 🤯
Leuk, een stuk interactie met je opgroeiende kinderen missen omdat Roda JC tegen PEC Zwolle speelt terwijl je een Ajacied bent. 8)7
Als ex Amsterdammer kan ik dit zeggen...
Maar wellicht is dit een verbetering in de opvoeding van de Ajacied... ;p
Vergeleken met vroeger vind ik de huidige Ajax fans bijzonder sportief moet ik zeggen.
Ze moeten wel... }:O :Y)
Mooi man. Niet eens de tijd willen nemen om je kinderen voor te lezen. 8)7
Best wel triest het eerste voorbeeld, persoonlijk contact is belangrijk voor je kinderen.
Ik hoop niet dat je de dat eerste serieus gaat overwegen als wanneer die feature komt. Medelijde met je kinderen
Toch mooi hoe de technologie ons weer dichter bij elkaar brengt asociale wezens maakt.
Ik zie ongekende mogelijkheden. Mijn iPhone die 's avonds de kinderen voorleest in mijn eigen stem terwijl ik lekker voetbal kan blijven kijken. Of de Home-hub die elk kwartier de hond even toespreekt zodat die rustig blijft terwijl wij van huis zijn.
Maar is zo zielig voor je hond omdat je arme beestje JE niet ziet...
En of dat de kinderen ook JE niet kunnen zien en ze vragen zich af waar je bent... Nee kinderen, hij verstopt niet onder je bed ;)

Ik had een camera in kattenkamer geplaatst... en zei wat via camera vanaf telefoon, arme beestjes zoeken zo lang naar mij :')
Daarom niet zo leuk voor kinderen en dieren.

Nog even dan kunnen we AI van onszelf laten maken en het via TV of tablet laten afspelen. Als we zo veel vragen en of tekst in AI programmeren, kunnen de kinderen "met ons" praten. Hopelijk kunnen we onze eigenschappen ook invoeren.

[Reactie gewijzigd door Dark Angel 58 op 23 juli 2024 17:32]

Ooit was een van de beloftes van technologie dat het vertrouwen tussen mensen kon vergroten. Want wie gaat nou een hoogwaardig geluidsbestand manipuleren? Dat is natuurlijk heel lastig en vereist specialistische kennis en kunde. Tot nu. Nu kunnen we gewoon andermans stemmen kopiëren met relatieve eenvoud.

The call is coming from inside the internet: AI voice scams on the rise with cloning tech
https://eu.usatoday.com/s...-phone-scams/70216185007/
Ooit was een van de beloftes van technologie dat het vertrouwen tussen mensen kon vergroten.
Wie zei dat? Een Iphone kan natuurlijk enkel uw eigen stem nabootsen. Maar het klopt wel dat je vanaf nu een scamberichtje kan krijgen van een collega of famillie met de vraag voor een wachtwoord, geld etc.

We gaan AI nodig hebben om ons te wapenen tegen AI want de bad guys gaan het sowieso misbruiken.
Of een telefoontje van je dochter dat ze ontvoerd is met een vraag voor losgeld terwijl ze gewoon op jeugdkamp is.

[Reactie gewijzigd door BlaDeKke op 23 juli 2024 17:32]

De boodschap van technologie is de laatste decennia wel samen te vatten als 'verenigen, connecteren, delen' ten opzichte van het oude 'vergemakkelijken'.

Helaas heeft dat connecteren exact het tegenovergestelde bereikt. We zijn wereldvreemd, voelen ons alleen en geïsoleerd (we praten zelfs als met AI's) en onze basisverlangens worden uitgehold door algoritmes (microtransacties, pay to win, always online, everything as a service, etc).

Het grootste effect van dit 'connecteren' is de adoptiesnelheid. ChatGPT had 100 miljoen gebruikers op 2 maand tijd. Er is geen wettelijk kader, en de impact van zo'n technologie (hoewel goed bedoeld) kan op zo'n korte tijd niet deftig ingeschat worden.

Heel deze rant is natuurlijk zinloos, want de vooruitgang valt toch niet te stoppen. Maar misschien moeten we ons even afvragen of de laatste technologieën ons eigen leven en het collectieve leven wel beter maken.

Edit: typo

[Reactie gewijzigd door humpus op 23 juli 2024 17:32]

Alles heeft zijn voordelen en nadelen. Haal de internet weg en vergeet uw kankerhandeling maar.

Wat niet wil zeggen dat je steeds op uw hoede moet zijn maar stellen dat het de ‘connectie’ ons bestaan heeft uitgehold is mss wat te fatalistisch/doemdenkerij.

Er is volgens mij niets mis met praten met AI. Je kan er misschien nog iets van leren of code met schrijven.

‘Tegenhouden’ klinkt ook vrij hard. Tegenhouden ga je niet kunnen, sturen wel.

Je kan niet tegelijk technologie verketteren en tegelijk blij zijn met pakweg de medische vooruitgang of administratieve vereenvoudiging. Je kan technologie niet plots stilleggen in een vrijemarkt.

Sturen kan wel. Je kan bedrijven die AI produceren regels opleggen. Je wel ook lootboxen of gokken verbieden etc.

AI is misschien wel de uitweg naar minder werken, meer genieten. Wie zal het zeggen? Constant hunkeren naar de tijd van welleer is niet gezond. Leren uit onze fouten dan weer wel.

Doemdenken is sowieso niet goed voor onze mentale gezondheid.

[Reactie gewijzigd door Coolstart op 23 juli 2024 17:32]

Administratieve vereenvoudiging? Bureaucratie in de zorg is op een hoogtepunt.

Ik denk op zich niet dat @humpus doelt op internet in het algemeen.

Kijk, internet tussen ongv. 2000-2010 was nuttig en leuk. Je had nog Hyves bijvoorbeeld, daar had je ook geen tijdlijn op basis van een agressief algoritme dat je aandacht probeert vast te houden met dezelfde trucjes die de gokindustrie gebruikt, en ook minder algoritmen die je in een bubbel drukken.

Rond 2010 begon de zakcomputer (smartphone) ook populair te worden. Dat leek in de eerste instantie een veelbelovend apparaat. Heb er zelf meerdere gehad en heb er thuis nog steeds eentje liggen voor WhatsApp (ga ik wel een keer overzetten op m'n laptop middels Android-emulator). Maar voor de rest gebruik ik weer een simpele Nokia, en WhatsApp ik als een bejaarde ondanks ik 24 ben.

Punt is gewoon dat zo'n apparaat veel tijd en aandacht opslurpt. Gemiddeld zitten mensen daar zo 4-6 uur per dag op, dat vind ik excessief. Zoek maar op als je me niet gelooft. Ik wil niks verbieden, daar ben ik allergisch voor, maar mensen kunnen er beter wel een keer goed over na gaan denken of dat nou wel zo'n goed idee was, die zakcomputer.

En ik ben ook zeker géén moralist, ik gebruik natuurlijk nog steeds internet voor van alles en nog wat, ook voor allerlei soorten vermaak. Maar toen ik rond het middaguur de hond uitliet zag meerdere mensen lopend met zo'n zakcomputer in de hand, die waren ook niet alleen, nee, ook in gezelschap pakken ze dat ding er gretig bij. En zelfs op de fiets zag ik sommige mensen in de weer met dat ding.

Feit is ook dat die zakcomputer sociaal contact meer vervangt, dan dat het er een aanvulling op is.
Gaat dit bijvoorbeeld via de iPhone zelf getraind worden of op de servers van Apple o.i.d.?
Volgens het gelinkte artikel:
This speech accessibility feature uses on-device machine learning to keep users’ information private and secure, and integrates seamlessly with Live Speech so users can speak with their Personal Voice when connecting with loved ones.
Dit gaat op de iPhone zelf:
Voor de functie moeten gebruikers een kwartier aan audio opnemen met een iPhone of iPad, waarna de software lokaal een kunstmatige versie maakt van de stem, zegt Apple.
Lokaal staat er toch?
Beetje van beide. Hoe zoiets over het algemeen werkt is dat er een "foundational model" getraind wordt op een grote, dure serverfarm.

Dit model kan spraak-synthese uitvoeren en wordt meegeleverd met de telefoon. Maar deze is nog niet gepersonaliseerd. Vervolgens wordt lokaal dat model gefinetuned om overeen te komen met jouw stem - dat gedeelte zal lokaal gebeuren en niet naar de servers van Apple gaan.
Hoe gaat hij om met dialecten? Ik spreek over het algemeen Limburgs :P
Het is onduidelijk of de functie beperkt is tot mensen van wie de stem zal weggaan of dat alle gebruikers hun eigen stem kunnen laten nabootsen.
De toegankelijksheidsfuncties bij Apple zijn altijd voor iedereen. Ze maken het systeem toegankelijker voor sommigen en andere functies helpen mensen bij hun taken. Hoewel je veel functies kunt toeschrijven aan een bepaalde beperking slechtziend/kleurenblind/doof/niet mobiel zijn ze er voor iedereen. Toegankelijkheidsfuncties zijn dus niet beperkt tot bepaalde mensen.

Het zou ook gek zijn dat je Apple eerst toestemming moet vragen om de functie te gebruiken, dat is natuurlijk ook totaal niet privacy-vriendelijk
Ik denk dat er wordt bedoeld of je je stem eerst zelf moet inspreken of dat je een bestaande opname kan gebruiken. In het eerste geval kunnen mensen die hun stem al kwijt zijn geen gebruikmaken van deze functie.
Het lijkt erop dat er bepaalde voorgedefinieerde zinnen moeten worden voorgelezen, dus het werkt waarschijnlijk niet met random audio opnames.Deze zinnen zijn waarschijnlijk zorgvuldig gekozen om een zo breed mogelijk scala aan woorden, intonaties en andere spraak eigenschappen uit te destileren om het spraakmodel op te baseren.
Wauw. Dat is écht briljant. Ik heb een maand of 3 geleden een abonnementje op ElevenLabs genomen (kost een paar euro maar ach..) en daar al wat leuke dingen mee gedaan. Helaas alleen in het Engels nog, maar m'n voicemailbericht heeft nog nooit zó goed geklonken ;)
Maar als je op iOS zit, dan wil je toch Visual Voicemail? :P
Moet ik nog eens checken. Nooit begrepen wat het nut is… (maar ook niet naar wat het nou eigenlijk is..!)

EDIT: oh Vodafone heeft dat niet. Dan houdt t voor mij op 😜

[Reactie gewijzigd door DigitalExorcist op 23 juli 2024 17:32]

Het is in deze context een grapje.
maar ook niet naar wat het nou eigenlijk is
Visual Voicemail betekent dat voicemail berichten naar je iPhone worden gedownload zodat je ze vanuit de Telefoon app als een soort mediaspeler kunt beluisteren. Je kan in de berichten middels een slider vooruit en achteruit scrubben, opslaan, delen, verwijderen, herstellen en archiveren. In sommige landen wordt de voicemail ook omgezet in tekst.
Zag het inderdaad ja, klinkt goed (hoewel niemand ooit voicemail inspreekt..) maar als Vodafone het niet support, tsja.. pech gehad dan.
ik zie wel wat leuke toepassingen
- een slidedeck die die juiste tekst met de juiste timing kan afspelen in jouw stem, waar je kleine tweaks gewoon in de tekst kan doen / kan customizen afhankelijk van het publiek / enz...
- een voicegesprek met iemand in een andere taal met *jouw* stem
- scripten van telefoongesprekken naar klantendiensten :P
Het is onduidelijk of de functie beperkt is tot mensen van wie de stem zal weggaan of dat alle gebruikers hun eigen stem kunnen laten nabootsen.
Hoe zie je dat voor je, dat je eerst langs Apple moet met een briefje van je dokter voordat ze de functie toegankelijk maken op je device?
Een goede AI toepassing zou zijn om Siri eindelijk eens wat slimmer te maken. Dat zou echt nuttig zijn. Het is echt van de zotte dat het nog steeds zo enorm scripted is. Je kan niet eens 2 commando's in 1 keer geven ("zet het slaapkamer en het woonkamer licht aan"). Wat meer begrip a la ChatGPT zou echt heel fijn zijn.

Dat lijkt me echt een uitgelezen toepassing voor AI. Hopelijk komt dit ook nog. Ik heb eigenlijk niks met iOS overigens, alleen twee homepod mini's omdat dat de minst privacyschendende spraakbediening is voor home assistant.

Wat ze nu doen is ook wel een interessante functie voor mensen met zulke ernstige ziektes, maar aan de andere kant heeft het ook wel een hoog 'deepfake' gehalte. Beide kanten van de medaille...

[Reactie gewijzigd door GekkePrutser op 23 juli 2024 17:32]

Dit vind ik dan wel weer toepassingen van AI die zinvol zijn en voor mensen met een beperking heel waardevol kunnen zijn. Niet dat ik nou verder zo'n Apple fanboy ben maar in die zin vind ik Apple wel vaak toch net wat verder gaan dan b.v. Microsoft of Google.

Op dit item kan niet meer gereageerd worden.