Apple begint met aanbieden van door software voorgelezen luisterboeken

Apple is begonnen met het aanbieden van luisterboeken die het bedrijf laat voorlezen door softwarematig gegenereerde spraak. De software waarschuwt van tevoren dat de stemmen die de boeken hebben ingesproken, digitaal zijn.

Apple Books AI narration
Apple Books AI narration

De melding dat het gaat om een niet-menselijke verteller, is te horen als een fragment van enkele seconden voordat gebruikers beginnen aan het luisterboek. Ook staat in de interface van Apple Books: 'verteld door Apple Books', met een i-icoon ernaast. Drukken op dat i-icoon geeft de melding dat een digitale stem 'gebaseerd op een menselijke verteller' het boek voorleest. Apple heeft informatie over de digitale stemmen online gezet.

Omdat Apple de software om de boeken voor te lezen maakt en niet uitgevers, krijgt Apple een deel van de opbrengst, meldt The Guardian. Met de techniek is het makkelijker om luisterboeken te produceren. Het omzetten van geschreven boeken in audioboeken is een proces dat weken kan duren en duizenden dollars per uitgave kan kosten. Met software kan dat sneller en goedkoper.

De keerzijde is dat Apple bij boeken in de eigen Books-app nu dus een deel van de winst kan opeisen. Bovendien is het nog onbekend hoe luisteraars reageren op de door software voorgelezen boeken. Concurrent Amazon heeft de techniek nog niet in zijn luisterboekendienst Audible zitten. Het gaat vooralsnog om een klein gedeelte in de Books-app, vindbaar door in die app te zoeken op 'AI narration'.

Door Arnoud Wokke

Redacteur Tweakers

05-01-2023 • 09:54

60

Reacties (60)

60
60
44
0
0
3
Wijzig sortering
Benieuwd hoe dit klinkt, ingesproken heb je nog intonatie en kan de context verwerkt worden. Dat maakt toch of je wordt meegenomen in het verhaal.

Dit klinkt alsof Siri het voorleest. Dat is verschrikkelijk.
Vaak genoeg luisterboeken niet afgeluisterd, vanwege de stem die me niet beviel.
Vaak genoeg luisterboeken niet afgeluisterd, vanwege de stem die me niet beviel.
Zelfde hier. Het scheelt al vaak of de schrijver het ook ingesproken heeft ben ik achter gekomen.

Ik heb een periode Storytel gebruikt, maar merkte dat sommige stemmen toch echt heel vervelend worden na een paar uur luisteren. Jammer, want je hebt niet altijd meteen door.
Is het beter of slechter als de schrijver het inspreekt?
Ligt voor mij aan de schrijver. Maar boeken van Neil deGrasse Tyson hoor ik liever met zijn eigen stem.

Edit:
Die sample klinkt trouwens echt goed. Zeker een keer proberen.

[Reactie gewijzigd door NrFive op 23 juli 2024 16:17]

Ik vind het meestal slechter. Zeker voor fictie. Non-fictie kan soms wel beter zijn als de schrijver het doet.
Is het beter of slechter als de schrijver het inspreekt?
Ik lees alleen non fictie en daar vind ik over het algemeen beter klinken als de schrijver het zelf in spreekt. Overigens geld het niet voor elke schrijver.

Maar het punt wat ik eigenlijk wilde maken is dus dat je van professionele insprekers meer eigenlijk verwacht als het komt over hoe het wordt voorgelezen. En dat laat in mijn optiek nogal de wensen over. Dus ik vond het voorbeeldfragment van hierboven in ieder geval al veelbelovend.
Kun je nagaan hoe makkelijk dit met AI gaat worden. Stem bevalt niet? Dan kies je gewoon één van de andere 3.000 stemmen uit het assortiment.
Ik zie een nieuw verdienmodel. Een paar saaie stemmen gratis, en mooiere stemmen daar dan je dan weer voor betalen als bv in app aankoop.
Zou het? Ik vind die navigatie stemmen allemaal niets.
De techniek van AI stemmen is inmiddels wel een stukje verder dan wat we gewend zijn van TomTom.

Het gaat hier meer oom deepfak enzo. Ik vind het youtube-fragment in het artikel wel fijn klinken
Heb je het hele fragment hier geluisterd? de eerste paar seconden is inderdaad net siri, maar als het voorlezen eenmaal begint (12 seconden) dan vind ik het nog verbazingwekkend goed. Niet perfect, en ik weet niet hoe een heel boek me zou bevallen, maar op basis van die 20seconden ben ik wel positief verrast.
Ik ook, ik zit nog te twijfelen of ik het hele boek ga beluisteren, het is niet bepaald mijn genre. Maar hij is nu gratis te krijgen, dus waarom eigenlijk ook niet.
Haha, mijn Siri klinkt echt niet als deze stem. Deze stem is heel goed, afgezien van de geluidskwaliteit.
Moet echt geen probleem zijn.
De 2 'gratis' stemmen die onderdeel zijn van Win 10 klinken prima.
Wil je meer, dan zijn er letterlijk honderden stemmen te koop. En eigenlijk allemaal goed, en sommige zeer goed.
Je hoort dan ook overduidelijk het verschil tussen Brits en NZ engels om maar een voorbeeld te geven.
Ik maak er veel gebruik van tijdens het reizen.

De tijd van robotstemmetjes ligt ver achter ons.

[Reactie gewijzigd door LurkZ op 23 juli 2024 16:17]

Luister even de voorbeelden op de website van Apple. Dat klinkt echt heel goed! Vooral bij Madison en Jason. De stemmen van Helena en Mitchell klinken daarentegen wel weer als echte computerstemmen.

[Reactie gewijzigd door 3raser op 23 juli 2024 16:17]

Waarom heeft dat voorbeeld zo'n lage bitrate?

*edit* het fragment is inmiddels veranderd in een directe screenrecording. Dit klinkt een stuk beter.

my 2 cents, het klinkt heel indrukwekkend. Ik ben erg benieuwd hoe het omgaat met woorden die niet bestaan in het Engels, maar verzonnen zijn door de auteur. En ik ben ook heel erg benieuwd wat dit gaat doen voor de markt van professioneel voorgelezen boeken. Ik denk zomaar dat stemacteurs hier met argwaan naar kijken.

[Reactie gewijzigd door MadJo80 op 23 juli 2024 16:17]

Auteurarnoudwokke Redacteur Tweakers @MadJo805 januari 2023 10:06
Wilde het laten horen, ondanks dat dit lastig is op een iPhone. Heb dus audio afgespeeld op de ene telefoon en opgenomen met een andere telefoon. Het ging me immers niet om de audiokwaliteit, maar om de melding vooraf en een klein fragment van hoe het voorlezen zelf klinkt. Het kan ongetwijfeld netter en beter, maar zo heb je in elk geval een indruk :)
Ik snap je intentie, maar misschien er even bij zetten, anders krijg je al snel een verkeerde beeld van hoe het uiteindelijk voor de gebruiker is.
Auteurarnoudwokke Redacteur Tweakers @Fly-guy5 januari 2023 10:20
Ja, dat is een goed punt. Heb even een bijschrift toegevoegd :)
Ik zou deze opmerking BOVEN het audiofragment plaatsen, want ik ging dus zoeken in de reacties naar opmerkingen over de kwaliteit, vervolgens zie ik jouw reactie en dat je het als bijschrift heb toegevoegd.. met alle goede intenties, dus helemaal top.. maar ik had het gemist. Zo krijg je dus wel een negatieve indruk van iets wat eigenlijk heel goed is.
Laat het dan gewoon niet horen. Wat een prut-kwaliteit.

Op Apple's website staan voorbeelden, gebruik die dan.
Voor mij gaat dit dan weer net wel om de audio kwaliteit, dit maakt/kraakt of het aangenaam is om langere tijd naar te luisteren.

De voorbeelden op de pagina van Apple zelf geven een andere indruk van de technologie:
https://authors.apple.com...ital-narration-audiobooks

- Veel betere kwaliteit
- Veel meer intonatie
- ....
De intonatie, ritme en kadans van het voorlezen is indrukwekkend als je het vergelijkt met Siri of Alexa, maar het is niet echt goed als je het vergelijkt met een menselijk voorlezer die de tekst begrijpt die voorgelezen wordt, die drama erin brengt. Het is nogal monotoon.
Ik heb het idee dat ik met die vrouwenstem prima in slaap kan vallen ;)
Net als op twitch, Dat ze het boek voorlezen met ASMR. :)

[Reactie gewijzigd door Milanobrotchen op 23 juli 2024 16:17]

Dat scheelt nogal wat met het voorbeeld van Tweakers.
Ahhh helder! Bedankt voor de uitleg.

Je had eventueel een screenrecording kunnen maken, die neemt ook het geluid op van wat er afspeelt op je iphone, maar goed, dat is achteraf geneuzel.
Ik heb een beeld, op zich best een interessante ontwikkeling, maar audioboeken voorlezen is toch nog wel een kunst, hoewel deze 'ai stem' best natuurlijk klinkt, ook in de sample. Ik hoop dat deze audioboeken wel goedkoper worden dan de professioneel voorgelezen audioboeken.
Immers hoeft hier geen studio afgehuurd en geen audio-engineer en voorlezer ingehuurd te worden. Maar de boekenwereld en goedkoper zijn 2 termen die meestal niet samengaan.

[Reactie gewijzigd door MadJo80 op 23 juli 2024 16:17]

Scherm recorden met audio werkt niet op iPhones? Kun je het niet op een Mac opnemen anders, direct van de source? Er is schijnbaar ook een MacOS app.
Auteurarnoudwokke Redacteur Tweakers @i7x5 januari 2023 10:45
Haha, scherm opnemen helemaal niet aan gedacht! Geen idee of dat werkt met audio erbij, heb het tot nu toe alleen gebruikt om beeld vast te leggen :)

Edit: even een nieuwe video toegevoegd, nu gemaakt met screenrecording. Dank iedereen voor de reacties!

[Reactie gewijzigd door arnoudwokke op 23 juli 2024 16:17]

Op zich had je de audio output kunnen opnemen met een computer in plaats van twee telefoons tegen elkaar te houden. Beetje niveau data overzetten met USB-sticks als er een gigabit netwerk ligt, dit.
Wilde het laten horen, ondanks dat dit lastig is op een iPhone.
Want de iOS screenrecorder hoort de stem niet, of die kon je niet gebruiken? De iOS screenrecorder neemt namelijk normaliter volgensmij al het systeemgeluid ook op.

[Reactie gewijzigd door youridv1 op 23 juli 2024 16:17]

Hier heb je alvast enkele voorbeelden in beter kwaliteit van hoe het mogelijk kan klinken.
Apple selecteert de best passende stem op basis van de inhoud

https://soundcloud.com/ke...m_campaign=social_sharing
Het is in de book-app te vinden onder ‘ai narration’. Best practice.
Het voorbeeld klinkt voor mij veel te monotoon, ik zal al heel snel afhaken hierdoor.
Voor mijzelf is dit wel OK. Beter dan de doorsnee text-to-speech. Maar voor kinderen lijkt het me inderdaad oersaai.
Sommige vertellers lezen ook voor alsof ze een boodschappenlijstje voorlezen. Niet elk boek heeft het budget voor een goede verteller.
Met software kan dat sneller en goedkoper
En dat is te horen ook. Alsof ze dit in de jaren 90 gemaakt hebben en nu lanceren.
Zelfs een paar jaar terug in OSX klonk het nog als dit:
https://www.youtube.com/watch?v=Z4hqUxb9MmY

Dat is eerder te vergelijken met de jaren 90

c64 sam: https://www.youtube.com/watch?v=IokvoAQ6IHE
amiga: https://www.youtube.com/watch?v=Rx6mJ4XY0oQ

[Reactie gewijzigd door jwal op 23 juli 2024 16:17]

Klinkt erg saai. Je wilt bij een luisterboek dat de stem zich aanpast aan de context van hetgeen dat op dat moment wordt verteld. Je kunt iets op een bepaalde manier vertellen door een bepaald stemvolume, intonatie, bepaalde pauzes te laten vallen etc. Dat zie ik zo'n narrator-tool nog niet zo snel doen. Misschien handig voor studieboeken maar op dit moment ongeschikt voor elke andere vorm van literatuur.
Dat zie ik zo'n narrator-tool nog niet zo snel doen.
Waarom niet? Als je kijkt wat er nu al kan met AI op het gebied van sentiment analysis en contextbewuste textgeneratie zoals bij GPT3.5, dan denk ik niet dat we héél ver verwijderd zijn van een flinke verbetering van robotstemmen.

Als ze het niet kunnen, dan verwacht ik ook niet dat dit een enorm succes zal zijn. Maar als ze het wel kunnen, en het gaat in 99% van de gevallen goed, dan gaat het al beter dan veel stemacteurs.

Desalniettemin kies ik altijd voor een Stephen Fry boven een AI.

[Reactie gewijzigd door Bark_At_The_Cat op 23 juli 2024 16:17]

Uiteindelijk gaan we als vocoders tegen elkaar praten;-) Wie was je leraar? HAL.
Ik lees eigenlijk vrijwel alleen nog maar luisterboeken, wat daarbij erg belangrijk is, is een erg goede voorlezer. Als je een boek luistert dat door Stephen Fry, Ben Macintyre, Lisa Eckhart of Tommy Wieringa is geschreven en door hun zelf wordt voorgelezen is dat een genot. Er zijn ook erg goede voorlezers zoals Sean Barret, Gijs Scholten van Aschat of Robert Glenister. Stephen Fry zijn voorlezen van Harry Potter is geweldig ook. Christoph Maria Herbst die "Er ist wieder da" voorleest is geniaal grappig.
Maar luister eens een Librivox audioboek, veel goed menende vrijwilligers die voorlezen, maar het niet echt goed kunnen. Of Scott Brick, die heeft menig boek voor me verpest met zijn Murican Twang.
Als een AI werkelijk goed is, dan heb ik er niets tegen, en dan graag ook de keuze kunnen maken tussen stemmen en accent. Stel je voor, Jeeves & Wooster voorgelezen met een Murican Accent.

Wat ik zou toejuichen is als de software als App wordt gebracht, of als functie in de iPhone of Mac, dan kan je teksten laten voorlezen waar geen markt voor is het commercieel te doen, en het zou een mensen die blind zijn erg helpen bij studie of gewoon in hun dagelijks werk.

[Reactie gewijzigd door Jan Onderwater op 23 juli 2024 16:17]

Goed punt. Een goede menselijke voorlezer blijft beter, maar sommige luisterboeken komen met zo'n verschrikkelijke stem dat ik dan liever naar deze 'Madison' luister.
Een verslag van een vergadering en dergelijke kan goed door een digitale stem voorgelezen worden.
Maar bij een boek hoort emotie, intonatie, verschil in snelheid, ... Dat maakt een boek de moeite om voorgelezen te worden. Dat kan een AI nog lang niet en dat zal nog lang duren. Hopelijk behoudt de mensheid nog enige vorm van zelfrespect en kwaliteit.
Kijk maar eens een keertje naar de Duitse zenders. Alle films/TV-series worden daar voorgelezen door Duitse stemmen. Is dat soort erbarmelijke 'voorleesgedrag' onze toekomst voor audioboeken.
Het is echt heel goede AI, er zit ook gebruik van intonatie in bij vraagtekens maar ook op basis van de zinsopbouw. Ook de verschillen in snelheid zitten er in. Vooral het voorbeeld van de 'Jackson' stem is echt heel goed op dat gebied. Laat dit aan mensen horen die niet weten dat ze een computer gegeneerde tekst luisteren en die hebben het denk ik niet door.
In de sample narration hieronder merk ik geen verschil met een echte mens. 🤷🏻‍♂️

https://authors.apple.com...ital-narration-audiobooks
Heel saaie mensen die geen talent hebben voor het voorlezen?
Minder werk voor studio’s en stemacteurs als dit een vlucht gaat nemen. De impressie is prima en in de books-app is het als voorbeeld het best te beluisteren. Het aanbod is nog beperkt.

Én direct een concurrent voor Scribd die een all you can read, listen, abonnement hebben. Ook Amazon zal uitzien naar deze techniek. Audioboeken zijn nog aanzienlijk prijziger, het is een tijdrovende klus om alles in te spreken. Het is nú een troef voor Apple.
Alle technologie is al aanwezig om dit gewoon op ereaders en telefoons zelf te implementeren, op basis van ebooks (dus niet audiobooks) en text-to-speech synthese. Als dat namelijk automagisch bij Apple in de datacenters kan, dan kan dat ook naar de client devices gebracht worden. En vervolgens hoef je alleen maar een market place in te richten voor ebooks, en eventueel voor TTS stemmen.

Mijn ereader kan dus al TTS ebooks voorlezen, zij het met een robot stem. Als ik echter dezelfde ebooks laat voorlezen met een Loquendo stem dan is het zelfs nauwelijks van echt te onderscheiden. Soms valt de TTS door de mand als een bepaald woord qua intonatie niet in de database staat, maar met hints die aan het ebook toegevoegd kunnen worden zou dat geen probleem moeten zijn.

Op dit item kan niet meer gereageerd worden.