Amazon introduceert AI-spraakmodel Nova Sonic

Amazon onthult Nova Sonic, een AI-spraakmodel dat realtime spraakverwerking en natuurlijke spraak combineert. Volgens Amazon kan Sonic concurreren met de spraakmodellen van OpenAI en Google op het vlak van snelheid, spraakherkenning en gesprekskwaliteit.

Volgens Amazon is Nova Sonic 'het kostenefficiëntste AI-spraakmodel op de markt'. Het model zou bijna 80 procent goedkoper zijn dan GPT-4o van OpenAI. Amazon zegt dat de combinatie van spraakbegrip en spraakgeneratie in één model het mogelijk maakt om 'mensachtigere gesprekken mogelijk te maken in AI-toepassingen'. Het model kan onder meer menselijke gesprekspatronen herkennen zoals pauzes, aarzelingen en onderbrekingen.

Amazon zegt dat Nova Sonic een customer-perceived latency heeft van 1,09 seconden. Dat is de tijd tussen het moment dat de klant zijn laatste zin heeft afgemaakt en het moment dat het systeem de eerste spraakreactie genereert. Bij OpenAI's GPT-4o zou de latency 1,18 seconden bedragen; bij Gemini Flash 2.0 van Google gaat het om 1,41 seconden. Amazon heeft ook enkele voorbeeldfragmenten van het spraakmodel gedeeld.

Tegen TechCrunch zegt Rohit Prasad, Amazons senior vicepresident, dat delen van Nova Sonic al gebruikt worden in Alexa+, de verbeterde spraakassistent van het bedrijf. Nova Sonic is daarnaast beschikbaar via Amazons ontwikkelaarsplatform Bedrock. Ontwikkelaars kunnen spraakgestuurde apps bouwen via een bidirectionele api. Het spraakmodel ondersteunt momenteel enkele Engelse accenten, zoals Amerikaans en Brits. Ondersteuning voor meer talen en accenten volgt 'binnenkort'.

Amazon Nova Sonic

Door Sabine Schults

Redacteur

09-04-2025 • 12:54

15

Reacties (15)

15
15
14
2
0
1
Wijzig sortering
Ik ben maar een lichte gebruiker van AI en allesbehalve ervaringsdeskundige, vandaar volgende vraag.

Ik begrijp dat taalherkenning en taalgeneratie een specifiek gebied is waarvoor AI getraind moet worden: woordherkenning, toon... Maar ik vermoed dat de onderliggende 'denkmotor' dezelfde is als degene die je via een chat kan raadplegen? Ik bedoel dan het deel van de AI die het opzoekwerk doet, de mail opstelt, prijzen vergelijkt... Als mijn aanname correct is: dan is dit even gevoelig voor de 'fouten' die nu (nog?) in AI zitten: foute conclusies voorstellen als waarheid, hallucinaties...

Is dit dan geen gevaarlijk product? Ik veronderstel dat we kritischer omgaan met geschreven informatie (nalezen, eerst goed nadenken vooraleer we er naar handelen) dan dat we omgaan met informatie uit een informeel gesprek? Dat we dus met dit soort bots sneller geneigd zijn om er maar in mee te gaan, in vergelijking met de geschreven prompts en bijhorende antwoorden? En dus ook mee te gaan in foute informatie?

Of zie ik dit verkeerd?
Goede vragen die je stelt!

TL;DR - In het model uit dit artikel wordt inderdaad gebruik gemaakt van een taalmodel-achtig denkmotor. Verder er zitten taalcomponenten in moderne spraakherkenningssystemen, maar dat is iets anders. De limitaties van LLM-based GenAI zijn dus nog steeds relevant. Waarheid is géén technisch probleem, maar ook vooral maatschappelijk en filosofisch.
Maar ik vermoed dat de onderliggende 'denkmotor' dezelfde is als degene die je via een chat kan raadplegen?
Het korte antwoord is: in principe niet. Modellen voor spraakherkenning (zoals OpenAI's Whisper V3), en voor spraaksynthese (zoals Orpheus TTS), zijn fundamenteel andere modellen dan taalmodellen. Maar, dat is niet het hele verhaal. Als optimalisaties vind je tegenwoordig eigenlijk altijd een taalcomponent (taalmodel!) in spraakherkenningsmodellen. Dat de AI een begrip van taal heeft, komt de spraakherkenning enorm ten goede! Maar, zo'n taalcomponent, is dus niet hetzelfde als een volledig E2E taalmodel, zoals GPT-4o.
Als mijn aanname correct is: dan is dit even gevoelig voor de 'fouten' die nu (nog?) in AI zitten: foute conclusies voorstellen als waarheid, hallucinaties...
Wederom een terechte opmerking. In het kort, ja, je aanname klopt. Netzoals wij mensen, werken de moderne deep learning (DL) technieken (encoder-decoder, decoder-only transformers) fundamenteel met statistische principes. In feite niet heel anders dan wij mensen. Hebben wij een maatstaaf voor waarheid? Daar hebben wij als mensen ook aanzienlijke moeite mee ;). Waarheid is een ander probleem, maar inderdaad ook in de DL nog niet opgelost.

Het Nova Sonic model uit het artikel, is een E2E speech model (speech-to-speech). Dit soort modellen zijn géén gespecialiseerde spraakmodellen, maar eigenlijk een combinatie van verschillende componenten in spraakherkenning, spraakgeneratie, en E2E taalmodellen. De flow is als volgt:
spraak van de gebruiker gaat door een gespecialiseerde encoder-module, een groot taalmodel-achtig model in. Dit zijn uitgebouwde en speciaal-getrainde modellen, met een architectuur die doorgaans weinig verschilt van text-to-text modellen. Er wordt ook geen transcript opgesteld, welke in het taalmodel gaat, gek genoeg. Dat gebeurt dus rechtstreeks. Best cool!
Wat gaat deze ontwikkeling hard zeg. Wat ik nog niet helemaal snap is hoe deze nu 80% goedkoper kan zijn. Komt dat dan doordat ze het model op eigen hardware draaien wat kosteneffectiever is, bouwen ze voort op een bestaand model of wat doen ze precies?
AI prijzen zijn, momenteel, meer gebaseerd op wat klanten willen betalen dan op kosten.
Meh dit werd door OpenAI al meer dan een jaar geleden getoond (al heeft het stiekem wel lang geduurd voor het echt beschikbaar kwam). De enorme vaart is er inmiddels wel een beetje uit.

En de kosten zijn idd gewoon gebaseerd op marketing zoals @dez11de zegt. Amazon is tot nu toe geen grote speler geweest dus ze prijzen hun model gewoon laag om een voet tussen de deur te krijgen. Makkelijk genoeg om de prijs daarna gewoon op te schroeven indien nodig.

[Reactie gewijzigd door Llopigat op 9 april 2025 13:20]

Omdat Amazon er 80% minder voor vraagt.

OpenAI is verlieslijdend, en de prijs die ze vragen is minder dan hun compute en onderzoeksdoeleinden op dit moment kosten. Amazon zal ongetwijfeld op een zelfde manier een verlies nemen, maar wellicht heeft hun model minder compute nodig, of subsidiëren ze het nog meer dan OpenAI.
Jammer dat dit model niet lokaal is.

Ik draai nu spraak lokaal met Speech to Text (Whisper van OpenAI) dan Llama 3, dan Text To Speech (die laatste niet zo'n hele goede). Maar een geintegreerd model waar je echt live een gesprek mee kan voeren is veel prettiger natuurlijk, dan heb je niet steeds dat over en weer. En kan het model ook emotie detecteren enzo.

Helaas zijn dat soort modellen nog niet als download uitgebracht om lokaal te draaien (zoals Llama).
Helemaal mee eens, ik hoef geen proprietary spraak model in de cloud van een Amazon Google of Apple. Geef mij dan maar een open-weight variant die ik zelf kan draaien. Overigens gebruik ik nu KokoroTTS in mijn app, daar ben ik behoorlijk tevreden over en is vrij vlot zelfs op Android devices. Hopelijk komen daar binnenkort meer talen voor uit.
Oh ja Kokoro, dat was die ik ook gebruik. Ik ben er niet zo heel tevreden over eerlijk gezegd. Het is wel wat beter dan de libritts die ik vroeger gebruikte met piper. Maar het klinkt nog steeds best wel nep.

Ik heb het op mijn lijstje staan om te kijken naar Coqui xtts 2. Dat schijnt nog wat beter te zijn. Maar ik moet er even een nieuwe docker voor inrichten en dan ook weer een soort proxy die hem naar het "Wyoming" protocol van home assistant vertaalt, zodat ik er ook echt in huis mee kan praten. Daar heb ik geen tijd voor gehad.

PS: Ja ik ben ook erg blij met mijn open modellen. Ze zijn lang niet zo goed als wat je in de cloud krijgt maar er is prima omheen te werken. Met bijvoorbeeld zoekmachine integratie.

Ik heb nu zelfs twee servers draaien, eentje met AMD kaart voor Llama (met veel context), en eentje met een oudere Nvidia voor faster-whisper, kokoro en bovendien embedding modellen op ollama. Die drie passen prima in het geheugen en draaien supersnel. Bovendien draait faster-whisper niet op ROCm dus daar moest sowieso een andere kaart voor komen.

[Reactie gewijzigd door Llopigat op 9 april 2025 14:10]

Aanhakend op het eerste voorbeeld uit de link;

"I just found three different flights" [..] "Want me to book it?" [..] "Booking it now and sending the confirmation email to you".

Zijn er werkelijk mensen (gok in USA, daar is een creditcard gewoongoed), die al hun betaalinformatie aan een AI-bot toevertrouwen en de volmacht geven om dergelijke acties uit te voeren? Tickets naar Hawai heb je het al snel over honderden dollars, in het voorbeeld wordt dat zonder meer geboekt. 8)7
En dat niet alleen, zo ongeveer elke AI innovatie wordt gedemonstreerd aan de hand van het boeken van een vlucht. Dat zal wel zijn omdat dat een redelijk gestructureerd proces is. Er zullen mensen zijn die zo ongeveer elke dag of week vliegen, maar ik doe dat niet eens elk jaar. Die keren dat ik dus wél ga vliegen, boek ik zelf dat ticket wel en ga ik het zeker weten niet uit handen geven aan een of andere AI. Ik wil het risico niet lopen dat ik met een verkeerd ticket opgescheept zit, dus ga zal ik het na het boeken toch weer gaan controleren. Dan kan ik het ook net zo goed zelf al boeken.
Gaat waarschijnlijk via een API dus niet nodig om de betaalgegevens in de AI te bewaren
Als dit straks echt lokaal draait op Echo’s, zou dat privacy én snelheid flink kunnen verbeteren.
Wel benieuwd of het ook fatsoenlijk omgaat met accenten, daar struikelen ze meestal op.
En hopelijk komt er gewoon een API bij, dan kan het pas echt interessant worden voor home automation freaks.
Whisper van OpenAI gaat behoorlijk goed om met accenten. Vooral het large model (wel een GPU nodig dan). Ik vind het soms echt verbazend goed. Het heeft zelfs auto taal herkenning.
Wel fijn dat er meer mogelijkheden komen voor spraak modellen. Alleen OpenAI en Google hadden tot nog toe een fatsoenlijk spraakmodel wat ook voor niet betalende abonnees toegankelijk is. De ontwikkelingen op dit gebied gaan een stuk minder snel dan bij LLM tekst only modellen.
En een fijne afwisseling voor altijd alles via tekst in te moeten typen. Nu hopen dat ook de wat kleinere partijen dit gaan aanbieden.

Ps. Of zie ik nu een aantal mooie concurrenten over het hoofd?

Op dit item kan niet meer gereageerd worden.