Amazon onthult Nova Sonic, een AI-spraakmodel dat realtime spraakverwerking en natuurlijke spraak combineert. Volgens Amazon kan Sonic concurreren met de spraakmodellen van OpenAI en Google op het vlak van snelheid, spraakherkenning en gesprekskwaliteit.
Volgens Amazon is Nova Sonic 'het kostenefficiëntste AI-spraakmodel op de markt'. Het model zou bijna 80 procent goedkoper zijn dan GPT-4o van OpenAI. Amazon zegt dat de combinatie van spraakbegrip en spraakgeneratie in één model het mogelijk maakt om 'mensachtigere gesprekken mogelijk te maken in AI-toepassingen'. Het model kan onder meer menselijke gesprekspatronen herkennen zoals pauzes, aarzelingen en onderbrekingen.
Amazon zegt dat Nova Sonic een customer-perceived latency heeft van 1,09 seconden. Dat is de tijd tussen het moment dat de klant zijn laatste zin heeft afgemaakt en het moment dat het systeem de eerste spraakreactie genereert. Bij OpenAI's GPT-4o zou de latency 1,18 seconden bedragen; bij Gemini Flash 2.0 van Google gaat het om 1,41 seconden. Amazon heeft ook enkele voorbeeldfragmenten van het spraakmodel gedeeld.
Tegen TechCrunch zegt Rohit Prasad, Amazons senior vicepresident, dat delen van Nova Sonic al gebruikt worden in Alexa+, de verbeterde spraakassistent van het bedrijf. Nova Sonic is daarnaast beschikbaar via Amazons ontwikkelaarsplatform Bedrock. Ontwikkelaars kunnen spraakgestuurde apps bouwen via een bidirectionele api. Het spraakmodel ondersteunt momenteel enkele Engelse accenten, zoals Amerikaans en Brits. Ondersteuning voor meer talen en accenten volgt 'binnenkort'.