Amazon laat de meeste zoekopdrachten die via spraakassistent Alexa worden opgegeven inmiddels grotendeels draaien op zijn eigen Inferentia-chips. Het bedrijf wil in zijn datacenters van Nvidia-gpu's afstappen en zijn eigen apparatuur gaan gebruiken.
Amazon schrijft in een blogpost dat het Alexa-zoekopdrachten voortaan wil inzetten op zijn eigen chips voor machine learning. Dat gebeurt met de Elastic Compute Cloud Inf1-dienst, die draait op de Inferentia-chipset die wordt gebruikt in Amazon Web Services. De Inferentia-chip is specifiek gebouwd voor AWS om machine learning te versnellen. Inferentia-chips hebben vier NeuronCores en bevatten extra veel on-chip cachegeheugen om dat proces makkelijk te maken. Dat zorgt volgens Amazon onder andere voor een lagere latency.
Amazon zegt dat 'het overgrote merendeel' van de Alexa-workloads inmiddels op die Inferentia-chips wordt uitgevoerd. Dat zou tot nu toe hebben gezorgd voor een verlaging van 25 procent van de latency, en een kostenreductie van 30 procent. Tot nu toe gebruikte Amazon Nvidia's T4-gpu's voor het uitvoeren van berekeningen, maar het bedrijf wil daar op den duur vanaf stappen.
Het gaat bij die switch overigens alleen om text-to-speech van Alexa-commando's. Dat was het enige aspect van de technologie achter de spraakassistent dat nog op dedicated gpu's draaide. Andere onderdelen van de berekeningen, waaronder de Automatic Speech Recognition en de Natural Language Understanding werden al op chips gedaan.
Volgens Amazon wordt ook het gezichtsherkenningsprogramma Rekognition overgezet naar Inferentia-chips. De latency zou daarbij acht keer lager zijn dan bij traditionele gpu-berekeningen. Amazon wil echter niet zeggen welke hardware daar eerst voor werd gebruikt.