Microsofts spraakherkenningstechnologie presteert even goed als een mens die luistert naar een gesprek tussen twee vreemden. Het bedrijf claimt de eerste te zijn die de hoeveelheid transcriptiefouten tot 5,9 procent heeft weten terug te brengen.
Volgens Microsoft herkent de technologie woorden 'gelijkwaardig aan de mens'. Het Microsoft-team stevent al langer op dit punt af: vorige maand meldde Microsoft nog dat het op een foutpercentage van 6,3 procent zat, wat het bedrijf toen al de koploper op dit gebied maakte. In een andere test, waarin twee mensen die elkaar kennen mogen praten over wat ze maar willen, behaalt Microsoft een foutpercentage van 11,1 procent, wat 0,2 procentpunt lager is dan een concurrerende menselijke professional. De bevindingen worden uitgebreid beschreven in een paper.
De onderzoekers zeggen de mijlpaal bereikt te hebben met behulp van deep neural networks, die met behulp van mensen getraind worden om constant beter te worden. Ook zou het gebruik van gpu's voor de kunstmatige intelligentie hebben bijgedragen aan de snelheid waarmee de resultaten zijn bereikt, zegt Microsoft.
Het bedrijf zegt ook te werken aan het aanpakken van de variabelen die in het echte leven om de hoek komen kijken: achtergrondgeluid en accenten, bijvoorbeeld. De volgende stap voor Microsoft is om naast herkenning ook begrip aan te scherpen, wat net zo belangrijk is voor de effectiviteit van bijvoorbeeld de digitale assistent Cortana.
Het IBM Watson-team meldde in april van dit jaar een foutpercentage van 6,9 procent in dezelfde test. Onduidelijk is hoe IBM er op dit moment voor staat. Op 4 oktober liet Google, dat net zijn nieuwe Assistant heeft vrijgegeven, ook weten dat het de pariteit met de mens aan het naderen was.