Machinelearningmodellen van Alibaba en Microsoft behaalden een hogere score dan mensen in een test voor begrijpend lezen. Het is voor het eerst dat de menselijke score in deze test wordt overtroffen door een model.
Alibaba's onderzoeksonderdeel voor Data Science and Technologies meldt dat het een score van 82,44 heeft behaald als het gaat om het geven van exacte antwoorden op vragen. De menselijke score ligt bij 82,304, zo is op te maken uit de ranglijst. Die wordt momenteel aangevoerd door het Chinese bedrijf, maar Microsoft staat op de tweede plek, met een score van 82,65, die eveneens hoger is dan de menselijke. De sortering van de lijst is op f1-score, terwijl de hier genoemde scores em-scores zijn.
Bloomberg schrijft dat de resultaten van Alibaba eerder binnen waren. Bij de test gaat het om een dataset met meer dan vijfhonderd Wikipedia-artikelen en ongeveer honderdduizend bijbehorende vragen. Zo moeten bijvoorbeeld na het lezen van een artikel over het Amazoneregenwoud vragen worden beantwoord als 'hoeveel naties hebben controle over het gebied' en 'hoeveel vierkante kilometers beslaat het regenwoud'. De dataset draagt de naam SQuAD, oftewel de Stanford Question Answering Dataset. Het model van Alibaba draagt de naam SLQA+, terwijl het Microsoft-model een variant lijkt te zijn van zijn R-net-model voor begrijpend lezen en het beantwoorden van vragen.
Alibaba schrijft dat het gebruik heeft gemaakt van een hierarchical attention network, dat het ook gebruikt bij het beantwoorden van klantvragen. Volgens Bloomberg zijn ook andere Chinese bedrijven, zoals Tencent en Baidu, bezig met onderzoek naar kunstmatige intelligentie, bijvoorbeeld voor gerichte advertenties of zelfrijdende auto's. Andere bedrijven op de SQuAD-ranglijst zijn onder meer Tencent, Facebook en Samsung.