Onderzoekers van Google en Stanford hebben los van elkaar flinke vorderingen gemaakt in computersystemen die kunnen herkennen wat er op foto's en video's gebeurt. Zelflerende systemen wisten tijdens proeven tal van situaties op foto's en beelden vrij nauwkeurig te beschrijven.
Google- en Stanford-onderzoekers trainden computers binnen een neuraal netwerk in eerste instantie met een beperkt aantal afbeeldingen die waren voorzien van korte, door mensen opgestelde beschrijvingen. Vervolgens moesten de computers zelf bijschriften bij foto's verzinnen. De Stanford-onderzoekers publiceren de bevindingen in een rapport. Zo wisten computers kloppende bijschriften als 'een groep mannen die Frisbee spelen' en 'een horde olifanten in een droog grasveld' te genereren, al had de software wel moeite met een groene vlieger, die werd bestempeld als 'een man die door de lucht vliegt op een snowboard'.
De onderzoekers van Google en Stanford kwamen los van elkaar tot hun conclusies. Google meldt de bevindingen in een blogstuk. Computers zijn al langer in staat om objecten op foto's en video's te herkennen, maar hebben moeite met het herkennen van situaties. De software van beide onderzoekers is enkel in staat om patronen te herkennen die het eerder heeft waargenomen, maar doet dat wel veel beter dan huidige algoritmen.
Het onderzoek zou kunnen helpen om op internet geplaatste foto's en video's automatisch te classificeren, of om mensen met weinig of geen zichtvermogen te helpen navigeren. Software met geavanceerde patroonherkenning zou echter ook kunnen worden gebruikt voor surveillance: het beeld op camera's zou er automatisch mee kunnen worden geanalyseerd, tekent The New York Times aan.