Een studie van MIT onthult dat vision-language-modellen slecht omgaan met woorden zoals 'niet' en 'geen'. Dat kan leiden tot ernstige fouten in toepassingen zoals medische diagnoses. Het fenomeen is te wijten aan de trainingsdata, die voornamelijk positieve bijschriften bevat.
De onderzoekers testten voor hun rapport in welke mate vision-taalmodellen in staat zijn om negatie te identificeren in afbeeldingen, zoals een foto van een hond waarop geen gras is te zien. Die tests tonen aan dat VLM's vaak falen bij het verwerken van negatie, met prestaties 'vergelijkbaar met gokken'.
Deze fouten worden volgens het rapport verklaard door het gebruik van trainingsdata met grotendeels positieve bijschriften, waardoor de modellen geen negatie kunnen herkennen. Het team, met doctoraatsstudent Kumail Alhamoud als hoofdauteur, ontwikkelde een dataset met expliciete negaties om VLM's beter te kunnen trainen. Hoewel dit de prestaties verbeterde, erkennen de onderzoekers dat dit slechts een eerste stap is.
De auteurs waarschuwen voor de ernstige tekortkoming in de modellen: "Als zoiets fundamenteels als ontkenning niet werkt, dan zouden we grote vision/taalmodellen niet moeten gebruiken voor veel van de manieren waarop we ze nu inzetten – zonder intensieve evaluatie", schrijft medeauteur Marzyeh Ghassemi. Het blindelings gebruiken van deze modellen kan catastrofale gevolgen hebben, voegt Alhamoud toe.