IBM heeft in januari een collectie van een miljoen gezichtsfoto's gepubliceerd die afkomstig zijn van de fotosite Flickr. Deze zijn gebruikt om een algoritme te trainen op gezichtskenmerken en het herkennen van etniciteit, maar daarbij is in bepaalde gevallen geen toestemming gevraagd.
Volgens NBC hebben meerdere fotografen geklaagd dat ze geen idee hadden dat door hen gemaakte en op Flickr geplaatste foto's door IBM zijn gebruikt voor het trainen van gezichtsherkenningsalgoritmes. Een fotograaf, waarvan meer dan zevenhonderd foto's in IBM's collectie zitten, zegt dat geen van de door hem gefotografeerde subjecten zich hiervan bewust was.
IBM heeft in een reactie aan The Verge laten weten dat het de privacy van individuen erg serieus neemt en dat het grote zorgvuldigheid heeft betracht om aan de privacyprincipes te voldoen. Volgens IBM was de dataset alleen toegankelijk voor geverifieerde onderzoekers en stonden er alleen publiekelijk beschikbare afbeeldingen in. Volgens de woordvoerder kunnen individuen ook kiezen voor een opt-out bij deze dataset.
NBC stelt echter dat het bijna onmogelijk is om foto's uit de dataset te laten verwijderen. Dat hangt samen met het feit dat IBM eist dat fotografen een e-mail sturen met links naar de te verwijderen foto's, terwijl het bedrijf de lijst met in de dataset gebruikte Flickr-foto's en -gebruikers niet publiekelijk heeft gemaakt. Daardoor is het niet eenvoudig om erachter te komen wiens foto's erin zitten. IBM heeft hierover geen vragen van NBC beantwoord.
Oorspronkelijk zijn de foto's uit de dataset niet door IBM verzameld; deze zijn onderdeel van een verzameling van bijna honderd miljoen foto's met de naam YFCC100M. Deze collectie is door Yahoo, de voormalige eigenaar van Flickr, samengesteld voor onderzoeksdoeleinden. De foto's vallen onder een Creative Commons-licentie.
IBM zegt de foto's te gebruiken om een 'eerlijkere' gezichtsherkenningssystemen te ontwikkelen. In de door IBM gebruikte dataset verwijzen de foto's overigens niet door naar de namen van de subjecten, waardoor de systemen de personen niet direct kunnen identificeren.