Google heeft twee databases uitgebracht, eentje met videogegevens, en een andere met fotogegevens. De data moeten onderzoekers helpen bij het trainen van algoritmes voor machine learning-systemen.
De database met plaatjes wordt de Open Images Dataset genoemd, en bestaat uit negen miljoen afbeeldingen die van tags zijn voorzien. Die tags moeten zelflerende algoritmes helpen om afbeeldingen te herkennen. Omdat er zesduizend verschillende categorieën zijn, moeten systemen een grote diversiteit aan afbeeldingen leren herkennen.
Voor het taggen van de foto's heeft Google in eerste instantie een zelfontwikkeld algoritme gebruikt, maar de validatie is gedaan door mensen. Om Open Images op te kunnen zetten heeft de internetgigant samengewerkt met de Cornell University en Carnegie Mellon University.
Eerder deze week bracht Google al een andere database uit, de YouTube-8M. Zoals de naam al aangeeft, bestaat deze dataset uit acht miljoen video's die afkomstig zijn van YouTube. Net als in de Open Images Database zijn de video's voorzien van tags, waardoor algoritmes zichzelf kunnen trainen om videobeelden te herkennen.
In totaal bestaat de dataset uit een half miljoen uur aan videomateriaal en 1,9 miljard framefeatures. Daarnaast bestaan er 4800 verschillende soorten video's, zodat onderzoekers hun algoritmes met een grote variatie aan videomateriaal kunnen trainen. Er zijn alleen YouTube-video's gebruikt die meer dan duizend views hebben; volgens Google moet dat voldoende kwaliteit garanderen.
Google stelt dat het vrijgegeven van de datasets vooral onderzoekers kunnen helpen. Zij hebben vaak geen toegang tot grote archieven met beelden voor het trainen van hun machine learning-algoritmes. De internetgigant hoopt dat de datasets ervoor zorgen dat er meer onderzoek wordt gedaan.