Google maakt een dataset met meer dan vijf miljoen afbeeldingen van ruim 200.000 locaties beschikbaar. Daarmee kunnen onderzoekers machinelearning-algoritmes trainen om objecten te herkennen.
Dat maakt Google bekend in een blogpost. Het is niet de eerste keer dat het bedrijf zo'n dataset openbaar maakt. Vorig jaar werd dat voor het eerst gedaan, maar toen ging het om de helft van het aantal afbeeldingen en slechts een zevende van alle locaties die nu beschikbaar zijn.
Landmarks-v2 is volgens Google een compleet nieuwe dataset die veel diverser is dan de vorige versie. Met de afbeeldingen kunnen AI-onderzoekers algoritmes trainen in het herkennen van objecten. Het gaat specifiek om afbeeldingen van bekende monumenten en locaties, waarvan de meeste uit Europa, Amerika en Japan lijken te komen. Daar wordt specifiek voor gekozen omdat die objecten bekend zijn en omdat ze door gebruikers vaker gelabeld worden. De afbeeldingen zijn afkomstig van Wikimedia Commons omdat die over het algemeen langer beschikbaar zijn, zegt Google.
Met de nieuwe dataset heeft Google ook twee nieuwe competities opgezet, net als vorig jaar werd gedaan. De Landmark Recognition-uitdaging is een wedstrijd waarbij deelnemers zo snel mogelijk een object op een foto moeten herkennen, en bij de Landmark Retrieval-uitdaging moeten deelnemers alle foto's met dat object uit een berg foto's vinden. De winnaar van de competitie krijgt 50.000 dollar als prijs.
Naast het openbaar maken van de dataset heeft Google ook Detect-to-Retrieve open source beschikbaar gesteld. Dat is een framework voor beeldherkenning, dat getraind werd met 80.000 afbeeldingen uit de originele dataset.