Google maakt dataset met vijf miljoen beelden beschikbaar voor machinelearning

Google maakt een dataset met meer dan vijf miljoen afbeeldingen van ruim 200.000 locaties beschikbaar. Daarmee kunnen onderzoekers machinelearning-algoritmes trainen om objecten te herkennen.

Dat maakt Google bekend in een blogpost. Het is niet de eerste keer dat het bedrijf zo'n dataset openbaar maakt. Vorig jaar werd dat voor het eerst gedaan, maar toen ging het om de helft van het aantal afbeeldingen en slechts een zevende van alle locaties die nu beschikbaar zijn.

Landmarks-v2 is volgens Google een compleet nieuwe dataset die veel diverser is dan de vorige versie. Met de afbeeldingen kunnen AI-onderzoekers algoritmes trainen in het herkennen van objecten. Het gaat specifiek om afbeeldingen van bekende monumenten en locaties, waarvan de meeste uit Europa, Amerika en Japan lijken te komen. Daar wordt specifiek voor gekozen omdat die objecten bekend zijn en omdat ze door gebruikers vaker gelabeld worden. De afbeeldingen zijn afkomstig van Wikimedia Commons omdat die over het algemeen langer beschikbaar zijn, zegt Google.

Met de nieuwe dataset heeft Google ook twee nieuwe competities opgezet, net als vorig jaar werd gedaan. De Landmark Recognition-uitdaging is een wedstrijd waarbij deelnemers zo snel mogelijk een object op een foto moeten herkennen, en bij de Landmark Retrieval-uitdaging moeten deelnemers alle foto's met dat object uit een berg foto's vinden. De winnaar van de competitie krijgt 50.000 dollar als prijs.

Naast het openbaar maken van de dataset heeft Google ook Detect-to-Retrieve open source beschikbaar gesteld. Dat is een framework voor beeldherkenning, dat getraind werd met 80.000 afbeeldingen uit de originele dataset.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Tijs Hofmans

Nieuwscoördinator

Feedback • 03-05-2019 20:36 21

03-05-2019 • 20:36

Lees meer

LG ontwikkelt chip voor kunstmatige intelligentie in huishoudelijke apparaten Nieuws van 17 mei 2019

Leuvense software spoort via ai sneller zeldzame afwijkingen op bij pasgeborenen Nieuws van 26 april 2019

Zelflerende ai wint van 's werelds bekendste schaakengine Nieuws van 19 april 2019

'China zet ai-gestuurde gezichtsherkenning in voor identificatie van Oeigoeren' Nieuws van 15 april 2019

OpenAI Five-bots verslaan Dota 2-topteam Nieuws van 15 april 2019

Europese Commissie presenteert ethische richtlijnen voor betrouwbare ai Nieuws van 8 april 2019

Meer producten en artikelen

Wetenschap Google Kunstmatige intelligentie Machine learning

IT-banen

Meer vacatures

Reacties (21)

-Moderatie-faq

Wijzig sortering

Cebby

3 mei 2019 22:56

Het totale prijzengeld van beide competities samen is 50k en niet 50k voor de ultieme winnaar, al lijkt dat nu wel uit het artikel. Beide competities hebben prijzengeld van 12, 8 en 5k USD voor de eerste t/m de derde plek. Bij Landmark Recognition gaat het ook niet om de snelheid van de herkenning, maar om de precisie en de zekerheid waarmee je je voorspelling kunt doen. Overigens zijn de challenges ook onderdeel van een workshop tijdens de CVPR conferentie.

Perkouw Moderator GCC 3 mei 2019 20:43

En voor de geïnteresseerde hierbij de GitHub link -> https://github.com/cvdfoundation/google-landmark

Moartn @Perkouw • 3 mei 2019 20:49

Grappig dat ze de dataset op Amazon Web Services S3 hebben staan, de grote concurrent van hun eigen Google Cloud Platform.

z1rconium @Moartn • 4 mei 2019 07:55

Google released dit via de Common Visual Data Foundation en die hebben het op aws gezet.

stftweaker @Moartn • 3 mei 2019 20:58

Misschien goedkoper? Of om hun eigen netwerk te ontlasten?

fevenhuis @stftweaker • 3 mei 2019 21:01

OF om het netwerk van de concurrent te belasten.

Mr777 @fevenhuis • 3 mei 2019 22:27

Mwoh, ik denk niet dat dit een heel populaire download gaat worden. Wat hogescholen en universiteiten misschien... Als gewone gebruiker ben je vrij weinig met 5 miljoen plaatjes (die ook nog eens meer dan 500 Gb schijfruimte beslaan), dus "even kijken wat erin zit" is er in dit geval niet bij vrees ik.

fevenhuis @Mr777 • 3 mei 2019 23:05

In dit geval kan belasten ook de opslag ruimte vullen betekenen.

Henk Poley @fevenhuis • 4 mei 2019 06:55

Amazon: nu ja, als jullie ons er voor betalen, dan kunnen wij wel doen alsof we het heel erg belastend vinden.

xleeuwx @Moartn • 3 mei 2019 21:31

Developers werken ook op een mac book ipv een chromebook.

Verwijderd @xleeuwx • 6 mei 2019 16:02

Gewoon chromebook met galliumOS, voor de echte eindbazen.

Uit ervaring kan ik zeggen dat vooral webdevs en photoshoppers op macbooks zitten.

Cebby

@Moartn • 3 mei 2019 23:03

Eigenlijk ook best gek aangezien Kaggle (volgens mij) op GCP draait dus het zou veel logischer zijn om in hetzelfde netwerk te blijven voor zo'n competitie. Als je gebruik wilt maken van de Kaggle notebooks tenminste.

Uiteindelijk zal die foundation wel beslissen waar de data staat en als zij S3 gebruiken is dat de keuze waar je bij blijft natuurlijk. Google voorziet hun alleen van de gegevens.

Sebazzz

3 mei 2019 22:25

Deze zijn zeker verzamelt en verfijnd via ReCAPTCHA of niet?

dez11de @Sebazzz • 4 mei 2019 07:12

Nee van Wikipedia.

JustMitchie @dez11de • 5 mei 2019 21:12

WikiMedia

sgt frankieboy @OxWax • 3 mei 2019 22:23

Die zijn al redelijk lang beschikbaar, zitten natuurlijk wat kosten aan verbonden.

https://cloud.google.com/vision/

Iblies @OxWax • 4 mei 2019 11:01

Wanneer hun algorithms?

Je wordt weggemod, maar het is zijn de levensaders van Google/Alphabet. Ze starten als (semi)opensource, en gaandeweg maken ze een eigen versie die ze vervolgens marketen of in hun eigen google-eco-systeem opnemen.

Google manifesteert zichzelf als innovatief bedrijf terwijl in de praktijk blijkt dat ze keer op keer de kennis en kunde niet in huis hebben.

Verwijderd @OxWax • 6 mei 2019 16:00

Er is weinig ruimte voor humor inderdaad, iig dat blijkt.

[Reactie gewijzigd door Verwijderd op 23 juli 2024 05:57]

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (21)

Sorteer op:

Weergave: