Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Google maakt dataset met vijf miljoen beelden beschikbaar voor machinelearning

Google maakt een dataset met meer dan vijf miljoen afbeeldingen van ruim 200.000 locaties beschikbaar. Daarmee kunnen onderzoekers machinelearning-algoritmes trainen om objecten te herkennen.

Dat maakt Google bekend in een blogpost. Het is niet de eerste keer dat het bedrijf zo'n dataset openbaar maakt. Vorig jaar werd dat voor het eerst gedaan, maar toen ging het om de helft van het aantal afbeeldingen en slechts een zevende van alle locaties die nu beschikbaar zijn.

Landmarks-v2 is volgens Google een compleet nieuwe dataset die veel diverser is dan de vorige versie. Met de afbeeldingen kunnen AI-onderzoekers algoritmes trainen in het herkennen van objecten. Het gaat specifiek om afbeeldingen van bekende monumenten en locaties, waarvan de meeste uit Europa, Amerika en Japan lijken te komen. Daar wordt specifiek voor gekozen omdat die objecten bekend zijn en omdat ze door gebruikers vaker gelabeld worden. De afbeeldingen zijn afkomstig van Wikimedia Commons omdat die over het algemeen langer beschikbaar zijn, zegt Google.

Met de nieuwe dataset heeft Google ook twee nieuwe competities opgezet, net als vorig jaar werd gedaan. De Landmark Recognition-uitdaging is een wedstrijd waarbij deelnemers zo snel mogelijk een object op een foto moeten herkennen, en bij de Landmark Retrieval-uitdaging moeten deelnemers alle foto's met dat object uit een berg foto's vinden. De winnaar van de competitie krijgt 50.000 dollar als prijs.

Naast het openbaar maken van de dataset heeft Google ook Detect-to-Retrieve open source beschikbaar gesteld. Dat is een framework voor beeldherkenning, dat getraind werd met 80.000 afbeeldingen uit de originele dataset.

Door Tijs Hofmans

Redacteur

03-05-2019 • 20:36

21 Linkedin Google+

Reacties (21)

Wijzig sortering
Het totale prijzengeld van beide competities samen is 50k en niet 50k voor de ultieme winnaar, al lijkt dat nu wel uit het artikel. Beide competities hebben prijzengeld van 12, 8 en 5k USD voor de eerste t/m de derde plek. Bij Landmark Recognition gaat het ook niet om de snelheid van de herkenning, maar om de precisie en de zekerheid waarmee je je voorspelling kunt doen. Overigens zijn de challenges ook onderdeel van een workshop tijdens de CVPR conferentie.
En voor de geïnteresseerde hierbij de GitHub link -> https://github.com/cvdfoundation/google-landmark
Grappig dat ze de dataset op Amazon Web Services S3 hebben staan, de grote concurrent van hun eigen Google Cloud Platform.
Google released dit via de Common Visual Data Foundation en die hebben het op aws gezet.
Misschien goedkoper? Of om hun eigen netwerk te ontlasten?
OF om het netwerk van de concurrent te belasten.
Mwoh, ik denk niet dat dit een heel populaire download gaat worden. Wat hogescholen en universiteiten misschien... Als gewone gebruiker ben je vrij weinig met 5 miljoen plaatjes (die ook nog eens meer dan 500 Gb schijfruimte beslaan), dus "even kijken wat erin zit" is er in dit geval niet bij vrees ik.
In dit geval kan belasten ook de opslag ruimte vullen betekenen.
Amazon: nu ja, als jullie ons er voor betalen, dan kunnen wij wel doen alsof we het heel erg belastend vinden.
Developers werken ook op een mac book ipv een chromebook.
Gewoon chromebook met galliumOS, voor de echte eindbazen.

Uit ervaring kan ik zeggen dat vooral webdevs en photoshoppers op macbooks zitten.
Eigenlijk ook best gek aangezien Kaggle (volgens mij) op GCP draait dus het zou veel logischer zijn om in hetzelfde netwerk te blijven voor zo'n competitie. Als je gebruik wilt maken van de Kaggle notebooks tenminste.

Uiteindelijk zal die foundation wel beslissen waar de data staat en als zij S3 gebruiken is dat de keuze waar je bij blijft natuurlijk. Google voorziet hun alleen van de gegevens.
Deze zijn zeker verzamelt en verfijnd via ReCAPTCHA of niet?
Die zijn al redelijk lang beschikbaar, zitten natuurlijk wat kosten aan verbonden.

https://cloud.google.com/vision/
Wanneer hun algorithms?
Je wordt weggemod, maar het is zijn de levensaders van Google/Alphabet. Ze starten als (semi)opensource, en gaandeweg maken ze een eigen versie die ze vervolgens marketen of in hun eigen google-eco-systeem opnemen.

Google manifesteert zichzelf als innovatief bedrijf terwijl in de praktijk blijkt dat ze keer op keer de kennis en kunde niet in huis hebben.
Er is weinig ruimte voor humor inderdaad, iig dat blijkt. ;)

[Reactie gewijzigd door GaUitMijnMoeras op 6 mei 2019 16:00]


Om te kunnen reageren moet je ingelogd zijn


OnePlus 7 Pro (8GB intern) Microsoft Xbox One S All-Digital Edition LG OLED C9 Google Pixel 3a XL FIFA 19 Samsung Galaxy S10 Sony PlayStation 5 Verenigde staten

Tweakers vormt samen met Tweakers Elect, Hardware.Info, Autotrack, Nationale Vacaturebank, Intermediair en Independer de Persgroep Online Services B.V.
Alle rechten voorbehouden © 1998 - 2019 Hosting door True