Google brengt foto- en videodatabases uit voor machine learning

Google heeft twee databases uitgebracht, eentje met videogegevens, en een andere met fotogegevens. De data moeten onderzoekers helpen bij het trainen van algoritmes voor machine learning-systemen.

De database met plaatjes wordt de Open Images Dataset genoemd, en bestaat uit negen miljoen afbeeldingen die van tags zijn voorzien. Die tags moeten zelflerende algoritmes helpen om afbeeldingen te herkennen. Omdat er zesduizend verschillende categorieën zijn, moeten systemen een grote diversiteit aan afbeeldingen leren herkennen.

Voor het taggen van de foto's heeft Google in eerste instantie een zelfontwikkeld algoritme gebruikt, maar de validatie is gedaan door mensen. Om Open Images op te kunnen zetten heeft de internetgigant samengewerkt met de Cornell University en Carnegie Mellon University.

Google Open Images

Eerder deze week bracht Google al een andere database uit, de YouTube-8M. Zoals de naam al aangeeft, bestaat deze dataset uit acht miljoen video's die afkomstig zijn van YouTube. Net als in de Open Images Database zijn de video's voorzien van tags, waardoor algoritmes zichzelf kunnen trainen om videobeelden te herkennen.

In totaal bestaat de dataset uit een half miljoen uur aan videomateriaal en 1,9 miljard framefeatures. Daarnaast bestaan er 4800 verschillende soorten video's, zodat onderzoekers hun algoritmes met een grote variatie aan videomateriaal kunnen trainen. Er zijn alleen YouTube-video's gebruikt die meer dan duizend views hebben; volgens Google moet dat voldoende kwaliteit garanderen.

Google stelt dat het vrijgegeven van de datasets vooral onderzoekers kunnen helpen. Zij hebben vaak geen toegang tot grote archieven met beelden voor het trainen van hun machine learning-algoritmes. De internetgigant hoopt dat de datasets ervoor zorgen dat er meer onderzoek wordt gedaan.

YouTube-8M

IT-banen

Reacties (37)

Struikrover 2 oktober 2016 12:02

In tegenstelling tot de Youtube-8M is deze dataset wel volledig open. Het zijn slechts URL's met metadata naar afbeeldingen die je zelf moet downloaden.

Echter, de Youtube-8M dataset is voorverwerkt op een specifieke manier (met een Convolutional Neural Net dat getraind is op de ImageNet dataset) en dus krijg je alleen de gecomprimeerde hidden layer representatie van de video's:

Then, we decoded
each video at one-frame-per-second, and used a Deep CNN pretrained
on ImageNet to extract the hidden representation immediately
prior to the classification layer. Finally, we compressed the
frame features and make both the features and video-level labels
available for download

[1]

Je kunt de video's dus niet frame voor frame analyseren, want ze zijn met 1FPS verwerkt, dus nutteloos voor bijvoorbeeld het tracken van objecten over tijd.

Dan lijken de afbeeldingen uit Open Images me veel waardevoller, want het is echt ruwe data. Mochten de technieken met abstracte representaties voor ruwe data binnen de komende jaren verbeterd worden, dan heeft Google wat betreft de Youtube-8M alle touwtjes in handen om te beslissen of ze zo genereus zijn dit ook met andere wetenschappers te delen.

Ik zou ook niet weten hoe je deze gigantische hoeveelheid data met andere onderzoekers deelt, dus ik vind dit een goede eerste stap, maar het is belangrijk om kritisch te blijven zodat je elkaar niet alleen maar na-aapt.

EDIT: helemaal vergeten te zeggen, maar alle features van Youtube-8M zijn ook nog eens in TensorFlow [2] formaat. Dus als je een Theano [3] library wilt gebruiken moet je door hoepels gaan springen

[Reactie gewijzigd door Struikrover op 23 juli 2024 22:30]

djwice

@Struikrover • 3 oktober 2016 21:37

Hebben ze ook de audio bij die beelden?
Ik heb een leuke idee daarvoor.

Struikrover @djwice • 4 oktober 2016 11:38

Nee, helaas niet. Dat was ook mijn grootse motivator

djwice

@Struikrover • 4 oktober 2016 19:48

Wel toevalling Amazon heeft vorige week ook ern 39.000+ CUDA core service geïntroduceerd.

Goed om dit soort beeld data te analyseren

[Reactie gewijzigd door djwice op 23 juli 2024 22:30]

erikloman 2 oktober 2016 12:02

In iOS10 zit tegenwoordig ook een beregoeie zoekfunctie in de Foto's app. Als je zoekt op meeuw, auto, toetjes of teckel, hij toont erg goed de foto's waar het onderwerp op staat.

Firefly III @erikloman • 2 oktober 2016 12:51

Klopt. Dit is feitelijk wat Google ook doet in haar Photos apps en wat Facebook ook doet. Als je een foto op Facebook bekijkt bijvoorbeeld, dan staat er in de alt-text een beschrijving van wat de foto waarschijnlijk bevat.

Google Photos is ook in staat om te zoeken op "dingen" in je foto's.

Bij zo'n beetje elk nieuwsbericht over machine learning haal ik het weer aan: de Vision API van Google stelt je in staat hier mee te spelen. Ik heb er bijvoorbeeld mijn vakantiefoto's mee getagd.

Hoppa! @Firefly III • 2 oktober 2016 13:35

De eerste keer schrok ik daar wel van. Zoek op 'ijs' en je krijgt alle foto's waarop de kinderen ijs aan het eten zijn. Of het nou waterijs, softijs of en ijscoupe is. Bijzonder knap.

ultimasnake @Hoppa! • 2 oktober 2016 18:35

Auto's op merk en type herkent hij bij mij zelfs! Zonder dat ik ze getagged had of in een specifiek album had geplaatst.. de resultaten gaan heeeeeeel ver! Idem voor gezichtherkenning waar google photos zelfs mijn jeugd foto's automatisch aan mij linkte (ook weer zonder taggen) en zelfs een vriend in een half gebolde reflectie via een raam kon onderscheiden. Ijs ook en ook kijk ik niet verbaast op als hij het verschil tussen softijs en waterijs snapt.

Europese datum notatie daarentegen.... dat dan weer niet

Blizz @Firefly III • 2 oktober 2016 17:45

Als je een foto op Facebook bekijkt bijvoorbeeld, dan staat er in de alt-text een beschrijving van wat de foto waarschijnlijk bevat.

Schrok me aardig bewust toen ik dat zag staan in de source code van een pagina. Ik was me er niet bewust van dat Facebook het doet. Volgens mij doet Twitter het ook en is het opt-out bij hen.

Het verschil tussen de oplossingen van al deze partijen en die van Apple is dat Apple dit on-device uitvoert met het oog op je privacy.

Anoniem: 145867 @Blizz • 3 oktober 2016 06:18

Waarom gebruik je dan facebook. Ze analyseren je hele profiel en kunnen op basis van die gegevens precies zien of je wettelijk wat fout gaat doen in de toekomst en je al vantevoren oppakken.

Anoniem: 457607 @Firefly III • 2 oktober 2016 15:17

Ik heb de Vision API onlangs ge-evalueerd (om automatisch content te laten taggen). Het is zeker indrukwekkend maar in de praktijk niet goed genoeg om dingen volledig te automatiseren.

Als voorbeeld: patient op een operatie tafel werd getag als "food".

Pinheadtje @Anoniem: 457607 • 2 oktober 2016 17:30

Of het is een algorritme met een pervers gevoel voor humor

DigitalExorcist @Pinheadtje • 2 oktober 2016 17:54

Ik denk dat ze iets teveel Walking Dead gekeken hebben ;-) BRAAAINSSS

S913 2 oktober 2016 20:14

IBM heeft al een tijdje online een demo van Watson, waar je zelf foto's naar kan uploaden en die hij dan gaat analyseren en je dan vertelt wat "hij" "ziet":
http://visual-recognition...c_sid_50200000=1475431368

Werkt best cool, herkent beroemdheden, probeert leeftijd te schatten van personen.

[Reactie gewijzigd door S913 op 23 juli 2024 22:30]

Anoniem: 145867 @S913 • 3 oktober 2016 06:21

Microsoft had ook zoiets. Ik had het uitgeprobeerd met een beroemde zanger van euro songfestival. Werkte dus voor geen meter.... dat ding herkende een vrouw terwijl het een man is met een baard!!!!
En de baardgroei gaf hij aan als geen. Zo eens even testen of die Watson dat wel goed doet met die persoon.

S913 @Anoniem: 145867 • 3 oktober 2016 13:06

Tja, kan me ook een zanger(es) op het Eurovisie Songfestival herinneren ... lang, lang zwart haar, lange galajurk ... en een zwarte baard. Was ik ook eerst even van in de war, dus kan me voorstellen dat Microsoft dat ook was

Maar ben benieuwd, was zelf te redelijk onder de indruk van Watson, al zijn er natuurlijk wel een paar gevallen (zoals jij ook noemt) die niet zullen werken. Om het dan "werkt voor geen meter te noemen" vind ik wat kort door de bocht, als je je eigenlijk realiseert hoe hard de ontwikkeling in deze technologie gaat. 5 jaar terug zag ik dit nog niemand doen en nu zijn ze al bezig met het herkennen van hersentumoren op MRI scans e.d.

Anoniem: 145867 @S913 • 8 oktober 2016 00:08

Zeker zie ik de vooruitgang wel. Maar ook de kansen voor ons om dat spul voor de gek te houden. Ja, mensen zijn ook voor de gek te houden dus dat is opzich niet raar.

Even met watson ook getest met Conchita Wurst... helaas.

Hetzelfde als met Microsoft.

S913 @Anoniem: 145867 • 8 oktober 2016 15:47

Haha, dat vermoeden had ik al dat het om haar ging

Maar zoals gezegd, een totaal vrouwelijke verschijning met alleen een baard, is statische gezien voor zo'n computer natuurlijk een vrouw.
Hetzelfde als je een een foto van een man in een overall met borsten zou proberen.

mr.DJ95 2 oktober 2016 11:57

Dit zijn wel ontzettend gave ontwikkelingen om nog sneller en makkelijker voorwerpen te kunnen herkennen en hieraan functies/actie's toe te wijzen. Het begon al met het herkennen van woorden via de translate app die je live kan vertalen.

Meg

2 oktober 2016 12:19

ik ben benieuwd hoe deze ontwikkeling in de toekomst zal uitbreiden.

JJ93 2 oktober 2016 14:10

Komt voor mij op een goed moment! Volgend kwartiel verder met Machine Learning, mijn persoonlijke doel is om een database van auto's te maken. En dan dus per merk, model en jaartal.

Stanford heeft ook een training set met auto's vrijgegeven. Ben benieuwd hoe ver ik met deze twee kan komen.. blijft lastig voor een computer om objecten te herkennen.

Edit: in de dataset van Google komen ook veel voertuigen voor, o.a. "ford model t","supercar" en "toyota celica" kom ik tegen bij het scrollen. En 40 matches voor "Volkswagen"

[Reactie gewijzigd door JJ93 op 23 juli 2024 22:30]

Ninja Tj33rd 2 oktober 2016 12:02

Weet iemand waar ik deze foto's en video's kan bekijken die Google's machinelearning hebben opgeleverd? Ik kan hier op deze site niet even de foto aanklikken om beter te kijken en ik ben toch wel nieuwschierig wat voorn foto's dit allemaal oplevert.

Motion2 @Ninja Tj33rd • 2 oktober 2016 16:41

Euh.. dit zijn foto's zoals hier in het artikel staat. Je kan hiermee een deep learning netwerk leren om objecten te herkennen zoals bijvoorbeeld een lepel (zie afbeelding in artikel). Het zijn dus afbeeldingen waaraan labels zijn gehangen.

Ninja Tj33rd @Motion2 • 3 oktober 2016 12:55

Ja zover heb ik het begrepen. Ik zou graag de foto's beter kunnen bekijken of meer foto's zien. De foto's bij dit artikel zijn erg klein (van resolutie) en niet makkelijk te vergroten.

prothello 2 oktober 2016 13:29

Leuk, maar ik heb liever dat Google de uit Picasa gesloopte opties weer herstelt.

dasiro @Mocro_Pimp® • 2 oktober 2016 13:36

ze zouden dom (en volledig illegaal bezig) zijn om de kip met de gouden eieren weg te geven en alle data die ze hebben op public te zetten, dan zouden alle users weglopen, want jij wil niet dat ik je privé excel met belastingsaangifte die je ook op je drive hebt gezet zomaar kan inzien.
Het is juist omdat ze onzichtbaar en enkel voor machinale verwerking en/of geanonimiseert zijn dat gebruikers niet nadenken over zulke "gratis" diensten. ignorance is bliss weet je wel

DigitalExorcist @dasiro • 2 oktober 2016 17:59

Juist! En dat is nou precies waarom ik géén bezwaar maak tegen Google. Juist door dit soort zaken goed op orde te hebben kunnen ze enorme projecten en ontwikkelingen mogelijk maken.

SampleUser @Mocro_Pimp® • 2 oktober 2016 20:38

maar dat neemt niet weg dat Google bij interne "machine learning" en andere activiteiten geen gebruikt maakt van privé materiaal.

dan had je dit maar niet moeten aanvinken

[Reactie gewijzigd door SampleUser op 23 juli 2024 22:30]

kimborntobewild @SampleUser • 2 oktober 2016 22:51

Voorwaarden, ook als je ze aanvinkt, dienen aan de wet te voldoen. Er zijn allerlei voorwaarden (in het algemeen) te vinden die gewoon niet mogen; niet wettelijk zijn.
Mensen zijn er nogal slecht in om nadelige gevolgen in de toekomst te zien van handelingen (zoals mentaal gezien automatisch akkoord-vinkjes te zetten) die ze nu verrichten. Met die wetenschap in de hand kan 't alleen de overheid zijn die de mensen tegen zichzelf moet beschermen, door strengere regels in te voeren en meer te controleren en meer op te treden tegen foute voorwaarden. Bescherming van mensen tegen de commerciële uitbuiting (door bedrijven) van hun klanten zie ik als een linkse gedachte.
Wil je inderdaad de burgers laten beschermen door de overheid, dan houdt dat in dat je linkser moet stemmen dan dat je in de praktijk zelf kunt volhouden.

dakathefox @SampleUser • 2 oktober 2016 22:29

When you use Google services to do things like write a message in Gmail or comment on a YouTube video, we store the information you create.

Ja jezus... Hoe wil je anders je e-mail in de outbox terug kunnen vinden als ze het niet mogen opslaan.

Jace / TBL @dakathefox • 3 oktober 2016 00:54

Ze mogen het encrypted opslaan, zodat het alleen client side in mijn browser kan worden decrypted met een sleutel die mijn computer nooit hoeft te verlaten.

sjongenelen @Mocro_Pimp® • 2 oktober 2016 13:32

Het is niet privé als je het aan Google hebt gegeven (netjes volgens de voorwaarden)
dus wat is nu je punt dan?

[Reactie gewijzigd door sjongenelen op 23 juli 2024 22:30]

dakathefox @Mocro_Pimp® • 2 oktober 2016 15:38

In deze (gepubliceerde) dataset gaat het om materiaal dat als "Creative Common" staat gelabeld, maar dat neemt niet weg dat Google bij interne "machine learning" en andere activiteiten geen gebruikt maakt van privé materiaal.

Ik neem aan dat je hier natuurlijk een bron van hebt.

dasiro @dakathefox • 2 oktober 2016 22:19

je zou naïef zijn moest je denken dat ze het niet doen. of denk je dat ze half india hebben ingehuurd om manueel je vakantieplaatjes te beoordelen en het hotel op te zoeken waar je bent geweest om anderen een suggestie te doen dat dit wel eens een goed hotel kan zijn als dat hotel toevallig een online marketing campagne boekt bij google

dakathefox @dasiro • 2 oktober 2016 22:27

Waarom zou Google half India moeten inzetten? Je genereert gewoon een lijst van onderwerpen waar mensen op zoeken: Fiets, Auto, Boom, Taj Mahal. Vervolgens zullen mensen in de zoekresultaten naar Google Afbeeldingen gaan en klikken ze vervolgens een afbeelding aan. Natuurlijk worden afbeeldingen met het daadwerkelijke onderwerp erop vaker aangeklikt dan afbeeldingen zonder het daadwerkelijke onderwerp. Leg er vervolgens een taalfilter overeen (Bicycle, Car, Tree, Taj Mahal) en vergelijk de resultaten opnieuw. Grote kans dat je zo heel snel een patroon kunt ontdekken.

Daar hoef je helemaal geen vakantieplaatjes van Dasiro voor te checken. Want Dasiro maakt misschien 10x een plaatje van het hotelzwembad, zonder naamsvermelding of wat dan ook.

dasiro @dakathefox • 2 oktober 2016 22:52

omdat de kans dat iemand op dat publiek gedeelde plaatje klikt veel kleiner als het nog niet geïndexeerd is en tussen allerlei andere random plaatjes staat.
Als jij in een zoekmachine op fiets zoekt, dan krijg je al op voorhand duizenden plaatjes van fietsen die door een computer zijn geïndexeerd en geen captcha waarin je zelf de fiets moet gaan zoeken. Als jij je album dan 'fietstocht op de veluwe' noemt en automatisch/per ongeluk synced met je google drive, dan herkent hun indexing de locaties op basis van geotags (die je al dan niet bewust hebt opstaan) en is er een grote waarschijnlijkheid dat al die fietsvormige dingen waarschijnlijk fietsen zijn, waarbij je hun algoritme misschien nog wat helpt door te melden op je facebook dat je toch zo tevreden bent van je nieuwe gazelle toen je op de veluwe bent gaan fietsen (terwijl je nog geen enkele foto hebt gedeeld)

Op dit item kan niet meer gereageerd worden.

Google brengt foto- en videodatabases uit voor machine learning

Lees meer

IT-banen

Reacties (37)

Sorteer op:

Weergave: