Facebook maakt kunstmatige intelligentie voor beeldherkenning open source

Het Facebook Artificial Intelligence Research lab, of FAIR, heeft DeepMask, SharpMask en MultiPathNet open source gemaakt. De drie stukken software kunnen van een foto bepalen wat erin voorkomt, waar die onderdelen zich bevinden en waar precies de omtrek ervan zit.

Facebook maakt de openstelling op donderdag bekend in een uitgebreide blogpost. De drie softwareonderdelen werken samen om een foto onder te verdelen in meerdere geïdentificeerde segmenten. Een demo van de software in actie is ook beschikbaar voor wie interesse heeft. DeepMask maakt van een afbeelding een low-res-versie en bepaalt op basis van de grove vormen wat er te zien valt, SharpMask maakt zoals verwacht de foto weer scherp en wijst daarna de objecten daadwerkelijk aan binnen het frame en tot slot maakt MultiPathNet accurate masks die precies over de objecten heen passen, om aan te geven waar de objecten precies beginnen en eindigen.

DeepMask

Classificatie, detectie, segmentatie beeld

De ai werkt met machine learning, wat betekent dat ze niet geprogrammeerd krijgt hoe ze voorwerpen moet herkennen, maar grote reeksen afbeeldingen voorgeschoteld krijgt en haar dan verteld wordt wat er in die foto's te zien valt. Op die manier 'leert' de ai vanzelf hoe verschillende objecten op een foto eruit kunnen zien en, na genoeg voorbeelden gezien te hebben, kan ze dit werk zelf uitvoeren zonder dat een mens het moet 'verklappen'.

Blinden en slechtzienden zou door de ai verteld kunnen worden wat er op een foto te zien is, los van of de foto een beschrijving heeft en of deze klopt. Op de nog langere termijn zouden blinde gebruikers zelfs onderdelen van de foto aan kunnen raken en te horen kunnen krijgen waar ze precies hun vinger op leggen, alsof het een soort foto-braille is. In de toekomst hoopt Facebook de technologie zodanig verfijnd te hebben dat deze ook losgelaten kan worden op video voor hetzelfde doeleinde. Ook zijn er toepassingen in augmented reality te bedenken.

Het is op zichzelf niet uniek dat Facebook een kijkje in de keuken geeft wat betreft ai-routines. Het bedrijf heeft in het afgelopen jaar over alle drie de onderdelen uitgebreide papers geschreven en voor iedereen gepubliceerd. De motivatie voor het open source maken van de drie routines is gedaan 'met de hoop dat het publiek helpt om de vorderingen op het gebied van machine vision drastisch te versnellen'. De Facebook-ai moet per slot van rekening ook concurreren met Googles TensorFlow-software, dat eveneens open source is. DeepMask en SharpMask staan samen op GitHub en MultiPathNet staat apart.

Door Mark Hendrikman

Redacteur

25-08-2016 • 21:31

17

Lees meer

Reacties (17)

17
16
8
5
1
1
Wijzig sortering
Voor mensen die het interessant vinden: classification wordt gedaan met een 'convolutional neural network' . De segmentation met een 'fully convolutional neural network'. Deze werken met featuremaps en proberen een afbeelding als maar abstracter te weergeven naarmate je dieper in de lagen van deze netwerken zit. Uiteindelijk kan aan bepaalde featuremaps een bepaald object herkend worden.

Yann Lecun, zoals hier boven al is aangegeven de director of AI bij Facebook , is een grote naam in dit veld. Vind zelf het softwarepakket Caffe een van de betere om met deze netwerken te experimenteren.
Misschien nog wat meer informatie:

Als eerste stap wordt door het eerste DNN een soort bounding boxes berekend, waar mogelijke objecten kunnen staan in het plaatje. Dit aan de hand van een lowres Image versie. Dit deel heet deepmask.

Hierna wordt er met een volgend netwerk de precieze contouren getraced van de gevonden objecten van het vorige netwerk, door terug te werken naar de hi-res. Dit stuk heet sharpmask.

Op dit moment in de pipeline hebben de objecten nog geen naam, het geheel heeft nog geen idee van wat het is. Dit is de volgende stap: classificatie van de objecten. Dit is het multipath netwerk, een Region convolutional network.

Hele mooie ontwikkeling dat dit open source wordt. Een volgende/andere stap, waar ook veel onderzoek naar gedaan wordt, is het beschrijven van de plaatjes in natuurlijke taal (hoe hangen objecten samen, etc). Bijvoorbeeld in het werk van Xu (http://arxiv.org/abs/1502.03044).
Als toevoeging zijn hier ook mooie video's van het YouTube kanaal Computerphile over die het uitleggen voor de iets meer leken op dit gebied. Eén daarvan: https://www.youtube.com/watch?v=py5byOOHZM8
Facebook doet dit hoogstwaarschijnlijk ook omdat Yann LeCun (http://yann.lecun.com/) dit eist: hij is de director of A.I. research bij Facebook, een zeer bekende in Machine Learning, en een groot voorstander van Open Source om terug te geven aan de wetenschappelijke community. Dat is tevens heel logisch is, want zonder validatie wordt state of the art onderzoek nu eenmaal een stuk minder serieus genomen, en kun je ook veel moeilijker papers publiceren in vooraanstaande journals.

[Reactie gewijzigd door Struikrover op 23 juli 2024 12:02]

Misschien is het ook een beetje ter promotie, om tegen Google op te kunnen bieden. Zoiets uitbrengen als open source product levert (terecht) een hoop positieve publiciteit op. Nadat Google TensorFlow heeft uitgebracht, kon Facebook eigenlijk niet achterblijven met eigen deeplearning-producten. Het blijven immers concurrenten van elkaar.

In dit verband lijkt het geen toeval dat Facebook ook een eigen Go-bot op basis van deep learning op GitHub heeft gezet. De eerste commit is van 6 juni, dus betrekkelijk kort na de publiciteitsstorm rond Googles AlphaGo.

Dat gezegd hebbende, ben ik het met jou en met Yann LeCun eens dat het sowieso voor de hand ligt om zoiets open source te publiceren. Het was niet mijn bedoeling om af te dingen op de goede wil van (de directie van) Facebook, ik wilde alleen even opmerken dat commerciële motieven ook een rol konden spelen.
De genoemde toepassing voor blinden en zienden is nog maar een kleine greep uit de mogelijkheden die dit soort software biedt. (Bovendien niet de meest aannemelijke: die hebben realtime kennis nodig en neurale netwerken staan nog niet echt bekend om hun snelheid.)

Er is ontzettend veel belang bij computer vision: denk aan interpretatie van medische afbeeldingen (een onderzoeksgebied waarin ik bekend ben), automatische inspectie van apparatuur of zelfs voedsel, indexeren en taggen van afbeeldingen of video en ongetwijfeld nog veel meer. Overigens zijn er ook allerlei minder plezierige toepassingen te verzinnen.

Dit is een van de technieken die nog wel eens van grote invloed zouden kunnen worden.
(Bovendien niet de meest aannemelijke: die hebben realtime kennis nodig en neurale netwerken staan nog niet echt bekend om hun snelheid.)
Uiteraard gaat het dan om pre-computed data van images (zoals er behoorlijk veel beschikbaar zijn op FB.

Is toch een leuke toevoeging voor de foto's van familie, kinders en klein grut.
hebben we nu alles om: The machine (project northern light) te maken?
(als je person of interest kijkt weet je wat ik bedoel)
Nee, maar Samaritan lukt wel.. We hebben onze machine's nog steeds geen goed en fout aangeleerd. Alleen herkenning van 'slagen' en 'falen', ziedaar, samaritan.

@totaalgeenhard, ik kan de serie zeker aanraden. het slot vind ik echter wat minder, had verder uitgewerkt mogen worden (misschien 1 a 2 extra afleveringen)

[Reactie gewijzigd door un1ty op 23 juli 2024 12:02]

Kende ik niet....

Omschrijving is interessant.
http://www.imdb.com/title/tt1839578/

Is het op Netflix te zien of elders in Nederland?
het word nu uitgezonden op tv, maar ik adviseer je om de serie te downloaden en zo te kijken vanaf het begin anders zijn sommige dingen lastig e begrijpen
In België wordt het uitgezonden op 2BE, binnenkort met nieuwe naam Q2.

http://2be.be/person-of-interest

Is een zeer leuke serie 8-) :P
Anoniem: 319464 28 augustus 2016 08:19
Dus deze software kan helemaal zelf denken. Haha a.i. , dat is echt hipsterbenamingen van tegenwoordig.
Het is helemaal niet vreemd om dat AI te noemen. Weak AI is ook AI. Ik heb AI gestudeerd; afgezien van de filosofievakken ging alles daar uitsluitend over weak AI.
Denk niet dat Facebook dat heeft gedaan. Het programma zelf is intelligent genoeg omdat te doen.
Ok, mod mij maar -1, maar ik mis helaas het moment waar we voor grappig konden modden.
Maar de -1's voor deze eerste post klopt geen donder van, het was geen trol, geen flamebait en ook geen beledeging van een andere gebruiker.
Dus hooguit een 0 voor off-topic.

Gevoel voor humor is in deze tijd helaas ver te zoeken.

Op dit item kan niet meer gereageerd worden.