Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 19 reacties

Facebook heeft software bedoeld voor machine learning beschikbaar gemaakt onder een opensource-licentie. De tools moeten onder andere zelflerende algoritmes voor patroonherkenning in afbeeldingen en video's versnellen.

Op zijn Research-blog maakte Facebook bekend de tools te doneren aan Torch, een framework dat met name door wetenschappers wordt gebruikt en bedoeld is voor machine learning en het opzetten van 'neurale' netwerken. Facebook stelt dat de software die het onder een opensource-licentie beschikbaar maakt de zelflerende capaciteiten van algoritmes aanzienlijk kan versnellen. Onder andere wetenschappers en makers van applicaties zouden baat kunnen hebben bij de tools, aldus Facebook.

Facebook stelt dat zijn tools tot 23 keer sneller kunnen zijn dan wat momenteel is ingebouwd in het Torch-framework. Het gaat dan met name om algoritmes die worden ingezet voor zogenaamde convolutional neural networks, die geïnspireerd zijn op biologische processen om beelden te herkennen: de algoritmes moeten dus patronen in afbeeldingen en video's kunnen achterhalen.

Facebook belooft dat het de tools in de komende tijd nog van updates zal voorzien. De sociale-netwerksite gebruikt dergelijke software waarschijnlijk zelf al om content te analyseren die door gebruikers wordt geplaatst.

Moderatie-faq Wijzig weergave

Reacties (19)

Kan dit ook gebruikt worden om captcha's te herkennen?

Heeft/had google ook niet zo'n project lopen.
Ik kan me herinneren dat ik 8jaar terug ooit een soort van 'spel' kon spelen bij google waar je plaatjes voorgeschoteld kreeg en je dan het zelfde antwoord moest geven als je tegenspeler. Dit werd ook gebruikt voor hun algoritmen.

Edit: link toegevoegd

[Reactie gewijzigd door -Colossalman- op 17 januari 2015 09:07]

natuurlijk kan met captcha's daarmee beter herkennen. De nieuwe captcha's zijn ook meer hoeveel is 1+3, software moet dan eert de vraag herkennen dan het antwoord.
Of wat is de hoofdstad van nederland.
Zulke vragen zijn dan weer moeilijker maar ooit zal software die ook herkennen.
De meeste captchas zijn tegenwoordig slechte foto's van huisnummers... Altijd al afgevraagd hoe dat werkt en waarom dat beter werkt dan een zooi nummers op z'n kop en vervormd weergeven.
Deze captcha's worden niet door google hun software herkend.
Elke keer als jij dus een captcha invult verricht je gratis arbeid, dit werd ook gedaan om boeken te digitaliseren.
Hoezo gratis arbeid? Google weet het antwoord op de captcha al dus hebben ze jouw input helemaal niet nodig om het plaatje te herkennen
In principe heb je daar een goed punt.

Het systeem van reCAPTCHA werkt echter zo dat je altijd twee woorden gepresenteerd krijgt. Vervolgens moet je beide intikken, terwijl Google alleen het eerste woord herkent (het 'control word'). Het tweede woord ('suspicious word') hoef je in principe niet juist over te nemen, want het tweede woord kent het systeem nog niet. Echter, de gemiddelde gebruiker zal ook het tweede woord juist overnemen en daardoor is er de mogelijkheid om woorden die niet door OCR herkent worden, te 'leren' op basis van het reCAPTCHA systeem.

Is een suspicious word eenmaal geleerd, dan wordt die weer als control word gebruikt.
Dat is niet langer het geval hoor.

Google heeft sinds de overname van reCaptcha ook ondermeer enkel huisnummers getoond, en tegenwoordig volstaat een vinkje met "I am not a robot" zelfs voor een deel van de gebruikers ook al.

Google heeft een geavanceerd algoritme opgebouwd dat beslist welke van de 3 (of zelfs meer) je te zien krijgt. Als je een goede "reputatie" hebt, heb je enkel de "I am not a robot", een stapje verder zijn de huisnummers, en het "slechtste" krijgt nog de twee woorden voorgeschoteld.

Je kunt dit allemaal nalezen op de site van reCaptcha natuurlijk...
Overigens is het nu enkel een vinkje aanklikken: nieuws: ReCaptcha schrapt overtypen tekens voor meeste gebruikers

Dit is inmiddels dus live, heb m'n websites hier ook op omgezet. Echt zo gebruiksvriendelijk, en kennelijk kunnen bots er niet mee overweg.
Die weten ze niet (altijd) - de controle gebeurd doordat de massa deze getallen invult. Ze gaan er dan vanuit dat het antwoord wat het vaakst wordt ingevuld de juiste is. Dit samengevat, je moet maar eens googlen als je wilt weten hoe het precies werkt :)
Die huisnummers zijn van reCaptcha, een dienst van Google.

Ik vermoed dat dit huisnummers zijn die getrokken zijn voor Google Streetview. Hiermee kan Google (mede door jouw hulp) bepalen waar een huisnummer zich in de straat bevindt.

Hetzelfde gebeurt met tekst in boeken.
Recaptcha doet dat inderdaad, huisnummers gebruiken. Maar ook pas alleen nadat je de moeilijkere captcha's vaak correct hebt ingevuld. Probeer het maar eens, vul ze maar eens fout in. Dan krijg je vanzelf weer een moeilijkere captcha waarbij je twee woorden over moet typen in plaats van een relatief simpel huisnummer.
Ik neem aan die foto's van Google Streetview komen, en ze die captcha's dus gebruiken om een meer nauwkeurige mapping te komen (maw, als je zoekt op huisnummer op Google Maps, dat je in StreetView direct het juiste huis te zien krijgt).
Hopelijk dringt deze snelheidsverbetering weer door naar onderzoeksinstituten en studenten. Deze gebruiken vaak ook maar wat er beschikbaar is, en dan vaak ook nog eens niet de meest cutting edge producten, gewoon omdat de omloopsnelheid in opleidingen lager ligt.
Ik zie om me heen veel interesse voor Theano (http://deeplearning.net/software/theano/), maar deze kan nog steeds vrij resource intensief zijn.

Pre-training met een Restricted Boltzmann Machine voor het herkennen van MNIST handwritten digits bijvoorbeeld duurt op mijn intel i5 2500k een kwartier per epoch, dus keer 30 is 7.5 uur voor een vrij eenvoudig en laag-dimensionaal probleem. Als het 23 keer sneller kan, zeg ik kom maar op. Eindelijk de kans voor normale stervelingen in plaats van gigantische bedrijven, om met dit soort technieken te experimenteren.

P.S.: @_Thanatos_ hierboven: de software is wel degelijk super nuttig, als je maar weet waar het probleem over gaat. Pagina over convolutional neural nets, met voorbeeldcode in Python: http://deeplearning.net/tutorial/lenet.html#lenet. Dit is trouwens het onderzoek van Yann LeCun, die in 2013 bij Facebook is komen werken en zo'n 20 jaar ervaring heeft in het veld.

[Reactie gewijzigd door Struikrover op 17 januari 2015 20:49]

De software van torch had al libraries voor neurale netwerken die gebruik maakten van CUDA videokaarten. De bestaande libraries waren meestal al een factor 10-30 keer sneller dan wat je op je processor draait. Als ik het goed begrijp doet facebook daar dus weer een stap bovenop door hardware FFT handig te gebruiken. Ten opzichte van wat jij draait zou dus meer dan 100 keer speedup mogelijk moeten zijn.

Linkje naar Torch7 overzicht:
https://github.com/torch/torch7/wiki/Cheatsheet

[Reactie gewijzigd door Eomer op 18 januari 2015 12:27]

De Facebook algoritmes zijn ontwikkeld op een Kepler K40. Dat is een kaart van duizenden euro's. Ik snap wel dat ze die niet zomaar beschikbaar hebben voor studenten die nog bezig zijn met practica zoals cijfer-herkenning.
ze hebben inmiddels aardige collectie beschikbaar gesteld https://code.facebook.com/projects/
benieuwd hoe dit opgepakt gaat worden, zullen we vast terug zien in http://www.ispyconnect.com/ eva
Doen ze wel aardig goed trouwens,ondanks hun informatie zucht.
Uiteraard stellen ze niet de data ter beschikking die met deze software ondertussen aangelegd is. Dus met deze software is het niet direct mogelijk om tepels te herkennen.

Je hebt dus feitelijks niets aan deze software, zonder de data die erbij hoort.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True