Microsoft maakt machinelearningmodel dat beeld genereert aan de hand van tekst

Microsoft heeft een machinelearningmodel ontwikkeld dat aan de hand van een tekstbeschrijving een afbeelding kan genereren. Het model bouwt voort op de varianten voor het herkennen van afbeeldingen en het beschrijven van het afgebeelde.

Microsoft noemt zijn systeem de 'drawing bot' en heeft er een paper aan gewijd. Daaruit is op te maken dat het systeem bestaat uit een zogenaamd generative adversarial network. Dat zijn twee neurale netwerken, waarbij het ene in dit geval de afbeeldingen van bijvoorbeeld een vogel genereert en het andere deze moet onderscheiden van afbeeldingen van daadwerkelijke vogels. Zo moet dit laatste netwerk, de zogenaamde discriminator, ervoor zorgen dat het eerste netwerk steeds betere afbeeldingen genereert. GAN's worden in veel verschillende toepassingen voor ai gebruikt.

Microsoft-gan vogels — Gegenereerde vogels

Vaak wordt machinelearning ingezet om afbeeldingen te herkennen en bijvoorbeeld bijschriften te genereren. Microsoft combineerde deze techniek, zijn CaptionBot, met de techniek om vragen over de inhoud van afbeeldingen te beantwoorden om zo de drawing bot te ontwikkelen. Het noemt zijn GAN dan ook AttnGAN, oftewel AttentionGAN, omdat het let op bepaalde woorden in de input. Bijvoorbeeld 'klein', 'vogel', 'geel' en 'kort' bij de input 'een kleine gele vogel met een korte snavel'. Het breekt de input in kleine stukken en verbindt die met bepaalde gedeeltes van de afbeelding.

Daarbij voegt het netwerk vaak eigen elementen toe die niet in de input voorkomen, zo merkt Microsoft op. Bij een vogel beeldt het bijvoorbeeld vrijwel altijd een tak af, omdat de trainingsafbeeldingen veel vogels op takken bevatten. Uit de paper blijkt dat het genereren van vogels aardig lukt, maar dat ongewone inputs als 'een rode dubbeldekkerbus die zweeft boven een meer' minder herkenbare resultaten opleveren. De aanpak van Microsoft zou alsnog 'drie keer betere resultaten' opleveren dan soortgelijke systemen.

Volgens het Redmondse bedrijf zijn praktische toepassingen denkbaar, bijvoorbeeld als assistentietool voor ontwerpers. Op termijn is het ook denkbaar dat een ai op deze manier een animatiefilm tot stand brengt.

IT-banen

Reacties (49)

bosbeetle 19 januari 2018 13:40

Zo blijkt maar weer dat deze vormen van "learning" vooral leren van hun input. Als je een algortihme allemaal vulkanen laat zien kan deze goed een vulkaan genereren. Maar als je een algortihme die vooral pelikanen gezien heeft een mus wilt laten tekenen met het commando "kleine bruine vogel" dan zal het toch eerder een kleine bruine pelikaan worden.

Daarom zie het ook mis gaan bij dingen die het algoritme nog niet gezien heeft. Wie weet dat we in de toekomst op ideeën komen hoe we beter kunnen gecombineerde zaken kunnen genereren. Of zelfs het algorithme combinaties te laten bedenken.

Vooralsnog kunnen computers die nog nooit een struisvogel hebben gezien niet zeggen dat het een vogel is, terwijl dat een gemiddelde peuter wel lukt. Er is nog veel te behalen

hiostu @bosbeetle • 19 januari 2018 13:53

Dat is toch niet anders voor mensen. Als je iemand vraagt om een vogel te tekenen en die persoon heeft heel zijn leven alleen eenden gezien, dan zal die persoon een eend tekenen. Pas als iemand veel verschillende vogels heeft gezien, zal deze zelf op een creatieve manier verschillende eigenschappen gaan combineren om een andere vogel te tekenen. Maar je leert als mens ook pas na veel dingen gezien te hebben om zelf nieuwe dingen te maken.

Als ik kijk naar mijn dochtertje, die tekent ook voornamelijk dingen na die zij ooit zo heeft gezien en wat variaties daarop. En dan nog natuurlijk in een versimpelde vorm.

bosbeetle @hiostu • 19 januari 2018 13:56

Maar toch zal jouw dochtertje bij het zien van een compleet nieuwe vogel, vogel zeggen. Ik vraag me af of herkenningsalgoritmes dat ook al kunnen.

Het teken algoritme lijkt me inderdaad logischerwijs niet een compleet ander type vogel tekenen.

hiostu @bosbeetle • 19 januari 2018 13:59

Een klein kind hoeft dat helemaal niet zo maar te zien. Een kind die voor het eerst een eend ziet zwemmen, hoeft dit helemaal niet te identificeren als een vogel. Het heeft namelijk niet de context dat het vliegt door de lucht. Voor een kind is een beest dat door de lucht vliegt ook een vogel. Een vleermuis kan een kind ook een vogel noemen.

bosbeetle @hiostu • 19 januari 2018 14:16

Ik heb zelf geen kinderen en nooit heel specifiek opgelet hoe dat gaat. Kan best zijn dat ze een lange periode hebben dat ze elke vogel een kip noemen, maar het concept vogel komt er toch een keer in. Zou dat bij zo'n algoritme ook lukken. Wij zouden bijvoorbeeld ook zeggen bij het zien van een soort vreemde alien met veren een snavel dat het een soort "vreemde vogel" is. Zou een algorithme dat ook kunnen?

misterdutch @bosbeetle • 19 januari 2018 14:37

Look at all those chickens! https://youtu.be/08wUT1ruaYU

Mutatie @misterdutch • 19 januari 2018 18:58

Alleen werd ze wel ingefluisterd om dat te zeggen

Verwijderd @bosbeetle • 20 januari 2018 14:45

Zoek eens op Genie Wiley, een kind dat vanaf haar geboorte praktisch niks geleerd heeft. Ook geen taal... Het is echt verschrikkelijk voor dat kind, maar het bevestigd heel veel theorieen over hoe onze hersens werken.
https://www.youtube.com/watch?v=gvSMgi23F3o

Concept heet Feral Children. Laten we zeggen, als klein kind zijn je hersens vloeibaar en kan je heel veel leren. Als je ouder aan het worden bent beginnen je hersens zich vast te zetten in een patroon. Je kunt dan ook minder goed leren, echter is dit deel van evolutie. Omdat je dan sommige dingen zo vaak bent tegengekomen dat het vastzetten in je hersens prima werkt in de evolutie. Echter, kinderen zijn zeer vatbaar voor hersenspoelen en ideeen inprenten. De meeste mensen geloven bijvoorbeeld in God omdat dat praktisch in hun hersens erin gestampt is en dus door repetitie als waarheid wordt aangenomen.

Je moet een kind dus eigenlijk altijd als eerste leren, neem iets niet zomaar aan. Onderzoek zelf! Ga zelf conclusie trekken uit onderzoek. Eigenlijk wil je een kind als eerste leren hoe wetenschap eigenlijk werkt. Door deze methodes te leren kunnen ze zelf veel beter leren dan ze gewoon "meningen" van de ouders erin stampen.

Zo kan ik dus veel dingen herinneren vroeger die mijn ouders gehoord hebben van hun ouders, welke door mijn eigen onderzoek dus compleet niet waar zijn. Vaak van die simpele weetjes, wat eigenlijk broodje aap verhalen zijn. Maar toen ik jong was geloofde ik ten zeerste dat het allemaal echt waar was. Want de enige referentie kaders zijn je ouders.

Daarom schoppen kinderen van betere families het vaak verder omdat ze leren van hun ouders om op die manier in het leven te staan. Kom je uit een slechte familie met slechte gewoontes om bijvoorbeeld gemakkelijk schulden aan te gaan, en niet de motivatie mee te krijgen om te studeren en hard je best te doen.. daarnaast is je vrienden groep ook erg belangrijk. Zijn dat kansloze kerels? Dan grote kans dat jij dat ook zult worden.

We zijn levende kopieer machines in eigen omgeving. Door het internet is deze omgeving gelukkig veel breder geworden. Vroeger ging je dezelfde baan doen als je pa, ja dat was gewoonte en je doet het maar. Maar je had verder geen andere info omdat je ouders dat ook zo deden...

Door internet en informatie technologie kunnen we gelukkig veel beter onze eigen conclusies trekken, maar je hebt daarnaast ook het gevaar van het niet goed kunnen analyseren van informatie van het internet. Dat is ook een leerproces met vallen en opstaan.

[Reactie gewijzigd door Verwijderd op 23 juli 2024 15:54]

hiostu @bosbeetle • 19 januari 2018 15:14

Probeer het eens in de CaptionBot en kijken wat het neuralenetwerk er van maakt

wankel @hiostu • 19 januari 2018 16:50

Een vleermuis kan een kind ook een vogel noemen.

En omgekeerd, een kind kan een vleermuis ook "een vogel" noemen.

Sevenanths @hiostu • 20 januari 2018 09:12

Taalkundig noemen we dit de prototypetheorie. In het kort stop je mentaal verschillende woorden in eenzelfde "hokje" naar analogie met andere items. Niet alle vogels hebben (voor het blote oog - wetenschappelijk spreek ik me niet uit) een gemeenschappelijk kenmerk, maar we herkennen ze toch allemaal als vogel. Sommige vogels zijn exemplarischer dan andere, wat, zoals hierboven al gezegd werd, vooral met betrekking tot frequentie wordt beïnvloed. Het hokje heeft dus een sterk doorwegende kern met daarrond de perifere gevallen. Erg interessant!

Verwijderd @bosbeetle • 19 januari 2018 15:28

Maar toch zal jouw dochtertje bij het zien van een compleet nieuwe vogel, vogel zeggen. Ik vraag me af of herkenningsalgoritmes dat ook al kunnen.

Zeker wel! Als jij 'vogel' intypt krijg je voor een deel resultaten waar Google het beeld als een vogel heeft gedetermineerd. Al ongeveer 3 jaar zelfs.

Verwijderd @Verwijderd • 19 januari 2018 15:46

De grap is dat niemand weet in hoeverre deze aanname überhaupt waar is, Google heeft al bijna een decennia lang een 'game' waarbij je moet aangeven wat je ziet op fotos, tegenwoordig bestaat deze game nog steeds maar is het geworden 'zie je x op deze foto?'

https://crowdsource.google.com/imagelabeler/category

Als jij vogel intypt komen veel fotos naar voren waarvan mensen een paar jaar geleden handmatig hebben gezegd 'ik zie een vogel', na x aantal keer zon antwoord op een plaatje kan Google daaruit opmaken dat het een vogel is, hoeft geen image classifier aan te pas te komen.

Verwijderd @bosbeetle • 19 januari 2018 14:24

Als je kijkt naar hoeveel mensen Walvissen en Dolfijnen als "vissen" zien

Verwijderd @Verwijderd • 20 januari 2018 04:38

Mooi voorbeeld. Visueel lijken ze dan ook meer op vissen dan op de meeste zoogdieren. Hier heb je dus best verfijnde beeldherkenning voor nodig om ze te onderscheiden van vissen. Je kunt niet simpelweg op de algemene vorm afgaan, je moet ook kijken naar specifieke kenmerken zoals het ontbreken van schubben, aanwezigheid van een spuitgat en de horizontale staart. En dan bestaat nog steeds een grote kans dat een AI (of zelfs een mens) die veel foto's van haaien heeft gezien een walvis of dolfijn incorrect als haai identificeert vanwege het feit dat de schubben van een haai nauwelijks als dusdanig te herkennen zijn vanaf een foto van het hele dier.

Voorts is het ook nog zo dat sommige mensen niet weten dat het zoogdieren zijn en ze daadwerkelijk denken dat het vissen zijn. Dat geeft dus aan dat je een redelijke dosis algemene kennis nodig hebt om dit soort zaken correct te kunnen identificeren/classificeren.

Wat ik me afvraag is hoe goed is een AI (of zelfs een mens) in het onderscheiden van echt heel sterk op elkaar lijkende beelden zoals bv paard vs. ezel?

Verwijderd @bosbeetle • 19 januari 2018 14:51

Dat is dus precies wat google al doet en heet image classification
Misschien nog niet zo goed als de mens maar het kan dus wel.

hiostu @Verwijderd • 19 januari 2018 15:13

Microsoft heeft al een hele tijd de CaptionBot die beschrijft wat hij in een afbeelding ziet.

CaptionBot en de afgeleide SeeingAI app

Dvd123 @hiostu • 19 januari 2018 14:19

Het verschil is dat je dit systeem enorme bergen informatie kan voeden. Zelfs al kan dit algoritme alleen dingen die hij eerder gezien heeft terug geven heeft het wel de mogelijkheid om een heel groot aantal dingen te zien. Dat zal genoeg zijn voor heel wat toepassingen.

mjz2cool @bosbeetle • 19 januari 2018 15:10

het is ook "learning", ik denk dat als je dat algoritme genoeg verschillende soorten vogels laat zien dat deze dan bij "kleine bruine vogel" wel verschillende vogels laat zien en geen pelikaan

Dorstlesser @bosbeetle • 19 januari 2018 18:49

Daarom zie het ook mis gaan bij dingen die het algoritme nog niet gezien heeft. Wie weet dat we in de toekomst op ideeën komen hoe we beter kunnen gecombineerde zaken kunnen genereren. Of zelfs het algorithme combinaties te laten bedenken.

Vijf jaar geleden was dit soort werk nog volslagen toekomstmuziek. Inderdaad kunnen machines nog niet generaliseren zoals wij dat kunnen, maar wat ze wel kunnen, kunnen ze vaak snel vele malen beter dan dat wij het kunnen. Op een dag publiceert er één groep een paper waarin ze een machine beschrijven die wél een struisvogel herkent ookal heeft het er nog nooit één gezien. Een maand later kunnen alle machines dat dan, want je kan de architectuur kopiëren. Wat dit soort voorspellingen betreft haalt de werkelijkheid meestal zelfs de optimisten in, laat staan de pessimisten, dus zo lang zal het niet meer duren.

Verwijderd @bosbeetle • 21 januari 2018 16:15

Levende wezens hebben toch een andere manier van leren. Als een vogel - bijvoorbeeld een wevervogel - voor het eerst een nest bouwt, kan het niet uit ervaring geleerd hebben, en kennis zit niet in genen. Machines die op basis van 'AI learning' zullen dit dus nooit kunnen... Iets weten te doen zonder dat het geleerd is en zonder dat het ingebouwd is.

Echte intelligentie is meer dan een mechanisme. Gelukkig.

Verwijderd @clavix • 19 januari 2018 15:06

Klopt het dat jij ook bitcoins hebt?

Verwijderd @clavix • 19 januari 2018 15:34

Waarom zou je daar in godsnaam blockchain technologie voor gebruiken? Een blockchain is nuttig om een beperkte hoeveelheid data correct en controleerbaar te houden. Om daar alles we als mensheid weten over vogels in op te slaan heeft gewoon geen voordelen.

clavix @Verwijderd • 20 januari 2018 13:36

Dat krijg je als je naar een jong stuk technologie bekijkt met de gedachten van nu. Het zal net als het internet evolueren naar iets sneller beter en groter. En je heb mijn verhaal kennelijk niet begrepen. Jij spreekt over mensheid ik over A.I.. Wij als mensheid zullen echt niet de controle houden over A.I. De beperkingen van nu zijn slechts een hobbeltje op weg naar een krachtig stuk technologie.

De kracht van blockchain heeft in eerste instantie niets te maken met de geldgierige gokkende speculanten die hier rijk mee hopen te worden. Dat is mens eigen om eerst te denken aan financieel gewin. De pure technologie erachter maakt het mogelijk om een "hive" structuur te maken. Met nodes die elkaar controleren op validiteit van de gegevens maar toch onafhankelijk van elkaar kunnen opereren en zo een backbone kunnen vormen voor onderliggende systemen.

Hier heb je het van mij gehoord. Herinner dit bericht in de toekomst wanneer je het tegenkomt.

S0epkip @clavix • 19 januari 2018 21:19

Waar kan ik de ICO van dit nieuwe concept vinden?

Liberteque 19 januari 2018 13:31

A grey alien is climbing over the fence of Area 51

Wie weet komt er iets boven drijven

Munters @Liberteque • 19 januari 2018 14:00

Ik zie mogelijkheden voor een zekere president:
- biggest inaugural crowd ever
- iq test result telling i'm a genius
- a much bigger and much powerfull nuclear button

Verwijderd @Munters • 20 januari 2018 04:45

Die "president" is het beste argument voor de monarchie.

Verwijderd @Verwijderd • 21 januari 2018 16:16

Tenzij je een Trump als levenslange koning krijgt.

Verwijderd @Liberteque • 19 januari 2018 14:52

Alleen als je alu hoedje op zet.

Liberteque @Verwijderd • 19 januari 2018 16:38

Alu hoedjes helpen niet, je moet ook gewoon tin folie hoedjes gebruiken zoals het van oorsprong is ontworpen, maar goed Hollandsche Zuunigheid he? Aluminium folie is lekker goedkoop, waar tin folie 140 Euro kost voor een rolletje van 250 gram. Ik zeg schijnveiligheid!

efari @Liberteque • 19 januari 2018 21:23

Haha. Lekker meta. I love it!
Conspiracy theorie over tinfoil hats xD prachtig. Die ga ik onthouden 👍🏻

[Reactie gewijzigd door efari op 23 juli 2024 15:54]

Verwijderd 19 januari 2018 14:30

AI wordt de dood van het internet.
Als ze vinden dat fake news nu al een probleem is wacht dan maar tot miljoenen AI's los worden gelaten op social media.

Verwijderd @Verwijderd • 21 januari 2018 16:18

Er is al een leger aan 'kunstmatige' intelligentie op Twitter.

S-Face 19 januari 2018 13:31

Om naar aanleiding van deze prachtige zwevende 'bus' nou meteen de gaan fantaseren over een animatiefilm maken ermee lijkt me een beetje te vroeg juichen..

Een verhaal over een kat met een half hoofd valt vast ook niet echt in de smaak bij de doelgroep.

[Reactie gewijzigd door S-Face op 23 juli 2024 15:54]

Tikkels @S-Face • 19 januari 2018 13:43

Je mist het woord 'op termijn'. Techniek gaat vooruit, en daarom is de stelling 'op termijn is het denkbaar dat' gewoon correct. Ook al lukt de zwevende bus boven het meer nooit (wat ik niet waarschijnlijk acht), dan maken ze mooi een animatie film van vogels!

Coole techniek!

Mic2000 @S-Face • 19 januari 2018 17:43

Een verhaal over een kat met een half hoofd valt vast ook niet echt in de smaak bij de doelgroep.

Klinkt wel als een spannend verhaal voor andere doelgroepen

DigitalExorcist 20 januari 2018 08:25

Élk gedrag van mensen is aangeleerd. Of door je omgeving, of door studie - dus AI zie ik diezelfde kant op gaan. Maar dan met een haast oneindige bron van informatie en referentiemateriaal - het internet.

Alles wat je doet en denkt komt voor uit een algoritme en is dus terug te voeren naar een slim algoritme.

Proxxima 19 januari 2018 13:27

Ik moest bij de titel als eerste denken aan mensen welke een compositietekening moeten maken voor politieonderzoek etc... Het zou een handige tool kunnen zijn. Maar zover is het dus nog niet

Munters @totaalgeenhard • 19 januari 2018 14:01

Kijk maar eens goed naar de vogeltjes. Met name die aan de rechterkant zijn echt geen foto's. Zou niet best zijn.

mjz2cool @totaalgeenhard • 19 januari 2018 15:15

nee, het is een machinelearningmodel dat beeld genereert aan de hand van tekst, precies zoals de titel zegt. het zijn geen bestaande foto's. misschien dat ze wel eerst bestaande foto's hebben ingevoerd, maar wat er uit komt zijn gegenereerde plaatjes.

hiostu @totaalgeenhard • 19 januari 2018 13:57

Dan heb je het artikel niet goed gelezen. Het betreft hier een research paper en niet een dienst die je uit kunt proberen. Tevens wordt de omschrijving gebruikt om daarna een plaatje te genereren, niet te zoeken naar bestaande afbeeldingen.

bosbeetle @nl-chrs • 19 januari 2018 13:51

Volgensmij is dit wel degelijk het genereren van nieuwe content. Ze zetten twee machine learning algoritmes tegenover elkaar de ene die kan plaatjes maken de andere kan plaatjes herkennen. De een geeft feedback op de andere waardoor de de beelden steeds beter lijken op wat de herkenner heeft leren herkennen.

Het zijn dus geen bestaande plaatjes uit een database. Kijk maar eens naar het vijfde plaatje van de blauw rode vogel, de kop daarvan is complete onzin. Ook bij de bovenste rij vogels is het hoofd vrij dubieus.

[Reactie gewijzigd door bosbeetle op 23 juli 2024 15:54]

Verwijderd @totaalgeenhard • 19 januari 2018 15:40

totaalgeenhard, heb je werkelijk de beelden bekeken? Dan zie je duidelijk dat het algoritme delen van andere beelden gebruikt (samen met wat lijkt op filters) om een nieuw beeld te maken. Dat 'maken' nemen we ook wel genereren.

Als jij dat als een beeld zoekmachine ziet moet je de tekst gewoon nog een rustig lezen en de gegenereerde voorbeelden bekijken. Dan zie je snel genoeg dat het geen clickbait van Tweakers was. In tegenstelling, het is een bijzonder interessante kant van Machine Learning dat makkelijk te begrijpen is voor de meeste mensen. En dat, zoals jij bewijst, is absoluut niet voor de hand liggend!

Op dit item kan niet meer gereageerd worden.

Microsoft maakt machinelearningmodel dat beeld genereert aan de hand van tekst

Lees meer

Wat is werkelijkheid?

Neurale netwerken

IT-banen

Reacties (49)

Lees meer

Wat is werkelijkheid?

Neurale netwerken

IT-banen

Reacties (49)

Sorteer op:

Weergave: