Microsoft heeft een machinelearningmodel ontwikkeld dat aan de hand van een tekstbeschrijving een afbeelding kan genereren. Het model bouwt voort op de varianten voor het herkennen van afbeeldingen en het beschrijven van het afgebeelde.
Microsoft noemt zijn systeem de 'drawing bot' en heeft er een paper aan gewijd. Daaruit is op te maken dat het systeem bestaat uit een zogenaamd generative adversarial network. Dat zijn twee neurale netwerken, waarbij het ene in dit geval de afbeeldingen van bijvoorbeeld een vogel genereert en het andere deze moet onderscheiden van afbeeldingen van daadwerkelijke vogels. Zo moet dit laatste netwerk, de zogenaamde discriminator, ervoor zorgen dat het eerste netwerk steeds betere afbeeldingen genereert. GAN's worden in veel verschillende toepassingen voor ai gebruikt.
Vaak wordt machinelearning ingezet om afbeeldingen te herkennen en bijvoorbeeld bijschriften te genereren. Microsoft combineerde deze techniek, zijn CaptionBot, met de techniek om vragen over de inhoud van afbeeldingen te beantwoorden om zo de drawing bot te ontwikkelen. Het noemt zijn GAN dan ook AttnGAN, oftewel AttentionGAN, omdat het let op bepaalde woorden in de input. Bijvoorbeeld 'klein', 'vogel', 'geel' en 'kort' bij de input 'een kleine gele vogel met een korte snavel'. Het breekt de input in kleine stukken en verbindt die met bepaalde gedeeltes van de afbeelding.
Daarbij voegt het netwerk vaak eigen elementen toe die niet in de input voorkomen, zo merkt Microsoft op. Bij een vogel beeldt het bijvoorbeeld vrijwel altijd een tak af, omdat de trainingsafbeeldingen veel vogels op takken bevatten. Uit de paper blijkt dat het genereren van vogels aardig lukt, maar dat ongewone inputs als 'een rode dubbeldekkerbus die zweeft boven een meer' minder herkenbare resultaten opleveren. De aanpak van Microsoft zou alsnog 'drie keer betere resultaten' opleveren dan soortgelijke systemen.
Volgens het Redmondse bedrijf zijn praktische toepassingen denkbaar, bijvoorbeeld als assistentietool voor ontwerpers. Op termijn is het ook denkbaar dat een ai op deze manier een animatiefilm tot stand brengt.