Microsoft en Intel gaan samenwerken aan een onderzoeksproject waarmee malware wordt omgezet in afbeeldingen om zo patronen beter te herkennen. Op die manier kunnen deep-learningalgoritmes de malware beter bestuderen.
Het project heet Stamina, een acroniem voor static malware-as-image network analysis. Met het project willen Microsoft en Intel codesamples van malware omzetten in grayscaleafbeeldingen. De binaire data van zo'n sample wordt daarbij omgezet in ruwe pixeldata. Die eendimensionale pixelstroom wordt vervolgens omgezet in een tweedimensionale afbeelding.
Het is daarbij belangrijk dat de afbeeldingen eerst kleiner worden gemaakt. Dat is volgens de bedrijven nodig om te voorkomen dat het verwerken van te grote afbeeldingen het proces vertraagt. Na het kleiner maken van de afbeeldingen worden de afbeeldingen aan een deep-learningalgoritme gegeven. Dat is een algoritme dat zelf kan leren van niet gestructureerde libraries.
De wetenschappers voorzagen het algoritme van 2,2 miljoen hashes van malwarebestanden. Twee derde daarvan werd gebruikt om het algoritme te trainen, en de rest om de resultaten te testen en te valideren.
De onderzoekers zeggen dat tijdens een eerste test 99,07 procent van de afbeeldingen als malware werd aangemerkt. In 2,58 procent van de gevallen ging het om false positives. De onderzoekers zeggen dat de resultaten een teken zijn dat deep learning van malware via afbeeldingen een goede methode is om verder te worden bestudeerd.