Met behulp van machine learning en input van beveiligingsexperts slaagt een platform van MIT en het bedrijf PatternEx erin om 85 procent van de internetaanvallen in een vroeg stadium te detecteren. Bovendien zorgt het systeem voor weinig false positives.
De onderzoekers van MIT en machinelearning-startup PatternEx combineren vier componenten voor hun systeem, dat ze AI2 gedoopt hebben. Het betreft vooral een platform voor analyse van big data. Daarnaast zijn diverse methodes voor detectie geïmplementeerd en is er een mechanisme om feedback van beveiligingsanalisten te verwerken aanwezig. Tenslotte bevat AI2 een module voor supervised learning.
In eerste instantie analyseert het platform data op zoek naar verdachte activiteit op basis van drie verschillende unsupervisedlearning-methodes. Op basis van grote datasets brengt het platform gedrag van entiteiten in kaart voor bepaalde periodes, om afwijkingen te kunnen detecteren. Deze worden als een ranglijst voorgelegd aan menselijke beveiligingsexperts, die aangeven welk gedrag normaal is en welke activiteiten als aanval zoals ddos of datadiefstal te bestempelen zijn.
Die labels met het soort aanval worden vervolgens als feedback ingevoerd bij de supervised learning module. Deze past de oorspronkelijke analysemethode aan op basis van de feedback, waarna het systeem opnieuw data analyseert en een nieuwe lijst van afwijkende activiteiten aan de deskundige voorlegt. Dit proces herhaalt zich enkele keren, waarbij het systeem steeds beter afwijkende activiteit weet te detecteren.
"Je kunt het systeem beschouwen als virtuele analist", zegt Kalyan Veeramachaneni. "Het genereert continu nieuwe modellen dat het kan verfijnen in enkele uren, wat betekent dat het de detectie significant en snel kan verbeteren." Het platform moet de beveiligingsexperts op den duur ontlasten. Waar AI2 in het begin tweehonderd afwijkende evenementen op een dag voorschotelt, daalt dit op termijn naar dertig of veertig.
De onderzoekers hebben het platform getest met een dataset van 3,6 miljard logs. Ze claimen dat op termijn 85 procent van de geteste internetaanvallen met succes gedetecteerd werd en dat het aantal false positives met een factor vijf afnam. De onderzoekers presenteren hun bevindingen in een paper met de titel Training a big data machine to defend.