MIT-platform leert internetaanvallen te detecteren met input experts

Met behulp van machine learning en input van beveiligingsexperts slaagt een platform van MIT en het bedrijf PatternEx erin om 85 procent van de internetaanvallen in een vroeg stadium te detecteren. Bovendien zorgt het systeem voor weinig false positives.

De onderzoekers van MIT en machinelearning-startup PatternEx combineren vier componenten voor hun systeem, dat ze AI² gedoopt hebben. Het betreft vooral een platform voor analyse van big data. Daarnaast zijn diverse methodes voor detectie geïmplementeerd en is er een mechanisme om feedback van beveiligingsanalisten te verwerken aanwezig. Tenslotte bevat AI² een module voor supervised learning.

In eerste instantie analyseert het platform data op zoek naar verdachte activiteit op basis van drie verschillende unsupervisedlearning-methodes. Op basis van grote datasets brengt het platform gedrag van entiteiten in kaart voor bepaalde periodes, om afwijkingen te kunnen detecteren. Deze worden als een ranglijst voorgelegd aan menselijke beveiligingsexperts, die aangeven welk gedrag normaal is en welke activiteiten als aanval zoals ddos of datadiefstal te bestempelen zijn.

Die labels met het soort aanval worden vervolgens als feedback ingevoerd bij de supervised learning module. Deze past de oorspronkelijke analysemethode aan op basis van de feedback, waarna het systeem opnieuw data analyseert en een nieuwe lijst van afwijkende activiteiten aan de deskundige voorlegt. Dit proces herhaalt zich enkele keren, waarbij het systeem steeds beter afwijkende activiteit weet te detecteren.

"Je kunt het systeem beschouwen als virtuele analist", zegt Kalyan Veeramachaneni. "Het genereert continu nieuwe modellen dat het kan verfijnen in enkele uren, wat betekent dat het de detectie significant en snel kan verbeteren." Het platform moet de beveiligingsexperts op den duur ontlasten. Waar AI² in het begin tweehonderd afwijkende evenementen op een dag voorschotelt, daalt dit op termijn naar dertig of veertig.

De onderzoekers hebben het platform getest met een dataset van 3,6 miljard logs. Ze claimen dat op termijn 85 procent van de geteste internetaanvallen met succes gedetecteerd werd en dat het aantal false positives met een factor vijf afnam. De onderzoekers presenteren hun bevindingen in een paper met de titel Training a big data machine to defend.

Helaas!
De video die je probeert te bekijken is niet langer beschikbaar op Tweakers.net.

IT-banen

Reacties (11)

brunoj 18 april 2016 18:56

Dus ze clusteren, leren van clusters, clusteren, leren van clusters, tot convergentie optreedt. Een redelijk standaard aanpak, als je experts tot je beschikking hebt, en het domein verder onvoldoende bekend is. Tof dat het ook hiervoor werkt.

T-Forever 18 april 2016 18:52

"het aantal false positives met een factor vijf afnam" vergeleken met wat? andere software of over de mens?

M.l. @T-Forever • 18 april 2016 19:02

Uit de gelinkte paper:

Our platform reduces the number of false positives with
respect to state-of-the-art unsupervised outlier analysis.

Nystran 18 april 2016 18:56

85% - en hoe goed doen de experts dat? En 5x minder false positives kan nog steeds 5x te veel zijn.

M.l. @Nystran • 18 april 2016 19:03

Experts kunnen het misschien wel 100% goed doen, maar het probleem is dat je experts niet duizenden logs per seconde kan laten beoordelen.

WhatsappHack

Netwerk en systeembeheer

@Nystran • 19 april 2016 05:29

Toch is 5x minder nog altijd beter dan andere oplossingen, en dat kan al een wereld van verschil maken bij mitigation.

Douweegbertje 18 april 2016 20:37

Tja wel handig, maar uiteindelijk blijft het een kat en muis spelletje. Het nadeel van learning is dat je zo'n systeem ook domweg kan aanleren dat jouw malafide input legitiem is. Bijvoorbeeld door langzamer en meer 'human' je input te geven. In plaats van dat je alleen een request zou doen, zou je nu ook het antwoord kunnen beantwoorden en zodoende minder of domweg niet opvallen. Ik heb overigens mijn voorbeeld nu even heel simpel gemaakt

Ik blijf er gewoon bij dat het altijd specialistisch werk zal blijven. Sure, je kan de simpele aanvallen nu relatief makkelijk gaan afstoten maar dat gebeurd al veel langer met relatief veel simpelere systemen.

Het enige wat -echt- nut heeft, is een systeem dat van veranderingen leert. Een aanvaller zal altijd zijn methodes veranderen, een 'learning machine' zou juist DAT moeten leren. Niet de aanval zelf. Nu blijf je, hoe jammer ook, altijd een stap te laat.

WhatsappHack

Netwerk en systeembeheer

@Douweegbertje • 19 april 2016 05:30

Ik denk niet dat het de bedoeling is dat jan en alleman input kan geven?

Hemera @WhatsappHack • 19 april 2016 07:02

Aangezien de log bestanden inpit zijn van een webwinkel betekent het niets anders dan webrequests doen. Als je dit langzaam opbouwt zou hij het als legitiem kunenn gaan zien

perseus93 @Hemera • 19 april 2016 15:41

En hoe wil je de patroon herkenning te lijf gaan? Regelmatig random requests ertussen gooien? (Je zult genoeg noise moeten creëren om dat te voorkomen)

Al met al lijkt me het uiteindelijk aardig lastig te worden?

[Reactie gewijzigd door perseus93 op 22 juli 2024 14:51]

Hemera 19 april 2016 18:12

In principe hoef je alleen maar op te bouwen en het op natuurlijke groei laten lijken

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (11)

Sorteer op:

Weergave: