MIT-platform leert internetaanvallen te detecteren met input experts

Met behulp van machine learning en input van beveiligingsexperts slaagt een platform van MIT en het bedrijf PatternEx erin om 85 procent van de internetaanvallen in een vroeg stadium te detecteren. Bovendien zorgt het systeem voor weinig false positives.

De onderzoekers van MIT en machinelearning-startup PatternEx combineren vier componenten voor hun systeem, dat ze AI2 gedoopt hebben. Het betreft vooral een platform voor analyse van big data. Daarnaast zijn diverse methodes voor detectie geïmplementeerd en is er een mechanisme om feedback van beveiligingsanalisten te verwerken aanwezig. Tenslotte bevat AI2 een module voor supervised learning.

In eerste instantie analyseert het platform data op zoek naar verdachte activiteit op basis van drie verschillende unsupervisedlearning-methodes. Op basis van grote datasets brengt het platform gedrag van entiteiten in kaart voor bepaalde periodes, om afwijkingen te kunnen detecteren. Deze worden als een ranglijst voorgelegd aan menselijke beveiligingsexperts, die aangeven welk gedrag normaal is en welke activiteiten als aanval zoals ddos of datadiefstal te bestempelen zijn.

Die labels met het soort aanval worden vervolgens als feedback ingevoerd bij de supervised learning module. Deze past de oorspronkelijke analysemethode aan op basis van de feedback, waarna het systeem opnieuw data analyseert en een nieuwe lijst van afwijkende activiteiten aan de deskundige voorlegt. Dit proces herhaalt zich enkele keren, waarbij het systeem steeds beter afwijkende activiteit weet te detecteren.

"Je kunt het systeem beschouwen als virtuele analist", zegt Kalyan Veeramachaneni. "Het genereert continu nieuwe modellen dat het kan verfijnen in enkele uren, wat betekent dat het de detectie significant en snel kan verbeteren." Het platform moet de beveiligingsexperts op den duur ontlasten. Waar AI2 in het begin tweehonderd afwijkende evenementen op een dag voorschotelt, daalt dit op termijn naar dertig of veertig.

De onderzoekers hebben het platform getest met een dataset van 3,6 miljard logs. Ze claimen dat op termijn 85 procent van de geteste internetaanvallen met succes gedetecteerd werd en dat het aantal false positives met een factor vijf afnam. De onderzoekers presenteren hun bevindingen in een paper met de titel Training a big data machine to defend.

Helaas!
De video die je probeert te bekijken is niet langer beschikbaar op Tweakers.net.

Door Olaf van Miltenburg

Nieuwscoördinator

18-04-2016 • 17:53

11

Reacties (11)

11
11
9
2
0
2
Wijzig sortering
Dus ze clusteren, leren van clusters, clusteren, leren van clusters, tot convergentie optreedt. Een redelijk standaard aanpak, als je experts tot je beschikking hebt, en het domein verder onvoldoende bekend is. Tof dat het ook hiervoor werkt.
"het aantal false positives met een factor vijf afnam" vergeleken met wat? andere software of over de mens?
Uit de gelinkte paper:
Our platform reduces the number of false positives with
respect to state-of-the-art unsupervised outlier analysis.
85% - en hoe goed doen de experts dat? En 5x minder false positives kan nog steeds 5x te veel zijn.
Experts kunnen het misschien wel 100% goed doen, maar het probleem is dat je experts niet duizenden logs per seconde kan laten beoordelen.
Toch is 5x minder nog altijd beter dan andere oplossingen, en dat kan al een wereld van verschil maken bij mitigation.
Tja wel handig, maar uiteindelijk blijft het een kat en muis spelletje. Het nadeel van learning is dat je zo'n systeem ook domweg kan aanleren dat jouw malafide input legitiem is. Bijvoorbeeld door langzamer en meer 'human' je input te geven. In plaats van dat je alleen een request zou doen, zou je nu ook het antwoord kunnen beantwoorden en zodoende minder of domweg niet opvallen. Ik heb overigens mijn voorbeeld nu even heel simpel gemaakt ;)

Ik blijf er gewoon bij dat het altijd specialistisch werk zal blijven. Sure, je kan de simpele aanvallen nu relatief makkelijk gaan afstoten maar dat gebeurd al veel langer met relatief veel simpelere systemen.

Het enige wat -echt- nut heeft, is een systeem dat van veranderingen leert. Een aanvaller zal altijd zijn methodes veranderen, een 'learning machine' zou juist DAT moeten leren. Niet de aanval zelf. Nu blijf je, hoe jammer ook, altijd een stap te laat.
Ik denk niet dat het de bedoeling is dat jan en alleman input kan geven? :)
Aangezien de log bestanden inpit zijn van een webwinkel betekent het niets anders dan webrequests doen. Als je dit langzaam opbouwt zou hij het als legitiem kunenn gaan zien
En hoe wil je de patroon herkenning te lijf gaan? Regelmatig random requests ertussen gooien? (Je zult genoeg noise moeten creëren om dat te voorkomen)


Al met al lijkt me het uiteindelijk aardig lastig te worden?

[Reactie gewijzigd door perseus93 op 22 juli 2024 14:51]

In principe hoef je alleen maar op te bouwen en het op natuurlijke groei laten lijken

Op dit item kan niet meer gereageerd worden.