Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 54 reacties

Een groep informatici van de universiteit van Californië en het Internationale Computer Science Institute in Berkeley hebben een methode ontwikkeld die het eenvoudiger zou maken om spam te herkennen en te blokkeren.

De onderzoekers maken gebruik van een eigenschap van spam die door botnets verstuurd wordt: om spamfilters te omzeilen, brengt de bot-software steeds kleine veranderingen in de verzonden spamberichten aan. Die veranderingen, zoals veranderende onderwerp-regels, zijn vastgelegd in een template waarmee de botnets hun spamberichten genereren. De Californiërs lieten botnet-software  duizend mailtjes genereren. Deze berichten werden door de onderzoekers geanalyseerd en zo waren zij in staat de template voor de spam te achterhalen.

De reverse-engineered template kon vervolgens gebruikt worden om spamfilters te instrueren de ongewenste berichten die op basis van de template werden gegenereerd, tegen te houden. Volgens de onderzoekers resulteerde dat in een nauwkeurigheidsgraad van honderd procent: op een monster van een miljoen mailtjes passeerde geen enkel spammailtje het filter, terwijl zich eveneens geen enkele false positive voordeed.

De methode zou gebruikt kunnen worden om spam van botnets te analyseren, de gebruikte template te reverse-engineeren en daarmee spamfilters aan te passen om de mailtjes tegen te houden. Hoewel de methode erg nauwkeurig is, heeft deze ook een duidelijk nadeel: om de template te kunnen construeren, moet de spam gedeeltelijk al verspreid zijn. De onderzoekers zullen hun bevindingen tijdens het Network and Distributed System Security Symposium in maart presenteren.

Lees meer over

Moderatie-faq Wijzig weergave

Reacties (54)

Dus zodra de botnets andere software gaan gebruiken met een andere template dan heb je hier al niks meer aan. Het spreekwoordelijke dweilen met de kraan aan..
Het lijkt me dat het dubbelop is. Een klassiek spamfilter kan de spam afvangen, wat je kunt gebruiken voor het analyseren van de template. Van deze analyse maak je een verbeterde spamfilter.
zo bouwe je dus een template op van spam die al gevonden wordt door je oude spamfilter. beetje nutteloos lijkt me.

in principe bouw je een spamfilter die 100% filterd wat de oude spamfilter ook filterden :S of begrijp ik het principe verkeerd ?

je zou een honypot voor spamberichten moeten maken. en die laten analyseren

[Reactie gewijzigd door Proxx op 26 januari 2010 13:15]

Dat is een beetje kort door de bocht:

Door het analyseren en reverse-engineering van een template plak je een spamdefinitie op een groep mails die best groter kan zijn dan diegene die al in je spambox zijn terecht gekomen.

Bovendien zal dit vooral ook gaan werken wanneer iemand (voor het eerst) een mail als zijnde spam bestempelt. In plaats van dan enkel op die mail te filteren, zou je (mits een groot genoeg sample) op de hele verzameling spam afkomstig van dat botnet kunnen filteren.

Best wel een goede vooruitgang. ok, je voorkomt inderdaad nog steeds niet het verspreiden van spam 100%, maar je stopt het normaal gezien wel snel, en volledig.

[Reactie gewijzigd door SteroiD op 27 januari 2010 00:51]

Ik begrijp jullie niet...

Wie zegt er dat dit client side moet gebeuren?

Als een smtp server deze techniek toepast wordt wel het verspreiden van deze mails tegengegaan.

Dan denk ik er direct een "shared" list bij. Waar mailservers zich kunnen op baseren en aanvullen.

Ook wordt het template dus softwarematig gegenereerd als ik het goed begrijp.

[Reactie gewijzigd door deadeyes op 27 januari 2010 10:59]

Ja, dat begrijp ik dus ook totaal niet. Zulke informatie wil je toch niet uit de doeken doen? Nu zal iedere botnet-"beheerder" flink wat geld investeren om een nieuw algoritme te fabriceren. Natuurlijk zal dit tijd kosten en zullen vele kleinere spelers gewoon door blijven gaan, maar je kan het probleem (voor hen that is) nu al mijlenver aan zien komen.

edit: Wat er vaak, volgens mij, ook achter lijkt te zitten zijn commerciele belangen. Net als de onderzoekers die de OV-chipkaart continue volledig uit de doeken deden, allemaal leuk en aardig maar ik kan mij niet voorstellen dat ze daarmee niet juist aandacht creeeren en interesse wekken van bedrijven. Onderzoek moet uiteindelijk ook weer betaald worden, net als in mijn vakgebied, maar er zijn maar weinig fondsen die je kan aanspreken als het gaat om IT volgens mij. Bovendien zullen de echte hackers altijd wel een oplossing vinden, of het nu algemeen bekend is of niet en dan lijkt mij dat ze het gewoon helemaal zelf mogen uitzoeken.

[Reactie gewijzigd door vgroenewold op 26 januari 2010 12:54]

Er zit zoveel geld in het hele spam-gebeuren dat ook dit constant in ontwikkeling is hoor, beetje logisch nadenken en je kan al voorzien dat dit gaat gebeuren. Het lijkt mij echter dat de onderzoekers de grondslag hebben gelegd voor een zichzelf aanpassend filter algoritme.

Als ik een beetje mag fantaseren:
Je hebt een bestaand algoritme, spammers maken een nieuwe, echter - het moet leesbaar blijven, van cialis naar <|/\L I S, je brein pikt het toch meteen op. Elke aanpassing die de spambot genereert, kan door user submits (en dat gebeurt echt wel) worden opgepakt. De kleine aanpassing wordt geassimileerd en vergeleken. Op deze manier kan, net als een potje schaken, vooruit worden gedacht. Je kan je natuurlijk voorstellen dat er hier false positives uit voort kunnen komen. Deze corrigeer je, daar "leert" het algoritme ook van.

Uiteindelijk groeit het uit tot een volwaardig en enorm krachtig filter wat de potentie zich constant positief in kracht te groeien.

Ik ben iig heel erg benieuwd naar de ontwikkeling.
De Californiërs lieten botnet-software duizend mailtjes genereren
Ok, dus je hebt de botnet software al in bezit...
... en als die verandert dan moet de analyse weer opnieuw gedaan worden...
... dus waarom dan niet gewoon het template rechtstreeks uit die software peuteren in plaats van eerst die hele spam-generatie-en-analyse stap uit te voeren?

Is het het idee dat zometeen vanzelf de template uit de berichten wordt ontdekt? Wat als verschillende spam software door elkaar heen mailtjes stuurt?
Als je de source code van het programma niet hebt kun je niet even die template bekijken.
Waarschijnlijk was het dus gewoon het simpelst om die software mailtjes te laten maken en daar uit de template af te leiden.
Elke vorm van beveiliging is per definitie gebaseerd op het voorkomen van een herhaling van gebeurtenissen die al hebben plaatsgevonden.
Dus ja, het is een vorm van dweilen met de kraan open. Dat is helaas 'as good as it gets'.
Mwoa. PGP signen van mail kan het ook oplossen, zonder met de kraan open te hoeven dweilen. SMTP als mail protocol sucked eigenlijk gewoon, dus misschien daar iets aan doen?

*kuch* Wave mail?
Ja dat klopt, maar dat doen we al jaren, ook met virussen.
Men kan het pas tegengaan als uitgevonden is hoe iets werkt, er zullen altijd een paar gebruikers "de pineut" moeten zijn voordat er een oplossing is, maar als daarna miljoenen mails gestopt kunnen worden.... GOED BEZIG _/-\o_
Dus zodra de botnets andere software gaan gebruiken met een andere template dan heb je hier al niks meer aan. Het spreekwoordelijke dweilen met de kraan aan..
Als ik het artikel goed begrijp, dan zou zo'n nieuw template ook herkend worden. Het kan een paar mailtjes kosten voordat het lukt om de nieuwe template te "kraken", maar het gebeurd in elk geval automagisch.
En tja, dweilen met de kraan open blijft het toch wel, maar net wat rdfeij hieronder zegt, het lijkt wel wat op een virusscanner: die moet je ook constant updaten. Met het verschil dat hier de scanner voor een groot deel zelf zorgt voor het opstellen van nieuwe signature-bestanden.
Nee, de template moet ook kunnen 'voorspellen' wat toekomstige veranderingen gaan zijn. Op die manier kan je tijdig de spamfilters updaten en de e-mail bij binnenkomst tegenhouden.

Omdat de template leert van verspreide spam-mail moet er dus eerst een bepaalde hoeveelheid spam verzonden worden. Als dat template een soort voortschrijdend inzicht heeft, ofwel zelflerend is, kun je na verloop van tijd steeds sneller voorspellen hoe een bepaald botnet te werk gaat, en de spam dus steeds eerder en effectiever tegengaan.
Hoe moeilijk zal het zijn voor spam verspreiders om een nieuwe template te maken of zelfs meerdere. Of 1 met ingewikkelde patroon.
net zo moeilijk als het weer terug blokkeren ervan, - het beste wat je zou moeten doen is een bericht aan de mailserver kunnen sturen om het bericht als spam te markeren... de mailserver zou dan vervolgens een batch van die mail naar sendyourspam@2us.org laten sturen, als ook maar een paar veel gebruikte mailservers die gaan ondersteunen heb je binnen de korste keren steeds genoeg data om ze voor te blijven... eigenlijk een soort google in het groot....
Het probleem daarbij is dat een bericht dat voor jou spam is, dat voor mij niet per-sé hoeft te zijn.
Je zou maar op zoek zijn naar een goedkope leverancier van VIAGRA :Y
Probeer het eens bij de huisarts. Grote kans dat je in een aanvullend pakket ook nog eens een vergoeding gaat krijgen. Dan hoeven wij niet te lijden onder deze crimininele activiteiten.
Het verhaal gaat dat werknemers van Pfizer (patenthouder van Viagra) de grootste moeite hebben om te communiceren met artsen, apotheken, autoriteiten en dergelijke - alle email wordt als spam beoordeeld, referenties naar hun sites wordt als spam beoordeeld, enz.

Dan kan je zeggen dat ze maar met hun huisarts moeten praten, maar ik zie niet wat die ermee te maken heeft.
Dat lijkt me toch een aardige uitdaging.

Een zin voor het onderwerp, wat het artikel als voorbeeld gebruikt, moet voldoende afwijken van de andere zinnen en tegelijk ook leesbaar blijven én mensen verleiden het mailtje te openen.

Een onderwerp als: "idsaf fidsf jdfidg sdfidsjfsaods sd !" gaat dus niet werken. Bovendien is dat ook al snel te herkennen.

Het aantal mogelijkheden is dus maar beperkt.
Totdat de spammers overstappen op een vorm van dynamisch veranderende templates o.i.d.
Het artikel heet toch ook niet "Nooit meer spam!!!111!!!"...?
Vandaag op T.net: de spam-bestrijders hebben weer een stap vooruit gemaakt.
Morgen/overmorgen/volgende week in je mailbox: de spammers hebben ook weer de volgende stap gezet. :(

De grote jongens zullen vast niet heel erg onder de indruk zijn, maar hoe beter de filters worden, hoe lastiger het voor nieuwe partijen wordt om zich op de spam-markt te begeven, dat lijkt me sowieso iets waard. En als deze uitvinding de super-spammers, al is het maar voor even, terug naar de tekentafel stuurt, mooi meegenomen toch?
"Dynamisch veranderende" :+

Maar goed, spammers zullen hierna weer een stop vooruit gaan. Denk bijvoorbeeld aan het opvangen van msn berichten en deze berichten het onderwerp van de spamemail laten zijn. Ze kunnen ook gewoon stukken van online nieuwsartikelen pakken.

Tegenwoordig gebruiken veel grote mailservers zoals gmail (ik gebruik het zelf ook :)) gesignde mail. Dit geeft twee voordelen: je weet zeker dat de mail van de afzender komt (mits via smtps) en spam is lastiger te versturen wanneer de mails gesigned moeten worden (private key heb je nodig + kost veel cpu).

Je daagt hiermee de spammers alleen maar uit, wat ze juist leuk vinden.
Ik vraag me af hoe groot het deel in de praktijk moet zijn dat al gedistribueerd is; als dit maar een paar procent is dan worden vele e-mails tegengegaan en lijkt mij dit een zeer goede ontwikkeling. Volgens mij zou zelfs bij 50% al een heel groot aandeel van de spam worden tegengegaan, gezien de vele miljarden spammails die er per jaar rondgaan?
Ik vraag me af hoe groot het deel in de praktijk moet zijn dat al gedistribueerd is
Dat heb ik me een tijdje terug al eens afgevraagd; zou het niet veel effectiever zijn om spam bij binnenkomst te verdelen in drie groepen, de "bekende" spam en geen-spam en de nieuwe "twijfelgeval". Op het moment dat iemand zijn mail bekijkt scan je alle twijfelgevalletjes nog eens opnieuw.
Tuurlijk, het kost meer processing, maar als je ófwel de twijfel-categorie klein kunt houden, ófwel het eerste filter heel eenvoudig kunt houden, dan zou de totale extra belasting mee moeten vallen. Voor mensen die hun inbox niet 24/7 open hebben staan (niet dat die mensen deze reactie zullen lezen ;) ), maar slechts een keer per dag (of nog minder) hun mail checken zou je op die manier toch veel nauwkeuriger moeten kunnen scannen...?
Dit zou ook perfect samengaan met wat ze nu in Berkely bedacht hebben; tijdens de eerste scan data verzamelen om je templates te kunnen zoeken, zodra iemand zijn mailbox daadwerkelijk opent alles detecteren en filteren. Dan zou in principe de vollledige zending rechtstreek in de spam folder / trash can kunnen, toch?
Dat heb ik me een tijdje terug al eens afgevraagd; zou het niet veel effectiever zijn om spam bij binnenkomst te verdelen in drie groepen, de "bekende" spam en geen-spam en de nieuwe "twijfelgeval".
Dat concept bestaat al vrij lang, en er zijn ook mailfilters die het implementeren.

Zo gebruik ik bogofilter (welke een 'unsure' classificatie kent) in combinatie met procmail om mijn mail te filteren. Gemiddeld komen er bij mij op 200-300 mails per dag een stuk of 4 per dag in mijn unsure mailbox; false positives of negatives zie ik eigenlijk nooit.
categorisering gebeurd al enorm lang en met een veel fijnere schaalverdeling. Tegenwoordig krijgt mail een score toebedeeld, hoe hoger die score hoe waarschijnlijker dat het spam is. In je spamfilter kan je dan instellen vanaf welke score hij moet worden geblokkeerd, in quarantaine moet gezet worden of dergelijke meer.

@ originele post: er worden miljarden spammailtjes per DAG gestuurd en als er met een paar duizend al een template kan worden gereconstrueerd, dan zou dat amper 0.1% van de huidige hoeveelheid zijn. Natuurlijk wordt er door veel meer bronnen gespammed en op verschillende manieren, dus als je 20% tegenhoudt die van botnets afkomstig is via deze methode, dan heb je al een GIGANTISCHE impact.

ter info: ongeveer 85% van ALLE mail is spam
Euh, is dit niet gewoon een iets specifiekere (of uitgebreide) versie van een 'standaard' Bayesian spamfilter die let op patronen? Want een template is ook een patroon, niet?
Ze gebruiken de informatie vanuit vele ontvangst)punten, niet de informatie op 1 enkel mailadres. Dat werkt zonder training heel goed bij een provider.

Vraag me af hoe ze dan goedgekeurde mailing lijsten/informatie brieven erdoor laten? wellicht vallen deze uit de scope van het onderzoek.
Dat laatste was inderdaad wat ik me ook afvroeg. Ik stel me voor dat je het 'batch herkennings systeem' combineert met user input. Als enkele gebruikers een bericht als spam hebben gemarkeerd dan kun je stellen dat die batch waarschijnlijk voor alle gebruiker spam is.
Is het niet veel handiger om het mail protocol eens drastisch te herzien en dus om POP3/SMTP langzaam aan de deur uit te werken. Voor zover ik me kan herinneren is het feit dat SPAM uberhaubt in deze mate mogelijk is door zwakheden in de POP3 en SMTP protocollen.
Hoewel POP wat mij betreft direct afgeschoten mag worden, zie ik even niet wat het POP protocol te maken heeft met de mogelijkheden om spam te verzenden?

wb. SMTP: Ja, een opvolger daarvoor zou wel een betere oplossing zijn, het implementeren van een nieuw protocol met goede afzenderverificatie en authenticatie. Echter.... het inzetten van een nieuw protocol verloopt in de internetwereld altijd erg moeizaam. Kijk naar DNSsec en IPv6: Beide protocollen die eigenlijk hard nodig zijn om functionaliteit en stabiliteit om langere termijn te garanderen op internet. Beide protocollen zijn al jaren beschikbaar, maar worden tot nog toe zeer beperkt gebruikt helaas... Zelfs addities (denk aan SPF voor SMTP) worden door veel partijen na jaren nog steeds genegeerd, waardoor het systeem z'n doel mist.

[Reactie gewijzigd door Maestro op 26 januari 2010 15:56]

Echter.... het inzetten van een nieuw protocol verloopt in de internetwereld altijd erg moeizaam.
Da's waar, maar als jij een protocol zou hebben dat spam gegarandeerd onmogelijk maakt, dan denk ik dat het wel eens héééél snel zou kunnen gaan.

Maar ja, ik ben bang dat zo'n protocol een utopie is. Net zoals een onkraakbare beveiliging.
En dus de volgende botnets hebben templates om templates te genereren, tegen de tijd dat er voldoende spam is verstuurd om de template te 'reverse-engineren', wordt de volgende template op basis van de template-template gegenereerd. :)
Een template die een template genereerd is en blijft een template. Daarmee zijn we weer terug bij af: tegen dit soort spambots is nu een nieuw, krachtig wapen ("YES !!") :)
Dit lijkt me in de praktijk iets lastiger in te voeren aangezien je natuurlijk wel moet weten welke mailtjes samen met reverse engineering de template kunnen genereren.

zodra daar (spam)mailtjes tussenkomen van een andere herkomst zal de template niet meer perfect zijn.

Bij gmail zou dit kunnen werken omdat iedereen binnen het systeem de eerste mailtjes nog als spam moet aangeven, maar de selectie van welke spam bij welke hoort is dan het probleem.
Precies, dat vroeg ik me ook metteen af: hoe weet je welke mailtjes bij dezelfde spamrun horen? Op elk willekeurig moment zijn er natuurlijk vele spamruns tegelijk aan de gang, met de bijbehorende verschillende templates. Hoe weet je nu welke bij welke hoort? En zou het voor een spammer niet al helpen om meerdere templates tegelijk te gebruiken dan?
Spam mails, meer bepaald de phising mails, worden toch op basis van bestaande officieuze mails gemaakt ? Dus hoe zal die filter de spam weten te onderscheiden van de echte mails die er bijna volledig hetzelfde uitzien ?
Het enige wat ik me kan voorstellen is de link die in het bericht is verwerkt. Deze lijkt namelijk altijd wel op het orgineel maar komt tog stiekum altijd op een ander domein uit.
Interessante vondst :) Maar het lijkt me dat bepaalde templates toch voor meerdere onafhankelijke spam mails kunnen gelden op den duur?

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True