Freshmeat test zeven spamfilters

Wie een weekje op vakantie gaat heeft met een beetje pech bij thuiskomst een shovel nodig om de mailbox van spam te ontdoen. In de woeste deletedrift die dan toeslaat wil er ook nog wel eens een onschuldig e-mailtje in de prullenbak verdwijnen, om nog maar niet te spreken van de deuken in je beeldscherm die elke keer groter worden. Het is handiger om een programmaatje het werk voor je te laten doen, maar het aanbod is groot en onoverzichtelijk. Freshmeat.net schiet de gebruiker te hulp; de website heeft een test van zeven spamfilters neergezet. Vijf van de zeven programma's zijn zogenaamde Bayesian filters. Dit type spamfilter is populair geworden nadat Paul Graham zijn "A Plan for Spam" publiceerde. Het idee is dat de programma's leren wat de gebruiker als spam ziet, en wat niet. Dit in tegenstelling tot de andere twee filters in de test, die werken aan de hand van een aantal van te voren bepaalde regels.

SpamDe programma's SpamProbe en Bayesian Mail Filter zijn volgens de reviewer de beste filters uit de test; ze reduceerden een lading van 210 spammails tot slechts vier. Helaas markeerden ze ook een paar gewone e-mails als spam, wie daar erg zwaar aan tilt kan beter gebruikmaken van Bogofilter. Hoewel die software duidelijk meer spam doorlaat wordt er bijna geen goede e-mail als spam aangemerkt. De Bayesian filters komen na training duidelijk beter uit de test. Wie echter niet van plan is om enige moeite te steken in het leren van een programma wat spam is en wat niet, kan beter een filter met klassieke aanpak gebruiken, zoals het geteste programma SpamAssassin:

If you want to filter spam out of your email, I strongly suggest not automatically deleting messages. File the spam away, just in case you get false positives. Any spam which isn't picked up by your filters should be manually moved to the spam folder, not deleted. The same is true for your real email; instead of deleting it, move it to another folder. That way, you'll build a collection of spam and non-spam messages, which will come in handy for training filters.

Door Robert-Jan Huijsman

Meuktracker, Nieuwsposter

25-08-2003 • 22:11

31

Submitter: Longbeard

Bron: Freshmeat.net

Reacties (31)

31
31
23
5
1
0
Wijzig sortering
Ik heb zelf 3 emailadressen, en ik krijg maar op 1tje spam, maar dan ook wel met kilo's tegelijk :(

Maar sinds ik popfile heb geinstaleerd is hoef ik mijn penis weer wat minder vaak te enlargen...
Berichten geclassificeerd: 362
Classificatiefouten: 24

Precisie: 93.37%
Dit is dus een lerend spamfilter. Deze statistieken zijn geteld vanaf ik het programma heb geinstaleerd.
Het leert dus erg snel en was 'out of the box' al 85% accuraat :) voor de geintereseerde: http://popfile.sourceforge.net/
Bor Coördinator Frontpage Admins / FP Powermod 26 augustus 2003 09:35
Vreemd dat de grotere namen op dit gebied niet werden getest. Zo zie ik bijvoorbeeld nergens mailwasher staan, al tijden een van de bekendere namen. Ook mis ik info over dns gebaseerde "blacklisten" zoals Mailwasher en andere programma's die gebruiken. Waarom hanteren anti-spam programma's niet beide methodes?

Een ding is zeker, dat SPATIC programma kunnen we links laten liggen volgens deze test. Verder mis ik duidelijke prijsinformatie. Zijn al de geteste tools freeware en valt een programma als mailwasher daarom buiten de boot?

Een nadeel aan het moeten trainen van de filters is dat het programma minder geschikt is voor alle gebruikers op 1 pc. Iedereen zal voor zichzelf moeten trainen omdat iedereen andere dingen als spam zal markeren (met een groot overlappend deel).
Vind ik toch wel een bezwaaar, dat de programma's gewone email ook wel eens willen markeren.

Voor mij werkt het systeem van een mailadres zoals onzin@xxxx.nl het beste. Wanneer deze dan "bekend" is dan stappen we over naar onzin1@xxxx.nl enz. Scheelt ook weer een hoop downloadtijd.
Vind ik toch wel een bezwaaar, dat de programma's gewone email ook wel eens willen markeren.
Het is onmogelijk om een anti-spam programma/filter zo te laten werken dat alle mail die wordt tegen gehouden ook echt spam is en dat alle doorgelaten mail ook echt gewenste mail is.

Waarom? Omdat je nou eenmaal onvoorziene mail zult krijgen die je wel wilt hebben en waarmee white-lists moeite hebben. (White-list is het tegenovergestelde van een black-list en op zo'n white-list staan de adressen die geen spam (zouden moeten) versturen).

Neem nou dit voorbeeld: An email bounce notice was flagged as spam. A whitelist can't solve this without a fair amount of effort, since the address is determined by the machine on which I happen to run the "netfile" command.

Een perfect voorbeeld van een mail die je wel wilt ontvangen maar die in eerste instantie wordt tegen gehouden.

Het blind installeren van een anti-spam programma gaat dus niet werken. Je moet de spam mail niet meteen laten verwijderen omdat er misschien belangrijke mail op komt (dus je zult altijd alle mail moeten laten binnenkomen en doorkijken, ook al heb je een spam filter, anders mis je misschien mail).

Daarnaast zul je het pakket, ook al gebruikt die black-lists, moeten leren welke mail je ongewenst vindt.
Voor mij werkt het systeem van een mailadres zoals onzin@xxxx.nl het beste. Wanneer deze dan "bekend" is dan stappen we over naar onzin1@xxxx.nl enz. Scheelt ook weer een hoop downloadtijd.
Dat werkt inderdaad goed, je hebt op internet leuke tools om dat te doen. Ik heb een site gevonden ooit waarop je één master e-mail box had waarvan het preciese adres geheim van werd gehouden. Je kon na registreren steeds aliasen aanmaken als je een adres nodig had, bijvoorbeeld om een registratiecode te ontvangen.

Als je die ontvangen had, hef je het adres op en als je weer een adres nodig hebt maak je een andere alias aan.

Werkte echt perfect.

edit:

De site die ik bedoel heb ik gevonden, het is sneakemail.com
spamhole.com doet dat ook
Met als gevolg dat alle mailtjes verstuurd vanaf hotmail.com als spam aangemerkt worden...

Ik gebruik zelf MailWasher en ben daar redelijk tevreden over. MailWasher test ook tegen blacklist servers (SpamHaus, SpamCop, etc), dat heeft me na menige vakantie al heel wat spam gescheeld.
Dat werkt lekker ja.
Tot mensen die er inmiddels schoon genoeg van hebben gewoon heel @xxxx.nl blokkeren, net zoals veel mensen (waaronder ikzelf) mail afkomstig van @hotmail, @yahoo en nog wat andere freemailers direct naar /dev/null verwijzen. ;)
Dit in combinatie met realtime blacklists werkt voor mij tot dusver nog steeds goed.
jammer dat k9 niet getest is, hoe bevalt deze?
Gegevens vanaf 19 juni.

5685 emails verwerkt, 5393 spam, 292 niet.
7 E-mails werden ten onrechte als spam aangemerkt (0,1%), 4 ten onrechte als niet-spam (ook 0,1%).

Totaal dus een nauwkeurigheid van 99,8%.

Van de mailtjes die ten onrechte als spam werden bestempeld (false-positives) waren een aantal van Microsoft (in het engels) en de mail die ten onrechte niet als spam werden bestempeld (false negatives) waren Nederlandse spam-mailtjes.

Van beide had ik er gewoon nog te weinig ontvangen (Engelse niet-spams, en Nederlandse-spams) dus opzich wel begrijpelijk dat K9 er over struikelde.

De nauwkeurigheid stijgt nog steeds.
Al met al best tevreden over K9, helaas nog steeds wat vage bugs en af en toe faalt ie als proxy. Verder duurt het inladen van alle spam erg lang, maar met bijna 6000 spams als simpel txt bestandje opgeslagen is dat misschien niet zo heel raar. Het kan in ieder geval efficienter.

Vrijwel alle mail gaat echter wel via de Tweakers.net mailserver, waar ook SpamAssassin (geloof ik..) al op draait. Die voegt een aantal tags toe aan het mailtje, K9 gebruikt die dus ook bij het bepalen van de spam score. K9 filtert echter veel mail die SpamAssassin als niet-spam ziet er wél uit.
:o :9~ :9~ :9~ :Y) :Y) dat ziet er goed uit weg :D
Deze heb ik na wat te "trainen" zover gekregen dat hij een accuracy heeft van 95.6%, op 400 mails waren er 7 spam mails doorgekomen, en 10 mailtjes die als spam aanzien werden

Wat dat betreft ben ikzelf zeer tevreden over K9 (die 10 mailtjes waren ook tijdens de trainperiode, daarom dus, ondertussen komt alles mooi terecht :))
Zit er bij die spamfilters geen mogelijkheid om goede mails te markeren als "goede" zodat de filter op een gegeven moment wel perfect bezig is ?

Of werken juist die functies niet helemaal zoals het hoort ?
Mozilla Mail (heeft een Bayesian filter ingebouwd) heeft die mogelijkheid inderdaad.

Werkt perfect, alleen in het begin heb ik een aantal zogenaamde 'false positives' gehad. Maar dat is al weer tijden terug. Het enige dat ik nu af en toe nog moet doen is het aangeven dat een bepaald mailtje spam is.

Ook is het wel netjes dat de spam in een aparte map terecht komt, die je nog kan checken op de eerder genoemde 'false positives'.

* 786562 Little
De mail server (van een hosting provider) die ik gebruik werk met SpamAssassin, dit werk goed aangezien de provider een instelling heb gedaan waar de spam naar een spambox gaat. Ik kijk einde van de dag de spambox na met hulp van IMAP hierbij let ik op het onderwerp of het verkeerd gaat. Het draait nu bijna een maand en 1000 spam mails verder ben ik niet één keer een normaal bericht tegen gekomen in de Spambox. De eigennaars van de boxen die SpamAssassin beschermd zeggen dat ze in die maand maar 2 mailtjes zijn tegen gekomen wat spam was. We zijn er ook zeer over te spreken al hadden we in het begin dat kan nooit goed gaan.
Ik heb hier ongeveer dezelfde ervaringen met SpamAssassin. Het hangt er natuurlijk vanaf hoe hoog je de treshold insteld, maar _heel veel_ spam wordt bij mij gewoon direct geblocked op de mailserver en er komt zelden een spam mailtje door. Ik heb in een jaar tijd nog niet meegemaakt dat een legitiem mailtje geblocked is (ik kijk regelmatig in de mailserver logs)
Hier hetzelfde, afgelopen maand ruim 200 spam-mailtjes keurig gefilterd, niet een verkeerd.

Op de mailbox van mijn website support@sitenaam.com komt nog iets meer spam, daar is de score ruim 1200 spammails afgelopen maand (waarvan 70% SoBig) daar zijn een stuk of 3 mailtjes doorheengekomen.

Almetal ik ben erg blij met Spamassassin, mischien zijn er tools die het nog beter kunnen, maar als je zoals ik geen zin hebt om het te leren, maar gewoon installeren en draaien, kan ik het iedereen van harte aanbevelen.
Overigens ondersteund SpamAssassin ook Bayesian filters. Het gebruikt gewoon heel veel verschillende mogelijkheden, waaronder:
-Rulesets
-Baysian
-Blacklist van hosts
-Vipuls Razor
-Whitelist/Blacklist

Bevalt mij erg goed!
spam is er om te voorkomen als je het mij vraagt.
een tweede e-mail adres om je in te schrijven en info van bedrijven te ontvangen werkt ideaal. het zelf een zonnet wat ik daarvoor gebruik.
inschrijven op een site die me e-mail niet echt nodig heeft of checked krijgt gewoon een bogus e-mail adres zoals japjum@hoeretent.nl of zow.
me echte e-mail adres wat wel belangrijk is krijgt zelden spam en zelfs die tweede is bijna spamvrij. gebruik je verstand en je hebt geen proggies nodig.
Helaas, helaas... Ik heb een xs4all account die ik nergens voor gebruik, en dus ook nog nooit (nooit as in nooit! :'( |:() ergens ingevuld heb. Ik check het ding een paar keer per maand, en er staat altijd spam in. Waar het vandaan komt? Mij een raadsel. M'n actieve (wanadoo) account daarentegen ontvangt zelden spam. 1 per week is daar al veel...

Voor het xs4all account gebruik ik sinds kort Thunderbird, en dat bevalt prima! Het spam-filter maakt de account zowaar weer bruikbaar, dus misschien ga ik binnenkort maar eens virtueel verhuizen... :)
Ik lees hier op Tweakers vaak dat mensen gek worden van de spam die ze binnen krijgen.

Vreemd is dat; zelf heb ik pas 1 spammail gehad in mijn hele internetcariëre. Vanaf begin 1999 heb ik een e-mail adres gehad bij Het Net, tot sept. 2001, en nu heb ik al sinds sept. 2001 een adres bij @Home, waarop ik ook nooit spam ontvang.

De enige spammail die ik ooit kreeg was gestuurd naar mijn geregistreerde domein: sales@domein.net. Deze mail werd doorgestuurd door de catch-all functie van het domein.

Ik ga helemaal niet vreemd met mijn mailadres om; veel mensen hebben het, en ik ben op verschillende sites geregistreerd (zoals T.net). Toen ik net met internet begon, heb ik mijn adres zelfs onbezorgd een aantal keer in een nieuwsgroep gepost...

Wat moet je nu eigenlijk écht VERKEERD doen om spam te krijgen?

(Doe me alleen een plezier, en ga niet mijn adres nu overal rondposten hè :P)
ik heb 4 jaar lang mijn email address spamvrij kunnen houden door HEEL zorgvuldig er mee om te gaan en een extra spam mailadress te gebruiken als ik mijn mail address moest invullen maar ik de site niet vertrouwden. (die mailbox was dus elke keer na het leeghalen binnen een week weer vol
dat ging dus 4 jaar goed.
toen ging het ergens mis. ik weet niet eens waar maar binnen 4 maanden van (bijna) nooit spam naar 10-20 berichten per dag. :'( echt diep triest tegenwoordig

heb nu mailwasher op proef. werkt best goed over het algemeen. nog niet zo lang in gebruik en ik vergeet vaak dat ik eerst mailwasher moet starten en dan pass outlook (ik druk gelijk op de mailknop van mijn keyboard.... mmm misschien moest ik die knop mailwasher maar eens later starten IPV outlook express.
Kun je die knop configureren?

Maak dan een batchbestandje, en hang dat aan de knop op het keyboard. Hieronder een voorbeeldje.

mail.bat
------------
start c:\mailwasher\mw.exe
start "c:\microsoft office\outlook.exe"
exit
-----------

(Met exit sluit de CLI.)

Nu hoef je nergens meer aan te denken. Het batchbestandje start Mailwasher voor je, en daarna Outlook. Pas wel even de paden en de .exe bestanden aan natuurlijk.
Zo'n batchbestandje hoeft helemaal niet, Mailwasher kan worden ingesteld om de e-mail clïent te starten nadat Mailwasher de spam heeft gebounced en gewist.
Ik vermoet dat iemand jouw e-mail adres opgeslagen heeft in z'n mailclient oid en dat die persoon dan toevallig een stuk spyware geinstalleerd heeft staan die alle mail adressen harvest, en andere mogelijkheid is dat je mail adres in van die rondstuur (oa grappig plaatjes etc) mailtjes staat die naar iedereen in iemand's adresboek gaan omdat ze zo grappig zijn |:(...er hoeft maar 1 persoon met spyware tussen te zitten en je bent de pineut :)
Ik begrijp het echt niet meer.... Ik heb een stuk of tien mailadressen (hotmail, chello, yahoo, excite, wolmail, tiscali, studenten.net, etc.). Op twee daarvan krijg ik 3 a 4 spams per maand, op de rest niets. Helaas heb ik ooit nog een Bigfoot-adres gehad dat na het opzeggen nog steeds af en toe wat spam blijkt door te sturen.
Een zakelijk relatie, daarentegen, heeft enkele gratis Internetabonnementen (puur om in te bellen) en heeft (waar we onlangs achterkwamen) ca. 800 spams ontvangen op ieder adres in het afgelopen jaar, terwijl het e-mailadres nooit op Internet gebruikt is.

Nogmaals: ik begrijp er geen zak meer van... is het een kwestie van mazzel?
Vreemd is dat; zelf heb ik pas 1 spammail gehad in mijn hele internetcariëre
Dan denk ik dat dat vanaf vandaag meer worden...
Die spambedrijven gebruiken scantools voor sites op mailadressen en nu staat hier jouw domein vermeldt.... Ook worden random mailadressen gegenereerd, bijv.
piet@chello.nl; piet1@chello.nl (sorry piet ;))

Ook heb je dan betere vrienden/vriendinnen dan ik. Hoe vaak ik het ook vraag... als ze iets 'echt leuks' binnenkrijgen... dan krijg ik in mijn mailbox ook zo'n mailtje met als onderwerp "FWD:FWD;FWD;This is fun!!!" waarbij jouw mailadres dus ook als CC staat en dus bekend is voor alle andere ontvangers (en ook hier zijn bots voor om dit af te vangen..)

Kortom: ik krijg dus wel genoeg spam binnen.. maar mailwasher doet het meest vuile werk voor mij
Mijn voorkeur gaat toch uit naar spamfilters die je moet leren wat spam is en wat niet, Het is mij (nog) niet overkomen dat een e-mail onterecht als spam was aangeduid, Ik persoonlijk krijg veel spam uit ??.KR, toch makkelijk als je dan kunt aangeven dat alles uit *.KR gelijk de prullebak in kan. Mischien niet de meest handige manier maar tot nu toe heel effectief. Toch tijd dat spammers verpicht worden om 'ADV ' in hun headers op te nemen. (Utopia?). :Z
De spamfilter in Thurderbird werkt trouwens ook zeer goed. Ik had hem opeens nodig toen ik opeens heel veel mail kreeg op een alias van e-mail adres. Het rare is dat ik dat adres bijna een jaar niet meer gebruik. Gewoon even de alias afsluiten en ben weer spamvrij.

Op dit item kan niet meer gereageerd worden.