November 22, 2004

Gmail垃圾邮件的处理规则和一些补充::[Source]


Liang

很有意思的一则报导“盖茨称新技术将把大部分垃圾邮件拒之门外”。

盖茨据说每天收到400万封垃圾邮件,而且能有效的过滤,估计是全世界最完善的垃圾邮件处理系统了。

说说我自己的垃圾邮件吧:
CERN的邮件帐户一天大约有200封email,基本上都是垃圾邮件,用了Procmail进行匹配过滤,不过效果一直不好,后来做了MUA的一个插件,可以删除大部分的垃圾邮件,可是也时常能从过滤的邮件里找到有用的信件。

最近开始使用gmail,一开始真得不错,基本上没有多少垃圾邮件。可是冰败如山倒,不知道谁转载我的文章的时候将我的email也”好心“地给公开了,结果现在每天差不多也有100多封垃圾邮件。

gmail的spam email处理根据我的观察基本上按照以下几个原则:
1] 发信人,发信IP,发信网关的black list
2] 用户自己进行匹配
3] 贝叶斯统计

1] 和2] 基本上都已经没有改进的余地了,3] 的贝叶斯统计广泛的应用在spam email的处理上,通常有个人的bayes 统计库或者系统整体的一个贝叶斯数据库,估计gmail是针对每一个用户建立了一个与帐号相关的贝叶斯统计库。

曾经有几天我发现来自有一个订阅email list的所由信件全部自动被送到了spam email里,我就将他们恢复并标明是”安全“email,昨天起发现gmail已经不在将这些email送到spam email信箱里了。可见gmail基本上对未知的email是采用贝叶斯学习和校验的方法来实现的。

随便说一下,贝叶斯统计样本越大越精确,盖茨每天有400万的垃圾邮件简直是一个非常好的垃圾邮件学习库,所以盖兹能够有更强大的过滤功能也是因为众多的垃圾邮件帮助他完善这个贝叶斯学习的结果。

还有一些方法也许也会有用:

1] 对于中文用户来说,如果email里面没有一个全角字符出现,那么扔了吧。
下面是帮助Mt 系统禁止spam的一种方法了。
use CGI qw(:standard);
if ($ENV{'REQUEST_METHOD'} eq "POST") {
my $tck = param('text');
die if($tck ne "" && $tck !~ /[\x80-\xff]/);
}


2] 对于整个邮件系统可以找出众多用户email里的 url,类别,关键词,判断邮件之间的相似性 。例如gmail 系统可以将每一个小时所有用户的新收到的email里的link 做一个统计,发现某一个联接出现很多次,估计是群发的垃圾邮件。

准备发文的时候车东突然提出一个 webmap 的想法,我发现这个绝对是一个防止spam email的绝好方法 ,相信一定会有非常好的作用。

Posted at November 22, 2004 02:10 PM by Liang at 02:10 PM | Comments (5) | TrackBack(2) | Booso!| Niu.la收藏!


Trackback

You can ping this entry by using http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/664

昨天和站長談了日本的一個對付拉圾留言的方法。因為這個方法的出發點是內容全為半角(...

Trackbacked from http://www.cathome01.com/archives/2004/10/post_196.html with MT垃圾留言对策 on CATHOME01.COM.

Trackbacked from http://www-party-poker-en.isismedia.com with Reading your content just made my day. Keep the good work. on .

Comments

第 1 楼:

6e啊,MT系统禁止spam的方法,我在自己的MT升级以前用过,很有效的,但是现在升级到MT3.11版本以后这个功能就失灵了,不知道原因。。。

Posted by: cathome01 at November 24, 2004 08:17 PM from 220.62.132.91

第 2 楼:

可能最近6e被SPAM折磨坏了:
我的设想是搜索引擎中用到的:超链分析和全文检索,自动分类技术对于Social Networks服务也是一种非常重要的技术。

URL是网页和网页之间的Link,而用户地址簿中的Email相当于人与人之间的Link,在很多Social Networks服务中,需要大量的超链计算。这是传统数据库服务很难做到的。

对于垃圾邮件:
我倒是建议能在SMTP上增加规则:所有回过信的邮件地址自动加入我的地址簿(白名单)。

Posted by: CHE Dong at November 28, 2004 03:51 AM from 220.249.25.3

第 3 楼:

我也是因为spam而不再用MT了,改"xxx"pal了
引号部分被屏蔽,发不上来了!

Posted by: shunz at December 28, 2004 06:17 AM from 61.50.213.225

第 4 楼:

应该说样本越大,贝叶斯的高斯模型参数越准确,也就是参数方差越小,但实际上所谓学习系统的精度并不是由贝叶斯参数所决定的,实际上贝叶斯本身基于基本的高斯模型,应该说基本贝叶斯模型效果是最差的。哈哈,还是要考虑如何提取特征和特征分布特性,通常这种特征都不是高斯分布。

Posted by: di at August 17, 2005 01:12 PM from 70.28.242.115

第 5 楼:

正好在学习Bayesian filtering, 关注一下

Posted by: ykt at April 13, 2006 01:01 AM from 58.100.59.26

Post a comment

请注意,为了防止spam,您的留言必需含有中文字符!









Remember personal info?




所有发表