February 03, 2006

搜索引擎spam的防止::[Search Engine]


Liang

过年回家前最后一次搜索引擎聚会讨论的主题是如何防止搜索引擎spam。spam现在应该是“相当的”严重了,现在搜索引擎的第一页经常成为了spam的专区,已经严重影响了搜索引擎的正常使用和用户对搜索引擎结果的信任。

参加讨论的有好几个相当专业的朋友,我的抛砖引玉总算没有白费,下面整理一些上次讨论的记录。

1. 什么是spam,seo?

2. spam 和 seo 的差别和关系。

3. spam 的种类
a. 内容型(内容欺骗型与非欺骗型) b. 联结型 c. 复合型

4. 搜索引擎如何判断spam
a. 联结分析:网站(域名,IP)之间的联结,网页之间的联结的数目,应该限制在一定的数目内,并且要考虑分布的状况。
b. 页面单一词汇的分析:页面单一词汇与页面全部词汇的比例和分布,当页面单一词汇集中在少数关键词上,有spam的嫌疑。
c. 页面stopwords的分析:stopwords的比例和位置是一个高斯分布和均匀的。
d. 页面连接页面的相似性分析:相互连接的页面几乎完全相似则有spam的嫌疑。
e. 内容的贝叶斯分析:关键词之间的相关性可以从训练spam样本和非spam样本得到。例如页面里出现:免费,或者铃声下载都不能判断为spam,但是同时出现“免费”,“铃声下载”就极有可能是spam
f. 相关分析:白名单,黑名单
g. 留言陷阱:例如建立多个blog系统,开放一些文章的留言,内容上说明是专门针对spam留言。这样当一些自动留言程序进行留言后联结就被记录下来,成为一个“陷阱”。
h. 非联结内容与正文的比例。就是正文里非联结的文字的比例,这一点我有所担心,因为现在的page rank采用两种page rank,一种是联结型网页,一种是内容型网页,如此判断很容易将联结型网页当做spam,例如 hao123.com 。

5. 锅炉现象
最难判断的是一种我们定义为“锅炉现象”的spam,这个我前一段时间曾经跟车东讨论过:
武大郎对锅炉说。。。
在众多的spam里,一种以替换文章中特殊词汇并加以联结的新类型spam难以从上述方法进行剔除。例如将水浒传里所有的武松替换成锅炉,并将锅炉进行联结到目标网站。

讨论完毕后第二天一位朋友建议从上下文紧挨的上一个字和下一个字来进行分析,这个方法尚在探讨中。

总结:spam已经严重影响了搜索引擎的质量,能否准确消除spam是提升搜索引擎质量的一个关键要素。

这里挂一漏万,如有更多的方法和建议请告知。

另外,推荐阅读:SVMs for the Blogosphere: Blog Identification and Splog Detection, P Kolari, T Finin, A Joshi - ebiquity.umbc.edu

Posted at February 3, 2006 12:15 PM by Liang at 12:15 PM | Comments (7) | TrackBack(0) | Booso!| Niu.la收藏!


Trackback

You can ping this entry by using http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/845

Comments

第 1 楼:

如果把搜索结果进行聚类,可以提供导航让用户跳过spam。

Posted by: Kiam at February 5, 2006 09:24 PM from 61.149.29.164

第 2 楼:

mindmanager这个软件会很方便你讨论技术问题,
拓展形象思维。
下面链接中有一些案例,可以看到思维导图类软件的效果
http://gardener.51.net/wdb/index.php

Posted by: xuyufeng at February 14, 2006 11:20 AM from 210.21.230.126

第 3 楼:

不要重复同样的关键字超过6次,为了安全起见建议3次,否则搜索引擎会忽略你的网页或者
得到惩罚。 不要罗列重复的相连的关键字,这很容易看出你在spam,比如,如果你有3个
关键字,不应该如此排列: search,search,search,engine, ...

by Roboo儒豹手机搜索引擎

Posted by: Roboo儒豹手机搜索引擎 at February 14, 2006 01:32 PM from 148.87.1.170

第 4 楼:

把这些当成作SPAM,哪些才算不是SPAM呢?

Posted by: 我想我是海 at February 15, 2006 05:54 PM from 60.176.164.25

第 5 楼:

a. 联结分析:网站(域名,IP)之间的联结,网页之间的联结的数目,应该限制在一定的数目内,并且要考虑分布的状况。

我有六个网站,包含两个行业及个人博客,这些站基本都有链接关系,并且都在同一个主机商,IP地址都相同或接近,是否算spam?

Google目录的每一页都有ODP的链接,数量巨大,是否也算SPAM?

Posted by: voll at March 1, 2006 06:49 PM from 219.134.71.17

第 6 楼:

是否可以推荐一下 search Personalized 的资料?

Posted by: g622 at March 16, 2006 11:39 PM from 221.216.240.247

第 7 楼:

tretrebdaf撒

Posted by: 啊 at July 22, 2006 05:43 PM from 60.181.179.81

Post a comment

请注意,为了防止spam,您的留言必需含有中文字符!









Remember personal info?




所有发表