February 28, 2006

沙龙:信息分类

11:24 on Tuesday February 28, 2006 | 0 Trackbacks | 9 Comments

本周搜索引擎沙龙的主题:文本信息的分类算法 主讲人:卢亮 时间:本周四晚上,3月2号 地点:博客吧 关键词:消噪 摘要:文本信息的分类是依靠对现有的样本进行训练的基础上,对每一类的文本信息进行信号的提取和噪音的消除。在得到每一类别对应的信息矢量的基础上,对待检验的文本信息进行点乘运算或者进行最大似然的计算,得到最佳的和次佳的分类别。 实践证明,在15大类的基础上,本方法快速和有效。...



February 23, 2006

Google Page Creator

16:42 on Thursday February 23, 2006 | 1 Trackbacks | 7 Comments

似乎google进入了网页发布的新阶段。这个新产品就是google page creator,所见即所得的创建网页。 Pages.google.com 这里有快照,可惜当我正在上传图片的时候,google page停止了服务,然后就再也无法登录了。看来是还在测试中。...



February 21, 2006

本周搜索引擎沙龙主题

17:42 on Tuesday February 21, 2006 | 0 Trackbacks | 11 Comments

感谢上周四车东的精彩讲座和会后的讨论。本周四2月23日新的沙龙主题如下: 题目:中文分词和关键词的提取 主讲人:罗刚(猎兔分词的发明人) 地点:博客吧(必思浓咖啡店) 时间:晚上7点开始...



February 20, 2006

淋雨与建模

18:28 on Monday February 20, 2006 | 0 Trackbacks | 21 Comments

刘润在首富的宴请 vs. 雨中的犹豫里写到关于Chris的故事: 南京暴雨的下午。一个男孩在雨中骑自行车。非常的犹豫,不知道应该骑的快一点还是慢一点。他边骑边计算怎样淋的雨会少。他非常苦恼,不知道怎样才好。所有听到的人都在大笑。 看到这里我突然想起来我高中的时候也思考这个问题,可是那个时候没有得到结果,直到我进了大学后通过建模的方法才彻底解决了这个问题。 建模的方法是我在粒子的里学到的,常常一个非常复杂的数学问题,或者一个难以下手的实际问题,都是可以通过建模来实现的。 下面我介绍一下我对这里淋雨问题的建模和求解,当然,简化的的求解方法,不见得全面。 1.我们先对雨进行建模,我们先进行最少参数的简化建模。假设雨点是一个均匀分布和垂直往下降落的物体,就会有以下参数: v 下降速度 r 雨点的大小 n 单位面积雨点的个数 l 两个雨点上下相距的长度 2.下面我们对在雨中行走,奔跑的人进行建模。我们的模型是简化人为一个圆柱体,分两个参数,高度和直径: h 身高 w 就是人的宽度 s 就是人跑或者走的速度 L 两建筑物(点)之间的距离 3.初步的计算 我们对人进行了简化后实际上人能够接收到雨点的地方只有两个: 横截面 和 纵向 我们先计算横截面接受到的雨滴数目 3.1 横截面(头顶接收到的雨量) 这个雨量就应该是人头顶单位时间内接收到的雨量乘以时间 人跑完L 需要的时间: L/s 这个时间共接收到雨量的体积是:(L/s)*v*(pai/4)*w*w 那么全部的雨滴数目: ((L/s)v)*(pai/4)w*w*n/l 全部的水的体积是: ((L/s)v)*(pai/4)w*w*n/l*(4/3)*(pai)*r*r*r 3.2 纵向面(迎面接受到的雨量) 这个雨量就是人身子扫过的横断面乘以长度,这个体积是: w*h*L 全部的雨滴的个数是: w*h*L*n/l 全部的水的体积是: w*h*L*n/l*(4/3)*(pai)*r*r*r 4.总的水量: ((L/s)v)*(pai/4)w*w*n/l*(4/3)*(pai)*r*r*r+w*h*L*n/l*(4/3)*(pai)*r*r*r =n/l*(4/3)*(pai)*r*r*r*(L*v*w*w*pai/s/4+w*h*L*) 因此可以看出来,速度s是总的水量的一个函数,而且随着s的提高,总的水量在下降。因此从这个简单的模型里说,要最少的被雨淋湿,就要跑的快,越快头上的水越少。 5.当雨的方向不是垂直向下 这点我没有进行特别的计算,有兴趣的可以继续求解。...



February 18, 2006

信息指纹与消重算法

23:23 on Saturday February 18, 2006 | 1 Trackbacks | 7 Comments

在半周的搜索引擎沙龙上在讨论Lucene的时候做猎兔分词的罗刚提到了信息指纹,我趁这个机会介绍一下信息指纹和消重。 信息指纹:就是提取一个信息的特征,通常是一组词或者一组词+权重,然后根据这组词调用特别的算法,例如MD5,将之转化为一组代码,这组代码就成为标识这个信息的指纹。 从理论上讲,每两个不同文本的特征信息是不同的,那么得到的代码也应该是不一样的,就象人的指纹。 搜索引擎在建立索引的时候需要对重复内容的网页进行识别和消重,这就要用到信息指纹。 例如,通常搜索引擎要先对网页进行消噪,就是净化网页,将一些模版类的,无用的广告等剔除调。然后得到预处理后的网页,然后对网页进行向量化处理,简单的讲就是分词,统计,并按照词频生成一个列表。 例如: 网页12 搜索10 引擎7 ... ... 然后取前N个关键词作为信息的矢量,例如:[网页12搜索10引擎7] 这是可以直接进行MD5哈系,或者按照其它规则进行重拍后进行MD5哈系。例如本例,取前3个关键词,在进行哈系,得到的信息指纹就是:a7eb9d92a83cf438881915e0bc2df70b 这样a7eb9d92a83cf438881915e0bc2df70b 就作为本文档的指纹和以往的文档进行比较,如果有相同的,就说明指纹上看是一样的,就可以进入消重处理。 至于关键词的权重,因为有众多的提取算法,比较常用的是nf/df,这里不在赘述。另外高频词和停止词的消除也是必要的,这点可以参考基于信息噪音模型的分类算法,那个ppt里我细数了如何定义“噪音”,如何进行消噪。...



February 14, 2006

本周搜索引擎沙龙主题

22:41 on Tuesday February 14, 2006 | 0 Trackbacks | 6 Comments

本周四(2月16号)的搜索引擎沙龙聚会讨论的主题是:Lucene。 Lucene 是一个非常优秀的开源全文索引系统。本次沙龙请了中文Lucene的专家车东前来主讲,欢迎参加。 关于Lucene,可以参考车东写的文章:Lucene:基于Java的全文检索引擎简介。 地址: 地址:学院路和清华东路交叉口的东南角,清华东路路南,店门朝北。 请参考地图 地址: 北京 学院路6号富润家园底商5号 电话: 82395262...



Google 黑板报

13:33 on Tuesday February 14, 2006 | 14 Trackbacks | 15 Comments

今天得知google中文的官方博客网志上线了,又刚好是情人节,恭喜一下! 当然,维持google的一贯作风,又一个 beta 版本的黑板报。 不知道百度的官方博客网志何时上线?名字会不会是“大字报”?...



February 13, 2006

Bigtable PPT 下载以及翻译

15:52 on Monday February 13, 2006 | 0 Trackbacks | 5 Comments

上周的搜索引擎沙龙由yftty给大家介绍了Bigtable的工作原理,当然这个介绍不断的被打断和不断的引发新的问题,整个介绍持续了2个多小时。 Bigtable 的ppt可以从这里下载: Bigtable.ppt 下载 另外,田春峰对bigtable做了简单的翻译,在这里。...



February 08, 2006

本周搜索引擎沙龙讨论主题

11:29 on Wednesday February 8, 2006 | 1 Trackbacks | 11 Comments

本周四(2月9号)晚上7点,在必思浓(博客吧)继续讨论搜索引擎。 主题是索引建立和更新的问题,同时会播放 bigtable 的录像。 讨论的问题为: 搜索引擎的分布索引的建立方法 难点在哪里? 大规模索引更新的问题和解决方案 什么是bigtable? bigtable有什么用处?...



February 03, 2006

搜索引擎spam的防止

12:15 on Friday February 3, 2006 | 0 Trackbacks | 7 Comments

过年回家前最后一次搜索引擎聚会讨论的主题是如何防止搜索引擎spam。spam现在应该是“相当的”严重了,现在搜索引擎的第一页经常成为了spam的专区,已经严重影响了搜索引擎的正常使用和用户对搜索引擎结果的信任。 参加讨论的有好几个相当专业的朋友,我的抛砖引玉总算没有白费,下面整理一些上次讨论的记录。 1. 什么是spam,seo? 2. spam 和 seo 的差别和关系。 3. spam 的种类 a. 内容型(内容欺骗型与非欺骗型) b. 联结型 c. 复合型 4. 搜索引擎如何判断spam a. 联结分析:网站(域名,IP)之间的联结,网页之间的联结的数目,应该限制在一定的数目内,并且要考虑分布的状况。 b. 页面单一词汇的分析:页面单一词汇与页面全部词汇的比例和分布,当页面单一词汇集中在少数关键词上,有spam的嫌疑。 c. 页面stopwords的分析:stopwords的比例和位置是一个高斯分布和均匀的。 d. 页面连接页面的相似性分析:相互连接的页面几乎完全相似则有spam的嫌疑。 e. 内容的贝叶斯分析:关键词之间的相关性可以从训练spam样本和非spam样本得到。例如页面里出现:免费,或者铃声下载都不能判断为spam,但是同时出现“免费”,“铃声下载”就极有可能是spam f. 相关分析:白名单,黑名单 g. 留言陷阱:例如建立多个blog系统,开放一些文章的留言,内容上说明是专门针对spam留言。这样当一些自动留言程序进行留言后联结就被记录下来,成为一个“陷阱”。 h. 非联结内容与正文的比例。就是正文里非联结的文字的比例,这一点我有所担心,因为现在的page rank采用两种page rank,一种是联结型网页,一种是内容型网页,如此判断很容易将联结型网页当做spam,例如 hao123.com 。 5. 锅炉现象 最难判断的是一种我们定义为“锅炉现象”的spam,这个我前一段时间曾经跟车东讨论过: 武大郎对锅炉说。。。 在众多的spam里,一种以替换文章中特殊词汇并加以联结的新类型spam难以从上述方法进行剔除。例如将水浒传里所有的武松替换成锅炉,并将锅炉进行联结到目标网站。 讨论完毕后第二天一位朋友建议从上下文紧挨的上一个字和下一个字来进行分析,这个方法尚在探讨中。 总结:spam已经严重影响了搜索引擎的质量,能否准确消除spam是提升搜索引擎质量的一个关键要素。 这里挂一漏万,如有更多的方法和建议请告知。 另外,推荐阅读:SVMs for the Blogosphere: Blog Identification and Splog Detection, P Kolari, T Finin, A Joshi - ebiquity.umbc.edu...