March 28, 2005

破窗理论:搜索引擎暗规则之三

12:00 on Monday March 28, 2005 | 13 Trackbacks | 14 Comments

车东在Google的“破窗”里提到Spam会传播更多的Spam,这个就是搜索引擎破窗效应的体现。 首先解释一下什么是破窗理论: "破窗理论"体现的是细节对人的暗示效果,以及细节对整体影响的扩展性   美国心理学家詹巴斗曾经做过一个"偷车实验 ",将两辆一模一样的轿车分别放在一个环境很好的中产阶级社区和环境比较脏乱的贫民区,结果发现贫民区的车很快被偷走了,而另一辆几天后仍然完好无损;如果将中产阶级社区的那辆车的天窗玻璃打破,几个小时后,那辆车也被偷了。   后来,在此实验基础上,美国政治学家威尔逊和犯罪学家凯林提出了有名的"破窗理论":如果有人打坏了一栋建筑上的一块玻璃,又没有及时修好,别人就可能受到某些暗示性的纵容,去打碎更多的玻璃。 对于搜索引擎来说,前面chedong的例子已经非常明显,随着更多的人认识到搜索引擎可以获取更多的利益,不法之徒当然回去尝试采用各种作弊手段进行扰乱正常的拍名和搜索结果,如果搜索引擎不即时制止, 这种情况就会泛滥,最好到严重的要影响到用户使用的地步的时候再来处理也就要麻烦的多和面临更多的作弊者。 看这个搜索结果Google 里搜索 天下无贼免费电影下载,你完全可以想像这样的结果是对Spam的一种变相的鼓励。 破窗理论的推论就是注重细节,防微杜渐。一旦有第一个spam出现,即时的制止,那么后面的spam也许就不会那么轻易的去搜索引擎上尝试,因为毕竟敢于做第一(第一个打破窗户)的人还是少数。 看看Baidu和Yahoo,在破窗上封堵的就比google快一些,因此基本上现在能够看到的spam基本上都来自google的结果。 google adsense呢?我以前曾经写过几篇关于fraud click(点击欺骗)的文章,fraud click的破窗随着google去年把修斯顿的一家公司推上了法庭而弥补好了。可是另外一种更严峻的破窗又出现了,直接危机到google adsense的存亡:广告内容作弊。 我看到几乎一半的中国的小网站刊登google adsense的时候都在作弊,这种利用iframe 的嵌套的作弊,然后调用另外的一段js代码从而刊登出与原文完全不相关的广告,例如房屋贷款,信用卡申请等价格较高的adsense,从我第一次注意到大约在2个月前到现在已经泛滥成灾。 破窗,一个小的缺口,几滴渗漏的河水,也许会冲垮一个帝国。...



March 26, 2005

20 80 法则:搜索引擎暗规则之二

17:16 on Saturday March 26, 2005 | 2 Trackbacks | 12 Comments

我以前曾经写过20/80 法则 重新阐释,这里从新提一下: 20/80法则也叫二八定律,即巴莱多定律。巴莱多定律是19世纪末20世纪初意大利经济学家巴莱多发明的。他认为,在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管是多数,却是次要的,因此又称二八定律。 在搜索引擎的设计上,可以说大多数的搜索引擎在搜索结果上第一页有80%的结果是相同的,不同的只有20%。可是正是这20% make different. 这20%的差别也是不同搜索引擎之间的差距,能够完善这20%将对一个搜索引擎来说是至关重要的。 在另外一方面,对于一个搜索引擎的完善,例如你可以花20%的努力做到80%的效果,而要想提高剩下的20%的效果也许要耗费80%的精力。 一个简单的例子,一个搜索引擎现在还比较初级,也许分词和搜索相关的准确率在80%左右,想要进一步提高,也许要调整40,50个参数,调整很多方面的因子,考虑很多的算法,花了极大的精力后发现只提高了一点,再调整,如此三番,也许很久一段时间后发现有90%了,这个10%就是大的突破,但是要花去的努力要比从0%到80%大的多的多。 搜索引擎各项参数的差距也许只有几个百分点,可是这几个百分点就是真正的差别,就真得创造了胜者和失败者。 从搜索的方面看,20 80 法则有另外的意义,80%的搜索集中在20%的少量关键词上,也就是说有20%的搜索词汇占了80%的总体搜索流量。搜索的词频可以通过搜索引擎的每天的统计得到,在某一些特殊的情况,这些分布可以用来对搜索引擎进行非常好的矫正工作。...



马太效应:搜索引擎暗规则之一

16:26 on Saturday March 26, 2005 | 0 Trackbacks | 15 Comments

搜索引擎暗规则序 中国人有句古话叫做:“学以至用”。若干年我一直对这句话封为神灵,因为只用致用才能看到学的效果,了解到学的不足,享受到学的快乐。 搜索引擎在过去两年的发展并没有大突破,但是却逐步走向成熟,走向商业。正是这两年的时间,部分的业余时间都用来做一些开发和研究,当我逐渐了解的更多的时候,也是我结束单枪披马的时候。未来的兴趣也许会转向分类技术,因此希望能够用这个系列为这段成长岁月化上句号。 所谓暗规则,其实就是一些生活中非常显然的规则,只不过在搜索引擎这个领域表现的不是那么的突出,之所以不够突出,原因最主要的是因为搜索引擎还在发展,市场还在进一步加剧竞争,这些暗规则或多或少已经在反映在现在的搜索引擎上了。相信有一天,这些规则会被看到的更清晰,更深入。 搜索引擎暗规则之一 《新约•马太福音》中有这样一个故事,一个国王远行前,交给三个仆人每人一锭银子,吩咐他们:"你们去做生意,等我回来时,再来见我。"国王回来时,第一个仆人说:"主人,你交给我们的一锭银子,我已赚了10锭。"于是国王奖励他10座城邑。第二个仆人报告说:"主人,你给我的一锭银子,我已赚了5锭。 "于是国王例奖励了他5座城邑。第三个仆人报告说:"主人,你给我的一锭银子,我一直包在手巾里存着,我怕丢失,一直没有拿出来。"于是国王命令将第三个仆人的一锭银子也赏给第一个仆人,并且说:"凡是少的,就连他所有的也要夺过来。凡是多的,还要给他,叫他多多益善。" 这就是马太效应。 简单的说,就是让富有者更加富有,让贫穷者更加贫穷。 对于搜索引擎来说,马太效应是一条暗规则。10年的发展期过后,google,yahoo等已经成为市场的绝对主流,利润的分享趋向与这些超大型的搜索引擎,而不是中小型的搜索引擎。 例如,你可以制作一个搜索引擎,流量是google的1/1000(这个数目并不大,每天的独立IP是大约6万,PageView是30万,大约和3,4个 booso.com 的规模大不了多少。),但是你拿到的回报和这个搜索引擎的价值绝对没有google的1/1000(这个大约是6000万美金,或者5亿人民币)。 马太效应还能反应在市场倾向于分化,倾向于使得市场的份额集中在一两个巨头的身上。因为市场对领头羊的投入会拿到比例更高的回报,因此广告/合作等的机会也会遵从马太效应,成为领头羊的东风。 马太效应还表现在当搜索引擎成为领头羊的时候,能够聚合更多的资金人力扩展这个优势,例如启动一系列的其它的业务Mp3,Pic search,Vedio等,巩固和扩大优势。 那么对于中小型的搜索引擎而言,价值在哪里呢? 市场是残酷的,可以预言现在大多数的中小型搜索引擎从经济的角度讲都要灭亡,能够保留下来的一定不会是单纯的搜索引擎,也许是被某一个网站收购成为其附加值,也许转向做企业内部搜索等现在市场还没有显著分化的领域。...



March 23, 2005

Online Judge:Online Judging your ability

23:49 on Wednesday March 23, 2005 | 0 Trackbacks | 26 Comments

什么是Online Judge? Online Judge 是指在线的裁判系统。她可以对程序原代码进行编译和执行,并通过预先设计的测试数据来检验程序原代码的正确性。 一个用户提交的程序在Online Judge系统下执行时将受到比较严格的限制,包括运行时间限制,内存使用限制和安全限制等。用户程序执行的结果将被Online Judge系统捕捉并保存,然后再转交给一个裁判程序。该裁判程序或者比较用户程序的输出数据和标准输出样例的差别,或者检验用户程序的输出数据是否满足一定的逻辑条件。最后系统返回给用户一个状态。 通常出的题目都不会太难,但是解决的方案却一定多种多样,例如找出10000以内质数的个数,可以用C写,也可以Pascal等,尽量短小,速度快,内存占用少是一个普遍的目标。 西班牙的Universidad de Valladolid的onleline Judge系统每天大约有7000人访问,题目和解答也大约在1000以上,可谓是最大的Online Judge系统之一了。国内也有几个大学有了online judge系统,具体可以参考这里: 大家来玩OnlineJudge。...



March 22, 2005

从统计软件R看Open Source的商业价值

18:12 on Tuesday March 22, 2005 | 0 Trackbacks | 8 Comments

在最关键的时刻我抛弃了SAS现在看来是非常明智的。 统计软件我到限止为止接触过4,5个,其中最复杂的就是SAS了,而我以前的代码就是一个合作者用SAS写的,我后来要改变里面的一些流程,简直是抽一发而动全身。不单运行老有问题而且12太服务器的版本费就够我苦恼一针子了。试用过Matlab,功能非常大,可惜我是杀鸡。PAW,速度太慢。。。 我正苦于五路可走的时候,有高人提醒“为什么不去试试R呢,免费的。”,一句话惊醒梦中人来形容也丝毫不为过。 R是GNU,最初开发于Bell Lab(后来到了Lucent Tech),跟S/S-plus语言接近的一种交互式统计工具。内部提供线型,非线型,经典统计,时间序列,分类,聚类等基本功能。 当然,最重要的是R能够运行在Linux上。 比较SAS,SAS的数据结构很强,可是运行起来消耗资源不说还常常core dump。Matlab最值得称赞的功能是解析运算,例如积分快的一榻糊涂,这个我还记得大学的时候去运行Zebra的解析式的微分和积分,还可以找出数学工具书上的积分公式的错误来。 然而SAS和MatLab都要付费,这一点上让我对他们的期望太高了。如果一旦没有达到我心目中设立的那个门坎,例如我希望能够远程控制,希望编写我自己的脚本方便的交互调用。。。,我只好认为这样的统计软件在性能价格比上要输于R,尽管R的说明书只有100页不到,而SAS有长达上万多叶的手册。 R这个软件我后来问了一些人,发现做统计的人也常用的,特别是学校里面。原因最主要的就是免费,功能也不错。像我连操作系统都一直找免费的用的人,没有理由拒绝R而选择其它的昂贵的工具。 现在的Open Source逐渐开始形成一种市场,在美国有一些公司利用多个opensource集成在一起可以为公司提供一些CMS,提供一些关于Open Source软件应用配置方面的指导(例如Nutch),从中获取一些咨询费用,同时也可以为企业节约一笔不菲的费用,当然如何选择Open Sounce便显现的非常重要,以免决策失误而得不偿失。 那么这个市场的起来最直接的原因是Open Source本身的不完善,就是本身没有很好的说明,技术支持,也就造就了这样的一个市场。可以说努力劳动的人创造了产品但是却没有创造价值,体现价值的却是能够合理应用这些产品的人。...



March 10, 2005

再说机器新闻的分类和聚类

17:17 on Thursday March 10, 2005 | 1 Trackbacks | 14 Comments

Google 新闻改版了,把我想实现的最关键的一部分实现了,没有什么比这个更让我感觉到失落了。我现在的新闻聚类还是石器时代。 想法和技术在与同竞争对手的面前都不是关键,关键的东西是实践。关于新闻分类聚类零零碎碎的做了快3,4个月了,一直没有没有精力来全力以赴的去完成这个。Google的中文新闻刚出来的时候不但分类有误差,而且关于新闻内容的摘要常常也是文不对题,可是就是在这样的磕磕绊绊中google的新闻做的越来越好,我这边的一些想法正在着手实现的时候,Google新闻总是非常意料之中的做到了。 我记得我第一次看到Google新闻首页出现这样的标题错误时,心里在想,Google并不难超越么,因此立此存照,保留了快照,4个月后,Google的新闻的准确度和灵活性已经完全不可同日而语了。 1] 个人新闻门户 改变以往的千人一面的新闻门户是机器新闻的目标,我几个月不上新浪的原因是我不想打开一个有90%内容我不关心的新闻网站。我会看些我订阅的Rss,例如Klog,Keso,Mao等,我这样偷懒的原因是简单的,因为这些人可以进行先期的过滤,将好的新闻/信息已经收集了起来,而降低个人获取信息的难度。 2] 定制+搜索 Google不提供Rss是完全可以离解的,因为Rss实在是把现有的搜索引擎,新闻聚合系统的技术难点降低到了极限,而这些在传统技术中都是Google的长处,Google是一个网络机器,它说实际并不喜欢用户离线的活动。但是,Google的定制和搜索加Email后也是我每天必修课,原因也是我只关心我订阅的一些内容,而这种直接送到google邮箱的做法,仍然是提高Google的粘合力的一种非常有效的做法。 3] 内容 Google 已经成为一个完全监控我们社会内容的永动机。我在Gmail里的260M的Email,包括文档,论文,程序,我曾经有过这样一次经历,给一个另外搜索引擎公司的CEO发email,使用的是我的gmail帐户,但是那封信却以技术故障的原因莫名其妙的没了,这件事情后我开始对Google留了一手,自己的代码不再用google email来备份了。我们在创造内容,我们有机器在监视内容,我们的计算机已经聪明到能够识别这些内容,然后呢? 4] Info Grid 信息网格 Peter Norvig(现在是Google搜索引擎的产品部的总监)的《网络上的人工智能》AI on Web一书上举了大量的演化的例子,我非常佩服这个思维严密的老兄,因为AI常常被一些哲学和数学家的人嘲笑为智商只有75的阿甘。他们可以随便找出一个AI系统的漏洞,可是这些数学家和哲学家仅仅是嘲笑而已,当他们在嘲笑别人的时候,AI 却一步一步的发展,直到现在连嘲笑AI的人也在每天享受人工智能的进步。 Info Grid是将现有信息分布在不同层次,不同类型,不同应用的各个点上进行有机的联接,再整理的一种思想。Info Grid的表现很多,例如Google News已经是一种信息格点的雏形,这种信息格点将不同点上的内容「新闻」进行收集,然后加工,按照阅读者的需要,以相对智能的方式推送到读者面前。 然后呢?然后再根据读者点击,阅览新闻,资料的习惯『注意,我们实际上是在各种网站的监视下的,例如上google搜索,google会纪录用户的点击』进行整理,最后得到了用户行为模型,得到用户的心理,最后调整系统推送给用户的内容。 有一天,当你连续三天点击了姚明的新闻后,你打开的google的首页上也许有令你咋舌多的姚明的新闻,不要慌,这就是user behave driven modle。 5. Exit,出路在哪里? Google阴影下的出路在哪里?这个大概不是我来提问,应该是Baidu和Yahoo之类的大玩家。当然,大玩家有大玩家的打算和想法,至于小玩家,出路恐怕就在long tail上了,Long Tail 最近是一个很热的词,连Google都说自己是Long Tail了。Google如果是Long Tail,那么谁是Bulk Body呢? 唠叨了这么多,都离题万里了,回头还是要下功夫来做。...



计算机文本分类和模糊聚类

16:16 on Thursday March 10, 2005 | 1 Trackbacks | 7 Comments

机器人新闻的Beta版本:机器新闻中心,因为没有更多的时间开发,暂时收集大家意见和建议,等月底再继续开发。 1. 什么是分类? 分类就是将一片文章/文本自动的识别出来,按照先验的类别进行匹配,确定。 什么是聚类? 聚类就是将一组的文章/文本/信息进行相识性的比较,将比较相识的文章/文本/信息归为同一组的技术。 什么是模糊聚类? 模糊聚类就是没有先验的聚类因子,完全按照算法来进行识别和类大小,类的多少,类的误差等都是不确定因素。 我这里给出来的例子,例如: [enternews]::主张:看清楚男人的货色_tom生活 有个总强调自己是名门之后的女人写过一篇文章,叫作《男人分两截》,认为男人的“上半截是修养,下半截是本质”。并且,如果“下半截没戏,上半截也肯定好不到哪儿去”。通常大家都认为男人可以完全把性和爱分开,其实未必,渡边淳一就说过:“男人的性行为其实是很精神性的。”虽然男人不幸被这个女人下了屠刀,劈成两截,但是我想在如今多数女人的眼中,男人是不是应当分两截?哪截和哪截不一样?这些并不是很重要。 ... News from:life.news.tom.com news.sdinfo.net news.sohu.com www.chinanews.com.cn 相关的内容一共有 10 条 其中: enternews 就是说这个信息属于娱乐类的新闻,这里就是进行分类了。 然后是新闻的摘要,然后是新闻的来源,我都只给出4个新闻源,例如上面的 life.news.tom.com。相关的内容一共有 10 条 :这个就是聚类了,就是说从整个娱乐新闻里进行分类,刚好有10条新闻讲述的主题和内容比较接近,因此就聚类为一个。 我们在看看这10条新闻的内容:主张:看清楚男人的货色_tom生活;“三八”:女人不爱男人不快 女性频道 南方网; 离婚,先要尊严还是钱? 女性频道 南方网.... ,可以基本上看出来是一个与恋爱有关的女性话题。 从这点上看简并算法应该还算有些价值,当然也有不精确的地方: 将坦克聚类到了互联网,我下面来叙述这个问题。 2. 分类和聚类为什么出错? 关键在于一个模糊上。因为机器不像人拥有极强的认知能力,利用机器进行新闻分类和聚类所采用的做法通常都是我们说的模式识别,或者更精确的说其实是一种模糊特征识别。 计算机看不到特征,那么这些特征从哪里来? 样本 什么是样本? 样本就是用来进行信息识别的先验信息,简单的说就是先告诉计算机,什么是娱乐信息,什么是互联网,什么是体育等。 计算机基于这些样本进行学习后得到了这些样本的直观特征,例如数字,例如排序,例如介词的位置等就得到了一个类别的特征。 样本的质量的好坏和样本的区间的大小直接影响到未来的识别能力和误差。例如样本是有偏差,那么可以想像识别的结果是不可能无偏的,样本的大小和含盖的范围也是非常重要的,我下面举一个例子说明: 我们找到50个苹果和50李子个给我们的机器看,告诉我们的机器这50个东西是苹果,那50个是李子。 情况分成这样的: 如果这50个苹果全部是红的,而50个李子有红有绿,那么当我们又拿出一个计算机完全没有见到过的 绿苹果的时候,计算机将非常可能将这个绿苹果判断成李子。因此,样本要无偏。 又比如,我只给计算机看了5个苹果,有大有小,有红有绿,然后拿出一个全新的苹果给计算机看,计算机可能也是无法判断,因为学习的样本太少。 样本-> 学习 -> 检验 -> 纠偏 -> 学习 -> 检验 .... 这个是分类和识别一直要进行的一个过程,直到能够完全的认识人类的知识前,计算机的模糊识别恐怕都有改进的余地。...