"Search Engine" archive

关于搜索引擎研究沙龙的公告

11:28 on Friday December 30, 2005 | 0 Trackbacks | 0 Comments

鉴于众多朋友对搜索引擎技术和相关话题的的关注, 从下周起, 每周四晚上7:00 开始, 我会定时出现在[博客吧], 与大家共通探讨, 交流搜索引擎和web 2.0的技术, 本沙龙会不定期邀请百度, google的技术和市场人员参与. 当然, 另外一个目的也是为在北京的IT人士寻找一个可以交流的场所, 更重要的是为明珠的博客吧带一些人气. ;) 另: 好友chen xin 的G 宝盘招聘, 有兴趣者可以发简历给他....



集中/分布式搜索引擎的4种设计方案

7:20 on Friday November 18, 2005 | 3 Trackbacks | 5 Comments

对于搜索引擎, 在索引量和搜索量大到一定程度的时候, 索引更新的效率会逐渐降低, 服务器的压力逐渐升高, 因此基本上整个搜索引擎的利用率可以说是越来越低了, 并且随着海量数据存储带来的困难, 设计一个良好的分布式搜索引擎将是一个搜索引擎能否面相未来发展的关键因素了. 那么分布式搜索引擎的最主要的核心问题是哪些呢? 1. 分布的信息获取和计算以及对此进行的数据统一 这里面包括爬虫/或者相应的数据获取机制的分布, 对信息进行加工的统一管理 2. 数据处理后的分布存储和管理 主要是文件的准确定位和更新,增加,删除,移动的机制 3. 前端搜索服务的分布 主要处理大规模并发请求时的分发机制 基于以上3个基本需求, 基本上可以构造如下4类的分布式搜索引擎: 1. 分布式元搜索引擎 2. 散列分布搜索引擎 3. P2P 分布搜索引擎 4. 局部遍历型搜索引擎 下面逐步介绍以上4类可扩展的搜索引擎: 1. 分布式元搜索: 拥有多个单个的搜索引擎, 中心搜索引擎是利用这些分布的单个的搜索引擎的结果进行撮合得到完整的结果. 这样的设计方案要求各个单元的搜索引擎拥有相同的排序算法和基本相同的数据输出结构,以便由中心搜索进行整理。 对于这类的搜索引擎,关键的设计是要求每一个单元所拥有的索引不构成重复,但是进行数据的采集(爬虫)时可以采取独立的系统获取后再按照规则分布到各个单元上。 优点,设计简单,快速,并且任何一个单元可以随时的摘掉但并不影响太大。 缺点,对于大规模的并发并非好的解决办法 2.散列分布搜索引擎 根据Query对索引服务器和文档服务器进行散列,做到对于任何的索引词能够准确的定位到具体的索引服务器并从而定位到正确的文档服务器。 优点,抗压,设计简单 缺点,对于单个索引服务器或者文档服务器的容量等动态的调整较困难 3.Peer 2 peer 搜索引擎 著名的Napster就是这样的一种设计,利用集中方式的索引,配合分布于世界各地的单个的计算机形成的文件源,构成了世界上最庞大的p2p搜索引擎之一。 这种设计里的中心索引服务器只记录一些相对关键的信息,例如位置(IP,序列号),歌曲的名字,作者等,其它的信息一概可以从任何在线并且拥有本条全面信息的计算机上获取。同时p2p也可以根据搜索建立一些中间路由的缓存,即将一些搜索结果存在单个或者相近的节点上,加快搜索速度。 优点,可以超级大,基本上不需要有维护成本 缺点,中心服务器的更新效率很低,信息源不稳定 4. 局部遍历型搜索引擎 这类的搜索引擎又可以采用多种设计方案,其中比较可行的是对信息进行聚类后建立信息树,搜索时只需要从树的一个分支下去遍历便可以了。局部遍历应当有一定的规则,并且在设计初期就需要对每一个加入的索引进行相对准确的位置安排,使得放置在合适的节点上,以保证搜索的效率。 优点,容易解决抗压,搜索精度高,搜索效率高 缺点,设计复杂,调整索引所在节点的位置不易 总体来说,搜索引擎的设计方法可以很多,这里只是抛砖引玉,相信未来会有更多的巧妙的设计方案出现。...



Google 要通吃么?

20:47 on Monday November 14, 2005 | 1 Trackbacks | 7 Comments

Google 不断的往前赶路, 这不, 收购的Google 分析 analytics (Urchin)上线了. 简单的说这就是一个 referral 的记录分析工具, 一个专业的玩具. 顺便说一句, booso 的referral 依然工作, 最近也在进行代码更换和升级. 越来越觉得 google 变成了一个庞大的信息挖掘机器, 庞大而有绪. 看来, google 真的想通吃了....



博客搜索和博客联播发布

20:32 on Tuesday October 25, 2005 | 1 Trackbacks | 14 Comments

博客搜索一共收录了200多万的博客,一共索引600多万条记录。 博客联播是您随时发现新文章的一个来源,平均每天收录8万条记录,并且滚动播出(过滤程序将一些字数少于200,色情等的先过滤掉了),是中文博客的即时风向标。 Booso.com 最早是我在博客动力的时候业余时间利用refer 服务的数据制作的搜索引擎,今年年初因为事物繁忙,就逐渐荒废了开发,直到这次回国后才又有精力带领团队进行完善。Booso 从诞生到现在,一直是一个试验田,一共进行过如下的尝试:1] Referral 的服务 2] refer 和 关键词搜索的服务 3] 自动分类引擎的测试 4] 贴吧 5] 新闻搜索服务 6] 新闻聚类服务 7] 博客搜索服务 8] 博客联播服务。虽然前前后后历经一年之久,很多服务也是中途夭折,但是基本上正是这些尝试,我和我们的团队得到了很多锻炼和经验,这些财富才是最值得收藏的。 对于这两个服务,我和我的团队还在完善中,如果有好的建议或者砖头请不要吝啬。...



垂直与水平

7:30 on Saturday October 15, 2005 | 1 Trackbacks | 8 Comments

最近"垂直"这个词非常火,似乎每一个人都在谈论垂直, 当然无法跟google,baidu进行竞争的时候每个人都会想到缩小战场, 收缩到一个相对小的范围. 那么水平呢? 其实很多的搜索并非是完全的垂直, 水平也是有用的. 集成方式的搜索搜索 超女或者搜索 天空是两个很好的例子, 站内外的blog和图片都可以方便的被搜索到. 如下图:...



Google的启示

19:32 on Friday October 7, 2005 | 2 Trackbacks | 12 Comments

最近在对现有的搜索引擎进行分布式的改进, 回顾以前阅读过的 google file system 的文章时发现google的思维和我们平时固守的思维很不一样, 可以说很多在我们看来是有一些"偏激"的,可是正是由于这些偏激, 才导致google与其跟随者的不同. 以下为几个例子: 1. google认为, 所有的硬件都是容易产生故障的, 因此google认为故障是必然的, 不产生故障才是偶然现象. 这个想法和我们通常的意识是相反的. 2. Google认为, 一旦写入, 再也不删除和修改. 这点上google认为修改和删除会对系统造成潜在的伤害, 例如文件的不连续性, 文件定位的困难.. 3. Google将Linux的 file system的block更改为 64M , 也就是说, 写文件的最小单元是64M, 而不是我们通常的512字节, 两者整整相差了128000倍. 4. Google认为修复是没有必要的, 当一个服务器出现问题的时候, 撤下来, 换上另外一个 google unit(google 单元)即可, 因为维修的成本远远大于直接上线一个全新的服务单元的成本. 说来容易, 其实只有当google结构真正实现高冗余和分布式这样的操作才可行, 而这些正是google的核心. 当我们设计一个系统的时候, 我们最简单的做法通常是会根据需求对已有的一些经验进行匹配, 这个过程中我们通常走的是近路,而且我们的经验常常会束缚我们的想法, 没有抛开经验进行全新的分析和设计, 也自然就难以有所创新....



博客手拉手

19:01 on Tuesday September 6, 2005 | 0 Trackbacks | 4 Comments

博客中国的[博客手拉手] 系统从推出到现在已经有两个月整了, 期间经过多次调整, 精确度和相关度都有明显的提升. 对于用户的任何一篇文章, 系统自动从以往的旧文章里匹配到最相关的5篇文章, 作为博客手拉手. 例子如下: 原文[Google Talk一出,MSN、QQ必死无疑] 匹配文章: [2005-07-15] QQ被MSN打败的10大理由 [2005-08-01] 腾讯QQ穿上西装挤入商务通讯 看TM激斗MSN [2005-07-19] 我看QQ、MSN、UC [2005-08-01] MSN、QQ走出虚拟空间走向实际应用 [2005-07-07] MSN Messenger ?c MSN Spaces 中?? 原文:我的5个怪癖 匹配文章: [2005-09-02] 我的5个怪癖 [2005-08-25] 我的5个怪癖,嘿嘿 [2005-08-23] 我的5个怪癖 [2005-08-25] 五个怪癖 [2005-08-29] 五个怪癖 下一步是什么呢? 也许一个月,也许两个月, 当新的博客平台出现的时候, 会有一些更有意思的玩艺....



搜索引擎的缓存机制

21:46 on Friday August 12, 2005 | 0 Trackbacks | 8 Comments

以前曾经提到过搜索引擎的缓存策略, 根据搜索引擎搜索的关键词的统计分布, 可以优化设计搜索引擎的缓存策略. 就普通的缓存策略上讲, 缓存是因为在一定的时间段内的搜索的关键词集中在一定的范围内, 并且这些搜索相对稳定. 例如每天搜索"美女"的人总有10万,20万, 而结果在这段时间相对稳定, 因此没有必要每次去检索索引文件, 而将上一个人搜索的结果直接返回便可以了. 搜索引擎缓存策略也同搜索引擎的算法密切相连, 除了搜索缓存, 索引缓存也是一个好方法. 独立或者分布一些权重较高的文档也是一种提高效率的方法. 例如我们有1000万的网页的权重(可以简单的理解为pagerank)比较高, 那么这些网页的排序相比另外一些权重较低的网页相对较为稳定, 就不妨独立出来进行相对独立的索引缓存. 关于缓存的分布, 一般的小型搜索引擎不会用到, 但是如果每天处理上亿次的搜索, 缓存的分布就应当有一定的分布规划, 例如根据提交的关键词构成hash table, 然后对应于不同的搜索服务器, 实现缓存的分布. 让我们看看实际例子吧, 我们拿百度, google, yisou, 中搜, tag.bokee.com 进行简单的测试: 因为测试, 要搜索一些在过去7天没有人搜索过的关键词, 或者组合词. 为了保证没有人搜索过, 我选择在各个搜索引擎里搜索"a s d f v g h" , 这是我在键盘上随机打出的一些组合, 相信这世界上在7天没有人相同搜索, 这样保证我的第一次的搜索是 fresh search, 就是一定需要搜索引擎去检索索引文件, 而不是通过缓存策略. 以下是结果: 百度: 0.279秒 google: 0.24 秒 一搜: 0.24 秒 中搜: 0.001秒(无结果!!!!) 博客搜索: 0.041 秒 下面是第二次搜索的结果: 百度: 0.001秒 google: 0.05 秒 一搜: 0.09 秒 中搜: 0.002秒(无结果!!!!) 博客搜索: 0.019 秒 经过简单的测试, 可以看出缓存机制只有在Baidu和google搜索引擎里都有, 但是各自效率不一样, 如下是简单的比例: 百度: 100 google: 5 一搜: 没有明显的缓存 中搜: 没有明显的缓存 博客搜索: 没有明显的缓存 而在缓存效率上百度要远远大于google, 这点大概是因为google的gfs本身的分布效率已经相当不错, 因此进行缓存也不会有数量级的提升. 而百度, 根据测试可能是集中方式的数据存储, 但是根据搜索进行hash分布, 因此才会在缓存上有显著的提升. (这个属于猜测)...



Tag Engine 测试发布(标签搜索引擎)

19:05 on Sunday July 3, 2005 | 1 Trackbacks | 8 Comments

博客中国个人博客系统全面支持 tag, 支持 tag 并不是一件困难的事情, 困难的事情是要将这些 tag 如何处理. tag engine 即 标签搜索引擎是将这些 tag/标签 进行归类整理的搜索引擎, 是一个能够进行智能分类的搜索引擎, 希望借助这个搜索引擎将现有的众多的文章进行整理和分类. 这里我引用以前我写的一段文字: 什么是Tag 兼谈软分类- - 硬分类:就是已往我们发文章的时候通过选择系统现有的固定的分类。 软分类:根据文本或者信息的意义由信息的组织者为信息指定一个或者多个“标签”。 Tag(中文叫做“标签”) 是一种新的组织和管理在线信息的方式。它不同于传统的、针对文件本身的关键字检索,而是一种模糊化、智能化的分类。例如我可以为本文打上如下的标签: Tag、标签、分类、博客 标签的增加有信息的组织者自主添加,带有很强的个性化因素. 因此在个性中寻找共性将是一个Tag engine 区别于其它搜索引擎的一个特征....



Google Sitemaps 的意义

20:05 on Sunday June 19, 2005 | 2 Trackbacks | 15 Comments

格式化网络是一个不可避免的趋势, Google 利用现有的品牌来进行推广他的sitemap (网站更新地图), 是一个google从主动角色到网站为主动角色的变换. 搜索引擎的主动性将由此转嫁到网站主并且"要求,希望"网站主来积极的配合, Don't be Evil 的口号的风险越来越高. 另外的思考: sitemap 和blog的 rss 又有什么本质的区别呢?...



Google网页加速器的工作原理

1:15 on Monday May 9, 2005 | 3 Trackbacks | 16 Comments

最近一直忙着写论文,周末终于有空放松半天时间,到网络上看看,铺天盖地的关于google最新的消息,原来google又出了新玩艺,Google Web Accelerator。 听说很神,特地找了一台Windows电脑准备一试。可是我去google网站下载时却发现google 说用户太多,不提供了。 感谢Owen硬盘里还有保留,终于得到了珍贵的“绝版”Google网页加速器。 我尝试访问了6个网站,并且分析了日志,基本上明确了Google网页加速器的工作原理,其实很简单:Proxy + 缓存。 1. 本地化的Proxy + 缓存 当运行了 google 的网页加速器,本机会启动一个httpd的服务,端口是9100 : http://127.0.0.1:9100 这个服务实际上是一个本地化的Proxy+缓存,就是所有的 http 的请求都是通过这里走的。那么为什么能够加速呢? 缓存。当你第一次访问一个网页的时候,相当多的图片,静态文字全部的存储下来,然后当你再次访问的时候,就直接从缓存里调出来,因此大大加快了访问速度。 我这里做了一个有趣的试验: 访问我自己的blog一个日志(http://blog.wespoke.com/archives/000907.html)的日志记录: adsl-69-154-77-102.dsl.rcsntx.swbell.net - - [09/May/2005:12:34:38 +0800] "GET /archives/000907.html HTTP/1.1" 304 - 刷新这个网页,Apache的记录仍然是 304。表明没有传输内容,紧紧验证了 expired的信息。 touch archives/000907.html (改变这个文档的时间标记) 再次刷新,这次不一样了: adsl-69-154-77-102.dsl.rcsntx.swbell.net - - [09/May/2005:12:35:28 +0800] "GET /archives/000907.html HTTP/1.1" 200 10319 这次是返回了200,并传输了10319个字节。 这个就是工作的原理,在第一种的情况下,节省了10319个字节的传输。 当然,这也是所有的缓存proxy的设计原则。 2. Google 的缓存+路由 当我发现我访问的日志上记录的IP和我本地的IP不一样的时候,看来Google 自己也还是有缓存服务器的,就是说当我们请求一个网页时,如果联接非常的慢,google会让这个请求通过google的缓存服务器,同时改变路由。这就是为什么看到的IP不是自己机器的IP了。 由此看来,Google的网络加速器实际上是一个个人的小型Proxy缓存服务器+Google帝国的一个格点状的Proxy缓存服务器系统构成并有效的来管理这些缓存,并非什么特别的技术,而是将大家忽视了多年的一些基本的概念从新应用了起来。 3. 看看这里就更加明白一些:http://race.google/http://www.wespoke.com,注意,必须启动了加速器后才能连接,因为google Web Accelerator讲这个域名解释为本机并采用Iframe显示。您可以将http://www.wespoke.com替换成您想要到达的网页,看看有没有加速? 关于加速的原理,你应该了解expired模块。 http://httpd.apache.org/docs/mod/mod_expires.html...



Google Pagerank 在玩弄谁?

0:52 on Saturday April 23, 2005 | 2 Trackbacks | 56 Comments

其实 Google Pagerank 光辉的历史任务差不多已经完成,因此记得去年有人询问Google 说他们的网站的 PageRank 低的问题的时候,Google的答复是 Pagerank 是娱乐性质的,千万别当真。 其实说是娱乐,可是不当娱乐的人却大有人在,这不,昨天google pagerank更新了,就有人发email问我“你的单片日志如何做到 PageRank 6 的?”并附上了一个联接。 我记得我以前这个blog的PageRank是4,主站都才4,难道单篇日志能到6。打开一看(Firefox 的PageRank plugin),果然是6,不单这一篇,翻了几篇,竟然全部是6。 Google PageRank 真的有用么?说句老实话,我觉得真得就是一骗人的玩艺,还真得好多网站信誓旦旦打出这样的标语“本站只和PageRank >= 5 的网站做联接”,听起来就跟跟PageRank 低的网站做联接掉了身份似的。其实还不是被google 的Pagerank 给骗了? 可是话说回来,其实大家都很重视身份,有一个PageRank 5 ,6的网站特别是个人blog就跟被Google 授予了荣誉证书似的,有种特别的感觉。 PageRank 即便历史使命已经完成,可是造成的灾害却是后患无穷,例如现在的Link Spam,Comment Spam,refer Spam有哪一个不是Google PageRank 的影响造成的呢?想在互联网上挑战人们在道德和利益之间的选择,你会发现人们最终选择的是利益而不是道德。 垃圾留言泛滥的年代,是google PageRank 带来的唯一好处就是让这个互联网在道和魔的斗争中更上了一层。 附 一些网页的PageRank及其变动。 http://www.wespoke.com/ has PageRank 5/10. http://blog.wespoke.com/ has PageRank 5/10. http://blog.wespoke.com/archives/000925.html has PageRank 6/10. http://www.wespoke.com/archives/000922.html has PageRank 6/10. http://www.wespoke.com/archives/000931.html has PageRank 6/10. http://www.wespoke.com/archives/000932.html has PageRank 6/10. http://www.wespoke.com/archives/000934.html has PageRank 6/10. http://www.wespoke.com/archives/000935.html has PageRank 6/10. 以上是我的blog的PageRank,两个blog的首页都是PageRank=5,但是发现了我的blog一堆PageRank是6的单片日志。 最可笑的是这一篇: http://www.wespoke.com/archives/000935.html 因为是6,而且有一个联接,交互联接到下面这个网址: http://1001ml.blogdriver.com/1001ml/589835.html has PageRank 6/10. 这个日志的pagerank也是6了。 http://blogmark.blogchina.com/ has PageRank 5/10. http://www.365key.com/ has PageRank 6/10. http://niu.la has PageRank 4/10 前次提到社会书签的pagerank很低,刚发不久,365key就被google解封,这次一下子到了6. 比博采和niu.la都高了。 当然,也有不幸的: http://booso.com has PageRank 0/10. 被定义成了 spam 变成了0....



Google 为什么不支持Rss

1:13 on Monday April 18, 2005 | 0 Trackbacks | 18 Comments

看到不少人发表关于Google为什么不支持Rss的问题和看法,这个问题以前不止一个人问起过我,我坚持的看法是Google在有新的赢利基础替代搜索之前是不会支持Rss的,而且我也没有看出来Google需要支持Rss的必要。「虽然我会去Hack google的服务,使得自己有Rss可用」 因为Rss太简单了,简单到将搜索引擎的门坎到了一种令Google感觉到一种压力的地步。 利用rss,可以简单的绕过搜索引擎里面最复杂的一个环节:HTML parse的过程,而这个过程,是众多小型搜索引擎的门坎和瓶颈,因为Rss提供规整化的结构化的数据,使得搜索引擎数据整理的过程简单了许多。可以想象,如果Google支持Rss,那么等于将这个市场的门坎降低,会导致大量的小型的竞争对手来分享未被蚕食的long tail,Google还不至于傻到这个地步。 为什么MSN和Yahoo会支持Rss呢? MSN和Yahoo的赢利空间里不像Google那么纯粹的倚赖搜索,例如MSN和Yahoo都是门户,服务是其核心,而不搜索。要击败Google这个巨人,可以有很多种做法,其中之一就是培养市场,让搜索市场的门坎降低,培养很多Google的潜在对手,最终使得这个行业的利润薄利化,达到消减Google的目的。 难道MSN和Yahoo不会被消减么? 当然会了,可是如果这样一个大的竞争对手(Google)不断壮大,有朝一日google进入服务(其实现在已经进入了网络服务行业)将反过来蚕食Yahoo和MSN的市场,那么还不如及早的阻击这个敌人。...



羊群效应:搜索引擎暗规则之四

1:29 on Monday April 11, 2005 | 2 Trackbacks | 13 Comments

“羊群效应”是指管理学上一些企业的市场行为的一种常见现象。例如一个羊群(集体)是一个很散乱的组织,平时大家在一起盲目地左冲右撞。如果一头羊发现了一片肥沃的绿草地,并在那里吃到了新鲜的青草,后来的羊群就会一哄而上,争抢那里的青草,全然不顾旁边虎视眈眈的狼,或者看不到其它还有更好的青草。 羊群效应的出现一般在一个竞争非常激烈的行业上,而且这个行业上有一个领先者(领头羊)占据了主要的注意力,那么整个羊群就会不断摹仿这个领头羊的一举一动,领头羊到哪里去吃草,其它的羊也去哪里淘金。 搜索引擎这个市场上的竞争加剧的情况下,搜索引擎的巨头之间对对手之间的动作非常的注意,一旦一个搜索引擎出现某一个新的功能,或者进入一个新的领域,众多的搜索引擎都会去尝试这个新的“水草地”是否真的肥美,是否真得有利可图。 在搜索引擎行业上,2002年以来Google确立了领头羊的位置,因此这只羊的一举一动都成了大家摹仿的标本: 1] 2003 Google 收购 blogger.com ,进入blog市场 MSN 2004 年底发布 MSN Space 进入blog市场 Yahoo 2005 发布 Yahoo 360 2] Google 收购 Picasa Yahoo 收购 flickr 3] Yahoo 拥有 Map Google 发布 Map 服务 4] 几乎同时 Yahoo 推出 video search Google 也立刻发布了video search 5] 2004 Google desksearch 2004 Msn Desksearch 2005 Baidu desksearch 2005 Yahoo Desksearch 6] Gmail 提供 1 G 的空间 Yahoo 扩容 Msn 扩容至250M 7] google 的 adwords 赚了钱 现在已经成为一种标准的模式 这样的例子举不胜据,还有例如API的公开等,那么羊群效应到底是好还是坏呢? 正:羊群效应是一种减少研发和市场调研的一种策略,现在被广泛的应用在各个行业上,也叫做“Copy Strategy(复制原则)”。当一个公司通过调研和开发而投放市场的产品,会被对手轻易的复制而免去前期的研发成本,是加剧竞争的一个来源之一。 反:羊群效应更多带来的是盲目上马的项目和没有经过充分的市场调研而导致的模糊的前景,甚至会分散一个公司的精力。正所谓,没有免费的午餐,把握好羊群效应带来的利弊才能做成正确的决策,选择肥沃的草地。 让我们随着羊群效应来预测一下未来几个“必然”的事件吧: 1] Google 会进入个人门户(Personal Portal) 这个是跟随 Msn Space 和 Yahoo 360 后对blogger和现有的多种服务例如Picasa,gmail等整合在一起,加强这方面的竞争。 2] Msn 会将 Desksearch 集成在新的OS里。(现有的Windows的search不是基于搜索引擎技术的Desksearch) 3] Baidu 和 MSN 都会推出类似 Google Adsense 网页相关广告的业务。 4] Msn 和 Yahoo 会提供 音频和视频blog。 相信还会有很多的事情会发生,羊群效应,正是在培养这样一个趋同,却又激烈竞争的群体。...



破窗理论:搜索引擎暗规则之三

12:00 on Monday March 28, 2005 | 1 Trackbacks | 8 Comments

车东在Google的“破窗”里提到Spam会传播更多的Spam,这个就是搜索引擎破窗效应的体现。 首先解释一下什么是破窗理论: "破窗理论"体现的是细节对人的暗示效果,以及细节对整体影响的扩展性   美国心理学家詹巴斗曾经做过一个"偷车实验 ",将两辆一模一样的轿车分别放在一个环境很好的中产阶级社区和环境比较脏乱的贫民区,结果发现贫民区的车很快被偷走了,而另一辆几天后仍然完好无损;如果将中产阶级社区的那辆车的天窗玻璃打破,几个小时后,那辆车也被偷了。   后来,在此实验基础上,美国政治学家威尔逊和犯罪学家凯林提出了有名的"破窗理论":如果有人打坏了一栋建筑上的一块玻璃,又没有及时修好,别人就可能受到某些暗示性的纵容,去打碎更多的玻璃。 对于搜索引擎来说,前面chedong的例子已经非常明显,随着更多的人认识到搜索引擎可以获取更多的利益,不法之徒当然回去尝试采用各种作弊手段进行扰乱正常的拍名和搜索结果,如果搜索引擎不即时制止, 这种情况就会泛滥,最好到严重的要影响到用户使用的地步的时候再来处理也就要麻烦的多和面临更多的作弊者。 看这个搜索结果Google 里搜索 天下无贼免费电影下载,你完全可以想像这样的结果是对Spam的一种变相的鼓励。 破窗理论的推论就是注重细节,防微杜渐。一旦有第一个spam出现,即时的制止,那么后面的spam也许就不会那么轻易的去搜索引擎上尝试,因为毕竟敢于做第一(第一个打破窗户)的人还是少数。 看看Baidu和Yahoo,在破窗上封堵的就比google快一些,因此基本上现在能够看到的spam基本上都来自google的结果。 google adsense呢?我以前曾经写过几篇关于fraud click(点击欺骗)的文章,fraud click的破窗随着google去年把修斯顿的一家公司推上了法庭而弥补好了。可是另外一种更严峻的破窗又出现了,直接危机到google adsense的存亡:广告内容作弊。 我看到几乎一半的中国的小网站刊登google adsense的时候都在作弊,这种利用iframe 的嵌套的作弊,然后调用另外的一段js代码从而刊登出与原文完全不相关的广告,例如房屋贷款,信用卡申请等价格较高的adsense,从我第一次注意到大约在2个月前到现在已经泛滥成灾。 破窗,一个小的缺口,几滴渗漏的河水,也许会冲垮一个帝国。...



20 80 法则:搜索引擎暗规则之二

17:16 on Saturday March 26, 2005 | 2 Trackbacks | 9 Comments

我以前曾经写过20/80 法则 重新阐释,这里从新提一下: 20/80法则也叫二八定律,即巴莱多定律。巴莱多定律是19世纪末20世纪初意大利经济学家巴莱多发明的。他认为,在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管是多数,却是次要的,因此又称二八定律。 在搜索引擎的设计上,可以说大多数的搜索引擎在搜索结果上第一页有80%的结果是相同的,不同的只有20%。可是正是这20% make different. 这20%的差别也是不同搜索引擎之间的差距,能够完善这20%将对一个搜索引擎来说是至关重要的。 在另外一方面,对于一个搜索引擎的完善,例如你可以花20%的努力做到80%的效果,而要想提高剩下的20%的效果也许要耗费80%的精力。 一个简单的例子,一个搜索引擎现在还比较初级,也许分词和搜索相关的准确率在80%左右,想要进一步提高,也许要调整40,50个参数,调整很多方面的因子,考虑很多的算法,花了极大的精力后发现只提高了一点,再调整,如此三番,也许很久一段时间后发现有90%了,这个10%就是大的突破,但是要花去的努力要比从0%到80%大的多的多。 搜索引擎各项参数的差距也许只有几个百分点,可是这几个百分点就是真正的差别,就真得创造了胜者和失败者。 从搜索的方面看,20 80 法则有另外的意义,80%的搜索集中在20%的少量关键词上,也就是说有20%的搜索词汇占了80%的总体搜索流量。搜索的词频可以通过搜索引擎的每天的统计得到,在某一些特殊的情况,这些分布可以用来对搜索引擎进行非常好的矫正工作。...



马太效应:搜索引擎暗规则之一

16:26 on Saturday March 26, 2005 | 0 Trackbacks | 11 Comments

搜索引擎暗规则序 中国人有句古话叫做:“学以至用”。若干年我一直对这句话封为神灵,因为只用致用才能看到学的效果,了解到学的不足,享受到学的快乐。 搜索引擎在过去两年的发展并没有大突破,但是却逐步走向成熟,走向商业。正是这两年的时间,部分的业余时间都用来做一些开发和研究,当我逐渐了解的更多的时候,也是我结束单枪披马的时候。未来的兴趣也许会转向分类技术,因此希望能够用这个系列为这段成长岁月化上句号。 所谓暗规则,其实就是一些生活中非常显然的规则,只不过在搜索引擎这个领域表现的不是那么的突出,之所以不够突出,原因最主要的是因为搜索引擎还在发展,市场还在进一步加剧竞争,这些暗规则或多或少已经在反映在现在的搜索引擎上了。相信有一天,这些规则会被看到的更清晰,更深入。 搜索引擎暗规则之一 《新约•马太福音》中有这样一个故事,一个国王远行前,交给三个仆人每人一锭银子,吩咐他们:"你们去做生意,等我回来时,再来见我。"国王回来时,第一个仆人说:"主人,你交给我们的一锭银子,我已赚了10锭。"于是国王奖励他10座城邑。第二个仆人报告说:"主人,你给我的一锭银子,我已赚了5锭。 "于是国王例奖励了他5座城邑。第三个仆人报告说:"主人,你给我的一锭银子,我一直包在手巾里存着,我怕丢失,一直没有拿出来。"于是国王命令将第三个仆人的一锭银子也赏给第一个仆人,并且说:"凡是少的,就连他所有的也要夺过来。凡是多的,还要给他,叫他多多益善。" 这就是马太效应。 简单的说,就是让富有者更加富有,让贫穷者更加贫穷。 对于搜索引擎来说,马太效应是一条暗规则。10年的发展期过后,google,yahoo等已经成为市场的绝对主流,利润的分享趋向与这些超大型的搜索引擎,而不是中小型的搜索引擎。 例如,你可以制作一个搜索引擎,流量是google的1/1000(这个数目并不大,每天的独立IP是大约6万,PageView是30万,大约和3,4个 booso.com 的规模大不了多少。),但是你拿到的回报和这个搜索引擎的价值绝对没有google的1/1000(这个大约是6000万美金,或者5亿人民币)。 马太效应还能反应在市场倾向于分化,倾向于使得市场的份额集中在一两个巨头的身上。因为市场对领头羊的投入会拿到比例更高的回报,因此广告/合作等的机会也会遵从马太效应,成为领头羊的东风。 马太效应还表现在当搜索引擎成为领头羊的时候,能够聚合更多的资金人力扩展这个优势,例如启动一系列的其它的业务Mp3,Pic search,Vedio等,巩固和扩大优势。 那么对于中小型的搜索引擎而言,价值在哪里呢? 市场是残酷的,可以预言现在大多数的中小型搜索引擎从经济的角度讲都要灭亡,能够保留下来的一定不会是单纯的搜索引擎,也许是被某一个网站收购成为其附加值,也许转向做企业内部搜索等现在市场还没有显著分化的领域。...



再说机器新闻的分类和聚类

17:17 on Thursday March 10, 2005 | 1 Trackbacks | 11 Comments

Google 新闻改版了,把我想实现的最关键的一部分实现了,没有什么比这个更让我感觉到失落了。我现在的新闻聚类还是石器时代。 想法和技术在与同竞争对手的面前都不是关键,关键的东西是实践。关于新闻分类聚类零零碎碎的做了快3,4个月了,一直没有没有精力来全力以赴的去完成这个。Google的中文新闻刚出来的时候不但分类有误差,而且关于新闻内容的摘要常常也是文不对题,可是就是在这样的磕磕绊绊中google的新闻做的越来越好,我这边的一些想法正在着手实现的时候,Google新闻总是非常意料之中的做到了。 我记得我第一次看到Google新闻首页出现这样的标题错误时,心里在想,Google并不难超越么,因此立此存照,保留了快照,4个月后,Google的新闻的准确度和灵活性已经完全不可同日而语了。 1] 个人新闻门户 改变以往的千人一面的新闻门户是机器新闻的目标,我几个月不上新浪的原因是我不想打开一个有90%内容我不关心的新闻网站。我会看些我订阅的Rss,例如Klog,Keso,Mao等,我这样偷懒的原因是简单的,因为这些人可以进行先期的过滤,将好的新闻/信息已经收集了起来,而降低个人获取信息的难度。 2] 定制+搜索 Google不提供Rss是完全可以离解的,因为Rss实在是把现有的搜索引擎,新闻聚合系统的技术难点降低到了极限,而这些在传统技术中都是Google的长处,Google是一个网络机器,它说实际并不喜欢用户离线的活动。但是,Google的定制和搜索加Email后也是我每天必修课,原因也是我只关心我订阅的一些内容,而这种直接送到google邮箱的做法,仍然是提高Google的粘合力的一种非常有效的做法。 3] 内容 Google 已经成为一个完全监控我们社会内容的永动机。我在Gmail里的260M的Email,包括文档,论文,程序,我曾经有过这样一次经历,给一个另外搜索引擎公司的CEO发email,使用的是我的gmail帐户,但是那封信却以技术故障的原因莫名其妙的没了,这件事情后我开始对Google留了一手,自己的代码不再用google email来备份了。我们在创造内容,我们有机器在监视内容,我们的计算机已经聪明到能够识别这些内容,然后呢? 4] Info Grid 信息网格 Peter Norvig(现在是Google搜索引擎的产品部的总监)的《网络上的人工智能》AI on Web一书上举了大量的演化的例子,我非常佩服这个思维严密的老兄,因为AI常常被一些哲学和数学家的人嘲笑为智商只有75的阿甘。他们可以随便找出一个AI系统的漏洞,可是这些数学家和哲学家仅仅是嘲笑而已,当他们在嘲笑别人的时候,AI 却一步一步的发展,直到现在连嘲笑AI的人也在每天享受人工智能的进步。 Info Grid是将现有信息分布在不同层次,不同类型,不同应用的各个点上进行有机的联接,再整理的一种思想。Info Grid的表现很多,例如Google News已经是一种信息格点的雏形,这种信息格点将不同点上的内容「新闻」进行收集,然后加工,按照阅读者的需要,以相对智能的方式推送到读者面前。 然后呢?然后再根据读者点击,阅览新闻,资料的习惯『注意,我们实际上是在各种网站的监视下的,例如上google搜索,google会纪录用户的点击』进行整理,最后得到了用户行为模型,得到用户的心理,最后调整系统推送给用户的内容。 有一天,当你连续三天点击了姚明的新闻后,你打开的google的首页上也许有令你咋舌多的姚明的新闻,不要慌,这就是user behave driven modle。 5. Exit,出路在哪里? Google阴影下的出路在哪里?这个大概不是我来提问,应该是Baidu和Yahoo之类的大玩家。当然,大玩家有大玩家的打算和想法,至于小玩家,出路恐怕就在long tail上了,Long Tail 最近是一个很热的词,连Google都说自己是Long Tail了。Google如果是Long Tail,那么谁是Bulk Body呢? 唠叨了这么多,都离题万里了,回头还是要下功夫来做。...



计算机文本分类和模糊聚类

16:16 on Thursday March 10, 2005 | 1 Trackbacks | 5 Comments

机器人新闻的Beta版本:机器新闻中心,因为没有更多的时间开发,暂时收集大家意见和建议,等月底再继续开发。 1. 什么是分类? 分类就是将一片文章/文本自动的识别出来,按照先验的类别进行匹配,确定。 什么是聚类? 聚类就是将一组的文章/文本/信息进行相识性的比较,将比较相识的文章/文本/信息归为同一组的技术。 什么是模糊聚类? 模糊聚类就是没有先验的聚类因子,完全按照算法来进行识别和类大小,类的多少,类的误差等都是不确定因素。 我这里给出来的例子,例如: [enternews]::主张:看清楚男人的货色_tom生活 有个总强调自己是名门之后的女人写过一篇文章,叫作《男人分两截》,认为男人的“上半截是修养,下半截是本质”。并且,如果“下半截没戏,上半截也肯定好不到哪儿去”。通常大家都认为男人可以完全把性和爱分开,其实未必,渡边淳一就说过:“男人的性行为其实是很精神性的。”虽然男人不幸被这个女人下了屠刀,劈成两截,但是我想在如今多数女人的眼中,男人是不是应当分两截?哪截和哪截不一样?这些并不是很重要。 ... News from:life.news.tom.com news.sdinfo.net news.sohu.com www.chinanews.com.cn 相关的内容一共有 10 条 其中: enternews 就是说这个信息属于娱乐类的新闻,这里就是进行分类了。 然后是新闻的摘要,然后是新闻的来源,我都只给出4个新闻源,例如上面的 life.news.tom.com。相关的内容一共有 10 条 :这个就是聚类了,就是说从整个娱乐新闻里进行分类,刚好有10条新闻讲述的主题和内容比较接近,因此就聚类为一个。 我们在看看这10条新闻的内容:主张:看清楚男人的货色_tom生活;“三八”:女人不爱男人不快 女性频道 南方网; 离婚,先要尊严还是钱? 女性频道 南方网.... ,可以基本上看出来是一个与恋爱有关的女性话题。 从这点上看简并算法应该还算有些价值,当然也有不精确的地方: 将坦克聚类到了互联网,我下面来叙述这个问题。 2. 分类和聚类为什么出错? 关键在于一个模糊上。因为机器不像人拥有极强的认知能力,利用机器进行新闻分类和聚类所采用的做法通常都是我们说的模式识别,或者更精确的说其实是一种模糊特征识别。 计算机看不到特征,那么这些特征从哪里来? 样本 什么是样本? 样本就是用来进行信息识别的先验信息,简单的说就是先告诉计算机,什么是娱乐信息,什么是互联网,什么是体育等。 计算机基于这些样本进行学习后得到了这些样本的直观特征,例如数字,例如排序,例如介词的位置等就得到了一个类别的特征。 样本的质量的好坏和样本的区间的大小直接影响到未来的识别能力和误差。例如样本是有偏差,那么可以想像识别的结果是不可能无偏的,样本的大小和含盖的范围也是非常重要的,我下面举一个例子说明: 我们找到50个苹果和50李子个给我们的机器看,告诉我们的机器这50个东西是苹果,那50个是李子。 情况分成这样的: 如果这50个苹果全部是红的,而50个李子有红有绿,那么当我们又拿出一个计算机完全没有见到过的 绿苹果的时候,计算机将非常可能将这个绿苹果判断成李子。因此,样本要无偏。 又比如,我只给计算机看了5个苹果,有大有小,有红有绿,然后拿出一个全新的苹果给计算机看,计算机可能也是无法判断,因为学习的样本太少。 样本-> 学习 -> 检验 -> 纠偏 -> 学习 -> 检验 .... 这个是分类和识别一直要进行的一个过程,直到能够完全的认识人类的知识前,计算机的模糊识别恐怕都有改进的余地。...



百度硬盘搜索分析

16:05 on Friday February 25, 2005 | 1 Trackbacks | 10 Comments

百度硬盘搜索将于下周一推出颇受注目的[百度硬盘搜索],说瞩目,原因是在搜 索引擎大比拼的时代,能否吸引用户,吸引了用户后能否守住用户,现在似乎大 家的共识是在桌面上了。而这一款硬盘搜索也将逼迫同行业的中文搜索引擎们要 考虑如何巩固市场的问题了。 百度硬盘搜索下载 在使用了几天的百度硬盘搜索引擎概括的看起来有如下的特征: 1] Google Like 就是从设计风格上和理念上都沿袭了google 的硬盘搜索产品,趋同设计或者 copy strategy是现在一个减少开发成本减少创新成本的绝招,这点上百度做的非 常到位。 2] Baidu Style 当然,是中文产品,就有中文产品的特征。突出的特征有两个: 1.中文分词--这个简直是废话!不能分词不就是google 硬盘搜索了么? 2.加密码功能。这个功能很体贴,因为加了密码就在一定程度上保护了个人隐私, 对于中国现在还不能人手一台电脑的国情考虑的比较周到。 3] Something whoops. 1. 图片搜索 没有能给出缩略图,这样的话这个功能显然就型同虚设了。而且最重要的是,因 为图片搜索在网页上的算法跟本地的文件系统的算法的差异很大,因此这个功能 应该说开发的不算好。 2. 长结构的语句搜索,硬盘搜索的分词系统不如百度网站本身的好。 这点上等下我有两张图可以做对比。我想百度的硬盘搜索并没有完全采用百度网 页的分词算法,因此可以从长句子的查询中得到结果,本地的硬盘搜索是先对长 语句进行分词后进行“and”的查询结构,查询后没有进行进一步的“=”的验证。 4] Something cool. 1.索引的快速。我0.8G的笔记本平时运行个PPT都只喘气,20分钟内百度硬盘搜索 索引了6000多个文档。搜索起来也非常的快。 2.能够方便的索引中文word/ppt/pdf/xml/..... 并能够清晰的区分的方式显示 搜索结果和数目。 百度硬盘搜索能够占领多大的市场? 这点上我没有概念,在百度硬盘搜索之前,我曾经使用过几个硬盘搜索工具,中 文的硬盘搜索例如 88data.com ,就做的相当不错。不过市场还没有做起来,因此 88data到现在的搜索量看起来还是一个可怜的数字。 百度的客户端一直做的不错,以前的百度下吧我曾经用来下过一阵子电影,不过 后来没有了Windows Desktop就算了。百度下吧显然没有百度硬盘搜索要容易推 广,一来下吧有竞争对手无数,二来总有侵犯版权的嫌疑。而这个硬盘搜索则是 毫无后顾之忧,而且能够固化用户的忠诚度,估计会大力推广。 百度硬盘搜索能有其它玩法么? 当然了,这里我就说说一个利用百度硬盘搜索制作个人搜索引擎的方法,如果你 有两台空闲的计算机并且在同一个局域网内的话: 1] 请你准备一台Linux 计算机,这台是做爬虫用的和搜索引擎的前端。 2] 请你格式掉另外一台计算机,从新安装全新的windows系统,安装上百度硬盘搜索。 下面配置Linux 服务器 3] Linux 上建立一个目录专门用来存放抓到的网页,并启动爬虫程序 4] Linux 上将这个目录采用 samb 的方式输出 5] Linux 配置Apache 的前端,作为搜索引擎的入口 6] Apache 采用Url rewrite到 Windows 计算机的7887端口进行真正的请求 下面配置Windows服务器 7] 在windows上联结 Linux 上的Samb 的输出,挂上这个Linux 的输出目录,映 射到本地 8] 下载安装百度硬盘搜索,并运行索引 返回到Linux 服务器 好了,这台Linux 服务器就可以进行搜索引擎服务了,改变你自己的 page style就可以做成自己的搜索引擎了。 好了,下面是我自己使用的硬盘搜索的快照。...



搜索引擎SPAM的检测方法:供BSP参考

1:23 on Wednesday February 23, 2005 | 1 Trackbacks | 4 Comments

经车东提醒,我也注意到现在很多的人采用blog系统进行网站优化,情况已经到了非常严重的地步了。 例如你在google里搜索天下无贼免费电影下载,您一定会失望,而且您会发现一个“有趣”的现象,几乎第一叶的10个全部是blog相关的,点击进去后才发现原来是利用blog 进行 link farm从而进行提升网页流量最终为特定的网站获取点击的做法。 这个做法凸出利用了各个BSP(博客托管)服务商的首页Page rank比较高的原因,在加上良好的inbound link和outbound link以及多个BSP下的blog所构成的Link farm,已经"成功"的将自己做成了我们定义的search engine spam的一种。 我最初的想法是在整个bsp的数据库里进行搜索,判断这个用户有多少个links out并且[Text length/# of Links]来进行筛选,但是后又想到这个需要遍历整个数据库,太不化算,最终想到了一个比较简洁实用的做法: 在google 里搜索 blogchina yculblog blogcn site:blogdriver.com就可以一把将blogdriver.com 里所有的Link spam 找出来,通理适用于blogcn.com,和blogchina.com以及任何的BSP,并且也适合于其它的搜索引擎。 例如在中搜里搜索link spam的情况:donews yculblog blogcn site:blogdriver.com 当然,上述的方法除了可以查询link spam之外还可以从侧面看一个搜索引擎防止spam上所做的努力。 已经开始在blogdriver和blogchina上清理link farm了,未来这两个网站将不再是SEO作弊者的地方。...



简并算法:文本自动聚类算法的实现

16:35 on Sunday February 20, 2005 | 0 Trackbacks | 12 Comments

基于文本的信息自动聚类的算法很多,我以前介绍过一些,比较流行的算法有我以前提到的KNN和SVM,在过去的一段时间里,空闲的时间基本上都用来研究能否快速的实现自动聚类。上周终于完成了文本自动聚类的兼并算法,能够相对快速的实现文本信息的自动聚类。下面就介绍一下信息自动聚类的实现,希望能够帮助大家了结google news 的新闻如何进行自动聚类工作。 1] 什么是简并算法 简并算法是指在文本信息空间内寻找任何两个最相关的文本信息,并将之简并成一个文本信息,从而实现信息数量的收缩。 2] 如何实现 1. 简并算法的实现通过比较整个信息空间内的所有文本的相关性(相识性),得到相互之间的相关性后两两(注)进行配对。配对的要求是这两个文本信息的相关性最大,例如A 找到了文档B,那么B 也一定找到最相关的文档就是A 。 注,某些情况A 最相近的文档是C ,那么B 而B 最相关的文档也是C ,存在一种情况,A,B,C 三者之间自恰,就是构成空间信息最近的一个三角形。 2. 得到了最相似文档后,将只进行平均化,或者简单的迭加。 3. 信息空间中独立信息的数量会减少到原来的一半以下,然后重复实现1 的过程,在进行兼并。 4. 信息最后简并到唯一的一个信息,就是整个信息文本的平均值。 5. 画出信息树的结构,就能够根据要进行规模不同大小的聚类进行自动聚类了。 如下的信息树结构是对我进行测试的一个小样本大约70个文档进行信息简并算法得到的图像: 完整的树结构可以看这里: 从上图可以看出,经过自动聚类后类别0,2具有最相近的关系然后进行兼并后和类别5进行了简并,然后在和类别6进行了简并,最终和另外一支的信息进行了最后的简并,聚成唯一的全部的信息简并。 图中矩阵的明暗表明了信息之间的相关程度,矩阵经过对角化后可以明显看到聚类的效应。 本试验的文本信息和分类结果下载: 下面是我进行文本聚类的文档公布下载『一共70个文档』,我产生的文本的相关性的矩阵下载。 简并算法我也实现在大样本的聚类上,大约2000个文档进行自动的分类后进行聚类的运算时间大约为2个小时「抱歉,我基本上是用shell scripts 和perl scripts 来写代码」,如果先进行聚类在分类大约要5个小时。 最耗时间的过程是产生相关性矩阵,2000X2000有400万的元素,当然不会那么快了。 经过实践,简并算法的自动聚类还有很多需要改进的地方,例如最关键的是信息之间的相识性的计算,我采用了最大似然(Maximum Likelihood Fitting)的拟合,在计算上比较消耗时间,以后可以改变成其它的算法。 文本的自动聚类可以看到Google New上面已经相当成熟,这里的简并算法未来将为博客中国的新闻搜索提供支持,希望能够提供较好的机器新闻。 - 卢亮 2005年2月20日 参考文献: Yiming Yang, S. Slattery and R. Ghani. A study of approaches to hypertext categorization (ps.gz) Journal of Intelligent Information Systems, Volume 18, Number 2, March 2002. Yiming Yang and Xin Liu A re-examination of text categorization methods. Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'99, pp 42--49), 1999. Soft Clustering Criterion Functions for Partitional Clustering Ying Zhao and George Karypis (A poster paper appears in CIKM 2004) Web Page Categorization and Feature Selection Using Association Rule and Principal Component Clustering Jerome Moore, Eui-Hong (Sam) Han, Daniel Boley, Maria Gini, Robert Gross, Kyle Hastings, George Karypis, Vipin Kumar, and Bamshad Mobasher...



Hack google: News + gmail + groups = ?

15:18 on Tuesday February 15, 2005 | 0 Trackbacks | 7 Comments

google News + google gmail + google groups = XML = personal news portal. 这几天大约是在做分类算法和做我讨厌的SAS程序太烦琐了,之余做了一个花招,将google现在的几个主要的服务 hack 了一下, 穿了起来,做成了一个个人的新闻信息门户(这个个人信息门户与我跟文心和老冒去年三月提起来的个人门户的观点是不一样的)。 主要突破了google的新闻不输出 RSS 的限制,利用google 的系统间的bug (其实也是google的自恰的原因),将google的新闻通过google本身转换成Rss输出。 做法: 1] 申请一个google gmail 帐户 例如 nowings 2] 申请一个google groups,其中设置以下几项: 1. 不发送 email 2. 谁能成为成员 Who can become a member of your group? Invitee Everyone Membership is moderated yes moderated 3. 谁能发文 members 4. 增加几个默认的用户 googlealerts-noreply@google.com (这个是必需要加的!) gnews@gmail.com 这个就是你自己了。 这里不需要邀请,直接成为会员,你自己作为moderated。 5. 记录下来发文的 groups email: nowings@googlegroups.com 3] 回到gmail Setting -- Forwarding and POP -- Forwarding 里输入 你这个group的发文地址: nowings@googlegroups.com 并且在自己的帐户里留下一份备份。 4] 去 http://news.google.com google 新闻 订阅自己喜欢的新闻来源 5] 回到 google groups, About this group 的联接下, 有: Atom feeds: 100 New topics 15 New topics 100 New messages 15 New messages 好了,这些就是我们最终得到的 Rss 来源了,google 虽然自己不提供Rss,而且也禁止别人提供Rss,可是还是被我们Hack了一把。写到这里我发现我头疼的SAS又运行出错了。。。。 以下为我的几个抓图,可以参考: Google group 的成员email 列表 Gmail 的email fordwing setting 订阅google快迅 最后将之输入到我的Rss阅读工具里面,一切就完成了:...



MSN搜索引擎亮相,中文结果差强人意

18:45 on Tuesday February 1, 2005 | 2 Trackbacks | 2 Comments

今天下午 MSN 的 Beta Search 正式改造成为 MSN Search ,盖兹亲自出面为之宣传。记得前几天看电视,达沃斯年会上盖兹一脸轻松,看来是心里的石头放下了。 February 1, 2005 Greetings, I would like to introduce you to the new MSN Search service and MSN.com home page. Based on your feedback, we have designed the new MSN.com home page to be faster, simpler, and more organized. We've also made MSN Search more precise and powerful, so you can quickly find the information you’re looking for. Our goal at Microsoft is to use the power of software to solve our customers' toughest problems. Searching the Internet today is a challenge, and it is estimated that nearly half of customers' complex questions go unanswered. That's why we're proud of our new MSN Search service, a simple and powerful tool that helps you find the answers you want from sources as diverse as Web pages, images, news headlines, music downloads, and even files on your PC. Input from millions of our customers - including me - was crucial to our efforts to make MSN Search the best it can be. If you have not already tried it, I encourage you to visit www.msn.com and type in your question. We'd love to hear what you think, and I promise that we will continue to improve MSN based on your feedback. Sincerely, Bill Gates 初步进行了几个测试,主要是针对以下内容: 容量,速度,准确度,Spam的多少,中文搜索。 1. 容量: 使用 MSN Search 和Google 搜索 site:yahoo.com 比较MSN Vs Google 3,347,511 VS 23,100,000 使用 MSN Search 和Yahoo 搜索 site:Google.com 比较MSN Vs Yahoo 271,548 VS 342,000 对于大型的网站,MSN 还是相对比较小气的。但是却发现MSN Search更喜欢一些小型的网站的内容,索引量是 google 和 yahoo的多倍。 2. 速度: 这个根据显示出来的数据显示和对网页的文件大小相比: MSN 算是速度最快的, 一般平均在 0.1 以内, 而google 不太稳定,可从0.04 到0。17,yahoo基本上是0.10-0.14。Google 采用了gzip module,通常而且搜索结果的文档大小也只有yahoo的一半左右,因此速度不错,MSN 文件大小也很小,去处了许多无用的东西。 3. 相关性: 搜索一些关键词,例如 6e , 6a , mt ,苹果(apple.com)等,这些词汇有些是缩写,有些是谐音,甚至是非流行的,基本结果是 Google 好于 Yahoo 好于 MSN Search。 4. Spam 的情况: 针对流行的一些词汇“音乐下载”,“美女走光”,“ 年终总结”等,结果三个网站的前20个结果里都含有大量的 spam 网页,但是惊奇的发现,MSN Search的Spam竟然最少,也许是算法不同,对于那些简单的重复的内容几乎很少出现。 5. 中文搜索 这部分google 和 yahoo都比较强了,让我们看看msn: 首先有很多乱码,例如在msn search里搜索六翼时,还有乱码出现。 从文字片段的长度看出,文字序列长度超过一定长度的都判断准确无误,因此MSN非常可能是采用字符逻辑位置平均值加边界限定的方法来进行字符集的自动识别,可惜这种方法对文字比较多是最适合的,文字少就很难办了。 中文分词怎么样?同样有问题: 前几天曾经有人在我的分词测试上留言,说"研究生命起源"我分的不对,我监查了一下MSN,采用如下方法: 研究生 site:wespoke.com 的结果比较与研究 site:wespoke.com后,发现“研究生命起源出现在“研究生”的搜索里,显示的位置是经过我特意加了#的分词片段,没有出现在研究的搜索里(也许是研究这个词太普及了,给消除了)。 基本上说来,MSN Search跟Google和Yahoo还是有差距,但是也是紧跟其后,难说哪一天就胜出了呢。 补充一点, Msn Search支持 Rss,考虑的够全面的了。...



对搜索引擎中文分词改进的测试

18:05 on Tuesday January 25, 2005 | 4 Trackbacks | 39 Comments

基于我以前制作的分词词典和词组字典 对现有的分词手段进行了简单的改造,主要是针对常用的人名和姓名的判断,并利用我制作的字典,能够进行相对科学的分词分析。我一直说要发布中国人名的词典,这个将会显著改善分词的不确定性,无奈实在精力有限,一直无暇制作,不果定下最后期限,春节前中国人名排序词典一定ready。 在下面的文本框里输入一段文字,就可以进行分词的分析: 例如对上文的文字进行分词,其结果如下: 基于#我#以前#制作#的#分#词#词典#字典#和#词组#字典#对#现有#的#分#词#手段#进行#了#简单#的#改造#,#主要#是#针对#常用#的#人名#和#姓名#的#判断#,#并#利用#我#制作#的#字典#,#能够#进行#相对#科学#的#分#词#分析#。#我#一直#说#要#发布#中国#人名#的#词典#,#这个#将#会#显著#改善#分#词#的#不#确定#性#,#无奈#实在#精力#有限#,#一直#无暇#制作#,#不#果#定下#最后#期限#,#春节#前#中国#人名#排序#词典#一定#ready#。 #在#下面#的#文本#框#里#输入#一#段文字#,#就#可以#进行#分#词#的#分析# 其中空格用“#”替代,基本上结果满意。 分词测试续: 需要一个专业术语词典和一个人命/公司/机构名称词典。...



搜索引擎的几则消息

1:54 on Tuesday January 25, 2005 | 1 Trackbacks | 4 Comments

1。 google TV 和录像搜索 Google Video search Beta 版暗中发布。 2。 Mozilla 的首席工程师由 google 来付工资: Mozilla's Lead Engineer Now Being Paid By Google Some very interesting news for those of you who like to talk about what Google is up to on the web browser front. Ben Goodger, the lead engineer for Mozilla Firefox, posts on his blog that his new "source of income" is coming from Google. So, has Google hired Goodger to lead a browser development program? The answer is no. Goodger goes on to say that his work with "Firefox and the Mozilla project will remain largely unchanged" and that he "remain[s] devoted full-time to the advancement of Firefox, the Mozilla platform and web browsing in general." In other words, Google now has what you might call an "inside" interest in Mozilla since it's paying the salary of Mozilla's lead engineer. 具体参考 http://blog.outer-court.com google 看来mozilla 成为google webos 的计划为时不远了。 3。 博索 booso.com 打算下周移居国内,如今booso 被百度收录为1篇,看来是被当作spam来处理了,被google 收录1万多条记录。下周准备调整战略,重整山河。...



机器的理想

10:35 on Saturday January 22, 2005 | 2 Trackbacks | 5 Comments

中国有句古话,叫“道高一尺,魔高一丈。”当然,也有人这么说“魔高一尺,道高一丈。”这话的对错不管,总归说明了只要有“道”就有“魔”。 先从 spam comment 说起: 我写过若干篇关于blog 里留言里 spam 的解决方法:Mt 系统如何防止垃圾留言以及如何通过 .htaccess 禁止垃圾 refer,Ban IP/Spam in refer via .htaccess or httpd.conf,MT 防止垃圾留言的新方法,以上方法已经采用在自己的blog系统里,虽然垃圾留言全部封死,这一个月来大约有3篇漏网,但是同时很多人反映留言被过滤,trackback被 过滤。 垃圾留言的目的很简单: 1]留下联结,让不知情者访问。 2] 有连接,搜索引擎顺藤摸瓜,将垃圾网站的Page rank提高,从而达到 SEO的效果。 凡以上做法,现在已经为无数人痛斥,但是由于有搜索引擎的暴利可图,基本上是愈演愈烈了。 车东在他的日志里写道使用 nofollow 的teg (+1 rel="nofollow" = 为超链戴上的安全套 ),从而从搜索引擎端直接解决这个问题。这不单单是一个技术问题,而这个反映出搜索引擎公司已经注意到事态的严重,开始介入用户的行为,调整用户的行为,教育用户的行为。 搜索引擎终于妥协了。一直以来以机器进行分析,一直以来人们自豪的搜索引擎,终于发话了,意思仿佛说“小样的,你来骗我,小心!” comment spam 一个小小的魔,已经迫使机器改变了行进的路线。 再说Wiki ,wiki 仿佛是共产主义的一股清风,我使用Wiki的时候立即感觉到自己升华了许多。 好事不久,我开始发现有人肆意破坏了。并且留言“这东西真好玩,竟然可以随意改网页”。再后来我发现成了垃圾场所,再后来我关闭了 Wiki。我们自己启动project的时候,我开始对wiki进行加密,“小样的,想进来,没门!” 到了去年到处是 wiki spam,我已经不用wiki 好久了,想来想去最后还是得出结论,机器跟人斗,机器一定吃亏。 我的email 里每天有无数的垃圾邮件,我总惊讶于发垃圾邮件人的智商之高,甚至他们洞悉了最前沿的信息,例如有一天我的gmail收到一封“Google alert:XXX” 的邮件,实在是佩服垃圾邮件创造者的良苦用心和高屋建瓴的科技视野。 机器,一直陪伴我十多年了,我渐渐发现机器在变,变得务实,但是机器的理想一直都没有变,而变的是我们。...



开放式搜索引擎是如何终结的?

19:48 on Tuesday January 11, 2005 | 3 Trackbacks | 9 Comments

好久不写了,一个原因是出于忙,另外一个原因是在看。 开放式搜索引擎就是我们通常我们所说的 google , baidu , alltheweb 等,其索引内容完全是由其联结分析进行自动的添加,人工参与排序非常少的一类搜索引擎(人工参与是一个相对概念,因为算法也是人设计的,因此不可能做到无人工参与)。 这类搜索引擎在搜索引擎的发展的历史上起到过举足轻重的作用,不过现在却面临诸多的麻烦,甚至是致命的敌人,这些因素极有可能导致在一段时间内搜索引擎的质量和信誉度下降,这些下降也是致命的,会终结这些搜索引擎的盈利模式,加速开放式搜索引擎的死亡。 哪些因素呢? 1] 过渡的SEO SEO 现在已经不是一个褒义词了,很大程度上SEO已经成为Link farm和comment spam的忠诚用户。另外一方面,过度的SEO已经使得大家对搜索引擎的公正性产生了怀疑。 当有很多的人想破坏一个体系的时候,当然比建立这个体系要快的多。pagerank和hilltop都已经成了瘸子。 2] spam 网页 这类网页是由程序对不同的搜索引擎的搜索结果进行整理,然后做成一个以假乱真的网页,而搜索引擎却又无法分辨真伪。这些网页有的没有内容,有的有内容,而且联结系统复杂,部分是 link farm的改版。 例如: 在google 里搜索年终总结,可以看出排名第一第二的都是spam网页,打开后网页内容是从搜索引擎搜索到的内容,然后再进行了网页优化。 现在这样的程序已经产品化了,能够完整的按照自己的想法产生一个完整的spam网站,而且这样的软件也不少。特别是中文网站,排名10000以内的这类网站大约有近千个了。 3] 版权 也许从来没有人注意到搜索引擎的版权,可是这个问题我先提示以下。 搜索引擎通过搜索显示出来的[截断文档]其实很大部分应该说是一种特殊的[转载],至于这种转载虽然加了联结,但是能否真正避开某些法律壁垒也未知。 4] 技术 搜索引擎的技术3到5年内平民化,也是开放式搜索引擎面临的一个非常大的压力。 我一直期待有一天,每一个公司的IT部门都能在1/2周的时间内利用现有的工具,制作符合公司需求的搜索引擎,开放的也好,封闭的也好,我想这个时间并不遥远。...



利用 Google Adsense 进行小笔捐款的设想

20:38 on Thursday January 6, 2005 | 1 Trackbacks | 13 Comments

前几天为张琳捐款后就一直在思考一个问题,如何才能方便的将爱心和捐款方便的结合起来,如何才能利用现在的网络资源包括论坛/Blog的资源进行捐助? 我如果不是这次刚好回国问起小覃这件事情,恐怕我是无暇捐助的。那么我相信和我怀有同样想法的人一定不少,不是不愿意捐助,而是手续麻烦,无从下手。 那么我设想现在大家(相当多的人)都有了blog,也在上面启动了google提供的google adsense 的服务,每天都有一点点地小笔收入,而google的账户管理系统却只和网页上嵌入的google adsense的 javascript的代码里面的 google_ad_client 有关,因此可以这么做: 1] 由一定的组织,机构为被捐助人设立一个 google adsense 的账户,就是申请一个google adsense。 2] 公布这个google adsense 的 google_ad_client的号码 3] 任何个人有意进行捐助/协助的话就可以将这个 google_ad_client号码替换自己叶面上原有的google_ad_client。 4] 这个替换的时间长短依据你大约打算捐助的额度来计算,例如我的全部网页都更换了被捐助者的google_ad_client,那么一个星期大约捐助20-40美元。 5] 被捐助者的google adsense账户可以通过渠道/Url来跟踪各个捐助者捐款的数额,以便及时更新、通知。 至此,能够利用自己的 google 广告进行小笔的捐助,即奉献了爱心,又很容易方便,何乐而不为呢?...



Googlebot 的访谈 Interviews with Googlebot

21:57 on Tuesday December 28, 2004 | 1 Trackbacks | 3 Comments

原文刊登在Interviews with Googlebot 觉得这样的对话很有趣,实际上并不能帮助我们理解网络爬虫,不过简单的开心阅读也不错。我将之翻译如下: Q: 你刚才完成了一个深入的爬行,你感觉怎么样? A: 给我来杯猛烈的饮料,或者双倍! Q: 你发现了任何有意思的东西么? A: 现在还不清楚。 Q: 你爬了多少网页? A: 像McDonald's(麦当劳)说的,成千上万。或者像Carl Sagan(美国著名的物理学家)说的,无所谓。 Q: 喝了几杯啤酒后,在你完成了一个深爬(deep crawl)后第一件事情是什么? A: 我要洗个澡,我感觉很..很污秽。 Q: 什么是你工作最糟糕的部分? A: Blogs,这点毫无疑问。那些糟糕的 blogrolls 进入你的脑袋直到你晕倒。那些糟糕的东西还试图幽默,天啊,想想这到底是怎么回事。 Q: 你怎么看待你被叫做网络蜘蛛 (spider )? A: 这世界上没有什么蜘蛛能够向我跑的这么快。 Q: 你在爬行中间做什么呢? A: 密谋Tim Berners-Lee(WWW的创始人)的死亡。 Q: 谢谢你接受这次采访。 A: 你只吸引了我1% 的注意力,不客气。...



Larbin 一种高效的搜索引擎爬虫工具

2:35 on Friday December 24, 2004 | 1 Trackbacks | 11 Comments

离开dallas已经整整十天了,基本上除了到处见见人之外基本上没有其它的时间来学习新知识,也没有空将要完成的工作收尾。 Niu.la ,Booso,luliang.dhs.org 和 wespoke 相继宕机,看来年底各个地方的维护都不力。 itseek的开发者多次问起 larbin 的事情,我就在这里对larbin做一个简单的介绍。因为相对于复杂的系统来讲,larbin具有高度的可配置性,和良好的工作效率。 1]larbin的简介 larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。 Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情 larbin也不提供。 latbin最初的设计也是依据设计简单但是高度可配置性的原则,因此我们可以看到,一个简单的larbin的爬虫可以每天获取500万的网页,实在是非常高效。 2] Larbin的性能特征 高效是我对 larbin 的评价。 今年四月份的时候我对larbin的性能做过一个测试,luliang.dhs.org是我自己常用的服务器,CPU 为1G,内存512,其它的性能一般,因为是三年前购置的。 我将我自己的网页 六翼作为入口,运行larbin进行5层内的url的抓取。 当时纪录的一些数据: Internet IO: 500-700k/per second (我想大约我的网络下载的瓶颈了吧) CPU top: 5%-15% disk consume: 1M/s ,基本上一个小时爬 3个G 的网页。差不多20万的页面 url 解析: 200万-300万每小时 3] larbin 的作用 很多人初见 larbin 不知道从哪里下手,那么我来简单介绍一下 larbin 的功能和实际应用。 1. larbin 获取单个、确定网站的所有联结,甚至可以镜像一个网站。 2. larbin建立 url 列表群,例如针对所有的网页进行 url retrive后,进行xml的联结的获取。或者是 mp3 。 3. larbin 定制后可以作为搜索引擎的信息的来源(例如可以将抓取下来的网页每2000一组存放在一系列的目录结构里面)。 总归,larbin应当是一个被广大搜索引擎爱好者应当引起注意的一个产品,虽然其功能逐渐被 Nutch 所接受和替代,但是其在爬虫上的优美设计的确值得称道。...



关于google adsense的几个敏感问题

14:26 on Friday December 10, 2004 | 1 Trackbacks | 4 Comments

上一篇Google adsense 支票和网站广告赢利分析收到了不少留言,也有email,关于google的相关广告,因此我想澄清以下的观点: 1] 关于网站的导向 不要因为某些关键词点击付费钱比较多而去写与之相关的内容,毕竟,钱不是一切。 加 adsense 完全是一个兴趣行为,千万别把这个看的太重。 顺便说一句了,个别词汇,都在1~5美元一次点击(CTR ~ $5/click),你在我的网页里找不到他们,我也尽量避免这些错误诱导。 2] 关于 google adsense 的 fraud click (欺骗点击) 只要 google 做的不够好,就有被人恶意利用的可能,就需要改善。至于有人用我提出的方法是 hack 了google的adsense,只能说明 google 的adsense 还不够好,对商家还不够负责任。 因此,我会在适当的时候公布更多的关于如何防止欺骗点击的一些做法。 3] 公布收入的那部分我已经删除了,毕竟收了人家钱就要按照人家的协议做事情。 在此我向 google 表示道歉。(估计google的人也看不到。)...



Google adsense 支票和网站广告赢利分析

18:20 on Wednesday December 8, 2004 | 2 Trackbacks | 9 Comments

google adsense的支票我收到有快两周了,是11/22日邮出的那一批了。比我最初预计的好,但是仍然比我期望的低。 我一共有两个网站放了Google adsense 的广告,wespoke 和 booso.com 。 重要,删除 假设一个网站完全采用google adsense 进行广告赢利,按照我的数据换算成 Alexa排名/天IP访问量/天流量/月收益 应当有下面的表: 10/7500000/5千万 /150000美元 100/750000/5百万/15000美元 1000/120000/一百万/3000美元 10000/15000/十五万/400美元 看来做相关广告应当对于一中型网站来说是可以有些收益的,当然对于最高端的网站将没有什么吸引了。全球排名100才能得到1万多美元的月收入,简直是太少了点。 当然对于我自己来说,每月有1/2百美元的收益也不错,至少可以请请朋友吃饭或者看上几场电影。 对于如何提高google adsense的收益,我还是推荐您阅读 Google Adsense 如何增加点击率/Google adsense 广告功略及〖google 广告三定理〗,因为你要尽量少的公益广告才好。...



Accoona 来势汹汹

16:09 on Monday December 6, 2004 | 2 Trackbacks | 2 Comments

Accoona 以前比较知名的行动就是举办过一次美发女子象棋赛和国际女子象棋赛。那个时候大约是夏天,然后就再也没有声音了。 几天突然暴出冷门消息,说Accoona跟中国ChinaDaily.com.cn 「中国日报」合作,一下子有了进百万的商业信息,能够深层搜索,而且拥有非常高的人工智能等,听起来很是了得。 Compaq Computer的前CEO Eckhard Pfeiffer被提名为Accoona的董事长,不知道会不会再走compaq的老路。 顺便说一下,booso 也已经抓取了 blog 的 rss 开始提供博客/blog 搜索了。现在有1000多个来源,没有时间找 rss 源,回头用 larbin 爬个几天将中文的 rss 收集个几万才好。 博索博客/blog搜索搜索 博客...



商品搜索引擎

12:26 on Friday December 3, 2004 | 1 Trackbacks | 4 Comments

朋友私下里将他们完成的第一个商品搜索引擎给我试用了一下,真得感觉非常不错。 其实商品搜索引擎去年的时候他们就开始设计开发了,一直以来没有动向,我都忘记这这件事情了,知道今天收到email才知道原来已经做好了。 记得去年Google 的 froogle.com刚出来的时候,甚是惊讶,觉得google怎么会往买卖商品上走,当然今天google做什么我都不会惊讶了,当初不是。 商品搜索引擎的根据地当然是网络销售商了,将物品作为主要的搜索对象而且对于每种物品的通用情况建立如下的一些参数: 商品名称/别名等|商品来源(网站)|商品的联接|商品的描述|商品的照片|商品的价格|商品的运输/投递|商品的评价|商品的过期时间|购买的付款方式|商品的销售情况/销售量 1] 以上的参数如果盲目的采用爬虫的技术去进行抓取,将会非常困难,需要非常强的人工智能。2] 如果有人工参与的情况下,可以逐个网站建立parse的方案,有一些则需人工收集,也比较可行。 朋友的商品搜索引擎有几十个网上商场的信息,不算太大,完全可以采取以上的方法2。 3] 网上商家按照商品搜索引擎要求提供XML输出,通过加密渠道给搜索引擎作为来源,省去了爬虫的烦恼。 4] 更新性的商品增加通过独立协议发送给搜索引擎。 3] + 4] 将会将商品搜索引擎的开发难度降低许多,也是部分商品搜索采取的模式。无论如何,多元化的搜索引擎已经越来越丰富我们的生活了。...



平移算法简介

12:20 on Thursday December 2, 2004 | 1 Trackbacks | 5 Comments

在开发Booso新闻搜索引擎的时候,出现一个问题就是有很多的新闻属于转载的形式,要判断新闻是否转载,经过实验,我发现可以用“平移”算法来实现。 "平移算法"非常简单易用,就是比较两个文章/字串中最高的重叠率和平均重叠的长度。 例如我们有两个文章的标题: "报告显示中国ip视频通信应用早于西方国家_通讯与电讯_科技时代_新浪网" http://tech.sina.com.cn/t/2004-12-01/1231468255.shtml "权威机构调查显示中国ip视频通信应用早于西方_搜狐it" http://it.sohu.com/20041201/n223268718.shtml 以上两个新闻是转载同一来源,但是略做了更动,根据平移算法,我们固定一个字串,然后将另外一个字串从末尾对应第一字串的开头进行平移,然后计算两个字串之间的交集。如果字符完全一样则为1,不一样为0,将所有的值加起来。 "________报告显示中国ip视频通信应用早于西方国家_通讯与电讯_科技时代_新浪网" "权威机构调查显示中国ip视频通信应用早于西方_搜狐it" 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0" 可以看到当B和A平移到一定的位置的时候能够找到最大的重叠度。上例是14个连续字符。 相识性:AB重叠部分/(A的长度 + B的长度 - AB重叠的长度) 14/ (33+25-14) = 31% 一般超过20%即可判断为相同主题或者是转载同一来源。 平移算法的功能: 1] 实现对高度相识性的文章进行识别。转载,来源的识别。 2] 可以发现主题,发现核心内容。 例如实现匹配的部分,上例是 A&B = “中国ip视频通信应用早于西方” 是完全匹配的部分,就是相识文章的最核心的内容。...



博索Booso 贴吧登场

12:34 on Thursday November 18, 2004 | 1 Trackbacks | 4 Comments

不要砸我,随便做了一个,说我抄袭百度也罢,说我模仿一搜也行,不过是随便制作一个贴吧自己玩玩。 博索贴吧的特征: 没有特征。 博索贴吧 例如Google 吧...



基于傅立叶变换的网络异常态和点击作弊的分析

11:43 on Thursday November 18, 2004 | 1 Trackbacks | 1 Comments

很多的时候网络异常态的判断需要有非常精确的做法,因为预警系统一旦启动如果误判将造成非常多的不必要的麻烦。以往的多种滤波模型例如卡尔曼滤波等由于起计算的复杂和滤波矩阵的繁琐,一直不被业界看好。 点击作弊是网络广告亟待解决的一个难题,因为单纯的根据IP,出现的概率已经不能满足在大用户量点击的情况下发决出那些是fraud click,哪些是正常的点击,因此一直一来是一个难以解决的难题。 参考我以前写的如何防止google adsense fraud clicks(欺骗点击作弊) 的分析 本文在这里给出通过傅立叶变换进行网络异常态的判断和惊醒作弊点击的帧测。 傅立叶变换最初是数学上连续函数进行分解的一种方法,也是数字信号处理中的基本操作,广泛应用于表述及分析离散时域信号领域。 进行 k失(又叫波失)到X(空间)的变换,得到: 傅立叶变换广泛的应用在光谱分析和信号处理上,举一个简单的例子,我们通常使用的压缩算法就是从傅立叶变换里得到的。 最初的傅立叶变换是针对连续函数,构造Deta函数后可以针对离散函数进行,然而傅立叶变化的速度很慢,因为收缩的因子跟 1/N 成正比,后来有人提出了快速傅立叶变换:FFT ,再后来进入了小波分析 wavelet ,算是彻底的将傅立叶的技术应用到了工业界。 网络异常的判断最主要的依据就是能够进行短时间内判断网络接入量的频率(频域的分布),在依据以往时间段的频域的分析进行对照,如果连续出现在一个稀少区域,那么就是有异常发生。 点击作弊计算两点,第一,点击作弊属于网络异常态,但是基本上属于高频段。 第二,点击作弊的访问频域的分布如果跟正常态有出入,那么则有嫌疑。 对博索进行了网络异常态和点击作弊的分析,基本上结果是正面的,看下图。 参考文献: http://www.cwp.mines.edu/%7Ezmeng/waveletlab/waveletlab.html http://astronomy.swin.edu.au/~pbourke/analysis/dft/...



博索新闻搜索引擎 Beta 2.0 新增加新闻分类功能

18:49 on Thursday November 11, 2004 | 1 Trackbacks | 1 Comments

博索新闻搜索引擎 增加了即时新闻类聚的功能。 化了半天的时间实现了最简单的雏形,有5个分类,分别是财经,互联网,科技,社会 新闻,娱乐休闲。每天凌晨4点钟更新一次,每个类别25条新闻。这样做的好处是我的新闻爬虫每天自己到处爬,到处跑,然后它们又将这些抓到的新闻进行分门别类的整理,做成网页,等于替我进行了一些预先的浏览工作。 至于更深入一步,则有两种做法“自动类聚,分类比较”,使得新闻组成一个cluster。这些过程比较简单,关键是样本的采纳,也许会有相当大的系统误差,回头再处理。 关于新闻的分类,可以参考我以前写的网页自动分类引擎或者中文网页自动分类引擎作为参考。 新闻类聚是信息情报挖掘系统的核心,再加上一些功能,一个情报挖掘系统就可以实现。 发现现在有不少新闻属于转载,因此未来我会加上一个新闻类别的自识别最近邻居的功能。这样可以有效识别重复出现的新闻。具体可以参考 K-nearest neighbor 的方法,实在太忙了,要这样下去恐怕又要拖工了。 参考文献: F. Li and Y. Yang. A loss function analysis for classification methods in text categorization J. Zhang, R. Jing, Y. Yang and A. Hauptmann. Monified logistic regression: an approximation to SVM and its application in large-scale text categorization...



IT新闻搜索引擎 Beta 测试

14:30 on Friday November 5, 2004 | 2 Trackbacks | 7 Comments

这一周利用空余时间,制作了专门针对IT新闻的搜索引擎, 主要收集一些门户网站的IT新闻和一些 IT门户的新闻,在测试阶段。 地址如下:http://booso.com:8080 博索 IT 新闻搜索引擎 ,因为属于测试阶段,有反馈直接在这里留言好了。...



新闻搜索引擎的技术分析及google news的对照

15:27 on Tuesday October 26, 2004 | 0 Trackbacks | 6 Comments

既然有人提出要我带队开发新闻搜索引擎,我想其实这个提法是有一些问题的。 新闻搜索引擎不过搜索引擎的一类,预期说开发新闻搜索引擎,如果更准确的说不如说是开发一个“能够识别新闻”的“新闻爬虫”。 既然没有“新闻爬虫”这个概念,我就将其定义为“News Crawl”,这个News Crawl与以往的爬虫和蜘蛛有什么不同?难度何在?有和意义? 1] 新闻爬虫是机器爬虫,仍然是按照以往的爬虫程序进行运行,但是不同之处如下: 只爬固定的新闻站点,或者某个站点的某一个 directory 下。这样确保新闻的来源 爬虫对新闻站点进行分类/权重的计算是 机器+人工 参与的 爬虫对新闻的抓取要频繁的多 爬虫要对新闻网页里面的垃圾(噪音,例如广告,无用的联接)信息能够精确的处理。 2] 以往的爬虫是一股脑的抓取,而新闻爬虫的Parser的难度要求是核心了。这点上基本上要用AI的一些技术放进去进行智能的分析。 3] 以往的新闻网站,例如新浪,搜狐,都是进行人工编辑,无论在人力上和时间上都有大量的浪费和延迟,因此新闻爬虫的好处不言而愉,就象有无数的机器编辑在帮网站进行浏览,提取,寻找新闻,当然新闻来源要快的多而且剩力得多了。 可惜的是,AI(人工智能)发展到今天,连一个网页的摘要都不能产生,因此在一定程度上看来还仍然需要人工的参与。...



多级缓冲技术在Booso(博索)搜索引擎开发中的应用

9:42 on Saturday October 23, 2004 | 0 Trackbacks | 0 Comments

在Booso 搜索引擎 的开发过程中,应用了首创的〖多层缓冲技术〗。 多层缓冲技术的基本理论依据是 1] 因为在一定的时间范围内,通过搜索引擎查询的Query的范围相对整个查询次数来说要少的多,而且查询比较集中在一些热们的词汇上。 例如: booso.com 有一天接受到7万次的查询,而这7万次的查询集中在9400个独立查询。 2] 搜索引擎的数据库在一个时间段内没有新记录进入,因此搜索结果在一定的时间内保持相对稳定。 例如:百度一般在早上7点钟的时候才会更新数据库,而这后的24小时查询的结果排序都是完全一样的。 实现多级缓冲技术的途径: 1] 多级缓存技术。Multi level Buffer system 多级缓存技术是面向大型的搜索引擎的一个良好的选择,实现可以采用反向Proxy的代理方式并且配置缓存的时间周期小于数据库的更新周期的一半。 2] 多级数据库索引触发系统 Multi layers trigger system 这种技术就是在搜索引擎的主数据库的基础上建立每日的当日搜索数据库索引,将最常用的搜索的结果植如一个相对小的数据库,这样经过多级数据库出发系统,就会建立一个类似金字塔型的多层索引系统。 这是一个面向巨型搜索引擎的解决方案,例如: 一个搜索引擎每天有2亿次的请求,我们有如下的参数: 2000万的请求在3000 个请求内 4000万的请求在100000个请求内 12000万的请求在1000000个请求内 因此构造的当日数据索引系统: 3000 请求的索引 : 1 G 100000 请求的索引:10 G 1000000 请求的索引: 50 G 这样一个供一天查询2亿次的搜索引擎也只需要 61 G 的当日索引变够了,的确是一种最节省的办法。 博索采用了第一种的方法进行开发。...



博客搜索引擎逐渐成为一个趋势

16:06 on Friday October 22, 2004 | 0 Trackbacks | 4 Comments

博客(Blog)搜索引擎相对与以往的搜索引擎相比有几个明显的优势: 1] 博客的分类机制比较稳定,这是因为一般的blogger都将自己的blog分成了几个类别,那么这样基本上在用户进行发文章的同时已经进行了最基本的筛选,相对类别就比较容易计算。 2] 博客的世界里常常关心的是最新的最具有有意思的一些新闻的突发的时间,而这些又是大家进入搜索引擎寻找乐趣的目的之一。 3] blog的维护者经常更新网页,这样就会使得一个网站的死网页的个数少,有利于爬虫的效率。 现有中国的几个博客搜索引擎主要有两个:Booso 博索搜索引擎 和Grassland 。 而国外的则已经不计其数了,今天有有一个登录:Blabble ,经过了基本的测试,没有太多的卖点。...



HillTop 算法改进的研究

11:02 on Thursday October 21, 2004 | 0 Trackbacks | 0 Comments

Hilltop 算法是Krishna Bharat和George A. Mihaila 两人提出的依靠“专家”分类进行快速定位的方法。 Hilltop后来被Google采用,并且设置在Pagerank的前端,即在请求到达的时候先按照Hilltop的算法进行查询,给出权重,如果没有将返回“0”,然后进行Pagerank的计算,最后加权两种算法所得到的结果进行排序。 Hilltop被认为是Pagerank算法后google的一大改进,可是仍然存在一个致命的缺点:专家类别的设定不够光泛。这是因为专家类别的设置一是需要手工进行操作,而是需要进行不断的调整。而且专家类别一般都有很窄的信息空间,起到的作用也是有限的。 在这个基础上我进行如下的假设和改进: 设立一个 Decay Function (衰减函数) 和 Correlation Function(相关函数) 对于文档A 来说: Decay Function = 1/ e^(Minium steps) Minium steps 是通过专家类别经过最短的联接到达本文档A 所经过联接数目。 Correlation Function = cos (A with expert documents) 就是计算这个文档A 和搜索的专家文档的相关性,可以通过关键词空间的夹角进行计算。 那么经过从新的定义以后能否找到专家文档的权重将按照: Decay Function X Correlation Function 得到,这样将会有相当的改进和提高。...



网页自动分类引擎

16:56 on Wednesday October 20, 2004 | 0 Trackbacks | 3 Comments

对于搜索引擎来说,能够自动的识别网页的类别还不够,因为一个网页的类别往往不是单独的,而是在不同的分类基础上有不同的分类结果,本文在这里再次给出信噪比这个概念: 信噪比是一个用来衡量网页里关键词的信息是否超过一定的阈值的关键: 网页信噪比(Significant) 一个网页针对不懂的搜索词有一个信噪比的概念,信噪比Significant的定义如下: Sig=(Sqrt(Ns)/(Sqrt(Nb)))*Log(Nb) Ns为被搜索词出现的次数,Nb是背景项,是指总共这个网页里包含的词汇量。 这是针对单个搜索词语而言的, 如果针对多个词语,通常是采用 Sig=Sigma(Sig_i),这个Sig_i是第i个词汇的信噪比。 通常的情况下如果一个网页的Nb背景项将相对稳定,可以采用Nb+Ns来代替。 博索的网页自动分类引擎是第一个在线计算网页信噪比的在线搜索引擎,可以根据booso的结果进行整理分类,可以知道为什么在搜索引擎里那些拍名最靠前的网页能够上榜的原因了。 上图的绿色表示权重,粉红表示信噪比。...



gdesktop.com 与 google 的桌面搜索

11:34 on Thursday October 14, 2004 | 1 Trackbacks | 1 Comments

Google 升级了桌面搜索系统Google Desktop 桌面系统 。 前次在Google WebOS:揭开Google这个谜底吧里写到 google 要做web操作系统,那么google 的进展呢? 先看看这个域名吧: gdesktop : whois gdesktop.com Registrant: Google Inc. (DOM-1313678) 1600 Amphitheatre Parkway Mountain View CA 94043 US Created on..............: 2004-Apr-06. Expires on..............: 2008-Apr-06. Record last updated on..: 2004-Oct-12 15:56:50. 是今年4月份注册的,同时注册的还有 gbrowser.com Gdesktop 四月一日发布第一版,因为所有的人都在注意gmail 因此错过了这个。现在google桌面已经比较好用了:Google Desktop 桌面系统 。...



Google Adsense 如何增加点击率

16:09 on Wednesday October 13, 2004 | 2 Trackbacks | 40 Comments

Google adsense 广告功略及〖google 广告三定理〗 www.wespoke.com 和blog.wespoke.com以及 http://booso.com 都在九月份开启了google adsense的服务,基本上应该算是中文google adsense开通最早的用户了。 随着google adsense的广泛流行,随之而来的一个问题就是如何提高自己adsense的收入。对adsense进行了两周的观察和调研后,基本上有一定的逻辑原则,写在这里供google adsense用户参考。 1] google adsense 广告之第一定理 只有被点击的广告才能算钱。 这默认的意思就是你的广告展示必需有用户看到,必需被用户点击才有效。那么以下的因素必需考虑: (1) 广告的位置 (2) 广告的色彩 (3) 广告的大小 (4) 最重要的就是你这个广告的浏览量了,或者叫展示次数。 2] google adsense 广告之第二定理 只有用户关心的内容用户才会点击 当用户看你的文章时,如果在文学的页面上看到是有关Java培训的信息,他一定不会点击,但是如果广告的内容是文学交友,文学期刊等,效果要强的多。 这里引申的意思是你的单篇的页面的内容要尽量集中,只阐述一个问题,这样google 的Mediapartners-Google爬虫才不会误判你的网页类型和内容。 3] google adsense 广告之第三定理 任何作弊和欺骗的方法都行不通。 国人善于钻空子,任何一种健全的商业规则只要放入华人市场,立刻就变了味道,例如传统的alexa排名。要说明的是:google adsense不会是你的个人谋生手段,将更多的精力花在其它的有意义的事情上要比寻找作弊的努力强的多。 其它的一些建议: 1] 善用渠道 渠道可以让用户知道自己哪个方面的网页是最受用户欢迎的和最常被点击的。 例如我个人的blog和个人技术 blog www.wespoke.com 平均每天浏览量在5000次左右,每天大约有2,3美元的收入。而 booso.com 每天有50000次的点击,但是常常只有1,2美元的收入。 推荐阅读:google adsense fraud clicks(欺骗点击作弊) 的分析 谢谢Punky的建议,本文进行了修正。...



转载John Dvorak:Google and its following

17:54 on Sunday October 10, 2004 | 0 Trackbacks | 3 Comments

注:这是一篇非常有意思的文章,即便没有太多的新鲜概念,但是也在一定程度上反应了IT舆论界对Google的看法。 文中提出两个半成品的搜索引擎: http://www.kartoo.com 和 http://www.mooter.com 有创新的意义但是不能算是主流。 John Dvorak:Google Google的IPO 会激起人们对搜索引擎的兴趣,还会有新式的Web 搜索。 毫无疑问,今年是搜索引擎年。Google的IPO 将聚敛起巨大的资金,并产生许多纸面富贵的富翁。尽管投资界并不认为这次IPO 标志着一次新繁荣的开端,但它显然会吸引足够多的眼球,引发一场新的搜索引擎热。总之,Google不仅使很多人一夜致富,而且它已经是一家在挣大钱的公司了。 AltaVista 是第一家知名的纯粹搜索引擎公司,但自从它的所有者Digital Equipment 公司被Compaq收购后,它就逐步无力支撑下去了。因为Compaq公司把它置于次要地位,采取完全自生自灭的态度。就这样丢掉了一只会下金蛋的鸡,真是遗憾。...



Booso news services and rss service

18:37 on Wednesday October 6, 2004 | 1 Trackbacks | 0 Comments

Booso.com lunch a new service: News search and rss service, news.booso.comwill be able search most recent news. at the same time, booso.com also will generate rss for this search. http://news.booso.com/google, http://news.booso.com/blog, the rss are locate at: http://feeds.booso.com/google http://feeds.booso.com/blog...



Refuse me? Think deep.

12:53 on Wednesday September 29, 2004 | 1 Trackbacks | 1 Comments

http://keke.vonye.com/index.php/archives/2004/09/29/102/trackback/



Google到底打算做什么 - 后搜索引擎时代的杀手锏

10:13 on Tuesday September 28, 2004 | 5 Trackbacks | 4 Comments

一个月前Topku曾经问我google最近有什么样的计划,google最近想干什么,我没有告诉他,只是告诉他一个新的计划也许会和微软进行正面的交锋。 这一个月的局势变的更加明朗,我研究了差不多一个月的资料,觉得自己没有实力,也不可能在短时间内做出象样的产品出来,既然这样,不如共享在这里好了,谁有兴趣的话也许拉起一干人马趁着Google还没有发布Webos之前先做一个Porototype,也许还能赶上下一波Google和Microsoft的 OS 大战呢。 以下是我写的一篇稿子的片断: 后搜索引擎时代的杀手锏 随着Google的上市,Google的季度报表将成为这个市场的晴雨表。在等待google下个季度的报表出来之前,我们似乎已经可以从已往两年的google从Adwords的收益中得出这样一个结论:"搜索引擎市场正趋于饱和。"年初的IDC的一项调查能够很清晰的支持这样的结论,那就是已经有85%左右的企业正在或者准备使用搜索引擎的adwords进行商业宣传。而这样的一个比例只比去年的统计结果高了10%不到,这也就意味着未来的一段时间如果没有其它的商业模式,搜索引擎的利润来源也将不会有太大的改善。 可以肯定一点,Google从诞生起就是一个创新的企业,这也就是为什么Google能够异军突起的原因。不过最近不断有评论指出Google在最近的两三年内除了收购了一些新兴公司外在搜索引擎技术上已经没有太多的创新了,其实这正是Google要转型的一个信号。让我们看看最近Google的一系列的动作: 1] 2003年的世界搜索大会上,Google第一次展示了Google神秘的Google file system,一种将千万台电脑链接在一起的一种超大文件系统。 2] 2003年2月,Google收购了全球最大的Blog服务商Blogger.com 3] 2003年底,Google收购了一家新兴的SNS公司Orkut.com 4] 2004年5月,Google收购了一家数字照片管理公司Picasa.com 5] 2004年5月,Google开始试验性的提供大小为1G的email系统gmail.com 6] 2004年Google从Bell lab挖走了Unix和C语言的创始人之一Ken Thompson。 7] 2004年起Google开始招收大量高水平Java程序员和OS开发员。 8] 2004年起Google正式支持Mozilla团对的开发,Mozilla是现在除了IE之外最流行的浏览器。 从以上的一系列行动上可以看出: 1] Google 开始侧重网络应用 2] Google 开始测试/应用大文件系统(OS based) 如果单独看Google的文件系统和1G的Email的测试,也许还是孤立时间,但是接合Google有迹象进行的操作系统的开发,那么这一定不是一个孤立的事件了。 Webos Webos或者我们称为网络操作系统,是一种基于浏览器的虚拟的操作系统,用户通过浏览器可以在这个Webos上进行应用程序的操作,而这个应用程序也不是普通的应用程序,是网络的应用程序。举一个简单的例子,当我们要进行照片的处理时我们通常打开电脑,进入Windows操作系统,运行Photoshop程序来进行加工和操作。而在Webos上,我们是通过打开一个浏览器,登录到我们的一个虚拟的桌面上,运行Picasa这样的网络应用程序来进行照片的加工和处理。 从用户的角度出发,两种运行方式在实际操作上不会有太明显的差别,唯一不同的地方就是Webos是运行在一个浏览器内。但是这点不同却能够导致根本性的变革,因为用户需求的将只是一个浏览器(我相信99%的计算机都已经安装了浏览器),这个浏览器可以运行在Windows的操作系统上,也可以运行在Linux上,而且用户并不需要安装各种的应用软件,因为webos只要有一套的应用软件,所有连入这个系统的用户将都可以使用。 让我们再回头看看Google的一系列动作,我们会看的更加清晰。Mozilla是IE外最流行的浏览器,被Google选择作为Webos的基础。在这点上因为Webos将对传统的OS例如视窗产生巨大的打击,可以无庸置疑,微软不会把心甘情愿地让Google用IE来武装自己。而测试1G的Gmail系统似乎也预示着Google在测试这样一个webos对用户而言网络存储取代本地存储的可能。而其它的几项网络的应用也正是在这样一个平台上已经或者将要运行的网络应用。 由此可见,Webos完全能够成为Google在网络时代的下一个杀手锏,因为网络时代,我们需要网络OS。...



New spider from Yahoo.com

16:00 on Thursday July 1, 2004 | 0 Trackbacks | 1 Comments

For Chinese market, Yahoo launch www.yisou.com , which is mainly focus on China/Asia market. Just after Yisou.com launched, it seems they also start using a new kind of spider, which they even didn't give it name yet. web2.search.cnb.yahoo.com - - [22/Jun/2004:12:41:54 -0500] "HEAD /gmail HTTP/1.1" 200 - "-" "DeadLinkCheck/0.4.0 libwww-perl/5.69" This is the first day yahoo spider crawl the website but only check the "DeadLink" After that, it seems they spend 1 week to process the whole data and then remove the dead links and prepar for crawl the alive links. web8.search.cnb.yahoo.com - - [01/Jul/2004:15:35:16 -0500] "GET /广州环境污染问题 HTTP/1.1" 200 2108 "-" "Mozilla/4.0" This obviously a spider since it: 1] Only see these txt/html pages 2] No jpeg/flash and all other media loaded at the same time 3] Dig a website from link to link 4] the ip of this crawl locate: 北京市 Yahoo中国 The wired thing is that they didn't even give it a name, wish I can know the name soon....



Alexa API

17:25 on Wednesday June 9, 2004 | 0 Trackbacks | 2 Comments

All Alexa toolbar send request to data.alexa.com 80, here I give a short script to access data.alexa.com and get the XML output from alexa. Simulate the alexa toolbar: #!/usr/bin/expect spawn telnet data.alexa.com 80 expect -re "Escape" sleep 1 send "GET /data/TCaX/0+qO000fV?cli=10&dat=snba&ver=7.0&cdt=alx_vw%3D20%26wid%3D31472%26act%3D00000000000%26ss%3D1024x768%26bw %3D639%26t%3D0%26ttl%3D4907%26vis%3D1%26rq%3D23&url=http://blog.wespoke.com/ HTTP/1.1\n" send "Accept: */*\n " send "Accept-Encoding: gzip, deflate \n" send "User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; .NET CLR 1.0.3705; Alexa Toolbar) \n" send "Host: data.alexa.com \n" send "\n" send "\n" interact Output from Data.alexa.com: Alexa.xml...



Funny thing about Google PageRank Prediction

15:27 on Monday May 31, 2004 | 0 Trackbacks | 0 Comments

Guys talking about the PR of google, and even there is a website predicte what PR will be when next time google update. http://www.rustybrick.com/pagerank-prediction.php please input www.itsallnet.com to check what is the result: Results: Your current Google PageRank is 8. Based on our calculations, we predict your future PageRank after the next Google update will be 10....



grab searching key words from refer system

14:08 on Wednesday May 26, 2004 | 0 Trackbacks | 0 Comments

Since there are around 10000 referreral request from all over the users who using my refer system, so, I can grab all these hot key words from the access log file. Up on this, we may know what topic will be the hottest one and what words going up and what going down. Beside this, since most of the searching engine record the previous searching words, so, these 2 words should have relation, by this we can find out the relation of these key words. The hot keywords of the day --go here!...



中文blog现状之扫描与商业展望

15:00 on Sunday May 23, 2004 | 0 Trackbacks | 0 Comments

刊登于上上期的《现代信息技术》杂志 卢亮 关键词: Blog 、blogger、User API、Mblog、Content Management 、e-learning Blog的概念在2002年进入中国以后,在短短的一年的时间里迅速增长。随着blog 托管网站的兴起,blog已经从单纯的抽象概念走向了一个被大众接受的一种媒体文化以及一种全新的网络文化及应用。现阶段中文blogger的数量保守估计应该在30万左右,而且以每天新增上千blogger的速度进入了高速增长期,可是数量不是质量,拥有30万中文blogger的中文blog市场,在商业方面仍然是非常初步的,如何在短期内从blog里面探索出一条商业道路来仍然是一个未知数。 现状扫描 中文blog从2003年末至现在,发展迅速,同时也随之而来出现了一些新情况,从现有的中文blog的现状来看,有如下的几个特点: • 托管服务风起云涌 • Blog服务的鱼目混杂 • 专业与无序并存 • 一些有益的尝试 托管服务风起云涌:在2003年年底,中文blog只有3家托管服务,这三家都有超过1年的历史,是中文blog兴起的先行者。虽然这三家blog托管继续领导中文blog市场,可是已经在短短的几个月内涌现了近10家的blog托管网站。这些网站规模有大有小,提供的服务有好有差,但是无论如何,可以看得出,已经有越来越多的人注意到中文blog的市场了,认为这个将是一个很好的尝试,尽管谈起商业模式,现阶段基本上尚没有一家blog托管网站实现了盈利和短期内可以看到有盈利的可能。 Blog服务的鱼目混杂:Blog热导致了众多的门户网站纷纷建立了自己的blog服务,而这些服务,通常不过是一个发布系统再加上一个日历和一个能够供用户进行评论的留言功能。如果说这样的系统就是blog,显然有些强差人意了。这些门户网站依靠自己的用户资源,可以很轻松的将其所谓的“blog”的概念普及给他们的用户,可是blog内在的许多相关的概念例如Traceback,Rss,Creative Commons却都没有被采纳。可以预计,这样的一些系统,会为其用户带来一些负面的导向,因为我们已经听到了“blog不就是网络日记本么”这样的感慨。 专业与无序并存:最初加入blog潮流的中文blog先行者,大都是一些媒体工作者,一些大学生以及一些IT从业人员。基本的blog的内容也集中在个人生活、学习的纪录,个人评论,以及追踪国外的IT新闻。这些都是很普遍的blog形式,然而这些blog却很难受到大众的关注,被媒体曝光的一定是这里面叛逆者,例如木子美以及竹影青瞳这样的以色情为基调的blogger 往往更能得到宣传媒体的厚爱,更能被发现“卖点”。在这样的气氛下,不免一些blogger会学习重复前面两位的路子,以期造成轰动效应,而不了解blog的人则对blog产生一个先入为主的有色印象,对中文blog的长期健康发展带来一些的隐患。 一些有益的尝试:我们还是看到了一些有益的尝试,在blog的应用方面,一些中文用户已经开始利用blog 这种方便的发布方式来推广自己,建立了个人简历,以及个人新闻,或者个人相册,家庭作业等等。这些有益的尝试与blog这种网络应用的前后台服务的脱离有相当大的关系,只有当用户能否很方便的利用blog系统提供的API 来完成自己需要的界面,内容的设置,才真正的能够将blog的应用推广开。 blog应用的商业化 除了blog加入商业元素外,blog本身的也因为其特点将会被更多的商业和非商业机构采纳,成为小型商业门户网络的解决方案。Blog对于非个人的应用也会随着中文blog的普及而产生而进入如下的一些领域: • 用于公司和团体的信息发布 这个已经逐渐成个小型工作室或者人工作室(soho)的信息发布的首选解决方案。对于soho用户来说,建立网站的方案选择一直是一个棘手的问题,因为并不需要像大型公司可以建立单独的部门或者专人负责甚至将这部分外包给其它的专业公司,但是也需要能够有比较专业的信息发布系统,而不能采用类似个人主页的方式。而blog的user API(用户接口)就刚好为这类用户提供了一个良好的用户接口,并通过这些用户接口建立设置自己的接近专业设计的网站。 • e-learning上的学习 E-learning已经不是一个新鲜的概念了,随着文档的电子化和高速网络的普及,e-learning的概念又一次被挖掘了出来,而这一次e-learning显然要比2000年网络泡沫破碎前有了全新的提高,不但是因为internet已经在这4年里经过了更大的发展,而且在硬件和软件方面有了更加充分的准备。在国内已经出现了几个高中利用blog的资源,进行辅助教学,为学生和教师分别建立了各自的blog ,然后教师将教学要点和家庭作业公布在blog上,而学生将其家庭作业和学习心得写在blog 上,从而实现了无纸教学和教学上的互动。 中文blog未来可以突破的几个方向 对于现有的中文blog托管网站来说,可以说2004是一个机会与挑战并存的一年。2003年中文blog的突飞猛进的增长和各个门户网站的介入,不可避免带进入一些必要的整合和商业上的运作。对照国外的blog商业化操作,中文blog托管服务和商业网站,应该从以下3各方面着手: • 提供更加丰富的功能 • 手机blog以及短信blog • 加强blog市场的规范化管理 提供更加丰富的功能:现有的中文blog服务商虽然都各有特色也拥有一些比较鲜明的特点,但是仍然缺少一些方便的User API。Blog的最流行的软件Moveable Type的缔造者Six Apart公司在最初为blog设计软件的时候就将用户接口作为一个最主要的特征来开发,从而在后面的几年内看到了明显的效应。现在的Moveable Type已经是最多商业blog用户采用的系统了。Six Apart公司的下一个侧重点是Content Management(内容管理),这也给国内的blog服务商一个提醒,也许,内容管理将成为未来商业blog能否成功的一个关键。 手机blog以及短信blog:随着能够拍照的手机的流行,手机blog(mblog,mobile blog)将无可非议的成为一种新的blog方式。手机blog就是采用手机进行拍照,然后将图片配以简单的说明直接发布在自己的blog上。与之相相仿,短信blog是通过手机将短信息直接发布在blog 上。当blog用户在旅游,遇到突发事件的时候,不能接触网络,或者是需要发布一些实时的消息时,这种依靠手机进行发布blog的形式无疑是一次革命,而且更加方便和适合新闻媒体工作者和旅游者。 加强blog市场的规范化管理:现在的中文blog仍然是一种用户自由发布的状态,因为从以往的经验看出,这些单个blogger 常常会影响到整个网站的稳定运行以及托管服务的抗击风险的能力。其中不乏有一些blogger的内容会给社会带来负面和消极的影响,甚至部分的blogger的内容会给国家和集体的利益带来损害,这是一个遵纪守法的公民所不愿意看到的。 当然,blog的应用和发展也会出现在其它的方面,因为一旦进入商业模式,一切的发展都是按照市场的需求作为导向的。在中文blog逐渐普及的今天,本文虽不能将整个中文blog面临的问题和机遇一一详述,但是希望能够做到窥一斑可见全豹,为中文blog的发展提个醒。...



Searching result scripts

11:25 on Wednesday May 19, 2004 | 0 Trackbacks | 0 Comments

Thanks for Chedong, I remade the script he suggested to me and generate a new script which can find out the keywords and make a easy stastic from access_log: The searching result for this website seems really funny and we do can find sth interest here: Searching result of wespoke.com. Here is script #!/bin/bash #NAME="access_log.`date +%m-%d-%y`" NAME=$1 grep baidu.com/baidu $NAME > baidu.search cat baidu.search | gawk ' { print $7 } ' | sort | uniq > list.search cat baidu.search | sed "s/\ /#/g" > baidu.tmp mv baidu.tmp baidu.search echo "" echo "===============Baidu===============" for VAL in `cat list.search` do COUNT=`grep "#$VAL"# baidu.search | wc -l ` echo "[$COUNT] http://blog.wespoke.com/$VAL" echo "" grep "#$VAL"# baidu.search | tr "#" ' '|awk '{print $11}' | perl -pe 's/\\x(\w+)/%\1/gi' |perl -p -e 's/%(..)/pack("c", hex($1))/eg' | perl -pe 's/(.*)?(word=(.*?))[&"].*/$3/gi' > keys.search for VAR in `cat keys.search | sort | uniq ` do KEYCOUNT=`grep $VAR keys.search | wc -l ` echo "[$KEYCOUNT]$VAR||" done echo "" done rm baidu.search list.search keys.search echo "===============Google===============" NAME="access_log.`date +%m-%d-%y`" grep google.com $NAME > google.search cat google.search | gawk ' { print $7 } ' | sort | uniq > list.search cat google.search | sed "s/\ /#/g" > google.tmp mv google.tmp google.search for VAL in `cat list.search` do COUNT=`grep "#$VAL"# google.search |grep search | wc -l ` echo "[$COUNT] http://blog.wespoke.com/$VAL" echo "" grep "#$VAL"# google.search | grep search | tr "#" ' ' | awk '{print $11}' | perl -pe 's/\\x(\w+)/%\1/gi' | perl -p -e 's/%(..)/pack("c", hex($1))/eg' | perl -pe 's/(.*)?(q=(.*?))[&"].*/$3/gi' | jv-convert --from utf-8 -to gb18030 > keys.search for VAR in `cat keys.search | sort | uniq ` do KEYCOUNT=`grep $VAR keys.search | wc -l ` echo "[$KEYCOUNT]$VAR||" done echo "" done echo "===============3721===============" grep 3721.com $NAME > 3721.search cat 3721.search | gawk ' { print $7 } ' | sort | uniq > list.search cat 3721.search | sed "s/\ /#/g" > 3721.tmp mv 3721.tmp 3721.search echo "" for VAL in `cat list.search` do COUNT=`grep "#$VAL"# 3721.search | wc -l ` echo "[$COUNT] http://blog.wespoke.com/$VAL" echo "" grep "#$VAL"# 3721.search | tr "#" ' '|awk '{print $11}' | perl -pe 's/\\x(\w+)/%\1/gi' |perl -p -e 's/%(..)/pack("c",hex($1))/eg' | perl -pe 's/(.*)?((p|name)=(.*?))[&"].*/$4/gi' > keys.search for VAR in `cat keys.search` do echo "$VAR||" done echo "" done echo "===============Yahoo===============" grep search.yahoo.com $NAME > yahoo.search cat yahoo.search | gawk ' { print $7 } ' | sort | uniq > list.search cat yahoo.search | sed "s/\ /#/g"...



Gmail, should be blocked?

13:30 on Monday April 19, 2004 | 0 Trackbacks | 1 Comments

Google obviously have more ambition than anyone else. 1G capacity Gmail have been lunched for more than one month and there are thousands of posts in internet talking about Gmail, however, there is no clue from Google it's self. Google just keep it in dark or just an April fool joke? Search gmail using google, the google ADV bar will show a like: Should Gmail be blocked... it is a survey, and I didn't check the result, but google the result of gmail it's self is really a joke....



Google Loses Tabs In New Look, Gains Web Alerts & Personalized Search Results

15:10 on Monday March 29, 2004 | 0 Trackbacks | 1 Comments

News Item...



differential search engine

16:58 on Thursday March 11, 2004 | 0 Trackbacks | 1 Comments

What google search for a item, while differential search engine will search the difference between the two information. Example: A-->B realation is 50% B-->C realation is 40% and there is no chains connect from A-->C, the only connection from A---->C is A-->B-->C, so the realation of A---->C is 50%*40%=20%. The engine caculate the realationship of A-->B B-->C and A---->C is realation search engine. then what is diff-engine: differential search engine will caculate the difference of the B-A and B-C, which will be useful when you want know what is the difference between the very similary information. Example, if you go to www.froogle.com to check sth, you may cmpare the price, but anything else? sure, you also wahnt compare the color, the functions, the features,..... many thing you need compare. So, you know one thing differential search engine can do? :-D It can do more. I am busy in designing it, hopefully I can release the full engine in middle of this year. Liang 3-10-2004...



What a stupid Google API

17:27 on Thursday February 19, 2004 | 0 Trackbacks | 1 Comments

2nd step meet some error, what a stupid google API, not alow me to connect directly with a WIRED HTTP_AGENT!!! 403 ForbiddenGoogle   Error ForbiddenYour client does not have permission to get URL /search?q=%E5%8D%9A%E5%AE%A2&num=100&hl=zh-CN&lr=lang_zh-CN%7Clang_zh-TW&ie=UTF-8&oe=UTF-8&c2coff=1 from this server. (Client IP address: 129.119.200.36) Please see Google's Terms of Service posted at http://www.google.com/terms_of_service.html If you believe that you have received this response in error, please send email to forbidden@google.com. Before sending this email, however, please make sure to take a look at our Terms of Service (http://www.google.com/terms_of_service.html). In your email, please send us the entire code displayed below. Please also send us any information you may know about how you are performing your Google searches-- for example, "I'm using the Opera browser on Linux to do searches from home. My Internet access is through a dial-up account I have with the FooCorp ISP." or "I'm using the Konqueror browser on Linux to search from my job at myFoo.com. My machine's IP address is 10.20.30.40, but all of myFoo's web traffic goes through some kind of proxy server whose IP address is 10.11.12.13." (If you don't know any information like this, that's OK. But this kind of information can help us track down problems, so please tell us what you can.)We will use all this information to diagnose the problem, and we'll hopefully have you back up and searching with Google again quickly! Please note that although we read all the email we receive, we are not always able to send a personal response to each and every email. So don't despair if you don't hear back from us! Also note that if you do