October 25, 2005
博客搜索和博客联播发布::[Search Engine]
博客搜索一共收录了200多万的博客,一共索引600多万条记录。
博客联播是您随时发现新文章的一个来源,平均每天收录8万条记录,并且滚动播出(过滤程序将一些字数少于200,色情等的先过滤掉了),是中文博客的即时风向标。
Booso.com 最早是我在博客动力的时候业余时间利用refer 服务的数据制作的搜索引擎,今年年初因为事物繁忙,就逐渐荒废了开发,直到这次回国后才又有精力带领团队进行完善。Booso 从诞生到现在,一直是一个试验田,一共进行过如下的尝试:1] Referral 的服务 2] refer 和 关键词搜索的服务 3] 自动分类引擎的测试 4] 贴吧 5] 新闻搜索服务 6] 新闻聚类服务 7] 博客搜索服务 8] 博客联播服务。虽然前前后后历经一年之久,很多服务也是中途夭折,但是基本上正是这些尝试,我和我们的团队得到了很多锻炼和经验,这些财富才是最值得收藏的。
对于这两个服务,我和我的团队还在完善中,如果有好的建议或者砖头请不要吝啬。
Trackback
You can ping this entry by using http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/803
Trackbacked from http://wpt-en.bargarmetal.com with Very nice. You're site is very helpful. on .
Comments
zheng, 是我程序计算时间的时候没有拿到合理的格式,因此得到了默认的时间起始点.
你用feedburnner的服务吧?
Posted by: 6e at October 26, 2005 01:37 AM from 218.249.35.66很不错! 更多的人现在从blog上获取信息.一个针对Blog的search engine 会是很多人需要的工具. 希望收录更多的英文blog....
Posted by: Xin Chen at October 27, 2005 09:50 AM from 210.82.111.222楼长,你说的过滤是开什么玩笑吧?
联播里面第一页就21个相关美女、美眉、诱惑这样的内容
我想这个过滤实在不敢恭维啊
这样的结果假如也算过滤过的话
那么不过滤该怎么样?
搜索keso,没命中
搜索laobai,没命中
搜“搜索引擎研究”,还是没命中
结论,不好用。
不然就是我不会用?
请楼上的两位认真对待,搜索keso和laobai都有很多的结果,不知道是否输入了正确的字符?
另外一页一共20条目,不会出现21条象您说的这样。
我刚才扩容到了30条,希望您不会发现31条数据。
:)
Posted by: 6e at October 28, 2005 11:22 AM from 220.207.87.136中国政府不是禁止色情吗,为什么网上尤其是门户,社区,全是特色内容? Maybe I do not know enough about the real situations in China. I need to go back to China often. -2005 Roboo儒豹Meshfire
Posted by: Roboo儒豹Meshfire at October 28, 2005 01:37 PM from 24.6.199.68不知道所谓的“认真对待”是什么意思。
比如我听说过laobai这个人的blog不错,但我不知道地址,刚好我知道了这个搜索引擎,我键入laobai,是,有很多结果,但是第一页看到底都没找到我想要的东西。我不知道我应该怎么“认真对待”才能找到。如果一个给普通人用的搜索引擎都需要在开发者的“认真对待”的提醒才有可能找到想要的东西,不知道这叫不叫好用。况且,我认真对来了,他还是不给我结果。不知道您的搜索引擎打算怎么定位。至少在以blog名搜索上,他失败了。
ps:我以为blog搜索不从tag这条路走,没大戏。
卢亮,你好!我最近开发了一个类似lilina的xml新闻聚合系统,并应用在我的网站上——聚合了你的blog头两篇更新。如认为不妥,请联系feitiger###etang.com
Posted by: ahu at October 30, 2005 07:37 AM from 221.232.187.5很不幸,楼主所说的“认真对待”我已经做到了。
我刚好就是看到一个页面上有30条显示,而且一条一条数出来的21条中包含楼主所说的“被过滤”的信息。楼主应该能够从我发文的时间判断出当时我看到的是20条/页还是30条/页,这个我是拿不出任何证据的,而楼主绝对是权威。
同时我还没有使用任何关键词什么的,就是打开那第一页,应该是最新被收录进的内容,印象中第一条好象是6(时间单位似乎是秒,不确定)前所收录的。
或许我访问那页面的时间不对吧,我想应该是这样的:那时间或者在楼主看来,正是红灯区开张的时候,所以在那时间段里面所收录到一些相关BLOG正是时候。
BTW:发文不要怕给人挑毛病,偶很认真的,但是不回太较真儿,不然我下次截个图给你,就怕你这里不给我贴啊.lol……
博客中国的RSS聚合服务的错误能不能在这里反应呢?
rss.bokee.com的Rss聚合功能貌似不能收录MSN Space的feed. 我试过很多次, 都提示有错误, 也许是Bokee的错, 也许是我的Space有问题. 可以试一下http://spaces.msn.com/members/bluemiles/feed.rss
喀喀, 有点冒失哈, 莫见怪
Posted by: bluemiles at October 31, 2005 10:40 PM from 220.249.19.65不好意思哈,没经过允许就贴了你的文章,呵呵,看看,有什么不妥的回个信,我会立马删掉的:
http://famousky.com/article.asp?id=306
给站长免费做个宣传了,祝贵站红火!!
Posted by: famousky at November 1, 2005 05:58 AM from 218.22.44.222>:全球著名调研公司Frost将我Roboo Meshfire儒豹列为内容过滤关健参与者(倒数第二段:The following is a list of key industry participants):
http://biz.yahoo.com/prnews/051005/uktu010.html?.v=30
Posted by: Roboo儒豹Meshfire at November 11, 2005 03:00 AM from 24.6.199.68请问一下目前的最好的OPEN SOURCE的搜索引擎是哪一个呢?想自己搭一个学习学习
Posted by: henry at December 5, 2005 11:51 AM from 216.9.243.103

