October 25, 2005

博客搜索和博客联播发布::[Search Engine]


Liang

博客搜索一共收录了200多万的博客,一共索引600多万条记录。
博客联播是您随时发现新文章的一个来源,平均每天收录8万条记录,并且滚动播出(过滤程序将一些字数少于200,色情等的先过滤掉了),是中文博客的即时风向标。

Booso.com 最早是我在博客动力的时候业余时间利用refer 服务的数据制作的搜索引擎,今年年初因为事物繁忙,就逐渐荒废了开发,直到这次回国后才又有精力带领团队进行完善。Booso 从诞生到现在,一直是一个试验田,一共进行过如下的尝试:1] Referral 的服务 2] refer 和 关键词搜索的服务 3] 自动分类引擎的测试 4] 贴吧 5] 新闻搜索服务 6] 新闻聚类服务 7] 博客搜索服务 8] 博客联播服务。虽然前前后后历经一年之久,很多服务也是中途夭折,但是基本上正是这些尝试,我和我们的团队得到了很多锻炼和经验,这些财富才是最值得收藏的。

对于这两个服务,我和我的团队还在完善中,如果有好的建议或者砖头请不要吝啬。

Posted at October 25, 2005 08:32 PM by Liang at 08:32 PM | Comments (17) | TrackBack(1) | Booso!| Niu.la收藏!


Trackback

You can ping this entry by using http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/803

Trackbacked from http://wpt-en.bargarmetal.com with Very nice. You're site is very helpful. on .

Comments

第 1 楼:

liang,为啥我的条目的时间是1970年1月1日啊?

Posted by: zheng at October 26, 2005 12:07 AM from 220.162.203.76

第 2 楼:

zheng, 是我程序计算时间的时候没有拿到合理的格式,因此得到了默认的时间起始点.

你用feedburnner的服务吧?

Posted by: 6e at October 26, 2005 01:37 AM from 218.249.35.66

第 3 楼:

很不错! 更多的人现在从blog上获取信息.一个针对Blog的search engine 会是很多人需要的工具. 希望收录更多的英文blog....

Posted by: Xin Chen at October 27, 2005 09:50 AM from 210.82.111.222

第 4 楼:

楼长,你说的过滤是开什么玩笑吧?
联播里面第一页就21个相关美女、美眉、诱惑这样的内容
我想这个过滤实在不敢恭维啊
这样的结果假如也算过滤过的话
那么不过滤该怎么样?

Posted by: 移动商务伙伴 at October 28, 2005 05:44 AM from 219.157.155.252

第 5 楼:

搜索keso,没命中
搜索laobai,没命中
搜“搜索引擎研究”,还是没命中
结论,不好用。
不然就是我不会用?

Posted by: thethe at October 28, 2005 09:45 AM from 211.156.16.140

第 6 楼:

请楼上的两位认真对待,搜索keso和laobai都有很多的结果,不知道是否输入了正确的字符?

另外一页一共20条目,不会出现21条象您说的这样。
我刚才扩容到了30条,希望您不会发现31条数据。

:)

Posted by: 6e at October 28, 2005 11:22 AM from 220.207.87.136

第 7 楼:

中国政府不是禁止色情吗,为什么网上尤其是门户,社区,全是特色内容? Maybe I do not know enough about the real situations in China. I need to go back to China often. -2005 Roboo儒豹Meshfire

Posted by: Roboo儒豹Meshfire at October 28, 2005 01:37 PM from 24.6.199.68

第 8 楼:

不知道所谓的“认真对待”是什么意思。
比如我听说过laobai这个人的blog不错,但我不知道地址,刚好我知道了这个搜索引擎,我键入laobai,是,有很多结果,但是第一页看到底都没找到我想要的东西。我不知道我应该怎么“认真对待”才能找到。如果一个给普通人用的搜索引擎都需要在开发者的“认真对待”的提醒才有可能找到想要的东西,不知道这叫不叫好用。况且,我认真对来了,他还是不给我结果。不知道您的搜索引擎打算怎么定位。至少在以blog名搜索上,他失败了。
ps:我以为blog搜索不从tag这条路走,没大戏。

Posted by: thethe at October 30, 2005 02:31 AM from 211.156.12.123

第 9 楼:

卢亮,你好!我最近开发了一个类似lilina的xml新闻聚合系统,并应用在我的网站上——聚合了你的blog头两篇更新。如认为不妥,请联系feitiger###etang.com

Posted by: ahu at October 30, 2005 07:37 AM from 221.232.187.5

第 10 楼:

很不幸,楼主所说的“认真对待”我已经做到了。
我刚好就是看到一个页面上有30条显示,而且一条一条数出来的21条中包含楼主所说的“被过滤”的信息。楼主应该能够从我发文的时间判断出当时我看到的是20条/页还是30条/页,这个我是拿不出任何证据的,而楼主绝对是权威。
同时我还没有使用任何关键词什么的,就是打开那第一页,应该是最新被收录进的内容,印象中第一条好象是6(时间单位似乎是秒,不确定)前所收录的。
或许我访问那页面的时间不对吧,我想应该是这样的:那时间或者在楼主看来,正是红灯区开张的时候,所以在那时间段里面所收录到一些相关BLOG正是时候。
BTW:发文不要怕给人挑毛病,偶很认真的,但是不回太较真儿,不然我下次截个图给你,就怕你这里不给我贴啊.lol……

Posted by: 移动商务伙伴 at October 30, 2005 08:17 PM from 218.57.243.50

第 11 楼:

博客中国的RSS聚合服务的错误能不能在这里反应呢?

rss.bokee.com的Rss聚合功能貌似不能收录MSN Space的feed. 我试过很多次, 都提示有错误, 也许是Bokee的错, 也许是我的Space有问题. 可以试一下http://spaces.msn.com/members/bluemiles/feed.rss

喀喀, 有点冒失哈, 莫见怪

Posted by: bluemiles at October 31, 2005 10:40 PM from 220.249.19.65

第 12 楼:

不好意思哈,没经过允许就贴了你的文章,呵呵,看看,有什么不妥的回个信,我会立马删掉的:
http://famousky.com/article.asp?id=306

给站长免费做个宣传了,祝贵站红火!!

Posted by: famousky at November 1, 2005 05:58 AM from 218.22.44.222

第 13 楼:

>:全球著名调研公司Frost将我Roboo Meshfire儒豹列为内容过滤关健参与者(倒数第二段:The following is a list of key industry participants):

http://biz.yahoo.com/prnews/051005/uktu010.html?.v=30

Posted by: Roboo儒豹Meshfire at November 11, 2005 03:00 AM from 24.6.199.68

第 14 楼:

请问一下目前的最好的OPEN SOURCE的搜索引擎是哪一个呢?想自己搭一个学习学习

Posted by: henry at December 5, 2005 11:51 AM from 216.9.243.103

第 15 楼:

开源的全文搜索系统有Lucene:www.lucene.com.cn;
开源的搜索引擎系统有Nutch:www.nutch.org.
到这个网站可以找到更多的搜索引擎:www.aha360.com。

Posted by: aha360 at January 19, 2006 12:15 PM from 218.104.69.99

第 16 楼:

编辑专业的医学保健文章,为广大人民服务

Posted by: 骨科医生 at January 27, 2006 01:34 AM from 60.1.136.231

第 17 楼:

很不错的技术,很想尝试一下

如何让我的博客也收录其中?谢谢。

Posted by: Dili at February 15, 2006 04:38 AM from 221.5.116.244

Post a comment

请注意,为了防止spam,您的留言必需含有中文字符!









Remember personal info?




所有发表