February 25, 2005

百度硬盘搜索分析::[Search Engine]


Liang

百度硬盘搜索将于下周一推出颇受注目的[百度硬盘搜索],说瞩目,原因是在搜
索引擎大比拼的时代,能否吸引用户,吸引了用户后能否守住用户,现在似乎大
家的共识是在桌面上了。而这一款硬盘搜索也将逼迫同行业的中文搜索引擎们要
考虑如何巩固市场的问题了。



百度硬盘搜索下载

在使用了几天的百度硬盘搜索引擎概括的看起来有如下的特征:

1] Google Like
就是从设计风格上和理念上都沿袭了google 的硬盘搜索产品,趋同设计或者
copy strategy是现在一个减少开发成本减少创新成本的绝招,这点上百度做的非
常到位。

2] Baidu Style
当然,是中文产品,就有中文产品的特征。突出的特征有两个:
1.中文分词--这个简直是废话!不能分词不就是google 硬盘搜索了么?
2.加密码功能。这个功能很体贴,因为加了密码就在一定程度上保护了个人隐私,
对于中国现在还不能人手一台电脑的国情考虑的比较周到。

3] Something whoops.
1. 图片搜索
没有能给出缩略图,这样的话这个功能显然就型同虚设了。而且最重要的是,因
为图片搜索在网页上的算法跟本地的文件系统的算法的差异很大,因此这个功能
应该说开发的不算好。
2. 长结构的语句搜索,硬盘搜索的分词系统不如百度网站本身的好。
这点上等下我有两张图可以做对比。我想百度的硬盘搜索并没有完全采用百度网
页的分词算法,因此可以从长句子的查询中得到结果,本地的硬盘搜索是先对长
语句进行分词后进行“and”的查询结构,查询后没有进行进一步的“=”的验证。

4] Something cool.
1.索引的快速。我0.8G的笔记本平时运行个PPT都只喘气,20分钟内百度硬盘搜索
索引了6000多个文档。搜索起来也非常的快。
2.能够方便的索引中文word/ppt/pdf/xml/..... 并能够清晰的区分的方式显示
搜索结果和数目。


百度硬盘搜索能够占领多大的市场?

这点上我没有概念,在百度硬盘搜索之前,我曾经使用过几个硬盘搜索工具,中
文的硬盘搜索例如 88data.com ,就做的相当不错。不过市场还没有做起来,因此
88data到现在的搜索量看起来还是一个可怜的数字。

百度的客户端一直做的不错,以前的百度下吧我曾经用来下过一阵子电影,不过
后来没有了Windows Desktop就算了。百度下吧显然没有百度硬盘搜索要容易推
广,一来下吧有竞争对手无数,二来总有侵犯版权的嫌疑。而这个硬盘搜索则是
毫无后顾之忧,而且能够固化用户的忠诚度,估计会大力推广。

百度硬盘搜索能有其它玩法么?

当然了,这里我就说说一个利用百度硬盘搜索制作个人搜索引擎的方法,如果你
有两台空闲的计算机并且在同一个局域网内的话:

1] 请你准备一台Linux 计算机,这台是做爬虫用的和搜索引擎的前端。
2] 请你格式掉另外一台计算机,从新安装全新的windows系统,安装上百度硬盘搜索。

下面配置Linux 服务器

3] Linux 上建立一个目录专门用来存放抓到的网页,并启动爬虫程序
4] Linux 上将这个目录采用 samb 的方式输出
5] Linux 配置Apache 的前端,作为搜索引擎的入口
6] Apache 采用Url rewrite到 Windows 计算机的7887端口进行真正的请求

下面配置Windows服务器

7] 在windows上联结 Linux 上的Samb 的输出,挂上这个Linux 的输出目录,映
射到本地
8] 下载安装百度硬盘搜索,并运行索引

返回到Linux 服务器

好了,这台Linux 服务器就可以进行搜索引擎服务了,改变你自己的 page
style就可以做成自己的搜索引擎了。


好了,下面是我自己使用的硬盘搜索的快照。











在硬盘里搜索以下自己的昵称,看看有什么结果。







长句搜索看来还是网页做的比较到位。

Posted at February 25, 2005 04:05 PM by Liang at 04:05 PM | Comments (18) | TrackBack(1) | Booso!| Niu.la收藏!


Trackback

You can ping this entry by using http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/725

对照Google Desktop Search功能,其自身特点如下: 1.加密功能,如有需要,可使用密码保护限制别人进行硬盘搜索。 2.搜索较多的文件类型,增加了聊天(MSN Messenger)、图片(JPG/ GIF) 、影音(M...

Trackbacked from http://www.topku.com/archives/000526.html with 搜索于你的搜索 on TOPKU TOP CUE.

Comments

第 1 楼:

我想请教一个问题。我现在有一些文本要做词频统计,就是看看这些文章里面哪些字词用得多,应该怎么做呢?我的水准基本是门外汉,您往浅了说吧。

Posted by: zhongliang at February 26, 2005 11:15 PM from 218.1.212.238

第 2 楼:

呵呵,好好想想吧,为什么硬盘搜索的切词没有网页搜索的好。:)

Posted by: paperfish at February 27, 2005 08:29 AM from 61.135.146.217

第 3 楼:

第一楼的朋友, 看我以前的文章: http://www.wespoke.com/archives/000898.html

二楼的哥们,当然了,最大的可能是怕别人通过这款软件窃取了百度的长词搜索的算法或者网页的算法,不过依照我所说的,本来已经可以被hack成一个个人搜索引擎了,这个恐怕才是最危险的。

Posted by: 6e at February 27, 2005 11:47 AM from 67.166.162.163

第 4 楼:

败毒加了密码啊,比Google好。不过硬盘搜索很占资源吧,产生的缓存(?)文件也不小

Posted by: 飞不起来的鱼 at February 27, 2005 12:15 PM from 211.158.89.204

第 5 楼:

百度又防Google
一个没有创意的东东

Posted by: 沉寂 at March 2, 2005 11:16 PM from 219.145.46.234

第 6 楼:

其实,除了第一个搜索引擎的面试是一种开天辟地式的创新外,以后的搜索引擎所做的工作也是十分有意义的。也不能因为google有的东西,其他的搜索引擎“拿来”用就是没有创意。十几年前学习的算法不是现在的课本还在讲吗,从Pascal到c,从面向问题到面向对象,语言工具是在不断的变化,但是算法不是还在使用吗。可能我扯远了!

Posted by: 王 at March 7, 2005 07:38 AM from 61.187.64.198

第 7 楼:

这几天试着使用了百度的硬盘搜索,其中有一个问题,不知道是百度要解决的问题还是我的习惯要改掉的问题。在打开软件界面时每次百度硬盘搜索使用的是IE浏览器,但是我设置的默认的浏览器不是IE。而且至少在近几年的时间内不打算使用它了。不知有没有解决得办法^_^

Posted by: 小王 at March 7, 2005 10:43 PM from 61.187.64.198

第 8 楼:

百度这次是既抄袭google,又抄袭88data,一点创意都没有。

Posted by: 刘 at March 17, 2005 09:04 PM from 222.182.4.177

第 9 楼:

希望和您交流,我们很在内网实现这个功能,希望您能提供更详细的资料。

Posted by: 马学工 at May 16, 2005 10:25 PM from 210.73.72.47

第 10 楼:

同8楼,想把您所说的第二台设置为内网的web服务器,如果第一台机器或者web服务器本省是文档服务器,那么一个基于内网的信息搜索网就架构出来了,可以这样理解吗?

是否可行,希望您能提供点资料。

Posted by: slg at November 15, 2005 09:23 PM from 222.66.38.109

第 11 楼:

百度不可靠。

Posted by: solomon at April 2, 2006 11:00 PM from 60.31.83.253

第 12 楼:

我觉的BAIDU一直在学习GOOGLE,一点创新精神都没有,从LOGO上都可以看出来,GOOGLE每逢传统节日或重大事件都会变换出特色的LOGO,每个都富有

Posted by: 数据恢复 at June 12, 2006 11:41 AM from 218.80.137.62

第 13 楼:

谢谢大大,看了受益非浅。

Posted by: 陈实 at September 4, 2006 04:48 PM from 61.144.207.238

第 14 楼:

经常到您的网站看您的文章 但不知道怎样才能在您的首页面做个连接 有啥条件吗 http://www.sanyodenki.net

Posted by: david at September 27, 2006 09:13 AM from 221.218.143.61

第 15 楼:

The first stage of a 150m investment in regional museums is praised for boosting visitor numbers...

Posted by: Trever Bandy at December 7, 2006 08:34 PM from 66.98.212.79

第 16 楼:

The first stage of a 150m investment in regional museums is praised for boosting visitor numbers...

Posted by: Trever Bandy at December 7, 2006 08:34 PM from 216.144.234.2

第 17 楼:

分析的不错。。

Posted by: 00769.cn at March 20, 2007 02:45 PM from 59.39.202.142

第 18 楼:

看看 www.oofynet.cn

Posted by: 丘山占戈 at March 29, 2007 06:55 PM from 124.116.44.139

Post a comment

请注意,为了防止spam,您的留言必需含有中文字符!









Remember personal info?




所有发表