January 11, 2005

开放式搜索引擎是如何终结的?::[Search Engine]


Liang

好久不写了,一个原因是出于忙,另外一个原因是在看。

开放式搜索引擎就是我们通常我们所说的 google , baidu , alltheweb 等,其索引内容完全是由其联结分析进行自动的添加,人工参与排序非常少的一类搜索引擎(人工参与是一个相对概念,因为算法也是人设计的,因此不可能做到无人工参与)。

这类搜索引擎在搜索引擎的发展的历史上起到过举足轻重的作用,不过现在却面临诸多的麻烦,甚至是致命的敌人,这些因素极有可能导致在一段时间内搜索引擎的质量和信誉度下降,这些下降也是致命的,会终结这些搜索引擎的盈利模式,加速开放式搜索引擎的死亡。

哪些因素呢?

1] 过渡的SEO
SEO 现在已经不是一个褒义词了,很大程度上SEO已经成为Link farm和comment spam的忠诚用户。另外一方面,过度的SEO已经使得大家对搜索引擎的公正性产生了怀疑。

当有很多的人想破坏一个体系的时候,当然比建立这个体系要快的多。pagerank和hilltop都已经成了瘸子。

2] spam 网页
这类网页是由程序对不同的搜索引擎的搜索结果进行整理,然后做成一个以假乱真的网页,而搜索引擎却又无法分辨真伪。这些网页有的没有内容,有的有内容,而且联结系统复杂,部分是 link farm的改版。

例如:
在google 里搜索年终总结,可以看出排名第一第二的都是spam网页,打开后网页内容是从搜索引擎搜索到的内容,然后再进行了网页优化。

现在这样的程序已经产品化了,能够完整的按照自己的想法产生一个完整的spam网站,而且这样的软件也不少。特别是中文网站,排名10000以内的这类网站大约有近千个了。

3] 版权
也许从来没有人注意到搜索引擎的版权,可是这个问题我先提示以下。
搜索引擎通过搜索显示出来的[截断文档]其实很大部分应该说是一种特殊的[转载],至于这种转载虽然加了联结,但是能否真正避开某些法律壁垒也未知。

4] 技术
搜索引擎的技术3到5年内平民化,也是开放式搜索引擎面临的一个非常大的压力。

我一直期待有一天,每一个公司的IT部门都能在1/2周的时间内利用现有的工具,制作符合公司需求的搜索引擎,开放的也好,封闭的也好,我想这个时间并不遥远。

Posted at January 11, 2005 07:48 PM by Liang at 07:48 PM | Comments (9) | TrackBack(3) | Booso!| Niu.la收藏!


Trackback

You can ping this entry by using http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/697

6e 的《开放式搜索引擎是如何终结的?》讲述了开放式搜索引擎, google , baidu , alltheweb 等,面临的麻烦,其中提到版权问题: 3] 版权 也许从来没有人注意到搜索引擎的版权,可是这个问题...

Trackbacked from http://yanfeng.org/blog/522 with 新闻聚合或网摘网站的版权问题 on 桑林志.

Google对其标志有个明确的授权协议:Google 的所有商标、徽标、网页、截图或其它专用标志(“Google 标志”)均受适用的商标法、版权法和其它知识产权法的保护。如果您要在您的网站、广告...

Trackbacked from http://www.topku.com/archives/000506.html with 谁侵谁的知识产权? on TOPKU TOP CUE.

Trackbacked from http://september-bonus-code-en.isismedia.com with very nice site. please keep updating it. on .

Comments

第 1 楼:

若能妥善anti spam,已在改变世界。哈

Posted by: Che Dong at January 12, 2005 07:46 AM from 220.249.25.79

第 2 楼:

个人觉得用图形验证码+贝叶斯过滤是解决spam comments的最佳办法!

Posted by: shunz at January 12, 2005 09:54 AM from 61.50.213.225

第 3 楼:

xml即可解决第四条
namespace+良好的数据标签(不是结构标签,也不是表现标签)

Posted by: surfchen at January 13, 2005 11:04 AM from 220.173.4.157

第 4 楼:

这四条只能说是目前开放式搜索引擎所遇到的最大的困难!
但还谈不上终结,或许应加上一个"号更合适!
1] 过渡的SEO
2] spam 网页
这两点可以通过技术解决,只能说是比较麻烦而已,但并不是不可遇越的障碍。且换个角度来说,SEO、SPAM对搜索引擎行业的繁荣与普及也起到了当然的推动作用.我认为,只要保持在一定的范围,不泛滥还是可以接受的.
3] 版权
这的确是一个大的问题,夸张一点说是关系到搜索引擎这行业存在与否的问题.从之前chinamp3.com(音乐极限)网站因提供MP3链接而被香港唱片公司起诉,获陪10万人民币的事件中,可以看到。他们也提供的只是互联网上搜到的音乐的链接,和今天的搜索引擎从本质上说都是一样,这样的链接究竞合不合法,这也不得不让人若有所思!不过,搜索引擎对整个互联网带来的价值,相信是任何人都不可否定的。难道就因这样的版权问题而将整个搜索引擎行业而否定掉,相信法律还是会保护社会进步的.
另搜索引擎还存在一个侵犯隐私权的问题。因搜索引擎在互联网上不停的搜索,如果我的网站或某些东西如:后台管理、公司内部页面,不想被搜索引擎收录,怎么办? 目前搜索引擎的做法是,需在你自已的网站加上一个robots.txt文件(对于此文件,现也没一个约定成俗的叫法,暂且我们称之为开关吧,或许更容易理解!),然后指明网站上那些东西是不能被收录的.试问,如果不建这个开关,那忌不就默认为是允许被搜索了。这就好像,如你家开着门,进去拿了东西就不算偷。所以我认为这也是搜索引擎将面临的一个问题.
4] 技术
至于技术,我个人认为平民话那是肯定的,但要做一个真正意义上的互联网搜索引擎,其门槛还是比较高的,具外界所传,Google全球拥有近10万台服务器,200条T1级光纤,其硬件设备就不是一般公司能承担的!
这些问题会给现有的搜索引擎带来相当的麻烦,或许像楼主说的"开放式"会终结,但换种其它的方式,毋庸置疑肯定会活的更好!

Posted by: Kangway at January 19, 2005 03:43 AM from 218.81.146.20

第 5 楼:

关于搜索引擎自动收录比较隐私的页面,我也认为应该由网站的管理员来决定,而不是被动的使用一些方法来阻止。我想google也不是没考虑到这个问题,可能不太好鉴别吧。

html我也不是太了解,不过猜想下一代的html标准应该是更面向搜索引擎的标准,可以直接与搜索引擎对话。那样的话,在网页上加个标签就可以了。

btw,问个问题,一个网站如何做到面向搜索引擎,比如用"site:网址"可以检索出网站的大部分内容?
简单的说一下即可,望6e兄不吝赐教!

Posted by: sakern at February 2, 2005 09:41 AM from 61.183.187.250

第 6 楼:

车东的文章:面向搜索引擎的设计你看看,也许有帮助
http://www.chedong.com/tech/google.html

Posted by: 6e at February 2, 2005 12:34 PM from 129.119.200.36

第 7 楼:

为什么一定要从技术角度看这样的问题呢
可以给作弊的人一定的制裁嘛 这样成本也会低一些吧
复杂度也低了很多

Posted by: D.A.M.A at February 3, 2005 04:43 AM from 155.14.78.39

第 8 楼:

google300这个网站好像因为spam被google给惩罚了。PR=0,ADSense广告也只发布公益广告。

Posted by: tinma at February 28, 2005 12:42 AM from 218.1.185.65

第 9 楼:

我也正在开发一个开放源码的中文全文搜索引擎,有志同道合者可以跟我联系。我的模式跟baidu,google有很大的区别,主要原因是他们硬件投入大大,我没法沉受,我只能做小型搜索,但是搜索出来的内容必须是精华。

mail:mail121@gmail.com
http:www.sqlet.com
QQ:17954261

Posted by: sqlet at June 26, 2005 08:01 AM from 202.98.141.200

Post a comment

请注意,为了防止spam,您的留言必需含有中文字符!









Remember personal info?




所有发表