April 18, 2005
Google 为什么不支持Rss::[Search Engine]

看到不少人发表关于Google为什么不支持Rss的问题和看法,这个问题以前不止一个人问起过我,我坚持的看法是Google在有新的赢利基础替代搜索之前是不会支持Rss的,而且我也没有看出来Google需要支持Rss的必要。「虽然我会去Hack google的服务,使得自己有Rss可用」
因为Rss太简单了,简单到将搜索引擎的门坎到了一种令Google感觉到一种压力的地步。
利用rss,可以简单的绕过搜索引擎里面最复杂的一个环节:HTML parse的过程,而这个过程,是众多小型搜索引擎的门坎和瓶颈,因为Rss提供规整化的结构化的数据,使得搜索引擎数据整理的过程简单了许多。可以想象,如果Google支持Rss,那么等于将这个市场的门坎降低,会导致大量的小型的竞争对手来分享未被蚕食的long tail,Google还不至于傻到这个地步。
为什么MSN和Yahoo会支持Rss呢?
MSN和Yahoo的赢利空间里不像Google那么纯粹的倚赖搜索,例如MSN和Yahoo都是门户,服务是其核心,而不搜索。要击败Google这个巨人,可以有很多种做法,其中之一就是培养市场,让搜索市场的门坎降低,培养很多Google的潜在对手,最终使得这个行业的利润薄利化,达到消减Google的目的。
难道MSN和Yahoo不会被消减么?
当然会了,可是如果这样一个大的竞争对手(Google)不断壮大,有朝一日google进入服务(其实现在已经进入了网络服务行业)将反过来蚕食Yahoo和MSN的市场,那么还不如及早的阻击这个敌人。
Trackback
You can ping this entry by using http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/751
Comments
my home(blog)工具镶
http://xiangtool.nease.net
Posted by: poo at April 18, 2005 02:42 AM from 222.52.130.49不同意你的看法。html parsing有什么难处?即使大部分的网页不是规范的,也有办法处理。我们公司就有很好的模块。你有没有写过html parser?
Posted by: 大法师 at April 18, 2005 03:15 AM from 168.12.253.66我写过的,新闻搜索引擎部分就是自己写的。问题是如果像你说的,如果这个部分赶上了google,分词又赶上了goole,算法上现在都很公开了,就没有不能超越google的理由了。
Posted by: 6e at April 18, 2005 09:28 AM from 70.242.104.74象6e这样的可以写parser, 说明html parser不难写。而且还有open source的可以参考。
难道搜索引擎就是parser, 分词和几个算法吗?没这么简单吧。
Posted by: 星河 at April 19, 2005 02:33 AM from 140.122.77.8写归写, 因为我不是写程序的行家, 因此写出来的功能就是很不行了.
正所谓:差之毫厘,失之千里.
Posted by: 6e at April 19, 2005 02:38 AM from 70.242.104.74Google的成功除了技术之外还有很多其他内因,包括市场,机会成本的把握,品牌,以及对服务的细分。更直接的说,Google的搜索技术并不是世界领先的,Yahoo和MSN的搜索技术和G比起来并无本质差距,巴西一所大学教授的研究的搜索技术可以说完全超越,但技术优势并不代表商业成功。市场的培养也非朝夕,Google的技术和产品能给我们带来启发,却不表示所有市场走向都是朝着他的方向走。2,4楼的何必在技术边角上争口舌呢?
Posted by: owen at April 22, 2005 11:31 AM from 67.172.221.18切,在搜索的精确度上稍微超过google一点有什么了不起。有本事在低成本的前提下,在搜索广度上超过google。
Posted by: rypan at April 28, 2005 03:58 AM from 61.171.56.145google那个不叫html parsing,而是关键内容提取。谁敢说在这上面能超过google?
Posted by: rypan at April 28, 2005 04:04 AM from 61.171.56.145如果你真的以为html parse是SE的技术瓶颈,那就错了,其实这从来不是什么大问题。想把它做的很完美比较难,但是做出一个能用的东西实在不算什么。
你的网站不错,有空去我的看看,多交流呀:)
www.donews.net/lucyliu
google 也开始做门户了, 很意外吧。
http://blog.linzzz.com/bin
Posted by: Bin at May 19, 2005 09:22 PM from 61.242.218.234也可以反过来问Google为什么要支持RSS?RSS的很多内容就是HTML内容(Sina的RSS)然后就是很多blogger在使用。现在的用途还不是很广泛。
或者问,为什么Google不支持WPS格式的文件搜索?
第 2 楼:
不同意你的看法。html parsing有什么难处?即使大部分的网页不是规范的,也有办法处理。我们公司就有很好的模块。你有没有写过html parser?
--------------------------------
html parser和搜索算法根本不是一回事。
从结构上讲,RSS是xml格式,这不仅仅是解析方便了很多,解析是简单的它并不是关键,关键是RSS的内容结构规范了,而搜索算法需要对内容语义进行判断,对于RSS这样判断语义容易多了。
My blog 看
---------------------
http://www.sicz.com
好久没来了,再来看你一下,网站开通了,有空我请吃饭
http://www.lucene.com.cn
搜索引擎研发论坛
不同意的你观点,我认为不是html parse的问题!如果按照你的说法现在很多的RSS搜索引擎应该很好,但是事实不是这样的。rss的标签聚合和语意关联更是很难跨越的鸿沟。
Posted by: 天才狐狸 at November 5, 2005 03:43 AM from 219.239.178.146www.ntsky.com
我的blog采用xml+xslt,我发现xml和xslt的关键字并不会对google产生影响,所以到现在我网站上的xml页面都没有被收录,郁闷呢......
