October 07, 2005

Google的启示::[Search Engine]


Liang

最近在对现有的搜索引擎进行分布式的改进, 回顾以前阅读过的 google file system 的文章时发现google的思维和我们平时固守的思维很不一样, 可以说很多在我们看来是有一些"偏激"的,可是正是由于这些偏激, 才导致google与其跟随者的不同.

以下为几个例子:

1. google认为, 所有的硬件都是容易产生故障的, 因此google认为故障是必然的, 不产生故障才是偶然现象. 这个想法和我们通常的意识是相反的.

2. Google认为, 一旦写入, 再也不删除和修改. 这点上google认为修改和删除会对系统造成潜在的伤害, 例如文件的不连续性, 文件定位的困难..

3. Google将Linux的 file system的block更改为 64M , 也就是说, 写文件的最小单元是64M, 而不是我们通常的512字节, 两者整整相差了128000倍.

4. Google认为修复是没有必要的, 当一个服务器出现问题的时候, 撤下来, 换上另外一个 google unit(google 单元)即可, 因为维修的成本远远大于直接上线一个全新的服务单元的成本. 说来容易, 其实只有当google结构真正实现高冗余和分布式这样的操作才可行, 而这些正是google的核心.

当我们设计一个系统的时候, 我们最简单的做法通常是会根据需求对已有的一些经验进行匹配, 这个过程中我们通常走的是近路,而且我们的经验常常会束缚我们的想法, 没有抛开经验进行全新的分析和设计, 也自然就难以有所创新.

Posted at October 7, 2005 07:32 PM by Liang at 07:32 PM | Comments (17) | TrackBack(2) | Booso!| Niu.la收藏!


Trackback

You can ping this entry by using http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/794

今天在搜索引擎研究看到一篇不错的文章便转过来,希望这位老兄不要见怪:D 最近在对现有的搜索引擎进行分布式的改进, 回顾以前阅读过的 google file system 的文章时发现google的思维和我们...

Trackbacked from http://www.algerchen.com/?p=60 with Google的启示 on AlGer Chen.

Trackbacked from http://stars-poker-en.bargarmetal.com with Interesting site, and very organized too. Good work. on .

Comments

第 1 楼:

莫非是传说中的沙发?

Posted by: It民工 at October 8, 2005 11:52 PM from 219.157.155.249

第 2 楼:

64M?怪吓人的?这样我的硬盘连个系统都装不下。

Posted by: Vingel at October 9, 2005 12:29 AM from 218.19.99.204

第 3 楼:

第一条绝对是 箴言; 所有的硬件都是容易产生故障的, 因此google认为故障是必然的, 不产生故障才是偶然现象.

深有体会 !!@@!! 从我修天线到调网络..

Posted by: 蛤蟆 at October 9, 2005 09:00 AM from 221.223.21.228

第 4 楼:

我感觉很像圆珠笔的发明过程: 把"发明金刚钻"笔芯变成让笔油在笔芯失效前用完。

改变问题本身的艺术:将复杂的问题变成已知的简单问题。

Posted by: Che Dong at October 9, 2005 10:34 AM from 221.237.165.43

第 5 楼:

是的,值得人欣赏的公司,看他们的所做所为。我们也要创新。 中国人缺乏创新,往往异端被一棍子打死了。 中国搜
搜索引擎集成。

Posted by: zhongguosou.com at October 10, 2005 08:22 AM from 61.150.109.56

第 6 楼:

不知道google采用的是什么样的linux版本,楼主是看的哪篇文章?

Posted by: leon at October 10, 2005 10:18 PM from 218.106.169.195

第 7 楼:

google用redhat

Posted by: kiki at October 10, 2005 11:25 PM from 219.142.168.72

第 8 楼:

http://labs.google(.)com/papers/gfs-sosp2003.pdf
The google file system
pdf链接

Posted by: kiki at October 10, 2005 11:32 PM from 219.142.168.72

第 9 楼:

hey, you are making two mistakes here:

- Nowadays typical linux disk block size is 1k or more, not 512 bytes.

- 64M/512 = 2^17 . not 128000,更不是相差. do your math!

google file system is not totally new. there are many other distributed file sytems. you don't know.

google file system has its own drawbacks.

Posted by: gcl at October 11, 2005 12:36 AM from 169.229.50.3

第 10 楼:

兄弟,有没有关于google后台架构,实现的系统介绍文章,告诉我一点?谢谢

Posted by: 小贲 at October 19, 2005 08:11 AM from 61.48.9.5

第 11 楼:

一篇改变世界的论文(Google揭秘)http://www.blogwind.com/Wuvist/comment.aspx?article_id=2333

Posted by: single at November 8, 2005 09:22 PM from 203.126.245.198

第 12 楼:

这篇文章写得很好,谢谢!.

Posted by: hike at November 30, 2005 08:29 PM from 61.143.125.147

第 13 楼:

GOOGLE要改变世界了,期待中.....

Posted by: Candy at February 17, 2006 10:24 AM from 219.133.159.229

第 14 楼:

不错,能搞点资料啊

Posted by: god at August 29, 2006 11:48 AM from 221.6.27.28

第 15 楼:

这几天对search engine有极大的热情,必须要搞出自己的一个引擎!

Posted by: renwanly at November 7, 2006 09:00 AM from 221.221.20.227

第 16 楼:

大哥你的google广告一个月可以收到多少$??

Posted by: ccc at August 20, 2007 04:59 PM from 202.103.228.6

第 17 楼:

大哥你的google广告一个月可以收到多少$??

Posted by: ccc at August 20, 2007 04:59 PM from 202.103.228.6

Post a comment

请注意,为了防止spam,您的留言必需含有中文字符!









Remember personal info?




所有发表