January 25, 2006

Google's BigTable::[Source]


Liang

Google总有一些新鲜的玩意,在Google file system(GFS),MapReduce和Lock Service之外,最近的BigTable又颇受关注。

Google 的多个服务Print,Search History,Maps,Orkut,Rss阅读等都是基于BigTable提供支持的。那么Google BigTable到底是什么呢?

Google BigTable是Google的一种对于半结构化数据进行分布存储和访问的一个接口(服务)。半结构化数据,例如RSS的数据,虽然有明显的Field但是由于每一个Field的定义颇为宽泛,因此对每一个Filed并非是结构化数据。

下面介绍Google BigTable 的一些细节,BigTable 以下简称BT。

BT是按照行列的格式组建的,是一个多维的稀疏矩阵。每一个BT大约100M到200M,每一台Cell(数据单元)存储大约100个BT。这些存储是基于Google的GFS。

BT的单行的格局应该是如下的格式:
URL|Content|Author|....
www.wespoke.com|Content:......|author:6e|anchor:www.wespoke.com;搜索引擎|anchor:blog.wespoke.com;六翼的天使|...

访问这些BT是采用三层哈系定位的方式,其中利用缓存等机制不会造成读取和定位的瓶颈。

Level 1=> [Meta0]
Level 2=> [Meta11],[Meta12],....
Level 3=> [Cell1], [Cell2],......

一个表的定位可以这样:[Meta0] -> [Meta13] -> [Cell2]

处理单个表访问过大的问题可以将这个表分解,或者复制到其它的Cell上来降低压力。对于撤回一台Cell的话,要将其上的100个BT均分到其它的100个Cell上,这样每台Cell的压力平均增加1%,可以忽略。

Google BT也采用了压缩的算法,是根据从新对内容相近的字段进行从新编码进行压缩,据称可到9%左右。从理论上讲,并非对所有的字段进行重新编码压缩,也许只要对最冗余的部分进行压缩既可。

对于重建和更新表,则是根据一定的规则进行从新的编译,例如保留多少个备份,数据段要是某某时间后的等,据此进行从新建立表的内容并重写回系统。由于表的重建是一个非常耗资源的过程,因此将表拆分成多个列,根据这些列的性质建立不同的组,针对不同的组有不同的更新规则,更新后再进行合并,从而达到更新时消耗资源的最小化。

从以上分析上看,BT并非是一个完整的系统,它必须结合一定规则的索引系统才能实现google的Map或者Rss reader的功能。

综合起来,BT拥有以下的特点:
分布式,可扩展,高冗余性,抗压,定位迅速,读写快速,节约存储空间。

这样的表结构在应用上可以符合google的半结构化数据的存储和书写,读取的要求。

原文地址:Google's BigTable

Posted at January 25, 2006 01:36 AM by Liang at 01:36 AM | Comments (5) | TrackBack(0) | Booso!| Niu.la收藏!


Trackback

You can ping this entry by using http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/844

Comments

第 1 楼:

在http://norfolk.cs.washington.edu/htbin-post/unrestricted/colloq/details.cgi?id=437有原BigTable演讲的视频、mp3 下载链接。

Posted by: jacquette at January 26, 2006 06:46 PM from 61.182.66.53

第 2 楼:

|现在开始招生初中二、三年级的学生.早开始早提高.不要等到临考试家长同学再着急.而且考试的跑步是较长时间才能提高的项目.其他属于技术性的.很容易提高.北京中考的体育分数占总成绩的30分,您的孩子1000米\800米满分了吗?实心球\立定跳远超过满分线了吗.参加我们的中考体育培训班.95%的学生达到满分,不影响学生的正常学习和上课.节假日训练.成绩提高快,北京体育大学专业教练,多年教学辅导经验.利用节假日的时间来参加吧.报名咨询:13522970239崔教练. v1o7c0jn

Posted by: gnrxto at March 21, 2007 02:50 PM from 218.107.131.129

第 3 楼:

出售流量站长赚钱QQ:542322622

也许您正为自己网站的流量无法提高发愁,也许您正为自己网站的广告位价格偏低发愁。 一个网站想做

到值钱或者赚钱必须有达到一定的人气,而这个人气就是IP流量,一个IP代表一个人。 比如:一个商场

开业了,如果没有人去逛,就是没有人气。他里面的摊位和销售等都无法盈利。而有了人气就不一样了,

不仅可以盈利而且还可以太高自身的价位!这就是IP流量! 为您提 供的就是稳定真实的IP流量,帮助您的网站迅速走上盈利之路。流量就是订单,就是金钱,有需要联系QQ:542322622


包月套餐 日IP 月IP 原价(不含税) 套餐价(不含税)
套餐一 1万 30万 1500元 1250元
套餐二 5万 150万 7500元 6000元
套餐三 10万 300万 1.5万 1.1 万
套餐四 30万 900万 4.5万 3.5 万
套餐五 50万 1500万 7.5万 5.5 万
套餐六 100万 3000万 15万 9.5 万
b6b3o3vl

Posted by: fbtmqe at March 26, 2007 11:16 PM from 123.54.10.128

第 4 楼:

搜索引擎开发爱好者 请加群 38707929
或者访问 论坛 http://www.zhuayu.net
希望和广大搜索引擎爱好者一起交流,学习!

Posted by: catsky at April 14, 2007 11:37 AM from 125.77.171.194

第 5 楼:

seo我也要学习

Posted by: 月饼 at July 6, 2007 04:58 PM from 58.60.224.255

Post a comment

请注意,为了防止spam,您的留言必需含有中文字符!









Remember personal info?




所有发表