January 25, 2006
Google's BigTable::[Source]

Google总有一些新鲜的玩意,在Google file system(GFS),MapReduce和Lock Service之外,最近的BigTable又颇受关注。
Google 的多个服务Print,Search History,Maps,Orkut,Rss阅读等都是基于BigTable提供支持的。那么Google BigTable到底是什么呢?
Google BigTable是Google的一种对于半结构化数据进行分布存储和访问的一个接口(服务)。半结构化数据,例如RSS的数据,虽然有明显的Field但是由于每一个Field的定义颇为宽泛,因此对每一个Filed并非是结构化数据。
下面介绍Google BigTable 的一些细节,BigTable 以下简称BT。
BT是按照行列的格式组建的,是一个多维的稀疏矩阵。每一个BT大约100M到200M,每一台Cell(数据单元)存储大约100个BT。这些存储是基于Google的GFS。
BT的单行的格局应该是如下的格式:
URL|Content|Author|....
www.wespoke.com|Content:......|author:6e|anchor:www.wespoke.com;搜索引擎|anchor:blog.wespoke.com;六翼的天使|...
访问这些BT是采用三层哈系定位的方式,其中利用缓存等机制不会造成读取和定位的瓶颈。
Level 1=> [Meta0]
Level 2=> [Meta11],[Meta12],....
Level 3=> [Cell1], [Cell2],......
一个表的定位可以这样:[Meta0] -> [Meta13] -> [Cell2]
处理单个表访问过大的问题可以将这个表分解,或者复制到其它的Cell上来降低压力。对于撤回一台Cell的话,要将其上的100个BT均分到其它的100个Cell上,这样每台Cell的压力平均增加1%,可以忽略。
Google BT也采用了压缩的算法,是根据从新对内容相近的字段进行从新编码进行压缩,据称可到9%左右。从理论上讲,并非对所有的字段进行重新编码压缩,也许只要对最冗余的部分进行压缩既可。
对于重建和更新表,则是根据一定的规则进行从新的编译,例如保留多少个备份,数据段要是某某时间后的等,据此进行从新建立表的内容并重写回系统。由于表的重建是一个非常耗资源的过程,因此将表拆分成多个列,根据这些列的性质建立不同的组,针对不同的组有不同的更新规则,更新后再进行合并,从而达到更新时消耗资源的最小化。
从以上分析上看,BT并非是一个完整的系统,它必须结合一定规则的索引系统才能实现google的Map或者Rss reader的功能。
综合起来,BT拥有以下的特点:
分布式,可扩展,高冗余性,抗压,定位迅速,读写快速,节约存储空间。
这样的表结构在应用上可以符合google的半结构化数据的存储和书写,读取的要求。
原文地址:Google's BigTable。
Trackback
You can ping this entry by using http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/844
Comments
在http://norfolk.cs.washington.edu/htbin-post/unrestricted/colloq/details.cgi?id=437有原BigTable演讲的视频、mp3 下载链接。
Posted by: jacquette at January 26, 2006 06:46 PM from 61.182.66.53|现在开始招生初中二、三年级的学生.早开始早提高.不要等到临考试家长同学再着急.而且考试的跑步是较长时间才能提高的项目.其他属于技术性的.很容易提高.北京中考的体育分数占总成绩的30分,您的孩子1000米\800米满分了吗?实心球\立定跳远超过满分线了吗.参加我们的中考体育培训班.95%的学生达到满分,不影响学生的正常学习和上课.节假日训练.成绩提高快,北京体育大学专业教练,多年教学辅导经验.利用节假日的时间来参加吧.报名咨询:13522970239崔教练. v1o7c0jn
Posted by: gnrxto at March 21, 2007 02:50 PM from 218.107.131.129出售流量站长赚钱QQ:542322622
也许您正为自己网站的流量无法提高发愁,也许您正为自己网站的广告位价格偏低发愁。 一个网站想做
到值钱或者赚钱必须有达到一定的人气,而这个人气就是IP流量,一个IP代表一个人。 比如:一个商场
开业了,如果没有人去逛,就是没有人气。他里面的摊位和销售等都无法盈利。而有了人气就不一样了,
不仅可以盈利而且还可以太高自身的价位!这就是IP流量! 为您提 供的就是稳定真实的IP流量,帮助您的网站迅速走上盈利之路。流量就是订单,就是金钱,有需要联系QQ:542322622
包月套餐 日IP 月IP 原价(不含税) 套餐价(不含税)
套餐一 1万 30万 1500元 1250元
套餐二 5万 150万 7500元 6000元
套餐三 10万 300万 1.5万 1.1 万
套餐四 30万 900万 4.5万 3.5 万
套餐五 50万 1500万 7.5万 5.5 万
套餐六 100万 3000万 15万 9.5 万
b6b3o3vl
搜索引擎开发爱好者 请加群 38707929
或者访问 论坛 http://www.zhuayu.net
希望和广大搜索引擎爱好者一起交流,学习!
