May 09, 2005
Google网页加速器的工作原理::[Search Engine]

最近一直忙着写论文,周末终于有空放松半天时间,到网络上看看,铺天盖地的关于google最新的消息,原来google又出了新玩艺,Google Web Accelerator。
听说很神,特地找了一台Windows电脑准备一试。可是我去google网站下载时却发现google 说用户太多,不提供了。
感谢Owen硬盘里还有保留,终于得到了珍贵的“绝版”Google网页加速器。
我尝试访问了6个网站,并且分析了日志,基本上明确了Google网页加速器的工作原理,其实很简单:Proxy + 缓存。
1. 本地化的Proxy + 缓存
当运行了 google 的网页加速器,本机会启动一个httpd的服务,端口是9100 :
http://127.0.0.1:9100
这个服务实际上是一个本地化的Proxy+缓存,就是所有的 http 的请求都是通过这里走的。那么为什么能够加速呢?
缓存。当你第一次访问一个网页的时候,相当多的图片,静态文字全部的存储下来,然后当你再次访问的时候,就直接从缓存里调出来,因此大大加快了访问速度。
我这里做了一个有趣的试验:
访问我自己的blog一个日志(http://blog.wespoke.com/archives/000907.html)的日志记录:
adsl-69-154-77-102.dsl.rcsntx.swbell.net - - [09/May/2005:12:34:38
+0800] "GET /archives/000907.html HTTP/1.1" 304 -
刷新这个网页,Apache的记录仍然是 304。表明没有传输内容,紧紧验证了
expired的信息。
touch archives/000907.html (改变这个文档的时间标记)
再次刷新,这次不一样了:
adsl-69-154-77-102.dsl.rcsntx.swbell.net - - [09/May/2005:12:35:28
+0800] "GET /archives/000907.html HTTP/1.1" 200 10319
这次是返回了200,并传输了10319个字节。
这个就是工作的原理,在第一种的情况下,节省了10319个字节的传输。
当然,这也是所有的缓存proxy的设计原则。
2. Google 的缓存+路由
当我发现我访问的日志上记录的IP和我本地的IP不一样的时候,看来Google 自己也还是有缓存服务器的,就是说当我们请求一个网页时,如果联接非常的慢,google会让这个请求通过google的缓存服务器,同时改变路由。这就是为什么看到的IP不是自己机器的IP了。
由此看来,Google的网络加速器实际上是一个个人的小型Proxy缓存服务器+Google帝国的一个格点状的Proxy缓存服务器系统构成并有效的来管理这些缓存,并非什么特别的技术,而是将大家忽视了多年的一些基本的概念从新应用了起来。
3. 看看这里就更加明白一些:http://race.google/http://www.wespoke.com,注意,必须启动了加速器后才能连接,因为google Web Accelerator讲这个域名解释为本机并采用Iframe显示。您可以将http://www.wespoke.com替换成您想要到达的网页,看看有没有加速?
关于加速的原理,你应该了解expired模块。
http://httpd.apache.org/docs/mod/mod_expires.html
Trackback
You can ping this entry by using http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/760
Trackbacked from http://spaces.msn.com/members/stones1984/blog/cns!1pfD0WwQVZUB7IKTHSMOPJXg!279.entry with 最新突破浏览限制的方法 on stones1984.
Trackbacked from http://spaces.msn.com/members/stones1984/blog/cns!1pfD0WwQVZUB7IKTHSMOPJXg!279.entry with 最新突破浏览限制的方法 on stones1984.
最近一直忙着写论文,周末终于有空放松半天时间,到网络上看看,铺天盖地的关于google最新的消息,原来google又出了新玩艺,Google Web Accelerator。 听说很神,特地找了一台Windows电脑准备一试...
Trackbacked from http://www.iplace.cn/MT/archives/2005/06/googleceecaec.html with Google网页加速器的工作原理 on 城市胡同.
Comments
hi,6e,aol最近推出了一个aol browse,在国内能访问很多原来不能访问的网站,我看了一下原理大概与google的这个相似,你可以试试看。http://beta.aol.com/projects/aolbrowser/
Posted by: loverty at May 9, 2005 01:47 AM from 61.135.146.217哦,原来原理如此...另外那个aol的东西也不错,能穿透 great fire wall的东东还是会有很多用户的,"超级代理"8就是么.那里有需求,那里就有市场
Posted by: 许鹏 at May 12, 2005 10:46 PM from 218.249.35.70而是将大家忽视了多年的一些基本的概念从新应用了起来,hehe,其实现在很多著名的,赚钱的都不是新创。。。不是吗
Posted by: iloveblue at May 13, 2005 01:52 AM from 221.226.124.21关于google缓存,想问问,如果你不加这个accelerator, 从你的主页日志上能看到你的ip 吗?
在你的client 和server 之间, 不知有多少proxy, 缓存.
必须承认大家的讨论让我觉得非常困惑
http://37signals.com/svn/archives2/google_web_accelerator_hey_not_so_fast_an_alert_for_web_app_designers.php
我对RFC的理解不够,有人已经提出来不要用GET做删除了。请问六翼这个是否必须呢?
Google在玩玄虚?过时技术的组合?呵呵,我看这是Desktop Seach的网络延伸。对吧?Google对于提升搜索准确性的努力没有停止的迹象。
Posted by: jameswee at May 20, 2005 12:15 AM from 221.221.146.193呵呵,我逛KESO的时候就理论上分析了一下,
这里用数据表明了,哈哈,我的分析果然没错,只是忽略了本地缓存这步~~可能也是最重要的部分吧,
呵呵~
我觉得这是新壶存旧酒,没什么新意呀。不过把以前在学校上网时常用的技术又拿来搞到桌面上了而已。顺便推荐一个网站:[url]http://www.pc163.cn/[/url]
Posted by: spam at September 4, 2005 09:29 PM from 219.134.2.153缓存+路由都是老技术了,不过google将它们运用的很完美罢了。http://www.seoist.com
Posted by: yuyu at September 24, 2005 01:54 AM from 211.96.69.150不错的料,可以饱餐一顿了,但是觉得还是不够,学无止境嘛!!!www.sou4u.com
Posted by: 朽木刀 at December 22, 2005 12:43 PM from 222.216.71.63不管新酒还是旧壶,人家做出东西拿出来用,有效果,那么就是好东西。
旧壶也好,旧酒也好,你为什么没做出来,没推开去?
检讨吧,别怪叫。
我刚下载了一个,现在可以下载的,地址为:http://bj.chinacs.net/subject/GoogleWebAcceleratorSetup.msi
