October 23, 2004
多级缓冲技术在Booso(博索)搜索引擎开发中的应用::[Search Engine]

在Booso 搜索引擎 的开发过程中,应用了首创的〖多层缓冲技术〗。
多层缓冲技术的基本理论依据是
1] 因为在一定的时间范围内,通过搜索引擎查询的Query的范围相对整个查询次数来说要少的多,而且查询比较集中在一些热们的词汇上。
例如: booso.com 有一天接受到7万次的查询,而这7万次的查询集中在9400个独立查询。
2] 搜索引擎的数据库在一个时间段内没有新记录进入,因此搜索结果在一定的时间内保持相对稳定。
例如:百度一般在早上7点钟的时候才会更新数据库,而这后的24小时查询的结果排序都是完全一样的。
实现多级缓冲技术的途径:
1] 多级缓存技术。Multi level Buffer system
多级缓存技术是面向大型的搜索引擎的一个良好的选择,实现可以采用反向Proxy的代理方式并且配置缓存的时间周期小于数据库的更新周期的一半。
2] 多级数据库索引触发系统 Multi layers trigger system
这种技术就是在搜索引擎的主数据库的基础上建立每日的当日搜索数据库索引,将最常用的搜索的结果植如一个相对小的数据库,这样经过多级数据库出发系统,就会建立一个类似金字塔型的多层索引系统。
这是一个面向巨型搜索引擎的解决方案,例如:
一个搜索引擎每天有2亿次的请求,我们有如下的参数:
2000万的请求在3000 个请求内
4000万的请求在100000个请求内
12000万的请求在1000000个请求内
因此构造的当日数据索引系统:
3000 请求的索引 : 1 G
100000 请求的索引:10 G
1000000 请求的索引: 50 G
这样一个供一天查询2亿次的搜索引擎也只需要 61 G 的当日索引变够了,的确是一种最节省的办法。
博索采用了第一种的方法进行开发。
Posted at October 23, 2004 09:42 AM by Liang at 09:42 AM | Comments (6) | TrackBack(0) | Booso!| Niu.la收藏!Trackback
You can ping this entry by using http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/624
Comments
The first stage of a 150m investment in regional museums is praised for boosting visitor numbers...
Posted by: Jaylen Nevarez at December 7, 2006 08:33 PM from 12.177.23.134The first stage of a 150m investment in regional museums is praised for boosting visitor numbers...
Posted by: Jaylen Nevarez at December 7, 2006 08:34 PM from 66.11.50.72TV host Oprah Winfrey gives audience members $1,000 (526) each to donate to a charitable cause...
Posted by: Cooper Corbitt at December 14, 2006 09:36 AM from 62.220.102.82TV host Oprah Winfrey gives audience members $1,000 (526) each to donate to a charitable cause...
Posted by: Cooper Corbitt at December 14, 2006 09:37 AM from 82.137.247.131The first stage of a 150m investment in regional museums is praised for boosting visitor numbers...
Posted by: Omari Donnell at December 14, 2006 09:05 PM from 62.150.40.142The first stage of a 150m investment in regional museums is praised for boosting visitor numbers...
Posted by: Omari Donnell at December 14, 2006 09:06 PM from 82.137.247.132