November 24, 2005

搜索引擎战略大会

0:11 on Thursday November 24, 2005 | 1 Trackbacks | 10 Comments

搜索引擎战略大会(Search Engine Strategies Conference & Expo,以下简称SES大会)是由Incisive Media公司在全球范围举办的国际性会议。会议以搜索引擎营销和搜索引擎优化为主题,每次都能吸引大量的知名互联网公司、搜索引擎服务商、代理商和企业参加。   大会邀请互联网和搜索引擎领域的国际级专家,包括技术专家和商业应用的领军人物,通过主题演讲、专场活动、展览展示的形式举行。每次会议讨论的主题都成为引导互联网和搜索引擎技术和应用发展的重要理论基础和实践指导,已经成为业内公认最为权威的会议。   SES大会以巡回的方式在全球各大知名城市举办,已经承办过的SES大会城市有美国的纽约、芝加哥、迈阿密、圣何塞、加拿大的多伦多、法国的巴黎、德国的慕尼黑、英国的伦敦、瑞典的斯德哥尔摩、日本的东京。多数承办城市都把SES发展成了每年一次的固定形式。   2006搜索战略引擎大会将于2006年3月17日-3月18日在南京举办,这是中国首次承办这一国际性会议。 顺便说一句,我也会在明年3月参加于南京举办的搜索引擎营销大会。...



November 18, 2005

集中/分布式搜索引擎的4种设计方案

7:20 on Friday November 18, 2005 | 3 Trackbacks | 10 Comments

对于搜索引擎, 在索引量和搜索量大到一定程度的时候, 索引更新的效率会逐渐降低, 服务器的压力逐渐升高, 因此基本上整个搜索引擎的利用率可以说是越来越低了, 并且随着海量数据存储带来的困难, 设计一个良好的分布式搜索引擎将是一个搜索引擎能否面相未来发展的关键因素了. 那么分布式搜索引擎的最主要的核心问题是哪些呢? 1. 分布的信息获取和计算以及对此进行的数据统一 这里面包括爬虫/或者相应的数据获取机制的分布, 对信息进行加工的统一管理 2. 数据处理后的分布存储和管理 主要是文件的准确定位和更新,增加,删除,移动的机制 3. 前端搜索服务的分布 主要处理大规模并发请求时的分发机制 基于以上3个基本需求, 基本上可以构造如下4类的分布式搜索引擎: 1. 分布式元搜索引擎 2. 散列分布搜索引擎 3. P2P 分布搜索引擎 4. 局部遍历型搜索引擎 下面逐步介绍以上4类可扩展的搜索引擎: 1. 分布式元搜索: 拥有多个单个的搜索引擎, 中心搜索引擎是利用这些分布的单个的搜索引擎的结果进行撮合得到完整的结果. 这样的设计方案要求各个单元的搜索引擎拥有相同的排序算法和基本相同的数据输出结构,以便由中心搜索进行整理。 对于这类的搜索引擎,关键的设计是要求每一个单元所拥有的索引不构成重复,但是进行数据的采集(爬虫)时可以采取独立的系统获取后再按照规则分布到各个单元上。 优点,设计简单,快速,并且任何一个单元可以随时的摘掉但并不影响太大。 缺点,对于大规模的并发并非好的解决办法 2.散列分布搜索引擎 根据Query对索引服务器和文档服务器进行散列,做到对于任何的索引词能够准确的定位到具体的索引服务器并从而定位到正确的文档服务器。 优点,抗压,设计简单 缺点,对于单个索引服务器或者文档服务器的容量等动态的调整较困难 3.Peer 2 peer 搜索引擎 著名的Napster就是这样的一种设计,利用集中方式的索引,配合分布于世界各地的单个的计算机形成的文件源,构成了世界上最庞大的p2p搜索引擎之一。 这种设计里的中心索引服务器只记录一些相对关键的信息,例如位置(IP,序列号),歌曲的名字,作者等,其它的信息一概可以从任何在线并且拥有本条全面信息的计算机上获取。同时p2p也可以根据搜索建立一些中间路由的缓存,即将一些搜索结果存在单个或者相近的节点上,加快搜索速度。 优点,可以超级大,基本上不需要有维护成本 缺点,中心服务器的更新效率很低,信息源不稳定 4. 局部遍历型搜索引擎 这类的搜索引擎又可以采用多种设计方案,其中比较可行的是对信息进行聚类后建立信息树,搜索时只需要从树的一个分支下去遍历便可以了。局部遍历应当有一定的规则,并且在设计初期就需要对每一个加入的索引进行相对准确的位置安排,使得放置在合适的节点上,以保证搜索的效率。 优点,容易解决抗压,搜索精度高,搜索效率高 缺点,设计复杂,调整索引所在节点的位置不易 总体来说,搜索引擎的设计方法可以很多,这里只是抛砖引玉,相信未来会有更多的巧妙的设计方案出现。...



November 15, 2005

博客动力测试版上线

0:29 on Tuesday November 15, 2005 | 2 Trackbacks | 4 Comments

昨天新系统测试上线。我的新动力测试〔那些旧时光〕也于当天开始了。新系统现阶段进行公开测试,完全完成后会择日开放并建立老系统的升级接口。 新系统改进的地方主要是用户中心的建立,分布存储和并发分布的设计,最重要一点,新博客融入了很多搜索引擎的理念和技术,因为从一方面上讲,日志,归档,分类不都是搜索么? 感谢在过去几个月里辛苦工作的同事们,因为有你们的努力,才有今天的收获。...



November 14, 2005

Google 要通吃么?

20:47 on Monday November 14, 2005 | 1 Trackbacks | 9 Comments

Google 不断的往前赶路, 这不, 收购的Google 分析 analytics (Urchin)上线了. 简单的说这就是一个 referral 的记录分析工具, 一个专业的玩具. 顺便说一句, booso 的referral 依然工作, 最近也在进行代码更换和升级. 越来越觉得 google 变成了一个庞大的信息挖掘机器, 庞大而有绪. 看来, google 真的想通吃了....



November 04, 2005

上海,中文网志年会

20:06 on Friday November 4, 2005 | 1 Trackbacks | 1 Comments

周末在上海参加。 昨天晚上在土豆的记录:2005中文网志年会前奏曲—土豆涂鸦party(来自郑泽锋)。...