搜索引擎研究http://www.wespoke.com/Life or Datazh-tw2008-05-27T23:16:04+08:00 云计算(cloud computing)10问http://www.wespoke.com/2008/05/cloud-computing10.html杂文Liang2008-05-27T23:16:04+08:00WWW2008 beijinghttp://www.wespoke.com/2008/04/www2008-beijing.html杂文Liang2008-04-21T14:44:48+08:00淘宝网研发职位开放,欢迎加盟http://www.wespoke.com/2008/01/join-taobao-2008.html从北京来杭州已经3个月了,在淘宝网的短短的三个月里,见证了淘宝的高速成长,在这样一个安静和绿色的城市里,淘宝网和它的5000万的会员迎来了2008。 这里在发生这什么呢? 1. 搜索 也许很少的人知道淘宝是中文网站里面除了百度最大的搜索引擎,而实际上淘宝的搜索却是要求更高,更加准确的搜索。数以亿计的商品在货架上,而这些商品每时每刻都在上架、下架、价格在调整。这一切要求淘宝的搜索要及时和准确,每一次搜索和后一秒的同样的搜索的结果都会因为商品的价格和上下架而不一样。淘宝的搜索每天处理着大约3亿次以上的请求,创造着数亿的交易额。 2. 分布式计算 这是一个交易型网站,每天处理着数百万级别的商品图片和商品信息,每天处理着数百万级别的订单,这一切都要求安全、稳定、快速。数千台服务器在有条不紊的处理着各种信息,这些海量的数据还在以惊人的速度在增加,每天处理日志的服务器已经接近百台。 3. 数据挖掘 你也许知道,你在淘宝上的每一个页面上都有推荐商品,这些商品是根据你的过往行为实时分析后进行商品推荐的。在一个每天有2~3亿访问量的网站上,每天数百万订单和数亿的交易额的基础上,数据挖掘已经不是教科书上的算法,而是实实在在的能够引导顾客消费的一个重要来源。 2008,淘宝面临更大的挑战,因为在这里,网络购物的规模会超过1000亿,在这里,新的B2C将诞生,我们希望能够与你一起走过2008: 以下借用淘宝UED团队的话: 但是,我们很诚实,所以我们要先告诉你: 我们没有两台并列的24′专业显示器,但我们有刚换上的17′液晶和会员喜欢的网页设计;我们没有Google那种可以躺着开会的椅子,但我们的会议室有走时特准的大挂钟;我们没有微软那种比我们会议室还大的厨房,但我们有难吃的盒饭和吃了三年还最开心的午饭时间;我们没有外企那种比学生时代还长的假期,但我们有每晚在楼下等到凌晨的杭州“的哥”;我们没有出国旅游的福利,但我们有不用掏钱只要爬得筋疲力尽就能看到西湖的老和山;我们没有让人口水满地的薪水报酬,但我们有全中国最被期待上市的阿里巴巴的工牌;…… 我们最想告诉你的是: 在这里,工作早已不是我们考虑的问题,我们挥洒青春为之奋斗的,是我们的事业,一件让中国人自豪的事业! 所以,来加入我们吧!如果你接受我们的苦和乐,如果你想战斗而不是糊口,如果你和我们的要求有那么一点像。 申请以上岗位请发简历到:sixwings # gmail.com 或者 mayu # taobao.com,主题注明“应聘”。谢谢 Java开发工程师(急招) 职位描述: 你的每一行代码将会影响中国网络购物80%的交易额,每天数亿。 你的每一行代码将会表现在淘宝每天2~3亿的PV上。 职位要求: 1. 精通jsp,servlet,java bean,Jdbc开发,精通J2EE技术及原理,熟练使用Java、HTML、Java Script、JSP、XML2.至少具备Struts、Spring、Hibernate、Ibatis中两种以上开发经验,熟悉MVC编程模式 3.精通Oracle,Sql Server等大型关系数据库,有一定的数据库设计经验,能够指导数据库程序的开发及测试工作 4.熟练操作linux、tomcat、jboss等服务器工具5.良好的分析问题及解决问题的能力6.有良好的软件工程知识和质量意识 C++ 底层/搜索/算法 工程师...杂文Liang2008-01-13T16:13:10+08:00数学模型与简化(modeling simplify)http://www.wespoke.com/2008/01/modeling-simplify.html我们这代人很幸运,也很无奈,幸运在于我们处在一个知识大爆炸的年代,新的知识层出不穷,我们每个人的知识可能能够跟那些历史的伟人像牛顿、伽利略等比肩,无奈的是正是因为知识大爆炸,这些知识的更新的速度也加快,知识的更新速度有时已经不是用年来计算了,而是以月来计算了。记得我大学的时候学习的高级计算机语言是pascal,上机实习用的是IMB的PC/xt,几年后这种计算机就销声匿迹了。等到我本科毕业开始做论文的时候,已经用上了486,至于之前准备的一堆的5寸盘,都已经成了历史的证据。在最近的几年这种趋势呈加速发展的趋势,新的互联网应用和互联网产品每时每刻都在更新,每天都有新的应用产生。这些新的知识和新的应用有些能够很快成为流行,被大众接受,有些却昙花一现,没有成功,这里面到底有哪些共同点呢? 互联网一方面使得信息的流通变得特别的容易,使得知识的获取变得比以往快速得多,也使得知识的分享真正脱离了传统的图书馆和课堂。同时,互联网使得很多的商业可以依靠这个看似简单的工具极其有效的运转起来。很多原本很难实施的商业模式都被搬到了互联网上。例如拍卖就是一个非常好的例子,传统的拍卖很难在一个物理的地方上集中数以万计的商品和卖家,因此规模也就变得有限了。有了互联网,物理上的约束被彻底解放了,数以万计的卖家和买家可以在一个平台上针对不同的商品进行交易,一个虚拟的市场就很容易形成,也很容易形成规模。原来我们关于商业的一些认识在互联网时代就被彻底的改变了。 从过去的10年里,我们看到了一系列成功的案例,例如netscape、kazza等,无疑开创了网络时代的创新。这些应用一方面利用了互联网的最本质的特征,另外一方面在技术上的创新使得这些应用风靡一时。这里面最为杰出的就是我们熟知的搜索引擎了。与其说是搜索引擎的杰出,倒不如说是google带来的革命。 在google之前有相当多的搜索引擎,都有过短暂的辉煌,在google之前,所有的搜索引擎里关于相关度计算的最重要的部分是被广泛了解的TF*IDF算法,然而当google使用page rank来计算网页的重要度的时候,良莠就显现出来了。page rank来自于一个假设:重要的网页会被链接的次数更多。一个简单的假设再加上一个简单的迭代公式,作为page rank的原型,google的搜索明显优于其它的搜索引擎了。虽然接下来的几年里google又调整了page rank算法和加上了hilltop算法,但都是锦上添花,而不是革命性的变革。 我们能从google的模式上学到什么呢?google的创新模式有什么规律可循? 1. 对网络社会的认识,设定一个假设2. 针对假设进行一个数学建模3. 对建立的模型进行实际数据的对比,以简化或可计算化4. 将实际收集的数据进行实际运算 例如就拿page rank为例,我们对网络社会的假设就是“重要的网页会被链接的次数更多”。这个假设是建立在我们认为好的网页、有用的网页往往会被别人收录,或者通过链接的方式连接起来。针对这个认识,建立一个数学模型。在这个数学模型里有几个核心:第一,每一张网页都有一个重要度、第二,被其他网页链接会提高重要度、第三,链出会降低重要度。整个模型就像一个一个水池,每个池子的水量就是重要度,池子之间的管道就是链接。 数学模型建立起来了,这个数学模型更像是解一个多元方程组,其中的变量可能高达数千万甚至上亿,要对整个互联网的全部的网页进行计算,规模巨大。解这样一个方程组显然是不可能的,因此简化算法,采用迭代的计算方法。首先将网页的重要度设定一下初始值,然后进行多次迭代,在迭代的过程中找到稳定的结果,也就是最终这个多元方程组的最后的答案。 实际收集到的数据网页进行分析,获得链出和链入的链接,然后根据简化的计算模型进行迭代计算,就获得了最后每张网页的page rank。 记得以前看过google的中午blog,里面有一片谈到数学之美的文章,我想这大概应该是google的一个理念的体现。一切皆有可循之因,一切皆有可简之美。...算法Liang2008-01-10T10:44:32+08:00Blog系统4年来的第一次升级http://www.wespoke.com/2008/01/blog4.html2003年建立博客以来,使用的MT 2.6系统一直就没有升级过,一方面上面加了一些插件,改了留言等系统,一直晃晃悠悠的走到了2008。期间域名丢失、空间回收、系统崩溃、spam泛滥都经历过了,都熬过来了,但是2008的元旦,老系统终于没有熬过来,数据库毁坏了,整个blog成了一堆不可管理的静态页面,不可留言、不可修改、不可删除(当然可以硬性的删除)。 过去一年我大概写了3篇文章,系统的资源由于日志的积累到达了500多M,去年的quota还是1G,2007年的最后一天,我决定系统降低到500M,然后就出现了我最郁闷的一幕:当有人留言的时候,数据库插入失败,但是close也无法了,因为quota超出了。然后数据库整个表没了,然后我发现备份是2005年的,然后就是删除日志,流出空间,重新安装系统。。。。。 新年了,应该勤奋一些了。...杂文Liang2008-01-08T16:36:16+08:00