1] 针对分词的系统,任何一个词出现的频率可以用如下的方法表达: P(I) = N(I) / Sigma(N(J)) 分布见图1 2] 对于任何两个词之间的相关性的分析,相关性的分布如图 2 (乘了系数1000) 超过1000的都是完全相关的词汇,例如手提电脑和便携电脑的相关系数在1500。 3] 针对Booso 搜索词的频率分布的统计分布 见图3: 在非常少的概率部分符合泊松分布。 极高频词的出现可以用来寻找突发时间 4] 针对Baidu最高频词的分布分析,由于单个词日均搜索量极大,单个词汇的日均搜索分布符合正态分布(尾巴部分)见图4...
google 购买了Keyhole ,目的是提供高清晰度的三维空间图像。听起来似乎是一个很动人的计划。 google的意思是我们未来可以在办公室里看到自己家后院的松鼠/或者是狗儿。 更详细内容来自新浪北美如下: 新浪科技讯美国东部时间10月27日09:00(北京时间10月27日21:00)消息,Google今天宣布,该公司收购了总部位于美国加州山景城(Mountain View)的Keyhole公司(Keyhole Corp.),但没有透露此次收购的财务细节。Keyhole是一家从事数字地图测绘的公司。 Google负责产品管理的副总裁乔纳森-罗森伯格(Jonathan Rosenberg)表示,“收购Keyhole公司将使Google的用户拥有一个新的、功能强大的搜索工具,使用户可以看到地球上任何地点的三维图象。Keyhole对于Google来说是一个很有价值的补充,它使Google能够更好地组织世界各地的信息并使之更加有用。” 拥有互联网接入的用户只需输入一个地址或者其它地点信息,Keyhole的软件就会对数据库进行搜索,并将搜索地点的数字图像呈现在用户的电脑屏幕上。这个交互式的软件使用户有了更多选择,包括放大图像,搜索旅店、公园、地铁甚至提款机等其它信息等等。与传统的测绘技术不同的是,Keyhole能够产生动态的三维交互信息。...
对于中文搜索引擎,切词和分词相当的关键,而对于分词和切词,最重要的莫过于一个好的分词词典了。从原始的电子字典,经过筛选,剔出调单字和极高频字。然后将词频的权重进行换算就得到了这个词典。 感觉还不错,例如中文里最高频的5个词依次是: 词根 权重 中国 152 经济 128 企业 123 国家 119 记者 118 想不到记者也能排到前列。 针对分词的另外一个常用的字典就是中国人的姓名的构成分配表,这个我会在近期发布。 词组字典下载「从ccdos的拼音表里制作」 分词及权重字典「从电子字典统计制作」...
既然有人提出要我带队开发新闻搜索引擎,我想其实这个提法是有一些问题的。 新闻搜索引擎不过搜索引擎的一类,预期说开发新闻搜索引擎,如果更准确的说不如说是开发一个“能够识别新闻”的“新闻爬虫”。 既然没有“新闻爬虫”这个概念,我就将其定义为“News Crawl”,这个News Crawl与以往的爬虫和蜘蛛有什么不同?难度何在?有和意义? 1] 新闻爬虫是机器爬虫,仍然是按照以往的爬虫程序进行运行,但是不同之处如下: 只爬固定的新闻站点,或者某个站点的某一个 directory 下。这样确保新闻的来源 爬虫对新闻站点进行分类/权重的计算是 机器+人工 参与的 爬虫对新闻的抓取要频繁的多 爬虫要对新闻网页里面的垃圾(噪音,例如广告,无用的联接)信息能够精确的处理。 2] 以往的爬虫是一股脑的抓取,而新闻爬虫的Parser的难度要求是核心了。这点上基本上要用AI的一些技术放进去进行智能的分析。 3] 以往的新闻网站,例如新浪,搜狐,都是进行人工编辑,无论在人力上和时间上都有大量的浪费和延迟,因此新闻爬虫的好处不言而愉,就象有无数的机器编辑在帮网站进行浏览,提取,寻找新闻,当然新闻来源要快的多而且剩力得多了。 可惜的是,AI(人工智能)发展到今天,连一个网页的摘要都不能产生,因此在一定程度上看来还仍然需要人工的参与。...
俗话说:三十年河东三十年河西 The search engine's toolbar is included in new Windows XP "Partner Pack."这是pcworld的头条。 甚至不到十年,微软曾经瞧不起google,微软曾经惊讶于google的整长,微软曾经嫉妒google,然而毕竟微软是巨人,十年河西没有到来之前,双方还不想进行正面交锋。 于是就有了The search engine's toolbar is included in new Windows XP "Partner Pack." 微软的新版本的Partener Pack 竟然出乎意料的包含了google的搜索引擎的toolbar 这个工具条。这不应该看做是微软做出的让步,因为微软从来就没有在市场上让步过一次,这也是微软能够有今日之辉煌的原因。 恰恰应该是微软在策略上开始和google结盟的一个信号。毕竟,微软如果针对操作系统做了手脚,google的desktop搜索,google 的toolbar 的工具条也就形同摆设了。 那么MSN的toolbar位置呢?微软还要做MSN的搜索引擎么? 从以往的经验和历史的教训看来,微软不但做,而且蓄谋已久。从我自己的搜索引擎的纪录上看,MSN 的网络爬虫自从5月份一来,已经从数量上远远超过了google,但是一个奇怪的现象,就是msn 的 search.msn.com 上仍然很少有关的 booso 的纪录。 那么情况只能有一个解释,现在的MSN的搜索引擎的数据和算法正在进行一个比较大的改革,微软的数据中心里的数据容量已经与google的数据可以比拟甚至超过google,微软等待的是一飞冲天。 这次有趣的结盟,也许是微软想表现的大方一点,麻痹google的策略罢了。...
文:卢亮 「约稿,转载请通知本人 sixwings AT gmail.com」 上周五google的股票由于随着第三季度财务的公布和几周前google桌面搜索的发布,一天之内暴涨了15%,这样Google从IPO以来在短短的六个月的时间内股票已经整整增长了一倍。在股市仍然低迷,网络经济依旧寒冷的2004年,再次创造了一个神化。甚至金融分析家已经预言google的股票将突破300美元一股,届时将取代yahoo成为新时代的领头养。当然,微软再也按捺不住寂寞了,就在当天便宣布微软年底将退出桌面搜索工具,好像在对google说“等着瞧!”。微软的longhorn在Beta版的时候由于技术原因导致MFS没有发布,这一方面是微软在桌面市场缺少竞争对手,因此并没有觉得推迟一个要素的发布会导致什么后果,另外一方面的原因也是因为微软万万没有料到google从网络往桌面系统的转变来的这么的快,这么的猛烈。恐怕样按钮不住的不单是微软,Amazon的印刷出版的A9搜索引擎同样被google咬了一口,yahoo的市场份额越来越小,如果不是出售google的股票,上个季度的财物恐怕不会那么漂亮。 然而大家都不得不承认一点,是google带来了这样一个搜索引擎时代的经济高潮,无论是google的竞争对手,还是相关的网络产业例如SEO(Search engine Optimization,搜索引擎优化)都带来了一个极大的繁荣。 让我们看看中文的市场,完全可以用风起云涌这样一个词来形容,一搜,百度下吧,搜狗,google中文新闻,网络猪,企业搜索等一个一个新鲜的花样层出不穷。我们似乎又嗅到了2000年互联网大崩溃前的一些味道。当然上次的电子商务让我们尝尽了酸甜苦辣,这次我们还是在微笑,我们的忍耐能力也高了许多,也理智了许多,毕竟,这次是真的繁荣了,这次我们看到的是白花花的银子。 繁荣的背后是什么呢?是竞争。竞争的背后是什么呢? 没有人原意回答这个问题,也许我们可以避开这个问题,因为现在的竞争还不算激烈,市场给我们的余地还是很大。然而我们不得不承认,竞争会加剧,而且现在已经在初现端倪了。经济学家经常挂在嘴边的一句话就是“没有一个产业可以永远高利润”。这个大概是经济学家们最引以自豪的一句实话了。一个新兴的产业往往在初期由于拥有大量的市场,拥有特别的技术,和少量的竞争对手而处于高速发展和高利润阶段。而一旦到了成熟期,众多的企业已经觉醒,众多的新技术的应用和竞争的加剧,利润最后会逐渐降低,降低到一个企业认为已经可以去转行做其它市场的时候,这个新兴产业就会被更新的产业所替代。市场经济规律如此,无一例外。 以google为代表的搜索引擎的最主要的利润来源是来自与广告收益,因为几乎每一个使用网络的人都需要使用搜索引擎,便使得这种搜索引擎的广告无空不入,从而取代以往的媒体广告成为广告刊登的新模式。 搜索引擎的广告模式与以往的广告模式一样么?当然不一样,例如以往的网络广告是不进行选择分类的。例如当用户浏览文章时,如果在文学的页面上看到是有关Java培训的信息,他一定不会点击,可是google利用其Mediapartners爬虫的分类算法,会这这个页面上准确的刊登出文学交友,文学期刊等广告,这样的针对性就强的多。 根据中文搜索引擎 Booso(博索) 的调查结果,以往的广告的点击率在千分之一左右,而采用搜索引擎技术的新广告,用户的点击率通常在1%到2%之间,有一个量级的提高。 看中文市场,在窄告服务退出的第三个月,google 的 adsense 便发布了中文版本,同时启动还有另外3国语言。当然,窄告的技术含量还远远不能跟Google的Mediapartners相媲美,但是也是中国网络广告市场的一个新秀。 “So What?”,有人会发问。 中国有一句古话,叫做未雨绸缪。雨从何来?绸谬从何来? 搜索引擎的高利润最核心的一点就是技术的独特性。真正掌握了搜索引擎技术的人材在现在是少之又少,针对对搜索引擎算法有独特研究的人更是凤毛麟角,可是这并不代表在未来几年内这种技术不会被广泛采用,不会被大众所掌握。就象10年前的Linux汉化的技术,只掌握在几个专家的的手里,可是10年后的今天,当你说你是Linux汉化的专家,一定有人在认为你说的是一个古老的传说了。 搜索引擎从建立到现在走过了10年的历史,这中间的一些技术也逐渐为人们所了解,并且随着开源项目的增多,毫无疑问,以前的核心技术在不久的将来将成为一个很普及的技术,不再是少数人的专利,更多的被小型的企业和个人所掌握。 就拿google来说,最初的page rank技术势如破竹,屡屡得胜,在2001年Krishna Bharat和George A. Mihaila 两人提出的依靠“专家”分类进行快速定位的Hilltop方法被google采用以后google的算法就基本上成熟了。对于中文搜索引擎,更多的技术放在了分词,切词,语义分析,语义场的分析上。更加成熟的做法包括LR,NNet(Neural network), Knn K-nearest neighbor, SVM等方法,这些经典的算法和做法都已经成为搜索引擎和分类算法的指导。这些算法和应用最初多应用在基础研究里面,可是一旦能够大规模的应用,可以说无益将有一个划时代革新,无论对搜索引擎的准确度来说,对网络广告的准确度也会有本质的提高。 在开源项目里,lucene一直一来一支独秀,以其良好的性能和高度的可配置性已经为众多的中小型搜索引擎所采用,中文lucene项目的进展也非常快,国内已经有不少网站采用了Lucene的引擎,并且在近期将有几个搜索引擎包括booso(博索)将以lucene做为后台。 毋庸质疑,搜索引擎时代的道理,搜索技术的平民化,将直接导致竞争的加剧,利润的微利化。 可以确认,无论是google还是微软,都是对这个趋势有深刻的认识,这也就是Google不断加强在其它方面的竞争,无论是google adsense还是desktop的搜索,都表明了google已经从一个传统的搜索引擎企业往一个多方位,多服务的网络应用商的转变。而微软的Msn,即便是一个四不像的产品,可是仍然在寻求突破,尝试独霸桌面系统。 搜索引擎必将微利,网络广告的技术也会被大小的企业所掌握,这是一个个必然的趋势,而在这个时代的到来前,我们是否应该抓住最后的机会呢?...
在Booso 搜索引擎 的开发过程中,应用了首创的〖多层缓冲技术〗。 多层缓冲技术的基本理论依据是 1] 因为在一定的时间范围内,通过搜索引擎查询的Query的范围相对整个查询次数来说要少的多,而且查询比较集中在一些热们的词汇上。 例如: booso.com 有一天接受到7万次的查询,而这7万次的查询集中在9400个独立查询。 2] 搜索引擎的数据库在一个时间段内没有新记录进入,因此搜索结果在一定的时间内保持相对稳定。 例如:百度一般在早上7点钟的时候才会更新数据库,而这后的24小时查询的结果排序都是完全一样的。 实现多级缓冲技术的途径: 1] 多级缓存技术。Multi level Buffer system 多级缓存技术是面向大型的搜索引擎的一个良好的选择,实现可以采用反向Proxy的代理方式并且配置缓存的时间周期小于数据库的更新周期的一半。 2] 多级数据库索引触发系统 Multi layers trigger system 这种技术就是在搜索引擎的主数据库的基础上建立每日的当日搜索数据库索引,将最常用的搜索的结果植如一个相对小的数据库,这样经过多级数据库出发系统,就会建立一个类似金字塔型的多层索引系统。 这是一个面向巨型搜索引擎的解决方案,例如: 一个搜索引擎每天有2亿次的请求,我们有如下的参数: 2000万的请求在3000 个请求内 4000万的请求在100000个请求内 12000万的请求在1000000个请求内 因此构造的当日数据索引系统: 3000 请求的索引 : 1 G 100000 请求的索引:10 G 1000000 请求的索引: 50 G 这样一个供一天查询2亿次的搜索引擎也只需要 61 G 的当日索引变够了,的确是一种最节省的办法。 博索采用了第一种的方法进行开发。...
博客(Blog)搜索引擎相对与以往的搜索引擎相比有几个明显的优势: 1] 博客的分类机制比较稳定,这是因为一般的blogger都将自己的blog分成了几个类别,那么这样基本上在用户进行发文章的同时已经进行了最基本的筛选,相对类别就比较容易计算。 2] 博客的世界里常常关心的是最新的最具有有意思的一些新闻的突发的时间,而这些又是大家进入搜索引擎寻找乐趣的目的之一。 3] blog的维护者经常更新网页,这样就会使得一个网站的死网页的个数少,有利于爬虫的效率。 现有中国的几个博客搜索引擎主要有两个:Booso 博索搜索引擎 和Grassland 。 而国外的则已经不计其数了,今天有有一个登录:Blabble ,经过了基本的测试,没有太多的卖点。...
REUTERS[ THURSDAY, OCTOBER 21, 2004 09:52:58 AM ] SAN FRANCISCO: Google, the No. 1 Web search company that recently went public and said it will not issue financial forecasts, expects to add 372,050 advertiser accounts by 2008, the San Francisco Chronicle reported on Wednesday. The newspaper, citing internal company documents, said Google predicts its advertiser base will grow by more than 130 per cent, from 280,000 in 2004 to 652,050 in 2008. Mountain View, California-based Google gets about 98 per cent of its revenue from Web search advertising, a booming and lucrative new market segment that is seen slowing in coming years as it matures. Company spokesmen did not immediately respond to calls and e-mails seeking comment. Google, which is set to report quarterly financial results for the first time as a public company on Thursday, competes most directly with Yahoo Inc. and its Overture Services unit that pioneered Web search advertising. Google said in September it had more than 150,000 advertisers participating in its AdWords program. "I don't see how they can live without having some degree of financial guidance," Janco Partners senior analyst Martin Pyykkonen told Reuters in a telephone interview....
Hilltop 算法是Krishna Bharat和George A. Mihaila 两人提出的依靠“专家”分类进行快速定位的方法。 Hilltop后来被Google采用,并且设置在Pagerank的前端,即在请求到达的时候先按照Hilltop的算法进行查询,给出权重,如果没有将返回“0”,然后进行Pagerank的计算,最后加权两种算法所得到的结果进行排序。 Hilltop被认为是Pagerank算法后google的一大改进,可是仍然存在一个致命的缺点:专家类别的设定不够光泛。这是因为专家类别的设置一是需要手工进行操作,而是需要进行不断的调整。而且专家类别一般都有很窄的信息空间,起到的作用也是有限的。 在这个基础上我进行如下的假设和改进: 设立一个 Decay Function (衰减函数) 和 Correlation Function(相关函数) 对于文档A 来说: Decay Function = 1/ e^(Minium steps) Minium steps 是通过专家类别经过最短的联接到达本文档A 所经过联接数目。 Correlation Function = cos (A with expert documents) 就是计算这个文档A 和搜索的专家文档的相关性,可以通过关键词空间的夹角进行计算。 那么经过从新的定义以后能否找到专家文档的权重将按照: Decay Function X Correlation Function 得到,这样将会有相当的改进和提高。...
对于搜索引擎来说,能够自动的识别网页的类别还不够,因为一个网页的类别往往不是单独的,而是在不同的分类基础上有不同的分类结果,本文在这里再次给出信噪比这个概念: 信噪比是一个用来衡量网页里关键词的信息是否超过一定的阈值的关键: 网页信噪比(Significant) 一个网页针对不懂的搜索词有一个信噪比的概念,信噪比Significant的定义如下: Sig=(Sqrt(Ns)/(Sqrt(Nb)))*Log(Nb) Ns为被搜索词出现的次数,Nb是背景项,是指总共这个网页里包含的词汇量。 这是针对单个搜索词语而言的, 如果针对多个词语,通常是采用 Sig=Sigma(Sig_i),这个Sig_i是第i个词汇的信噪比。 通常的情况下如果一个网页的Nb背景项将相对稳定,可以采用Nb+Ns来代替。 博索的网页自动分类引擎是第一个在线计算网页信噪比的在线搜索引擎,可以根据booso的结果进行整理分类,可以知道为什么在搜索引擎里那些拍名最靠前的网页能够上榜的原因了。 上图的绿色表示权重,粉红表示信噪比。...
本文我不希望随意转载,因为我相信大部分的人不明白我在讲什么,如有没有经过允许转载本文,请你们自动删除。 卢亮 2004 随着在线广告的流行,pay by per click (每次点击付钱)的模式 逐渐被大家接受。可是随之而来的问题就是fraud clicking的预防迫在眉捷,因为这将直接关系到这种广告模式能否长久生存和能否成为一种真正的网站拥有者的收入来源。 下面介绍Google Adsense系统如何从系统角度出发防止点击欺骗,希望对其它的在线广告系统防止虚假点击能有很好的指导作用: 1] 点击率 = 点击次数/共浏览的次数。 点击率是一个判断是否有无fraud clicks的关键的方法,可以想像一个网站上的广告的点击率超过10%将意味这什么。 #of Click/# of Viewed 2] 点击覆盖率/独立IP ,这个分布里如果有;单个IP 的(点击/浏览)=点击覆盖率超出了3倍的系统误差范围内将有作弊的嫌疑。 例子,例如来自 129.119.200.1 的用户浏览了 16个网页,点击了4个广告,而整个广告的点击率「从[1]里计算的到」是5%,那么计算得到: %5 X 16 =~ 1,方差为Sqrt(1) = 1,点击覆盖率=4/1 = 4 ,根据数学上高斯分布,这种概率小于万分之一。 Ratio VS IP distribution 3] 点击率『点击覆盖率』/IP/时间 根据时间序列对点击率进行分析,如果在某一个时间段上有明显的峰值,那么这将以为着有潜在的欺骗点击的可能。 Ratio VS time 4] 网页load的时间和 广告点击时间差的分析,以及每两次click之间时间差序列的分析 [网页load的时间和 广告点击时间差] 应该是一个泊松分布 possion distribution,而每两次click之间的时间差也应该是一个Possion distribution,如果这个时间用秒记,大于25秒的话基本上呈现高斯分布的形状。 [time of loading - time of click] distribution VS Possion [time difference of two clicks] distribution VS Possion/Gaussion 5] 针对Proxy点击的分析 改变IP进行点击可以说在以往是最难以解决最难以发现作弊方式,大概国人进行Alexa的Boost时就多半采用了Proxy进行虚假点击的方法,可是这里只要通过反向监查IP的来源是否是带有Proxy功能的服务器就可以知道了。 Reverse Proxy check 6] 针对 http_agent的分析 Http_agent/时间 的时间序列的分析,峰值超过3方差需要审查 7] 针对 http_referral 的分析 referral/时间 的时间序列的分析 ,峰值超过3方差需要审查 8] 整体效果上还有一个非常有用的量: 所有用户的有效的每千次展示费用的均值/独立IP 这个将能更加直接找到spam clicking 的运行计算机并且予以封杀。 Overall Ratio VS IP 即便我在这里给出了以上的防止作弊的办法,但是不要忘记了: 邪恶的人永远比正义的人来的多,来的猛烈。 推荐阅读: Google Adsense 如何增加点击率 Google Adsense 广告如何申请及推广...
Google 升级了桌面搜索系统Google Desktop 桌面系统 。 前次在Google WebOS:揭开Google这个谜底吧里写到 google 要做web操作系统,那么google 的进展呢? 先看看这个域名吧: gdesktop : whois gdesktop.com Registrant: Google Inc. (DOM-1313678) 1600 Amphitheatre Parkway Mountain View CA 94043 US Created on..............: 2004-Apr-06. Expires on..............: 2008-Apr-06. Record last updated on..: 2004-Oct-12 15:56:50. 是今年4月份注册的,同时注册的还有 gbrowser.com Gdesktop 四月一日发布第一版,因为所有的人都在注意gmail 因此错过了这个。现在google桌面已经比较好用了:Google Desktop 桌面系统 。...
Google adsense 广告功略及〖google 广告三定理〗 www.wespoke.com 和blog.wespoke.com以及 http://booso.com 都在九月份开启了google adsense的服务,基本上应该算是中文google adsense开通最早的用户了。 随着google adsense的广泛流行,随之而来的一个问题就是如何提高自己adsense的收入。对adsense进行了两周的观察和调研后,基本上有一定的逻辑原则,写在这里供google adsense用户参考。 1] google adsense 广告之第一定理 只有被点击的广告才能算钱。 这默认的意思就是你的广告展示必需有用户看到,必需被用户点击才有效。那么以下的因素必需考虑: (1) 广告的位置 (2) 广告的色彩 (3) 广告的大小 (4) 最重要的就是你这个广告的浏览量了,或者叫展示次数。 2] google adsense 广告之第二定理 只有用户关心的内容用户才会点击 当用户看你的文章时,如果在文学的页面上看到是有关Java培训的信息,他一定不会点击,但是如果广告的内容是文学交友,文学期刊等,效果要强的多。 这里引申的意思是你的单篇的页面的内容要尽量集中,只阐述一个问题,这样google 的Mediapartners-Google爬虫才不会误判你的网页类型和内容。 3] google adsense 广告之第三定理 任何作弊和欺骗的方法都行不通。 国人善于钻空子,任何一种健全的商业规则只要放入华人市场,立刻就变了味道,例如传统的alexa排名。要说明的是:google adsense不会是你的个人谋生手段,将更多的精力花在其它的有意义的事情上要比寻找作弊的努力强的多。 其它的一些建议: 1] 善用渠道 渠道可以让用户知道自己哪个方面的网页是最受用户欢迎的和最常被点击的。 例如我个人的blog和个人技术 blog www.wespoke.com 平均每天浏览量在5000次左右,每天大约有2,3美元的收入。而 booso.com 每天有50000次的点击,但是常常只有1,2美元的收入。 推荐阅读:google adsense fraud clicks(欺骗点击作弊) 的分析 谢谢Punky的建议,本文进行了修正。...
http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/445
上周美国系统网络安全协会(SANS Institute)公布了UNIX的10大安全隐患,从我自己使用了10年UNIX的经验出发,基本上都是据之有理,鉴于没有标准的隐患对策,我简单阐述以下这些隐患的对策。 美国系统网络安全协会公布的Unix十大安全隐患排行榜: 1 BIND域名系统(BIND Domain Name System) 2 Web服务器(Web Server) 3 认证(Authentication) 4 版本控制系统(Version Control Systems ) 5 电子邮件传输服务(Mail Transport Service) 6 简单网络管理协议(Simple Network Management Protocol) 7 开放安全连接通讯层(Open Secure Sockets Layer) 8 企业服务NIS/NFS 配置不当(Misconfiguration of Enterprise Services NIS/NFS) 9 数据库(Databases) 10 内核(Kernel) 1] Bind 的NIS 服务以往常常和NFS服务绑定在一起,提供局域网内用户的统一登录和远程的目录文件共享。 其漏洞在如果hacker控制局域网内任何一台unix/linux的服务器的local root帐户,可以通过su进入任何其它的用户的文件系统,简直是弱智的无以伦比。 这个漏洞我5,6年前用过竟然到今天还没有消除。 2] Web服务器(Web Server) 就是通常大家使用的各种 httpd server,鉴于apache 2.0 是最流行的web server,这里说明一下webserver的隐患。 cgi的配置,默认的conf 以及apache module都有很广泛的隐患,通常是通过升级来达到消除这些隐患,但是终究不是解决办法。 3年前我的apache webser曾经感染过wrom的病毒,可见其安全性之差。 3] 认证(Authentication) ,这里的隐患也不少,例如ssh 就曾经是一个众所周知的一个大漏洞,著名的电影《matrix II》里就使用了这样的指令: ssh host -l root -v 来监查ssh 的版本和漏洞。 4] 版本控制系统(Version Control Systems ) 这个我不熟悉,不做评论。 5] 电子邮件传输服务(Mail Transport Service) 这是一个耗子窝,无论SMTP,Qmail等所有现在运行的 MTS 都有很多的安全隐患,并且在防止hack 和 spam email 上都有许多要做。 当系统管理员打开25端口的时候,需要知道这个端口是一个仅次于80 端口被hacker关注的服务。建立信任的IP以及好的email relay机制非常重要。 6] 简单网络管理协议(Simple Network Management Protocol) 这个简直不用讨论了,禁止使用。 7] 开放安全连接通讯层(Open Secure Sockets Layer) 明码广播曾经使得多少hacker使用简单的sniffit 工具(监听工具)得手,telnet 的明码传播曾经是hacker的最爱。 采用硬件的MAC绑定技术,或者干脆消灭ftp/telnet 等老古董的服务甚至client程序。 8] 企业服务NIS/NFS 配置不当(Misconfiguration of Enterprise Services NIS/NFS) 这个见[1] ,不当的NFS可以使得外部的人mount系统读取文件,甚至修改文件。 NFS最好禁止。 9] 数据库(Databases) 数据库也曾经是一种非常不安全的服务,因此提倡将数据库服务界入子网内部,企业内网要比暴露给整个Internet安全的多。 10] 内核(Kernel) 请找你的unix硬件厂商和跟踪最新的消息。 备注,基本上一个系统开启的服务越多,越容易受到攻击,安装的gnu软件越多,越不稳定安全。防火墙是非常必要的,另外每天检查日志也是一个好的习惯。...
MSN服务自从前几周起就一直有问题,主要的问题体现在以下几个方面: 1] can't login 有 error code 0x81000301或者0x81000306 2] MSN Virus: Worm.MSNFunny 又叫 msn 小尾巴。 3] 登录超时,并没有明显的错误提示。 对于第一的问题的解决前文已经题记,需要升级MSN到6.2 第二问题中,msn 的好友一旦被传染上了病毒,他们会自动的发送 一个文件给你,上书“it is very funny”,千万不要执行,否则也会中招。 3] 登录超时是美国的msn login center从中国的联接问题,我测试了其它的线路都没有问题。 解决方案是 msn 的web messenger。 关于杀病毒的方法如下:...
注:这是一篇非常有意思的文章,即便没有太多的新鲜概念,但是也在一定程度上反应了IT舆论界对Google的看法。 文中提出两个半成品的搜索引擎: http://www.kartoo.com 和 http://www.mooter.com 有创新的意义但是不能算是主流。 John Dvorak:Google Google的IPO 会激起人们对搜索引擎的兴趣,还会有新式的Web 搜索。 毫无疑问,今年是搜索引擎年。Google的IPO 将聚敛起巨大的资金,并产生许多纸面富贵的富翁。尽管投资界并不认为这次IPO 标志着一次新繁荣的开端,但它显然会吸引足够多的眼球,引发一场新的搜索引擎热。总之,Google不仅使很多人一夜致富,而且它已经是一家在挣大钱的公司了。 AltaVista 是第一家知名的纯粹搜索引擎公司,但自从它的所有者Digital Equipment 公司被Compaq收购后,它就逐步无力支撑下去了。因为Compaq公司把它置于次要地位,采取完全自生自灭的态度。就这样丢掉了一只会下金蛋的鸡,真是遗憾。...
随着Rss的流行,一种全新的广告模式也粉墨登场了,这个就是Rss Advertising,或者叫做Rss订阅广告服务。 Rss是一个网站的内容进行同步服务是提供的简单的XML文件,具有实时性的特征,那么如何进行Rss广告呢? 1] 推广Rss的流行度。现在的Rss的浏览量远比网站的网页浏览量小,甚至1%都不到,这就限止了广告的普及效应。 2] 针对性的Rss广告。 3] 防止Rss Advertising cheating,就是防止虚假的Rss。有hacker制作虚假的rss,最后联接至网页的广告自然驴唇不对马嘴。 反方面的效应: 用户订阅RSS的目的就是希望能够简单的快速得到网站更新的信息,强制形加入广告服务有背 Rss 的初衷。...
不怎么用其它的 IM 工具,基本上只有MSN,原因之一是因为它接合了email并且拥有强大的交互和语音功能(似乎这些功能逐渐在减弱)并且公开了它的API ,因此有很多的IM就依靠MSN进行改装。 这里介绍MSN类即时通信软件: 1] MSN 的webmessenger 这个首先介绍,原因之一是这个没有采用通常的P2P的IM的通用方法,而采用http协议,并利用webmessenger 的 server 进行接收信息并二次发送。简单的说,webmessenger其实是一个理解MSN messenger API的一个messenger的网关,能够无缝地将web based的信息从http协议里得到并传输给要呼叫的对方。 如果你在公司里被禁止用MSN又想突破公司防火墙的限制使用msn,那么这个web messenger将是最好的选择了。 web messenger 地址 注意,这里javascript起了非常主要的作用。另外你的浏览器一定不要阻止 pop-up 窗口,这个web messenger 需要弹出一个窗口来。 2] Gaim 我用gaim的原因是因为自己基本上都在Linux上干活,几年前发现了这个东西就一直在用这个。他的好处是不但可以用MSN,还可以多用户登录。有人问我为什么看见两个六翼在线就是因为我使用的gaim。 Gaim还支持 Yahoo,ICQ,Jabber,AOL等一系列的IM协议,我最多的一次使用一个Gaim登录了5个帐户,分别是2个msn,一个yahoo,一个jabber和ICQ。 另外Gaim在Windows也有,可以一试。 gaim 网址 3] msn shell 这个是国产了。支持国货! msn shell的主要功能是能够隐身登陆,并且能够多用户登录。还有就是可以隐藏msn的窗口。其它的功能多为画蛇添足。 msn shell 网站 4] Amsn Amsn也是运行在Linux下的一个产品,通过tcl/tk进行包装。这个软件也支持多msn用户登录,并且支持隐身登录,并且有较好的隐藏窗口的功能。 唯一的遗憾是它不支持中文。 amsn 网址...
突然发现MSN登录出现错误,给出error code 0x81000301,以前就是等等算了,这次干脆干调它了。 注意,保留 my received files先。 下面是解决方案: If you just want use MSN, why not try msn web messenger? It have all the msn messenger functions but you don't need install any software, what you need is a browser. Else, you can do this: Windows 98 or Millenium users 1) Click Start > Run 2) Type: %windir% and press enter. 3) Open Application Data and then the Microsoft folder. 4) Right-click the MSN Messenger folder and delete it. Note: if you're using Profiles with Windows 98/ME, you'll need to go to the Profiles folder, choose your username and then go to the Application Data folder (then continue with the same process). If you don't know if you have Profiles setup, most likely you do not (if you don't have Profiles folder in the Windows folder, then you aren't). - Windows 2000 or Windows XP users 1) Click Start > Run 2) Type: %appdata%\Microsoft and press enter. 3) Right-click the MSN Messenger folder and delete it. Now restart MSN Messenger and try to sign in again... error code 0x81000302 ? Ham, this is mostly because your internet is down, make sure that your internet work atfirst then try login again....
本章主要介绍信息空间和信息的形状 keywords: 信息空间 Information space, 信息的形状 information shape 1] 什么是信息空间 信息空间是由一组信息失 (information base vector) 构成的一个能够将需要表达的信息完全含概其中的一个多维向量空间。 正如上一章所阐述的概念,任何一个信息矢量可以通过信息基失的组合得到,也就是说信息在信息空间里具有线性的表达方式。 2] 什么是信息的形状 the shape of information 是对一个信息在信息空间里的一个总体概括。信息的形状与信息所表达的内容息息相关,我在这里对信息的形状进行如下的分类: 以信息A 为例 A = a_1 * i_1 + a_2 * i_2 +..+ i_n*a_n 其中 a_j = A点乘i_j , j从1到n。 (1) 直线型信息 这类信息表示这个信息基本上投影在一个信息基失上,表象为整个信息同一个信息基失平行。 A = i*||A|| (2) 平面型信息 这类信息可以通过两个基失进行表达,因此是平面型的: A = ||A||(Sin(theta) * i + Cos(Theta) * j ) (3) 锥型信息 这类信息投影在3个或者3个以上的基失空间 (4) 球形型信息 这类信息投影在所有的基失空间,且基本均匀分布。 现实中的信息都是有以上4类的组合而成,真正完全属于以上(1,2,4)类的信息并不多见,而属于锥形的信息就比较常见。...
Booso.com lunch a new service: News search and rss service, news.booso.comwill be able search most recent news. at the same time, booso.com also will generate rss for this search. http://news.booso.com/google, http://news.booso.com/blog, the rss are locate at: http://feeds.booso.com/google http://feeds.booso.com/blog...
本章讲述两个问题:信息的夹角和信息的表达 1] 信息的夹角 Theta(I_A, I_B) = sqrt(arccos( Relation(I_A, I_B))) 信息在上述表达式里是矢量,信息之间的夹角表现为信息之间的点乘。而点乘的结果表现为信息之间的关系(见上一章里面信息的相关性)的开方,由此定义信息之间的夹角应是从0度到90度之间的数值: 0度,表明信息平行,或者乘平行的信息,说明信息之间完全相关。 90度,表明信息正交,正交的信息,说明信息之间没有相关性。 由此推算unix 和 Linux 之间的夹角为:73度。 2] 信息的表达: 信息失的概念: 对于任何信息失,对其取模可以得到信息失的长度,M_A=||I_A|| ,那么单位信息失表达为: i_A = I_A/M_A = I_A/||I_A|| 适当的选取信息失,从而可以选择单位信息失,那么任何的信息矢量可以通过单位信息失的组合得到。 我们首先来假设建立如下的一组信息失: i_1, i_2, i_3,... i_n. 即整个信息空间有n 维,并由信息失(i_1,..,i_n)来构造,那么任何这个信息空间的信息失A可以写成如下的格式: A = a_1 * i_1 + a_2 * i_2 +..+ i_n*a_n 其中 a_j = A点乘i_j , j从1到n。...
第一章 数字信息概述 讲述数字信息的历史,特征。。。(略) 第二章 信息的相关性 信息的相关性在没有良好的方法来进行计算其相关性的时候,可以采用信息空间差值法: 为了简单期间,我们架设A元素得到了A_n个结果,搜索B得到了B_n个结果,联合A + B 得到了AB_n 个结果,那么A 与 B 的相关性可以这么定义: Correlation = (AB_n)/(A_n + B_n - AB_n)...
《数字信息搜索》 卢亮 一部指导搜索引擎理论的书 引言,打算业余的时间将这本书的骨架写出来,至于其中的血肉,有空了再补充上。这里基本上最主要的内容是数学+信息学,基本上是我这几年的工作。 因此基本上以理论知识为主,当然也会有一些实用的例子,如果您问“如何提高网站的排名?”或者“如何提高被搜索到的次数?”,抱歉,这些问题不在我的回答范围内,我这里要写的是关于搜索的理论,已经被搜索引擎用到的和没有用的到,已经公开的或者未公开的知识。 备注:转载和联接请注明出处。...