"View" archive

google talk in Gaim:开源的魅力

19:13 on Tuesday September 6, 2005 | 2 Trackbacks | 20 Comments

Online with Google talk and MSN using Gaim, Msn 公开自己的协议, 而 google 则是主动兼容 jabber 的协议. 再想想当年 QQ 特意阻挠 gaim 下QQ协议的应用, 这就是差距....



你是良民么?

21:22 on Saturday April 16, 2005 | 0 Trackbacks | 14 Comments

昨天有一个朋友告诉我,说我的blog在yisou.com上没有搜索结果,他说我的wespoke.com 可能被一搜定义成了Spam了。 我去查看了一下,的确如是,我打算申诉,最后看到一个意见反馈和作弊报告的地方,便提交了申请。但愿搜索引擎在清理spam的时候能够小心一点,免得“误伤”了“良民”。 最近baidu和google都在清理spam,但愿真正的良民不被伤害。 快照 经过向 yisou.com 解释,今天已经可以在yisou.com 上搜索到本站的内容。谢谢!...



2005网络科技大趋势总结展望

12:51 on Tuesday November 16, 2004 | 2 Trackbacks | 1 Comments

2004年热过的东西太多了,有些还在热,有些已经开始变冷。 〖搜索引擎〗 Search engine 是2004年的最耀眼的明星了。几乎每一个搜索引擎公司2004年的日子都不错,收成也不错。各个公司开始从网络到桌面,从服务到应用,不但强占网络资源,连以往从未涉及的领域也开始进行圈地了。相信未来也许是2005也许是2006就要产生激烈竞争的到来,那个时候将是大家捉对撕杀,拼市场拼技术了。 〖大容量电子邮箱〗 很庆幸这个领域有这么大的发展,沉默了多年的老百姓终于可以说:谁说便宜没好货? 鹬蚌相争渔翁得利,我们普通人切切实实的享受到了一把做渔翁的好处,不是么?你看当初大家分发gmail帐户的热情便知道了。 〖网游〗 不管有多少人打网络游戏犯了心脏病,不管多少人在网上网下咒骂,不过网游给网络带来了新生,带来了利益,当然最主要的是利益的再分配。首福原来是这么造成的。 〖VOIP〗 说它很多年了,盼了很多年了,今年终于有聪明的人说发现了”欧版QQ“。这个VOIP在中国宽带网用户日益普及的今天是谁也阻止不了的实事了。当我们的沟通变的畅通和方便的时候,希望记住那些VOIP的先驱们。 〖Blog/SNS〗 2004年10月仅在一个月里面,我看到了和迅,yesky,文学城,tom 的blog服务,一下子中国门户网介入blog和sns已经成为一种流行,似乎缺少了这个就变的”生命不够完整“似的。 我每天还在看blog,不过已经难以挑得有用的信息了,数据量的增大,可是我的圈子缺越来越小。 〖书签〗 有人说”我特想看看牛人们看什么“,因此就有了书签服务,一种从SNS里转变出来的拥有SNS基本特性的变种。书签少则精,多则滥,真正树签有多大的价值,我看道不如说是满足人类的一种偷窥欲望和另外一种的叫做”反向偷窥欲望,或者干脆说上被偷窥欲望“ Blog是不是也有一点呢? 2005年也没有多远了,这些东西会继续变的炙红还是回头来变的冰冰凉呢? 搜索引擎无异还没有到饱和的地步,一定还会有更多的人投身其中。邮箱不会再红,毕竟别人不会让你做一辈子渔翁。这个网游倒是还能红一阵子,至少在解决了国产花上还是可以迈出一些步伐的,至于我们期待的真正的3D游戏,一旦出现,也必然带动镜片制造业的繁荣。想想看吧,每一个玩3D网游的玩客都要佩戴3D眼睛,这玩艺在初期恐怕比网游都有的暴利赚。 VOIP前景不明,不过只要政府不干预,2005年将是一个迅速普及的时代。Blog/SNS/书签将继续在我们的生活里,因为我们的嗜好一时难以改变。 有什么东西是我能够向大家推荐的? 新浪的 iask 系统 也许是明日之星。 更多内容请参考: 基于搜索引擎技术的信息聚合系统: iask.com...



Gmail 开始提供 pop3 的支持

10:56 on Thursday November 11, 2004 | 1 Trackbacks | 2 Comments

扫描了google的系统,发现了 pop.gmail.com 这台服务器,再扫描 pop.gmail.com Port State Service 25/tcp open smtp 80/tcp closed http 179/tcp closed bgp 443/tcp closed https 465/tcp open smtps 587/tcp open submission 995/tcp open pop3s 6346/tcp closed gnutella 因此知道了gmail的设置。 Google 的 gmail pop3 的设置: email server(gmail的pop3的email服务器): pop.gmail.com user name(gmail的pop3的登录名):用户名,例如 sixwings passwd :这个不用说了。 port 通道:995 ,这个是默认的 pop3s 加密的通道。 不过很不幸的是我的帐户没有enable pop3的功能:...



搜索引擎下一步是什么

16:14 on Monday November 1, 2004 | 0 Trackbacks | 2 Comments

我想Jerry's Take On What's Next in Search 大概是最近关于搜索引擎方面说话声音最响的一篇文章吧,不因为别的,是因为Jerry Yang是Yahoo的CEO,而他要对搜索的下一步进行一些阐述。 我先看了Jerry的这篇Blog,基本上不应该是对未来的展望,更多的是对以往的回顾了。不是吗,成功的杨致远已经希望google的创始人去享受成功的喜悦了,自己也许也早早的不再对创新和展望有兴趣了。 但是无论如何Jerry还是提到了一些现在正在发展的趋势,从我自己的离解上,搜索还远远没有达到理想化的阶段,毕竟,我们搜索得到的结果质量越来越差,噪音越来越高。 1] 个人化的搜索 这方面yahoo的确可以说是一个先驱了。 个人化的搜索走过不少弯路,现在还没有一个清晰的标准的模式。用户群大的门户搜索网站尽可以利用现有的用户的资源,进行对用户的分类和纪录追踪用户的搜索习惯。 用户量小的网站不得不采用注册用户机制,希望能够拿到用户的信息,让用户来定义自己的喜好和职业等。这样对于新用户来说都是一个讨厌人的过程,一个注册框也许会让90%的人望而却步。 当然制作客户端软件的方法也还是一种不算太丑陋的解决方案,不过谁又喜欢在自己的计算机上安装形形色色的间谍软件呢? 2] 不只是一个搜索引擎。 很多人认为搜索引擎不过是输入一个query然后得到结果的一个信息查询系统。完全不是这样的。我们到图书馆里查阅资料的时候,我们会翻阅索引目录,效率之低下大概有目共睹,而搜索引擎虽然效率高,可是结果的越来越不准确会让用户最后失望,以至于放弃使用。这就是单纯的搜索引擎可以聚会无数的文档,可是要知道用户的选择,知道哪些资料是有价值的,那些是没有太多价值的垃圾就显的非常重要了。 SEO的兴起实际上是对以往的搜索引擎的拍名机制的一种嘲讽。 3] 商品/专项搜索 无论是froogle还是一些地产的搜索都还比较初步,这方面yahoo提供的本地化搜索也许会有一些帮助,但是事情也不是这么简单,因为如何能够保证这些信息的正确性和及时性就变的非常重要了,因为商品搜索和专项搜索要比普通的搜索价值高(Value/Per search)的多。 4] Rss/新闻等的聚会搜索 搜索新闻和blog越来越容易了,可是我们拿这些结果做什么呢? 5] 无线搜索 我们在外出的时候突然想在附近找一个旅馆,好了,无线搜索有用了,我们要找一个街区,keyhole通过手机显示出一副你所需要的当地的地图(假想)。无线的应用会越来越广,深度也越来越深。 不过,说到底,现在的搜索引擎都还是很偏执的,我觉得口渴了,我想喝咖啡,我去yahoo和google里搜索Java,没有人给我一个结果和咖啡有关的,也许jerry Yang从来不喝咖啡。...



分词词频分析和高频词搜索分布

11:39 on Thursday October 28, 2004 | 0 Trackbacks | 0 Comments

1] 针对分词的系统,任何一个词出现的频率可以用如下的方法表达: P(I) = N(I) / Sigma(N(J)) 分布见图1 2] 对于任何两个词之间的相关性的分析,相关性的分布如图 2 (乘了系数1000) 超过1000的都是完全相关的词汇,例如手提电脑和便携电脑的相关系数在1500。 3] 针对Booso 搜索词的频率分布的统计分布 见图3: 在非常少的概率部分符合泊松分布。 极高频词的出现可以用来寻找突发时间 4] 针对Baidu最高频词的分布分析,由于单个词日均搜索量极大,单个词汇的日均搜索分布符合正态分布(尾巴部分)见图4...



google和微软战略结盟了?

14:59 on Tuesday October 26, 2004 | 0 Trackbacks | 1 Comments

俗话说:三十年河东三十年河西 The search engine's toolbar is included in new Windows XP "Partner Pack."这是pcworld的头条。 甚至不到十年,微软曾经瞧不起google,微软曾经惊讶于google的整长,微软曾经嫉妒google,然而毕竟微软是巨人,十年河西没有到来之前,双方还不想进行正面交锋。 于是就有了The search engine's toolbar is included in new Windows XP "Partner Pack." 微软的新版本的Partener Pack 竟然出乎意料的包含了google的搜索引擎的toolbar 这个工具条。这不应该看做是微软做出的让步,因为微软从来就没有在市场上让步过一次,这也是微软能够有今日之辉煌的原因。 恰恰应该是微软在策略上开始和google结盟的一个信号。毕竟,微软如果针对操作系统做了手脚,google的desktop搜索,google 的toolbar 的工具条也就形同摆设了。 那么MSN的toolbar位置呢?微软还要做MSN的搜索引擎么? 从以往的经验和历史的教训看来,微软不但做,而且蓄谋已久。从我自己的搜索引擎的纪录上看,MSN 的网络爬虫自从5月份一来,已经从数量上远远超过了google,但是一个奇怪的现象,就是msn 的 search.msn.com 上仍然很少有关的 booso 的纪录。 那么情况只能有一个解释,现在的MSN的搜索引擎的数据和算法正在进行一个比较大的改革,微软的数据中心里的数据容量已经与google的数据可以比拟甚至超过google,微软等待的是一飞冲天。 这次有趣的结盟,也许是微软想表现的大方一点,麻痹google的策略罢了。...



搜索引擎时代的盛世危言

14:24 on Saturday October 23, 2004 | 0 Trackbacks | 2 Comments

文:卢亮 「约稿,转载请通知本人 sixwings AT gmail.com」 上周五google的股票由于随着第三季度财务的公布和几周前google桌面搜索的发布,一天之内暴涨了15%,这样Google从IPO以来在短短的六个月的时间内股票已经整整增长了一倍。在股市仍然低迷,网络经济依旧寒冷的2004年,再次创造了一个神化。甚至金融分析家已经预言google的股票将突破300美元一股,届时将取代yahoo成为新时代的领头养。当然,微软再也按捺不住寂寞了,就在当天便宣布微软年底将退出桌面搜索工具,好像在对google说“等着瞧!”。微软的longhorn在Beta版的时候由于技术原因导致MFS没有发布,这一方面是微软在桌面市场缺少竞争对手,因此并没有觉得推迟一个要素的发布会导致什么后果,另外一方面的原因也是因为微软万万没有料到google从网络往桌面系统的转变来的这么的快,这么的猛烈。恐怕样按钮不住的不单是微软,Amazon的印刷出版的A9搜索引擎同样被google咬了一口,yahoo的市场份额越来越小,如果不是出售google的股票,上个季度的财物恐怕不会那么漂亮。 然而大家都不得不承认一点,是google带来了这样一个搜索引擎时代的经济高潮,无论是google的竞争对手,还是相关的网络产业例如SEO(Search engine Optimization,搜索引擎优化)都带来了一个极大的繁荣。 让我们看看中文的市场,完全可以用风起云涌这样一个词来形容,一搜,百度下吧,搜狗,google中文新闻,网络猪,企业搜索等一个一个新鲜的花样层出不穷。我们似乎又嗅到了2000年互联网大崩溃前的一些味道。当然上次的电子商务让我们尝尽了酸甜苦辣,这次我们还是在微笑,我们的忍耐能力也高了许多,也理智了许多,毕竟,这次是真的繁荣了,这次我们看到的是白花花的银子。 繁荣的背后是什么呢?是竞争。竞争的背后是什么呢? 没有人原意回答这个问题,也许我们可以避开这个问题,因为现在的竞争还不算激烈,市场给我们的余地还是很大。然而我们不得不承认,竞争会加剧,而且现在已经在初现端倪了。经济学家经常挂在嘴边的一句话就是“没有一个产业可以永远高利润”。这个大概是经济学家们最引以自豪的一句实话了。一个新兴的产业往往在初期由于拥有大量的市场,拥有特别的技术,和少量的竞争对手而处于高速发展和高利润阶段。而一旦到了成熟期,众多的企业已经觉醒,众多的新技术的应用和竞争的加剧,利润最后会逐渐降低,降低到一个企业认为已经可以去转行做其它市场的时候,这个新兴产业就会被更新的产业所替代。市场经济规律如此,无一例外。 以google为代表的搜索引擎的最主要的利润来源是来自与广告收益,因为几乎每一个使用网络的人都需要使用搜索引擎,便使得这种搜索引擎的广告无空不入,从而取代以往的媒体广告成为广告刊登的新模式。 搜索引擎的广告模式与以往的广告模式一样么?当然不一样,例如以往的网络广告是不进行选择分类的。例如当用户浏览文章时,如果在文学的页面上看到是有关Java培训的信息,他一定不会点击,可是google利用其Mediapartners爬虫的分类算法,会这这个页面上准确的刊登出文学交友,文学期刊等广告,这样的针对性就强的多。 根据中文搜索引擎 Booso(博索) 的调查结果,以往的广告的点击率在千分之一左右,而采用搜索引擎技术的新广告,用户的点击率通常在1%到2%之间,有一个量级的提高。 看中文市场,在窄告服务退出的第三个月,google 的 adsense 便发布了中文版本,同时启动还有另外3国语言。当然,窄告的技术含量还远远不能跟Google的Mediapartners相媲美,但是也是中国网络广告市场的一个新秀。 “So What?”,有人会发问。 中国有一句古话,叫做未雨绸缪。雨从何来?绸谬从何来? 搜索引擎的高利润最核心的一点就是技术的独特性。真正掌握了搜索引擎技术的人材在现在是少之又少,针对对搜索引擎算法有独特研究的人更是凤毛麟角,可是这并不代表在未来几年内这种技术不会被广泛采用,不会被大众所掌握。就象10年前的Linux汉化的技术,只掌握在几个专家的的手里,可是10年后的今天,当你说你是Linux汉化的专家,一定有人在认为你说的是一个古老的传说了。 搜索引擎从建立到现在走过了10年的历史,这中间的一些技术也逐渐为人们所了解,并且随着开源项目的增多,毫无疑问,以前的核心技术在不久的将来将成为一个很普及的技术,不再是少数人的专利,更多的被小型的企业和个人所掌握。 就拿google来说,最初的page rank技术势如破竹,屡屡得胜,在2001年Krishna Bharat和George A. Mihaila 两人提出的依靠“专家”分类进行快速定位的Hilltop方法被google采用以后google的算法就基本上成熟了。对于中文搜索引擎,更多的技术放在了分词,切词,语义分析,语义场的分析上。更加成熟的做法包括LR,NNet(Neural network), Knn K-nearest neighbor, SVM等方法,这些经典的算法和做法都已经成为搜索引擎和分类算法的指导。这些算法和应用最初多应用在基础研究里面,可是一旦能够大规模的应用,可以说无益将有一个划时代革新,无论对搜索引擎的准确度来说,对网络广告的准确度也会有本质的提高。 在开源项目里,lucene一直一来一支独秀,以其良好的性能和高度的可配置性已经为众多的中小型搜索引擎所采用,中文lucene项目的进展也非常快,国内已经有不少网站采用了Lucene的引擎,并且在近期将有几个搜索引擎包括booso(博索)将以lucene做为后台。 毋庸质疑,搜索引擎时代的道理,搜索技术的平民化,将直接导致竞争的加剧,利润的微利化。 可以确认,无论是google还是微软,都是对这个趋势有深刻的认识,这也就是Google不断加强在其它方面的竞争,无论是google adsense还是desktop的搜索,都表明了google已经从一个传统的搜索引擎企业往一个多方位,多服务的网络应用商的转变。而微软的Msn,即便是一个四不像的产品,可是仍然在寻求突破,尝试独霸桌面系统。 搜索引擎必将微利,网络广告的技术也会被大小的企业所掌握,这是一个个必然的趋势,而在这个时代的到来前,我们是否应该抓住最后的机会呢?...



不实报导导致Google暂时不第三季度财报结果发布

16:01 on Thursday October 21, 2004 | 0 Trackbacks | 4 Comments

REUTERS[ THURSDAY, OCTOBER 21, 2004 09:52:58 AM ] SAN FRANCISCO: Google, the No. 1 Web search company that recently went public and said it will not issue financial forecasts, expects to add 372,050 advertiser accounts by 2008, the San Francisco Chronicle reported on Wednesday. The newspaper, citing internal company documents, said Google predicts its advertiser base will grow by more than 130 per cent, from 280,000 in 2004 to 652,050 in 2008. Mountain View, California-based Google gets about 98 per cent of its revenue from Web search advertising, a booming and lucrative new market segment that is seen slowing in coming years as it matures. Company spokesmen did not immediately respond to calls and e-mails seeking comment. Google, which is set to report quarterly financial results for the first time as a public company on Thursday, competes most directly with Yahoo Inc. and its Overture Services unit that pioneered Web search advertising. Google said in September it had more than 150,000 advertisers participating in its AdWords program. "I don't see how they can live without having some degree of financial guidance," Janco Partners senior analyst Martin Pyykkonen told Reuters in a telephone interview....



如何防止google adsense fraud clicks(欺骗点击作弊) 的分析

本文我不希望随意转载,因为我相信大部分的人不明白我在讲什么,如有没有经过允许转载本文,请你们自动删除。 卢亮 2004 随着在线广告的流行,pay by per click (每次点击付钱)的模式 逐渐被大家接受。可是随之而来的问题就是fraud clicking的预防迫在眉捷,因为这将直接关系到这种广告模式能否长久生存和能否成为一种真正的网站拥有者的收入来源。 下面介绍Google Adsense系统如何从系统角度出发防止点击欺骗,希望对其它的在线广告系统防止虚假点击能有很好的指导作用: 1] 点击率 = 点击次数/共浏览的次数。 点击率是一个判断是否有无fraud clicks的关键的方法,可以想像一个网站上的广告的点击率超过10%将意味这什么。 #of Click/# of Viewed 2] 点击覆盖率/独立IP ,这个分布里如果有;单个IP 的(点击/浏览)=点击覆盖率超出了3倍的系统误差范围内将有作弊的嫌疑。 例子,例如来自 129.119.200.1 的用户浏览了 16个网页,点击了4个广告,而整个广告的点击率「从[1]里计算的到」是5%,那么计算得到: %5 X 16 =~ 1,方差为Sqrt(1) = 1,点击覆盖率=4/1 = 4 ,根据数学上高斯分布,这种概率小于万分之一。 Ratio VS IP distribution 3] 点击率『点击覆盖率』/IP/时间 根据时间序列对点击率进行分析,如果在某一个时间段上有明显的峰值,那么这将以为着有潜在的欺骗点击的可能。 Ratio VS time 4] 网页load的时间和 广告点击时间差的分析,以及每两次click之间时间差序列的分析 [网页load的时间和 广告点击时间差] 应该是一个泊松分布 possion distribution,而每两次click之间的时间差也应该是一个Possion distribution,如果这个时间用秒记,大于25秒的话基本上呈现高斯分布的形状。 [time of loading - time of click] distribution VS Possion [time difference of two clicks] distribution VS Possion/Gaussion 5] 针对Proxy点击的分析 改变IP进行点击可以说在以往是最难以解决最难以发现作弊方式,大概国人进行Alexa的Boost时就多半采用了Proxy进行虚假点击的方法,可是这里只要通过反向监查IP的来源是否是带有Proxy功能的服务器就可以知道了。 Reverse Proxy check 6] 针对 http_agent的分析 Http_agent/时间 的时间序列的分析,峰值超过3方差需要审查 7] 针对 http_referral 的分析 referral/时间 的时间序列的分析 ,峰值超过3方差需要审查 8] 整体效果上还有一个非常有用的量: 所有用户的有效的每千次展示费用的均值/独立IP 这个将能更加直接找到spam clicking 的运行计算机并且予以封杀。 Overall Ratio VS IP 即便我在这里给出了以上的防止作弊的办法,但是不要忘记了: 邪恶的人永远比正义的人来的多,来的猛烈。 推荐阅读: Google Adsense 如何增加点击率 Google Adsense 广告如何申请及推广...



msn messenger 病毒及其它

12:38 on Tuesday October 12, 2004 | 0 Trackbacks | 4 Comments

MSN服务自从前几周起就一直有问题,主要的问题体现在以下几个方面: 1] can't login 有 error code 0x81000301或者0x81000306 2] MSN Virus: Worm.MSNFunny 又叫 msn 小尾巴。 3] 登录超时,并没有明显的错误提示。 对于第一的问题的解决前文已经题记,需要升级MSN到6.2 第二问题中,msn 的好友一旦被传染上了病毒,他们会自动的发送 一个文件给你,上书“it is very funny”,千万不要执行,否则也会中招。 3] 登录超时是美国的msn login center从中国的联接问题,我测试了其它的线路都没有问题。 解决方案是 msn 的web messenger。 关于杀病毒的方法如下:...



Rss Advertising

11:27 on Sunday October 10, 2004 | 0 Trackbacks | 1 Comments

随着Rss的流行,一种全新的广告模式也粉墨登场了,这个就是Rss Advertising,或者叫做Rss订阅广告服务。 Rss是一个网站的内容进行同步服务是提供的简单的XML文件,具有实时性的特征,那么如何进行Rss广告呢? 1] 推广Rss的流行度。现在的Rss的浏览量远比网站的网页浏览量小,甚至1%都不到,这就限止了广告的普及效应。 2] 针对性的Rss广告。 3] 防止Rss Advertising cheating,就是防止虚假的Rss。有hacker制作虚假的rss,最后联接至网页的广告自然驴唇不对马嘴。 反方面的效应: 用户订阅RSS的目的就是希望能够简单的快速得到网站更新的信息,强制形加入广告服务有背 Rss 的初衷。...



MSN 的webmessenger和MSN衍生物

10:19 on Friday October 8, 2004 | 0 Trackbacks | 2 Comments

不怎么用其它的 IM 工具,基本上只有MSN,原因之一是因为它接合了email并且拥有强大的交互和语音功能(似乎这些功能逐渐在减弱)并且公开了它的API ,因此有很多的IM就依靠MSN进行改装。 这里介绍MSN类即时通信软件: 1] MSN 的webmessenger 这个首先介绍,原因之一是这个没有采用通常的P2P的IM的通用方法,而采用http协议,并利用webmessenger 的 server 进行接收信息并二次发送。简单的说,webmessenger其实是一个理解MSN messenger API的一个messenger的网关,能够无缝地将web based的信息从http协议里得到并传输给要呼叫的对方。 如果你在公司里被禁止用MSN又想突破公司防火墙的限制使用msn,那么这个web messenger将是最好的选择了。 web messenger 地址 注意,这里javascript起了非常主要的作用。另外你的浏览器一定不要阻止 pop-up 窗口,这个web messenger 需要弹出一个窗口来。 2] Gaim 我用gaim的原因是因为自己基本上都在Linux上干活,几年前发现了这个东西就一直在用这个。他的好处是不但可以用MSN,还可以多用户登录。有人问我为什么看见两个六翼在线就是因为我使用的gaim。 Gaim还支持 Yahoo,ICQ,Jabber,AOL等一系列的IM协议,我最多的一次使用一个Gaim登录了5个帐户,分别是2个msn,一个yahoo,一个jabber和ICQ。 另外Gaim在Windows也有,可以一试。 gaim 网址 3] msn shell 这个是国产了。支持国货! msn shell的主要功能是能够隐身登陆,并且能够多用户登录。还有就是可以隐藏msn的窗口。其它的功能多为画蛇添足。 msn shell 网站 4] Amsn Amsn也是运行在Linux下的一个产品,通过tcl/tk进行包装。这个软件也支持多msn用户登录,并且支持隐身登录,并且有较好的隐藏窗口的功能。 唯一的遗憾是它不支持中文。 amsn 网址...



Email war and Google's marketing strategy

12:50 on Sunday July 4, 2004 | 0 Trackbacks | 1 Comments

On April 1st, google announce the launch of their ambitious mail service system—Gmail, which can uniquely offer a mail storage as large as 1G as a free mail. Despite all the obvious feasures of gmail, like large storage mail size, unique mail searching and organizing method, here we will focus on the current mail war among the major email service providers, and also pay special attention to google’s marketing strategy. Email War and Google’s way of marketing After google’s first gunfire in the email war, yahoo is the first to respond by increasing its email storage as large as 100M, 1/10 of Gmail, and promising better virus-protection, and ad-scan service. Followed by Microsoft, the largest mail service provider, plan to increase all their hotmail user’s mail storage to 250 by early July. First rule of marketing is that product should meet the market’s need, and market pull is always stronger superior to product push. For the usual industry cases, product push is only important for new start-up, venture capital and firm with large budget in R&D, while most successful cases are based on carefully serving the well-defined target market segment. Gmail proves its greatness by counter-proving this rule. It chose to enter the email market, which don’t have immediate need for new email account, as we already have at least email account. However, when google came out, we all want a gmail account in action, and we are eager to get others’ invitation. Google’s strategy at this level is simply that once it wants to beat this mature market, it must beat it hardly as unimaginable as 1 G mail. Gmail’s marketing also benefits from the carefully maintained reliable image and reputation. There is still one advanced rule of marketing: to create a demand, even it doesn’t exist now. This demand is usually created by call up consumers’ new awareness or re-examine the original assumption. As derived from the email market, all major mail providers are crazy about expanding their business; Microsoft is slowly gaining large reward from their MSN Messenger Platform, which was launched up years ago, now they are integrating more business factors including ticket and hotel booking, car-renting, dating match etc. varied with local situation. Yahoo with its Yahoo messenger regarded as the follower but actually rival to MSN is far less successful than MSN messenger. When everyone’s mind is occupied with the fast expanding business, google...



Linux的发展,企业、政府、市场,谁说了算?

11:56 on Wednesday June 23, 2004 | 0 Trackbacks | 0 Comments

--卢亮 混沌年代里的Linux之路 大约在5、6年前,Linux在中国还被认为是“黑客带来的一件礼物”,也就是那个时候,当中国Linux中文化的先驱之一方汉找到了金山公司,希望金山软件能够支持Linux。可以想象,在那个Linux仍然属于专家和黑客的爱好的年代,金山当然不会同意这样一个请求,金山甚至对这样的要求感觉到幼稚。...



中文blog现状之扫描与商业展望

15:00 on Sunday May 23, 2004 | 0 Trackbacks | 0 Comments

刊登于上上期的《现代信息技术》杂志 卢亮 关键词: Blog 、blogger、User API、Mblog、Content Management 、e-learning Blog的概念在2002年进入中国以后,在短短的一年的时间里迅速增长。随着blog 托管网站的兴起,blog已经从单纯的抽象概念走向了一个被大众接受的一种媒体文化以及一种全新的网络文化及应用。现阶段中文blogger的数量保守估计应该在30万左右,而且以每天新增上千blogger的速度进入了高速增长期,可是数量不是质量,拥有30万中文blogger的中文blog市场,在商业方面仍然是非常初步的,如何在短期内从blog里面探索出一条商业道路来仍然是一个未知数。 现状扫描 中文blog从2003年末至现在,发展迅速,同时也随之而来出现了一些新情况,从现有的中文blog的现状来看,有如下的几个特点: • 托管服务风起云涌 • Blog服务的鱼目混杂 • 专业与无序并存 • 一些有益的尝试 托管服务风起云涌:在2003年年底,中文blog只有3家托管服务,这三家都有超过1年的历史,是中文blog兴起的先行者。虽然这三家blog托管继续领导中文blog市场,可是已经在短短的几个月内涌现了近10家的blog托管网站。这些网站规模有大有小,提供的服务有好有差,但是无论如何,可以看得出,已经有越来越多的人注意到中文blog的市场了,认为这个将是一个很好的尝试,尽管谈起商业模式,现阶段基本上尚没有一家blog托管网站实现了盈利和短期内可以看到有盈利的可能。 Blog服务的鱼目混杂:Blog热导致了众多的门户网站纷纷建立了自己的blog服务,而这些服务,通常不过是一个发布系统再加上一个日历和一个能够供用户进行评论的留言功能。如果说这样的系统就是blog,显然有些强差人意了。这些门户网站依靠自己的用户资源,可以很轻松的将其所谓的“blog”的概念普及给他们的用户,可是blog内在的许多相关的概念例如Traceback,Rss,Creative Commons却都没有被采纳。可以预计,这样的一些系统,会为其用户带来一些负面的导向,因为我们已经听到了“blog不就是网络日记本么”这样的感慨。 专业与无序并存:最初加入blog潮流的中文blog先行者,大都是一些媒体工作者,一些大学生以及一些IT从业人员。基本的blog的内容也集中在个人生活、学习的纪录,个人评论,以及追踪国外的IT新闻。这些都是很普遍的blog形式,然而这些blog却很难受到大众的关注,被媒体曝光的一定是这里面叛逆者,例如木子美以及竹影青瞳这样的以色情为基调的blogger 往往更能得到宣传媒体的厚爱,更能被发现“卖点”。在这样的气氛下,不免一些blogger会学习重复前面两位的路子,以期造成轰动效应,而不了解blog的人则对blog产生一个先入为主的有色印象,对中文blog的长期健康发展带来一些的隐患。 一些有益的尝试:我们还是看到了一些有益的尝试,在blog的应用方面,一些中文用户已经开始利用blog 这种方便的发布方式来推广自己,建立了个人简历,以及个人新闻,或者个人相册,家庭作业等等。这些有益的尝试与blog这种网络应用的前后台服务的脱离有相当大的关系,只有当用户能否很方便的利用blog系统提供的API 来完成自己需要的界面,内容的设置,才真正的能够将blog的应用推广开。 blog应用的商业化 除了blog加入商业元素外,blog本身的也因为其特点将会被更多的商业和非商业机构采纳,成为小型商业门户网络的解决方案。Blog对于非个人的应用也会随着中文blog的普及而产生而进入如下的一些领域: • 用于公司和团体的信息发布 这个已经逐渐成个小型工作室或者人工作室(soho)的信息发布的首选解决方案。对于soho用户来说,建立网站的方案选择一直是一个棘手的问题,因为并不需要像大型公司可以建立单独的部门或者专人负责甚至将这部分外包给其它的专业公司,但是也需要能够有比较专业的信息发布系统,而不能采用类似个人主页的方式。而blog的user API(用户接口)就刚好为这类用户提供了一个良好的用户接口,并通过这些用户接口建立设置自己的接近专业设计的网站。 • e-learning上的学习 E-learning已经不是一个新鲜的概念了,随着文档的电子化和高速网络的普及,e-learning的概念又一次被挖掘了出来,而这一次e-learning显然要比2000年网络泡沫破碎前有了全新的提高,不但是因为internet已经在这4年里经过了更大的发展,而且在硬件和软件方面有了更加充分的准备。在国内已经出现了几个高中利用blog的资源,进行辅助教学,为学生和教师分别建立了各自的blog ,然后教师将教学要点和家庭作业公布在blog上,而学生将其家庭作业和学习心得写在blog 上,从而实现了无纸教学和教学上的互动。 中文blog未来可以突破的几个方向 对于现有的中文blog托管网站来说,可以说2004是一个机会与挑战并存的一年。2003年中文blog的突飞猛进的增长和各个门户网站的介入,不可避免带进入一些必要的整合和商业上的运作。对照国外的blog商业化操作,中文blog托管服务和商业网站,应该从以下3各方面着手: • 提供更加丰富的功能 • 手机blog以及短信blog • 加强blog市场的规范化管理 提供更加丰富的功能:现有的中文blog服务商虽然都各有特色也拥有一些比较鲜明的特点,但是仍然缺少一些方便的User API。Blog的最流行的软件Moveable Type的缔造者Six Apart公司在最初为blog设计软件的时候就将用户接口作为一个最主要的特征来开发,从而在后面的几年内看到了明显的效应。现在的Moveable Type已经是最多商业blog用户采用的系统了。Six Apart公司的下一个侧重点是Content Management(内容管理),这也给国内的blog服务商一个提醒,也许,内容管理将成为未来商业blog能否成功的一个关键。 手机blog以及短信blog:随着能够拍照的手机的流行,手机blog(mblog,mobile blog)将无可非议的成为一种新的blog方式。手机blog就是采用手机进行拍照,然后将图片配以简单的说明直接发布在自己的blog上。与之相相仿,短信blog是通过手机将短信息直接发布在blog 上。当blog用户在旅游,遇到突发事件的时候,不能接触网络,或者是需要发布一些实时的消息时,这种依靠手机进行发布blog的形式无疑是一次革命,而且更加方便和适合新闻媒体工作者和旅游者。 加强blog市场的规范化管理:现在的中文blog仍然是一种用户自由发布的状态,因为从以往的经验看出,这些单个blogger 常常会影响到整个网站的稳定运行以及托管服务的抗击风险的能力。其中不乏有一些blogger的内容会给社会带来负面和消极的影响,甚至部分的blogger的内容会给国家和集体的利益带来损害,这是一个遵纪守法的公民所不愿意看到的。 当然,blog的应用和发展也会出现在其它的方面,因为一旦进入商业模式,一切的发展都是按照市场的需求作为导向的。在中文blog逐渐普及的今天,本文虽不能将整个中文blog面临的问题和机遇一一详述,但是希望能够做到窥一斑可见全豹,为中文blog的发展提个醒。...



Likelihood Fitting tools

17:04 on Thursday May 20, 2004 | 0 Trackbacks | 0 Comments

There are 2 kinds of software which are popular in past few years in stastic area, one is felix, the other one is RooFit. felix running on DEC Digital machine. RooFit based on root system and running in Linux and all other system than root can running. unbinned maximum likelihood fit using RooFit would save me a lots of time :) Install process.. 1] Download root for gcc at right version http://root.cern.ch/ 2] setup root system: setenv ROOYSYS ... setenv setenv LD_LIBRARY_PATH .... 3] connect CVS spool of roofit cvs -d:pserver:anonymous@cvs.roofit.sourceforge.net:/cvsroot/roofit login cvs -z3 -d:pserver:anonymous@cvs.roofit.sourceforge.net:/cvsroot/roofit co modulename download all needed files 4] compile RooFitModels gmake -f GNUmakefile.standalone RooFitCore gmake -f GNUmakefile.standalone 5] cp libRooFitModels.so & libRooFitCore.so to $ROOTSYS/lib 6] running root> gSystem->Load("libRooFitCore.so") ; root> gSystem->Load("libRooFitModels.so") ; RooFit -- Version 1.04, developed by Wouter Verkerke and David Kirkby Copyright (C) 2000-2004 University of California & Stanford University All rights reserved, please read http://roofit.sourceforge.net/license.txt root [1] RooRealVar x( "x" , "x", -10 , 10 ); root [2] RooPlot * xframe =x.frame(); root [3] xframe->Draw(); : created default TCanvas with name c1 :-D...



Alexa Ranking VS Daily Visit

16:13 on Wednesday May 19, 2004 | 0 Trackbacks | 1 Comments

There is one website which collect the date of the ranking of Alexa and the Daily Visitors, then fit all these data and generate a straight line which show the relation of these 2 variables. Alexa ranking:100,000==1500 Visitors/per day Alexa ranking:10,000==7000 Visitors/per day Alexa ranking:1000==30000 Visitors/per day source : http://www.sillyjokes.co.uk/alexa/index.php...



How to Kill adware and spyware

10:57 on Sunday May 16, 2004 | 0 Trackbacks | 2 Comments

One of my server was seeded an adware and since then, from time to time, pop-up windows jump out and eat lots memory. adware is sth really stupid, how can I buy their product by just click these facked webpage by mistaken? and how can I believe a business can be honest by using adware? The same is the spyware, they sniffit your internet, they send you credit card information, they stolen your SSN and they can do more... they even tell you "want kill pop-up? just $19.99..." Then how to kill them? I try several softwares and find them powerful and able to remove most of the adware and spyware, most important of all, they are not adware and software . (funny ?) 1] Adware Spyware Firewall 2] Bazooka Adware and Spyware Scanner: scan 3] Adware Pop-up Stopper: block Adware pop-up 4] SpySweeper: supper cool! 5] http://www.symantec.com/ userful info...



machine learning to Auto-category

11:33 on Tuesday March 2, 2004 | 0 Trackbacks | 0 Comments

Back from Austin(Fifth Annual ASIS&T Information Architecture Summit 2004), very impressive meeting. There is one talk [Using Machine Learning Techniques to Populate Dynamic Interfaces] which talking about the information clustering. This is exactly what I am doing now. But I am not using clustering method, I am using NN(neural network) to autodiscover the information of the documents. After meeting, I talked with the speaker Miles Efron a PostDoc in University of North Carolina, he was impressive with what I was doing. But what I am concern is the systemic error of the NN is too huge. Here is what I have done in last few month: 1] What is the information of one document? Category, key words, Discription, Metadata. Category will be very difficult to allocate if the document it's self didn't assign to a category when it was published. So, my question is :To help to archive a accuracy search result, I need assign all documents to certain category. 2] How to using Neural network to auto-ctegory? (1) I have around 5000 documents which already known the categories, which is devided in to 15 categories: Novel(ID=1), money(ID=2), study(ID=3), social(ID=4)..... Put all {keywords, discriptions, metadatas, contents} in to NN and tell NN that they are belong to 15 categories. My nn is MLP(Multi-Layered-Perceptron ) with 2 layes and 72 neurons. Trainning for 600 times with optimal steps, my NN is pretty stable with the output from 1(Novel); 2(money),..... Which mean my NN can recongaize these documents and already know that which categories they should be. 3] Verification. It maybe over tranning, which can cause very large systemic error. testing it with the new 4500 documents (Already known the categories)which my NN never seen. The result is consistent with the [2](Tranning result). 4] Testing Now, using google download 3000 documents, let them pass my NN, ok, my NN will give a probality of this document be 15 categories: Example: for this document, the result is: Technology: 79% Error:10% Biology:15% Error 4% ..... ..... Social:0% Error:0% Sports:0% Error: 0% The overall systemic error is 14% So, this post will automatic to be assigned to "Technology Category" by my NN machine. BTW, using NN can also generate the Key words and discription, which is something real IA(Information Architecture ) I will focus on when I launch my search engine....



[[北妹]盛可以]下一个走红的作家?

12:34 on Monday December 29, 2003 | 0 Trackbacks | 5 Comments

我随流年去, 不逐闲愁. 六翼的天使主页 说真的, 作家的定义已经没有太多的价值了, 沙床的余温尚在, 封埋18个月,盛可以首部长篇力作《北妹》也将于春节后由长江文艺出版社出版。 以前很讨厌余秋雨, 没有理由, 也许觉得他是文人的无病呻吟, 或者是过于自恋了吧. 其实细细想来, 这世界上的人又多半如此, 除了恋人外, 要恋上的人就只剩下自己了. 前次回国, 特地挑选了他的[行者无疆],细细阅读, 喜欢他,又有些讨厌他. 以前喜欢看毛利的文字, 可是她似乎最近不在状态, 不写了. 然后找到了格子的连载[N所不知道的故事],喜欢上那样精炼的文字和叙述. 格子说,她写的这小说是骨架, 也许忙, 也许没有想把他发展成一部作品吧. 跟 格子谈的次数不多, 我提议如果有时间了应该将这样的作品丰富一下, 添上血肉,应该可以发表的. 跟格子提起找个出版商的时候, 突然想起了那些在北京出版业的朋友们, 有好久没有联系了, 该给他们发个问候了. 忙忙碌碌, 又一年, 自己要做什么, 自己有没有未来, 我都不在乎了. 一直坚持 一个原则 :"想到了, 就去做! 不要迟疑". 岁末, 我随流年去, 不逐闲愁....