November 29, 2004

MT 防止垃圾留言的新方法

15:04 on Monday November 29, 2004 | 4 Trackbacks | 8 Comments

MT系统的垃圾留言有一个特征,就是留言里面很多联接,非常烦人,在尝试了采用对评论提交后匹配有多少个联接出现在留言里,然后判断是否是垃圾留言是一个好办法来防止大多数的留言。我测试了大约一周,效果比较明显。 以下代码紧跟在mt-comments.cgi的use strict;下面。 use CGI qw(:standard); if ($ENV{'REQUEST_METHOD'} eq "POST") { my $tck = param('text'); die if($tck ne "" && $tck !~ /[\x80-\xff]/); # 以上判断是否是中文留言 my $ncom = 0; while ( $tck =~ /http/g ) { $ncom ++ ; } die if( $ncom > 1 ); # 以上判断有多少个URL出现 } 这里 $ncom 就是计算里面的联接个数,如果大于1,就当做垃圾留言了,直接中断。这个可以做适当的调整。 更多的内容请看以前写的Mt 系统如何防止垃圾留言以及如何通过 .htaccess 禁止垃圾 refer ,这里面提到了现有的常用的垃圾留言的处理方案。...



November 22, 2004

Gmail垃圾邮件的处理规则和一些补充

14:10 on Monday November 22, 2004 | 2 Trackbacks | 5 Comments

很有意思的一则报导“盖茨称新技术将把大部分垃圾邮件拒之门外”。 盖茨据说每天收到400万封垃圾邮件,而且能有效的过滤,估计是全世界最完善的垃圾邮件处理系统了。 说说我自己的垃圾邮件吧: CERN的邮件帐户一天大约有200封email,基本上都是垃圾邮件,用了Procmail进行匹配过滤,不过效果一直不好,后来做了MUA的一个插件,可以删除大部分的垃圾邮件,可是也时常能从过滤的邮件里找到有用的信件。 最近开始使用gmail,一开始真得不错,基本上没有多少垃圾邮件。可是冰败如山倒,不知道谁转载我的文章的时候将我的email也”好心“地给公开了,结果现在每天差不多也有100多封垃圾邮件。 gmail的spam email处理根据我的观察基本上按照以下几个原则: 1] 发信人,发信IP,发信网关的black list 2] 用户自己进行匹配 3] 贝叶斯统计 1] 和2] 基本上都已经没有改进的余地了,3] 的贝叶斯统计广泛的应用在spam email的处理上,通常有个人的bayes 统计库或者系统整体的一个贝叶斯数据库,估计gmail是针对每一个用户建立了一个与帐号相关的贝叶斯统计库。 曾经有几天我发现来自有一个订阅email list的所由信件全部自动被送到了spam email里,我就将他们恢复并标明是”安全“email,昨天起发现gmail已经不在将这些email送到spam email信箱里了。可见gmail基本上对未知的email是采用贝叶斯学习和校验的方法来实现的。 随便说一下,贝叶斯统计样本越大越精确,盖茨每天有400万的垃圾邮件简直是一个非常好的垃圾邮件学习库,所以盖兹能够有更强大的过滤功能也是因为众多的垃圾邮件帮助他完善这个贝叶斯学习的结果。 还有一些方法也许也会有用: 1] 对于中文用户来说,如果email里面没有一个全角字符出现,那么扔了吧。 下面是帮助Mt 系统禁止spam的一种方法了。 use CGI qw(:standard); if ($ENV{'REQUEST_METHOD'} eq "POST") { my $tck = param('text'); die if($tck ne "" && $tck !~ /[\x80-\xff]/); } 2] 对于整个邮件系统可以找出众多用户email里的 url,类别,关键词,判断邮件之间的相似性 。例如gmail 系统可以将每一个小时所有用户的新收到的email里的link 做一个统计,发现某一个联接出现很多次,估计是群发的垃圾邮件。 准备发文的时候车东突然提出一个 webmap 的想法,我发现这个绝对是一个防止spam email的绝好方法 ,相信一定会有非常好的作用。...



November 21, 2004

第六章:信息的聚类

14:00 on Sunday November 21, 2004 | 1 Trackbacks | 1 Comments

对自动聚类又进行了测试,发现sliding window可以进行简化,实现简并算法,算是一个突破吧,因此重写这一章。 LL 2004/11/22 有了良好的分类机制,才能够对信息进行有效的聚类。 聚类采取自动的方法基本上基本上有三种: 1] 现有的依靠大量样本进行NNet训练后进行单次模糊模式识别的方法。 方法的特长是能够快速的准确的进行自动聚类,缺点是需要大量的样本进行预先的训练。 防止过度训练和如何处理误差等变得非常关键。 类似的机制还有 Knn,SVM和贝叶斯统计法,回头细致介绍。 2] 平移算法,或者也叫卷积(自相关)算法。 Corr= Intergal( f(x)*f(x-t) dt ) Clusty 的自动聚类就是采用的平移算法。 平移算法的特点是计算迅速,简单易用。 缺点是计算的次数和信息的数量的平方成正比:N^2/2 3] Sliding Window以及兼并算法 sliding window方法根据信息间的夹角,能非常有效的发现一簇信息,并且控制窗口的大小可以来订制聚类后信息的相识度。 Sliding window的优点是非常精确,可调节性强。 缺点是非常繁琐,所计算的次数和信息空间的维数的阶数成正比,例如1000维,大约要计算10^1000 次,天文数字。 简并算法:在对sliding window进行了分析后,可以采用一种简并算法来快速收敛。简并算法是先找到任何两个信息之间的最小夹角,然后进行简并,成为一个信息矢量,这样经过若干次的简并后就收缩到非常少的信息矢量上。而这些较少的信息矢量的夹角都比较大,是不同类别的信息矢量,即实现自动聚类。 举例说明:1000组的信息进行简并处理,六次就可以收缩到15个分类里面,而六次所需要的计算量大约为60万次,基本上不会有难处了。...



November 18, 2004

博索Booso 贴吧登场

12:34 on Thursday November 18, 2004 | 1 Trackbacks | 5 Comments

不要砸我,随便做了一个,说我抄袭百度也罢,说我模仿一搜也行,不过是随便制作一个贴吧自己玩玩。 博索贴吧的特征: 没有特征。 博索贴吧 例如Google 吧...



基于傅立叶变换的网络异常态和点击作弊的分析

11:43 on Thursday November 18, 2004 | 15 Trackbacks | 5 Comments

很多的时候网络异常态的判断需要有非常精确的做法,因为预警系统一旦启动如果误判将造成非常多的不必要的麻烦。以往的多种滤波模型例如卡尔曼滤波等由于起计算的复杂和滤波矩阵的繁琐,一直不被业界看好。 点击作弊是网络广告亟待解决的一个难题,因为单纯的根据IP,出现的概率已经不能满足在大用户量点击的情况下发决出那些是fraud click,哪些是正常的点击,因此一直一来是一个难以解决的难题。 参考我以前写的如何防止google adsense fraud clicks(欺骗点击作弊) 的分析 本文在这里给出通过傅立叶变换进行网络异常态的判断和惊醒作弊点击的帧测。 傅立叶变换最初是数学上连续函数进行分解的一种方法,也是数字信号处理中的基本操作,广泛应用于表述及分析离散时域信号领域。 进行 k失(又叫波失)到X(空间)的变换,得到: 傅立叶变换广泛的应用在光谱分析和信号处理上,举一个简单的例子,我们通常使用的压缩算法就是从傅立叶变换里得到的。 最初的傅立叶变换是针对连续函数,构造Deta函数后可以针对离散函数进行,然而傅立叶变化的速度很慢,因为收缩的因子跟 1/N 成正比,后来有人提出了快速傅立叶变换:FFT ,再后来进入了小波分析 wavelet ,算是彻底的将傅立叶的技术应用到了工业界。 网络异常的判断最主要的依据就是能够进行短时间内判断网络接入量的频率(频域的分布),在依据以往时间段的频域的分析进行对照,如果连续出现在一个稀少区域,那么就是有异常发生。 点击作弊计算两点,第一,点击作弊属于网络异常态,但是基本上属于高频段。 第二,点击作弊的访问频域的分布如果跟正常态有出入,那么则有嫌疑。 对博索进行了网络异常态和点击作弊的分析,基本上结果是正面的,看下图。 参考文献: http://www.cwp.mines.edu/%7Ezmeng/waveletlab/waveletlab.html http://astronomy.swin.edu.au/~pbourke/analysis/dft/...



November 16, 2004

2005网络科技大趋势总结展望

12:51 on Tuesday November 16, 2004 | 2 Trackbacks | 1 Comments

2004年热过的东西太多了,有些还在热,有些已经开始变冷。 〖搜索引擎〗 Search engine 是2004年的最耀眼的明星了。几乎每一个搜索引擎公司2004年的日子都不错,收成也不错。各个公司开始从网络到桌面,从服务到应用,不但强占网络资源,连以往从未涉及的领域也开始进行圈地了。相信未来也许是2005也许是2006就要产生激烈竞争的到来,那个时候将是大家捉对撕杀,拼市场拼技术了。 〖大容量电子邮箱〗 很庆幸这个领域有这么大的发展,沉默了多年的老百姓终于可以说:谁说便宜没好货? 鹬蚌相争渔翁得利,我们普通人切切实实的享受到了一把做渔翁的好处,不是么?你看当初大家分发gmail帐户的热情便知道了。 〖网游〗 不管有多少人打网络游戏犯了心脏病,不管多少人在网上网下咒骂,不过网游给网络带来了新生,带来了利益,当然最主要的是利益的再分配。首福原来是这么造成的。 〖VOIP〗 说它很多年了,盼了很多年了,今年终于有聪明的人说发现了”欧版QQ“。这个VOIP在中国宽带网用户日益普及的今天是谁也阻止不了的实事了。当我们的沟通变的畅通和方便的时候,希望记住那些VOIP的先驱们。 〖Blog/SNS〗 2004年10月仅在一个月里面,我看到了和迅,yesky,文学城,tom 的blog服务,一下子中国门户网介入blog和sns已经成为一种流行,似乎缺少了这个就变的”生命不够完整“似的。 我每天还在看blog,不过已经难以挑得有用的信息了,数据量的增大,可是我的圈子缺越来越小。 〖书签〗 有人说”我特想看看牛人们看什么“,因此就有了书签服务,一种从SNS里转变出来的拥有SNS基本特性的变种。书签少则精,多则滥,真正树签有多大的价值,我看道不如说是满足人类的一种偷窥欲望和另外一种的叫做”反向偷窥欲望,或者干脆说上被偷窥欲望“ Blog是不是也有一点呢? 2005年也没有多远了,这些东西会继续变的炙红还是回头来变的冰冰凉呢? 搜索引擎无异还没有到饱和的地步,一定还会有更多的人投身其中。邮箱不会再红,毕竟别人不会让你做一辈子渔翁。这个网游倒是还能红一阵子,至少在解决了国产花上还是可以迈出一些步伐的,至于我们期待的真正的3D游戏,一旦出现,也必然带动镜片制造业的繁荣。想想看吧,每一个玩3D网游的玩客都要佩戴3D眼睛,这玩艺在初期恐怕比网游都有的暴利赚。 VOIP前景不明,不过只要政府不干预,2005年将是一个迅速普及的时代。Blog/SNS/书签将继续在我们的生活里,因为我们的嗜好一时难以改变。 有什么东西是我能够向大家推荐的? 新浪的 iask 系统 也许是明日之星。 更多内容请参考: 基于搜索引擎技术的信息聚合系统: iask.com...



基于搜索引擎技术的信息聚合系统: iask.com

11:54 on Tuesday November 16, 2004 | 0 Trackbacks | 6 Comments

新浪是中国几个门户网里缺少搜索引擎的一个企业,当然,现在搜索引擎也不是什么核心技术,不过缺少一样东西对于作为门户的新浪毕竟是一种缺憾。 新浪不愧是财大气粗,闷声不响的采用了affini的搜索引擎技术做起来了一个叫做”I ask .com“,或者叫做爱问知识齐分享这样一套人与人进行交互的系统。这个系统从底层是采用了搜索引擎的构架,但是纳入了一些其它的要素,使得这个系统非常具有创新性和信息价值: 1] 基于搜索引擎的查询系统 2] 用户参与回答和悬赏问题的机制 3] 积分鼓励机制 4] 良好的分类机制 基本上这几项的功能已经能够保证 iask.com 立于不败之地了,再加上新浪众多的注册会员,可以说在功能上和创意上超越了百度贴吧 再说说这个为新浪提供搜索引擎的Affini,这个是由加州的华人(出生在台湾)William I. Chang创建的,Chang以前曾经是Infoseek的VP和CTO,后来公司被inktomi购买,他便创建了 affini 公司。 当然现在看到的这种大家共同参与创建资源的模式是对以往的 wiki 的一个非常大的冲击,而且也会更有吸引里。不是吗,新鲜的东西总有一些新鲜的用途。...



Google Gmail Pop3 enable

11:30 on Tuesday November 16, 2004 | 1 Trackbacks | 1 Comments

现在google的gmail已经可以enable pop3 和 smtp 了,就是说通过mail client可以自如的收发eamil了。 上周我配置过了我的kmail,今天已经可以收取和分发信件了。其中gmail提供了两种配置,一种是只针对从今收到的email,另外一种是以往的email也可以通过pop3下载。 以上是我kmail的配置。 参考:Gmail 开始提供 pop3 的支持...



November 15, 2004

第五章:信息的分类

18:22 on Monday November 15, 2004 | 1 Trackbacks | 1 Comments

信息依照体特征进行分类,通常有两种分类方法: 1] 信息分类按照定义好的人为的划分进行分类,例如:教育,娱乐,商业等等。 2] 自动类聚依照信息在空间的夹角,并且对信息进行 Cluster 的寻找。 分类方法的;实例: 采用的方法比较常用的是”Sliding-Window“的做法,就是用一个大小合适的窗口在信息空间的球表面进行移动,当这个Window里包涵了较大的信息矢量个数的话,就说明这里是一个信息Cluster,或者叫做 info-jet. 这个window在这个位置一定是一个最大值,扫描到了信息cluster的中心,扩展可以得到整个cluster....



November 11, 2004

博索新闻搜索引擎 Beta 2.0 新增加新闻分类功能

18:49 on Thursday November 11, 2004 | 1 Trackbacks | 1 Comments

博索新闻搜索引擎 增加了即时新闻类聚的功能。 化了半天的时间实现了最简单的雏形,有5个分类,分别是财经,互联网,科技,社会 新闻,娱乐休闲。每天凌晨4点钟更新一次,每个类别25条新闻。这样做的好处是我的新闻爬虫每天自己到处爬,到处跑,然后它们又将这些抓到的新闻进行分门别类的整理,做成网页,等于替我进行了一些预先的浏览工作。 至于更深入一步,则有两种做法“自动类聚,分类比较”,使得新闻组成一个cluster。这些过程比较简单,关键是样本的采纳,也许会有相当大的系统误差,回头再处理。 关于新闻的分类,可以参考我以前写的网页自动分类引擎或者中文网页自动分类引擎作为参考。 新闻类聚是信息情报挖掘系统的核心,再加上一些功能,一个情报挖掘系统就可以实现。 发现现在有不少新闻属于转载,因此未来我会加上一个新闻类别的自识别最近邻居的功能。这样可以有效识别重复出现的新闻。具体可以参考 K-nearest neighbor 的方法,实在太忙了,要这样下去恐怕又要拖工了。 参考文献: F. Li and Y. Yang. A loss function analysis for classification methods in text categorization J. Zhang, R. Jing, Y. Yang and A. Hauptmann. Monified logistic regression: an approximation to SVM and its application in large-scale text categorization...



Gmail 开始提供 pop3 的支持

10:56 on Thursday November 11, 2004 | 1 Trackbacks | 2 Comments

扫描了google的系统,发现了 pop.gmail.com 这台服务器,再扫描 pop.gmail.com Port State Service 25/tcp open smtp 80/tcp closed http 179/tcp closed bgp 443/tcp closed https 465/tcp open smtps 587/tcp open submission 995/tcp open pop3s 6346/tcp closed gnutella 因此知道了gmail的设置。 Google 的 gmail pop3 的设置: email server(gmail的pop3的email服务器): pop.gmail.com user name(gmail的pop3的登录名):用户名,例如 sixwings passwd :这个不用说了。 port 通道:995 ,这个是默认的 pop3s 加密的通道。 不过很不幸的是我的帐户没有enable pop3的功能:...



November 10, 2004

搜索引擎中网络爬虫的设计分析

13:04 on Wednesday November 10, 2004 | 1 Trackbacks | 5 Comments

多次被人问到这个问题,看来需要做一点说明,这里简单介绍一下搜索引擎的机器爬虫的制作和一些基本要注意的事项。 说的简单易懂一些,网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线,其实还是要跟网络联结,否则怎么抓东西下来? 那么不同的地方在哪里? 1】 网络爬虫高度可配置性。 2】 网络爬虫可以解析抓到的网页里的链接 3】 网络爬虫有简单的存储配置 4】 网络爬虫拥有智能的根据网页更新分析功能 5】 网络爬虫的效率相当的高 那么依据特征,其实也就是要求了,如何设计爬虫呢?要注意哪些步骤呢? 1】 url 的遍历和纪录 这点 larbin 做得非常的好,其实对于url的遍历是很简单的,例如: cat [what you got]| tr \" \\n | gawk '{print $2}' | pcregrep ^http:// 就可以得到一个所由的 url 列表 2】多进程 VS 多线程 各有优点了,现在一台普通的PC 例如 booso.com 一天可以轻松爬下5个G的数据。大约20万网页。 3】时间更新控制 最傻的做法是没有时间更新权重,一通的爬,回头再一通的爬。 通常在下一次爬的的数据要跟上一次进行比较,如果连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍。 如果一个网页在连续5次爬取的时候都有更新,那么将设置的爬取时间缩短为原来的1/2。 注意,效率是取胜的关键之一。 4】爬的深度是多少呢? 看情况了。如果你比较牛,有几万台服务器做网络爬虫,我劝您跳过这一点。 如果你同我一样只有一台服务器做网络爬虫,那么这样一个统计您应该知道: 网页深度:网页个数:网页重要程度 0 : 1 : : 10 1 :20 : :8 2: :600: :5 3: :2000: :2 4 above: 6000: 一般无法计算 好了,爬到三级就差不多了,再深入一是数据量扩大了3/4倍,二是重要度确下降了许多,这叫做“种下的是龙种,收获的是跳蚤。” 5】爬虫一般不之间爬对方的网页,一般是通过一个Proxy出去,这个proxy有缓解压力的功能,因为当对方的网页没有更新的时候,只要拿到 header 的 tag就可以了,没有必要全部传输一次了,可以大大节约网络带宽。 apache webserver里面纪录的 304 一般就是被cache的了。 6】请有空的时候照看一下robots.txt 7】存储结构。 这个人人见智,google 用 gfs 系统,如果你有7/8台服务器,我劝你用NFS系统,要是你有70/80个服务器的话我建议你用afs 系统,要是你只有一台服务器,那么随便。 给一个代码片断,是我写的新闻搜索引擎是如何进行数据存储的: NAME=`echo $URL |perl -p -e 's/([^\w\-\.\@])/$1 eq "\n" ? "\n":sprintf("%%%2.2x",ord($1))/eg'` mkdir -p $AUTHOR newscrawl.pl $URL --user-agent="news.booso.com+(+http://booso.com)" -outfile=$AUTHOR/$NAME...



November 09, 2004

Google 招聘的21道题目 (GLAT)

16:52 on Tuesday November 9, 2004 | 1 Trackbacks | 4 Comments

google brainy test/exam 就是流传胜广的传说中的google 的21道 GLAT 考试了。今天为大家揭开这个面沙,你也做作看。 10月底,Google在美国《麻省技术评论》、《LinuxJournal》、《Mensa》、《今日物理》等几本专业杂志上,刊登了一份“Google实验室能力倾向测试”。   试卷开头,蛊惑地写着“试试看!把答案寄回Google,你有希望去Google总部参观,并成为我们其中一员”。 我看了这些题目,虽然古怪,但是也不算有困难,有兴趣的人可以做完了邮寄给google公司,也许会得到一个工作机会呢。 注:不要向我要答案。...



November 06, 2004

对XML 进行 parse 时的Invalid Unicode character (0x0) 分析

13:04 on Saturday November 6, 2004 | 1 Trackbacks | 3 Comments

XML 在搜索引擎的低端起到了非常重要的作用,可是由于相当多数的网络上的Rss feed或者XML feed都是直接从数据库文件生成的,因此极有可能包含有一些非常字符,而这些字符在XML进行Parse的时候就会带来 Invalid Unicode character (0x0) 这样的错误或者是org.xml.sax.SAXParseException: An invalid XML character (Unicode: 0x0) was found,如何解决这样的错误? 先看看Unicode的一些基础知识: Unicode 最初设计是作为一种固定宽度的 16 位字符编码。在 Java 编程语言中,基本数据类型 char 初衷是通过提供一种简单的、能够包含任何字符的数据类型来充分利用这种设计的优点。不过,现在看来,16 位编码的所有 65,536 个字符并不能完全表示全世界所有正在使用或曾经使用的字符。于是,Unicode 标准已扩展到包含多达 1,112,064 个字符。那些超出原来的 16 位限制的字符被称作增补字符。Unicode 标准 2.0 版是第一个包含启用增补字符设计的版本,但是,直到 3.1 版才收入第一批增补字符集。由于 J2SE 的 5.0 版必须支持 Unicode 标准 4.0 版,因此它必须支持增补字符。 对增补字符的支持也可能会成为东亚市场的一个普遍商业要求。政府应用程序会需要这些增补字符,以正确表示一些包含罕见中文字符的姓名。出版应用程序可能会需要这些增补字符,以表示所有的古代字符和变体字符。中国政府要求支持 GB18030(一种对整个 Unicode 字符集进行编码的字符编码标准),因此,如果是 Unicode 3.1 版或更新版本,则将包括增补字符。台湾标准 CNS-11643 包含的许多字符在 Unicode 3.1 中列为增补字符。香港政府定义了一种针对粤语的字符集,其中的一些字符是 Unicode 中的增补字符。最后,日本的一些供应商正计划利用增补字符空间中大量的专用空间收入 50,000 多个日文汉字字符变体,以便从其专有系统迁移至基于 Java 平台的解决方案。 因此,Java 平台不仅需要支持增补字符,而且必须使应用程序能够方便地做到这一点。由于增补字符打破了 Java 编程语言的基础设计构想,而且可能要求对编程模型进行根本性的修改,因此,Java Community Process 召集了一个专家组,以期找到一个适当的解决方案。该小组被称为 JSR-204 专家组,使用 Unicode 增补字符支持的 Java 技术规范请求的编号。从技术上来说,该专家组的决定仅适用于 J2SE 平台,但是由于 Java 2 平台企业版 (J2EE) 处于 J2SE 平台的最上层,因此它可以直接受益,我们期望 Java 2 平台袖珍版 (J2ME) 的配置也采用相同的设计方法。 不过,在了解 JSR-204 专家组确定的解决方案之前,我们需要先理解一些术语。 代码点、字符编码方案、UTF-16:这些是指什么?...



November 05, 2004

IT新闻搜索引擎 Beta 测试

14:30 on Friday November 5, 2004 | 2 Trackbacks | 9 Comments

这一周利用空余时间,制作了专门针对IT新闻的搜索引擎, 主要收集一些门户网站的IT新闻和一些 IT门户的新闻,在测试阶段。 地址如下:http://booso.com:8080 博索 IT 新闻搜索引擎 ,因为属于测试阶段,有反馈直接在这里留言好了。...



November 01, 2004

搜索引擎下一步是什么

16:14 on Monday November 1, 2004 | 0 Trackbacks | 2 Comments

我想Jerry's Take On What's Next in Search 大概是最近关于搜索引擎方面说话声音最响的一篇文章吧,不因为别的,是因为Jerry Yang是Yahoo的CEO,而他要对搜索的下一步进行一些阐述。 我先看了Jerry的这篇Blog,基本上不应该是对未来的展望,更多的是对以往的回顾了。不是吗,成功的杨致远已经希望google的创始人去享受成功的喜悦了,自己也许也早早的不再对创新和展望有兴趣了。 但是无论如何Jerry还是提到了一些现在正在发展的趋势,从我自己的离解上,搜索还远远没有达到理想化的阶段,毕竟,我们搜索得到的结果质量越来越差,噪音越来越高。 1] 个人化的搜索 这方面yahoo的确可以说是一个先驱了。 个人化的搜索走过不少弯路,现在还没有一个清晰的标准的模式。用户群大的门户搜索网站尽可以利用现有的用户的资源,进行对用户的分类和纪录追踪用户的搜索习惯。 用户量小的网站不得不采用注册用户机制,希望能够拿到用户的信息,让用户来定义自己的喜好和职业等。这样对于新用户来说都是一个讨厌人的过程,一个注册框也许会让90%的人望而却步。 当然制作客户端软件的方法也还是一种不算太丑陋的解决方案,不过谁又喜欢在自己的计算机上安装形形色色的间谍软件呢? 2] 不只是一个搜索引擎。 很多人认为搜索引擎不过是输入一个query然后得到结果的一个信息查询系统。完全不是这样的。我们到图书馆里查阅资料的时候,我们会翻阅索引目录,效率之低下大概有目共睹,而搜索引擎虽然效率高,可是结果的越来越不准确会让用户最后失望,以至于放弃使用。这就是单纯的搜索引擎可以聚会无数的文档,可是要知道用户的选择,知道哪些资料是有价值的,那些是没有太多价值的垃圾就显的非常重要了。 SEO的兴起实际上是对以往的搜索引擎的拍名机制的一种嘲讽。 3] 商品/专项搜索 无论是froogle还是一些地产的搜索都还比较初步,这方面yahoo提供的本地化搜索也许会有一些帮助,但是事情也不是这么简单,因为如何能够保证这些信息的正确性和及时性就变的非常重要了,因为商品搜索和专项搜索要比普通的搜索价值高(Value/Per search)的多。 4] Rss/新闻等的聚会搜索 搜索新闻和blog越来越容易了,可是我们拿这些结果做什么呢? 5] 无线搜索 我们在外出的时候突然想在附近找一个旅馆,好了,无线搜索有用了,我们要找一个街区,keyhole通过手机显示出一副你所需要的当地的地图(假想)。无线的应用会越来越广,深度也越来越深。 不过,说到底,现在的搜索引擎都还是很偏执的,我觉得口渴了,我想喝咖啡,我去yahoo和google里搜索Java,没有人给我一个结果和咖啡有关的,也许jerry Yang从来不喝咖啡。...