March 10, 2005

再说机器新闻的分类和聚类::[Search Engine]


Liang

Google 新闻改版了,把我想实现的最关键的一部分实现了,没有什么比这个更让我感觉到失落了。我现在的新闻聚类还是石器时代。

想法和技术在与同竞争对手的面前都不是关键,关键的东西是实践。关于新闻分类聚类零零碎碎的做了快3,4个月了,一直没有没有精力来全力以赴的去完成这个。Google的中文新闻刚出来的时候不但分类有误差,而且关于新闻内容的摘要常常也是文不对题,可是就是在这样的磕磕绊绊中google的新闻做的越来越好,我这边的一些想法正在着手实现的时候,Google新闻总是非常意料之中的做到了。


我记得我第一次看到Google新闻首页出现这样的标题错误时,心里在想,Google并不难超越么,因此立此存照,保留了快照,4个月后,Google的新闻的准确度和灵活性已经完全不可同日而语了。

1] 个人新闻门户
改变以往的千人一面的新闻门户是机器新闻的目标,我几个月不上新浪的原因是我不想打开一个有90%内容我不关心的新闻网站。我会看些我订阅的Rss,例如Klog,Keso,Mao等,我这样偷懒的原因是简单的,因为这些人可以进行先期的过滤,将好的新闻/信息已经收集了起来,而降低个人获取信息的难度。

2] 定制+搜索
Google不提供Rss是完全可以离解的,因为Rss实在是把现有的搜索引擎,新闻聚合系统的技术难点降低到了极限,而这些在传统技术中都是Google的长处,Google是一个网络机器,它说实际并不喜欢用户离线的活动。但是,Google的定制和搜索加Email后也是我每天必修课,原因也是我只关心我订阅的一些内容,而这种直接送到google邮箱的做法,仍然是提高Google的粘合力的一种非常有效的做法。

3] 内容
Google 已经成为一个完全监控我们社会内容的永动机。我在Gmail里的260M的Email,包括文档,论文,程序,我曾经有过这样一次经历,给一个另外搜索引擎公司的CEO发email,使用的是我的gmail帐户,但是那封信却以技术故障的原因莫名其妙的没了,这件事情后我开始对Google留了一手,自己的代码不再用google email来备份了。我们在创造内容,我们有机器在监视内容,我们的计算机已经聪明到能够识别这些内容,然后呢?

4] Info Grid 信息网格
Peter Norvig(现在是Google搜索引擎的产品部的总监)的《网络上的人工智能》AI on Web一书上举了大量的演化的例子,我非常佩服这个思维严密的老兄,因为AI常常被一些哲学和数学家的人嘲笑为智商只有75的阿甘。他们可以随便找出一个AI系统的漏洞,可是这些数学家和哲学家仅仅是嘲笑而已,当他们在嘲笑别人的时候,AI 却一步一步的发展,直到现在连嘲笑AI的人也在每天享受人工智能的进步。

Info Grid是将现有信息分布在不同层次,不同类型,不同应用的各个点上进行有机的联接,再整理的一种思想。Info Grid的表现很多,例如Google News已经是一种信息格点的雏形,这种信息格点将不同点上的内容「新闻」进行收集,然后加工,按照阅读者的需要,以相对智能的方式推送到读者面前。

然后呢?然后再根据读者点击,阅览新闻,资料的习惯『注意,我们实际上是在各种网站的监视下的,例如上google搜索,google会纪录用户的点击』进行整理,最后得到了用户行为模型,得到用户的心理,最后调整系统推送给用户的内容。

有一天,当你连续三天点击了姚明的新闻后,你打开的google的首页上也许有令你咋舌多的姚明的新闻,不要慌,这就是user behave driven modle。

5. Exit,出路在哪里?
Google阴影下的出路在哪里?这个大概不是我来提问,应该是Baidu和Yahoo之类的大玩家。当然,大玩家有大玩家的打算和想法,至于小玩家,出路恐怕就在long tail上了,Long Tail 最近是一个很热的词,连Google都说自己是Long Tail了。Google如果是Long Tail,那么谁是Bulk Body呢?

唠叨了这么多,都离题万里了,回头还是要下功夫来做。

Posted at March 10, 2005 05:17 PM by Liang at 05:17 PM | Comments (11) | TrackBack(1) | Booso!| Niu.la收藏!


Trackback

You can ping this entry by using http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/735

昨天读了几位兄台的文章,看到了Tag的无序性的问题和解决办法。正好最近也在做一个Tag的小工具,也考虑过这个问题。正好写出来跟大家分享一下。

我的解决办法是在不影响Tag优点的

Trackbacked from http://blog.94smart.com/index.php?q=node/208 with 尝试Tag的自动聚类 on 94smart's Blog.

Comments

第 1 楼:

GOOGLE这次所做的利用用户定制的关键词给出个性新闻至少10年前就做到了!和NEWSALERT没什么不同,一个在EMAIL上一个在WEB上。

真正意义上的个性化新闻也许也就是你所说的利用收集用户的阅读习惯给出相关新闻,MSN NEWSBOT在做,但做的不好!

这里边有一个问题是每个人看新闻的风格不同,如果都是象您一样,只看某几方面的新闻,很有针对性,那很容易实现这个功能,相信准确性也不会差。但对于很多中国人来说,他们进行新闻浏览的时候是盲目的,而盲目的浏览势必带来过多的噪音!

就好象自动分类一样,实际上是一个训练的过程,当人变成了为训练机器的一个机器那么阅读新闻的乐趣也就没有了!

Posted by: cultboy at March 11, 2005 06:58 AM from 61.135.146.217

第 2 楼:

上次在cnet看到了一個有趣的報導,說著在flickr和google都掛著永遠的beta版,網路服務不再像以往的軟體業經過嚴密的測試後才銷售給使用者,而是藉由廣大的「試用者兼使用者」來慢慢吞食他們的市場。
我想這應該也不算是新聞,linux當初崛起的歷史,甚至現在許多distribution,也都是如此這般運作的。

Posted by: jimmy at March 11, 2005 08:13 AM from 220.135.92.72

第 3 楼:

第一幅图(googlenews.2005.3.10.png)的url在哪里,谢谢!

Posted by: oldjion at March 31, 2005 09:16 PM from 220.170.132.75

第 4 楼:

我是研究信息利用的商业人士,在机器智能上有一些自己的见解。希望有机会和卢兄聊聊。
我在北京,你呢?
13810862845

Posted by: 饶展 at April 14, 2005 09:19 AM from 202.108.190.222

第 5 楼:

卢亮,关于个性化新闻,我有近一年时间的实践,根据读者的阅读习惯来获取读者的兴趣,然后推荐感兴趣的新闻(用“文章”或“新内容”可能更合适),目前已经可以运行,网址: http://www.livelycity.com

Posted by: longzx at May 9, 2005 11:02 AM from 219.82.128.220

第 6 楼:

msn:ceo@365a.com
qq:2895419
机器学习,svm的方法以外,是不是可能存在有更为简洁的算法

Posted by: sonx at May 15, 2005 11:46 PM from 211.144.8.251

第 7 楼:

6楼的 知道什么是svm什么是机器学习吗?不懂就不要再此丢人现眼了。

Posted by: kick_ceo at June 13, 2005 11:33 PM from 61.135.146.240

第 8 楼:

svm是什么意思?

Posted by: 12800 at June 21, 2005 11:29 AM from 221.227.95.201

第 9 楼:

support vector machine !

最近在做根据标题进行新闻分类,想不到用什么方法比较好,平时的文本分类大多都是基于向量空间模型的,比如KNN,SVM,Rocchio。标题提取的特征维数少,怎么与文本高维比较啊?
谁知道有什么方法帮助我一下!
e-mail:dragonliyanzi@163.com
qq:50989473

Posted by: dragonli at September 29, 2005 12:30 AM from 202.97.142.40

第 10 楼:

原创作品,写得好。卢老师加了我MSN也不理我这个小虾米,我自己最近做了一个小网站 www.sztutors.com 卢老师给我打给分可以吗,我想知道是不是这块料。

Posted by: yale at October 14, 2005 10:25 AM from 210.22.28.109

第 11 楼:

卢兄您好,我也是做中文文本聚类的.我想做一个类似news.baidu.com的玩意,不知道您有何高见?!欢迎来我的blog讨论。

http://qxred.yculblog.com

Posted by: qxred at December 20, 2005 02:01 AM from 218.1.245.122

Post a comment

请注意,为了防止spam,您的留言必需含有中文字符!









Remember personal info?




所有发表