November 11, 2004
博索新闻搜索引擎 Beta 2.0 新增加新闻分类功能::[Search Engine]

博索新闻搜索引擎 增加了即时新闻类聚的功能。
化了半天的时间实现了最简单的雏形,有5个分类,分别是财经,互联网,科技,社会
新闻,娱乐休闲。每天凌晨4点钟更新一次,每个类别25条新闻。这样做的好处是我的新闻爬虫每天自己到处爬,到处跑,然后它们又将这些抓到的新闻进行分门别类的整理,做成网页,等于替我进行了一些预先的浏览工作。
至于更深入一步,则有两种做法“自动类聚,分类比较”,使得新闻组成一个cluster。这些过程比较简单,关键是样本的采纳,也许会有相当大的系统误差,回头再处理。
关于新闻的分类,可以参考我以前写的网页自动分类引擎或者中文网页自动分类引擎作为参考。
新闻类聚是信息情报挖掘系统的核心,再加上一些功能,一个情报挖掘系统就可以实现。
发现现在有不少新闻属于转载,因此未来我会加上一个新闻类别的自识别最近邻居的功能。这样可以有效识别重复出现的新闻。具体可以参考 K-nearest neighbor 的方法,实在太忙了,要这样下去恐怕又要拖工了。
参考文献:
F. Li and Y. Yang. A loss function analysis for classification methods in text categorization
J. Zhang, R. Jing, Y. Yang and A. Hauptmann. Monified logistic regression: an approximation to SVM and its application in large-scale text categorization
Trackback
You can ping this entry by using http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/653
Trackbacked from http://poker-bonus-code-en.isismedia.com with Very interesting. keep the good work! on .
Comments
不错。有没有兴趣做些合作研究,关于网络媒体的内容分析方面?
Posted by: Jianbin Jin at November 8, 2005 10:07 PM from 166.111.112.14