March 02, 2006
基于信息噪音模型的分类算法::[Search Engine]

这是今天讨论的PPT,主要内容是介绍“基于信息噪音模型的分类算法”,这个算法是通过训练集得到类向量,然后再对样本进行逐个检验。
因为前几次去的人比较多,因此还是先了解一下主题为好。如果有问题可以在这里提出来。
Posted at March 2, 2006 02:10 AM by Liang at 02:10 AM | Comments (12) | TrackBack(0) | Booso!| Niu.la收藏!Trackback
You can ping this entry by using http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/857
Comments
工作还是挺有意义的。只是看了半天,有一些不明白的地方,比如如何消除噪音还是没有看懂。另外,文本分类的特征抽取实际上也是在消除那些与分类无关或者不能表达语义的关键词,不知道和你所说的噪音词有什么本质的区别?
Posted by: wangbin at March 2, 2006 02:44 PM from 159.226.40.244tf, idf 的关键词权重的计算只考虑了降低高出现频率的词的机会,但是并没有消除掉这些词在进行文本比较时候造成的内积的影响。尽量消除这些词造成的影响可以提高准确度。
Posted by: 6e at March 2, 2006 02:52 PM from 218.249.35.66我指的是特征选择而不是权重计算,特征选择是根据一些函数(比如互信息、信息熵等)来选择适合于进行文本分类的词,选中的词才能用于进行内积相似度计算。
Posted by: wangbin at March 2, 2006 04:40 PM from 159.226.40.244特征选择是根据一些函数(比如互信息、信息熵等),这个说服是正确的 :)
在实际运算中,我们采用了两种计算方法,内积和最大使然,而likelihood本身就是一种最优参数估计。
整个ppt最有趣的就是第12页噪音的提取。
能详细说一下怎么定义噪声关键词吗? 什么是相同关键词,为什么频率基本一致的关键词会导致噪声?谢谢 :)
关于你的算法的一些问题:
1 这里的消除噪音是不是等同于精简关键词字典?
2 从一些文献上看到SVM在文本分类上用的比较好,不知道你有没有尝试过?
3 我总感觉16*100的实验数据有些少,不过结果还是喜人的.能不能把你的数据库公开,我想用测试一下别的算法.我这里有10个类近30000片文章.如过你想需要的话,可以想办法给你.
hi,man ,your abliity of web search is pretty
http://www.lovefunnygames.com/
一
Posted by: lovefunnygames at June 1, 2006 05:30 PM from 60.214.206.27神州石油科技 http://www.chinapetrotech.cn
这个网站是公司网站,放在这里做一下导航,请楼主保留数天。
感谢。
神州石油科技 http://www.chinapetrotech.cn
这个网站是公司网站,放在这里做一下导航,请楼主保留数天。
感谢。
神州石油科技 http://www.chinapetrotech.cn
这个网站是公司网站,放在这里做一下导航,请楼主保留数天。
感谢。
