November 21, 2004
第六章:信息的聚类::[数字信息搜索[书]]

对自动聚类又进行了测试,发现sliding window可以进行简化,实现简并算法,算是一个突破吧,因此重写这一章。
LL 2004/11/22
有了良好的分类机制,才能够对信息进行有效的聚类。
聚类采取自动的方法基本上基本上有三种:
1] 现有的依靠大量样本进行NNet训练后进行单次模糊模式识别的方法。
方法的特长是能够快速的准确的进行自动聚类,缺点是需要大量的样本进行预先的训练。
防止过度训练和如何处理误差等变得非常关键。
类似的机制还有 Knn,SVM和贝叶斯统计法,回头细致介绍。
2] 平移算法,或者也叫卷积(自相关)算法。
Corr= Intergal( f(x)*f(x-t) dt )
Clusty 的自动聚类就是采用的平移算法。
平移算法的特点是计算迅速,简单易用。
缺点是计算的次数和信息的数量的平方成正比:N^2/2
3] Sliding Window以及兼并算法
sliding window方法根据信息间的夹角,能非常有效的发现一簇信息,并且控制窗口的大小可以来订制聚类后信息的相识度。
Sliding window的优点是非常精确,可调节性强。
缺点是非常繁琐,所计算的次数和信息空间的维数的阶数成正比,例如1000维,大约要计算10^1000 次,天文数字。
简并算法:在对sliding window进行了分析后,可以采用一种简并算法来快速收敛。简并算法是先找到任何两个信息之间的最小夹角,然后进行简并,成为一个信息矢量,这样经过若干次的简并后就收缩到非常少的信息矢量上。而这些较少的信息矢量的夹角都比较大,是不同类别的信息矢量,即实现自动聚类。
举例说明:1000组的信息进行简并处理,六次就可以收缩到15个分类里面,而六次所需要的计算量大约为60万次,基本上不会有难处了。
Posted at November 21, 2004 02:00 PM by Liang at 02:00 PM | Comments (1) | TrackBack(1) | Booso!| Niu.la收藏!Trackback
You can ping this entry by using http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/663
Trackbacked from http://www.jackpot-jp.com with You have some really cool stuff at your site. I'm sure gonna come back here. on .
Comments
今天重新看你半年前写的文章还是很有收获,有时间想和你聊聊关于内容自动分类/类聚。
Posted by: Che Dong at July 4, 2005 01:24 PM from 61.149.78.6