摘要
依据信息论的思想,从文档信息量变化的角度对文本聚类的过程进行了分析,指出了信息量在聚类过程中呈现的规律性,进而提出一种基于信息量模型的聚类分析算法。通过对高维特征空间中影响聚类准确率因素的分析,发现特征之间复杂的语义联系和过高的维度是影响文本聚类准确率的重要因素。从削弱特征之间的语义联系入手,提出了一种特征聚类算法,其算法复杂度与处理的文档数量无关,提高了高维空间下聚类的速度和效果。两种算法的结合使得对大量高维文本数据直接聚类变得可行,实际的测试中获得了满意的效果。
The authors study the latent relations between the documents information quantity and the different classifi-cations of them.The authors introduce a documents information quantity based hierarchical clustering algorithm.An effec-tive feature clustering algorithm is presented at the last part of the paper.The algorithm is suitable for processing vast data,for its time complexity is independent of the entries of documents.With the combination of the algorithms ,the au-thors process large set of dada successfully.
出处
《计算机工程与应用》
CSCD
北大核心
2002年第10期63-67,共5页
Computer Engineering and Applications
基金
国家自然科学基金资助项目:学习计算理论及其在知识发现中的应用(编号:60073019)