期刊文献+

高维特征空间中文本聚类研究 被引量:17

Text Clustering in High-dimension Feature Space
下载PDF
导出
摘要 依据信息论的思想,从文档信息量变化的角度对文本聚类的过程进行了分析,指出了信息量在聚类过程中呈现的规律性,进而提出一种基于信息量模型的聚类分析算法。通过对高维特征空间中影响聚类准确率因素的分析,发现特征之间复杂的语义联系和过高的维度是影响文本聚类准确率的重要因素。从削弱特征之间的语义联系入手,提出了一种特征聚类算法,其算法复杂度与处理的文档数量无关,提高了高维空间下聚类的速度和效果。两种算法的结合使得对大量高维文本数据直接聚类变得可行,实际的测试中获得了满意的效果。 The authors study the latent relations between the documents information quantity and the different classifi-cations of them.The authors introduce a documents information quantity based hierarchical clustering algorithm.An effec-tive feature clustering algorithm is presented at the last part of the paper.The algorithm is suitable for processing vast data,for its time complexity is independent of the entries of documents.With the combination of the algorithms ,the au-thors process large set of dada successfully.
出处 《计算机工程与应用》 CSCD 北大核心 2002年第10期63-67,共5页 Computer Engineering and Applications
基金 国家自然科学基金资助项目:学习计算理论及其在知识发现中的应用(编号:60073019)
关键词 高维特征空间 文本聚类 信息量 平均准确率 数据挖掘 数据库 Text Clustering,Information Quantity,Feature Clustering,Average Accuracy
  • 相关文献

参考文献1

二级参考文献4

共引文献274

同被引文献100

引证文献17

二级引证文献68

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部