基于子空间变量自动加权的K-均值文本聚类算法的研究被引量：1

STUDY ON K-MEANS TEXT CLUSTERING ALGORITHM BASED ON SUBSPACE VARIABLE SELF-WEIGHTING

下载PDF

导出

摘要传统的K-均值算法聚类虽然速度快,在文本聚类中易于实现,但其同量地依赖于所有变量,聚类效果往往不尽如人意。为了克服这一缺点,提出一种改进的K-均值文本聚类算法,它在K-均值聚类过程中,向每一个聚类簇中的关键词自动计算添加一个权重,重要的关键词赋予较大的权重。经过实验测试,获得了一种基于子空间变量自动加权的适合文本数据聚类分析的改进算法,它不仅可以在大规模、高维和稀疏的文本数据上有效地进行聚类,还能够生成质量较高的聚类结果。实验结果表明基于子空间变量自动加权的K-均值文本聚类算法是有效的大规模文本数据聚类算法。 K-means is one of the widely used text clustering techniques due to its rapidity, simplicity and high scalability. However, since traditional K-means algorithm treats all variables equally as well as the sparse of text characteristic matrix, it is not good enough in clustering effect. In this paper it proposes an improved K-means text clustering algorithm. In the process of K-means clustering, it can automatically ap- pend the weight value to key words in each cluster, but the important key words will be assigned the greater value. Through experiments and tests,the researchers obtained an optimized algorithm based on subspace variable self-weighting which suits the text data clustering analysis,it can cluster large-scale, high dimension and sparse text data effectively, and can form high quality clustering results. It was shown by the experimental result that this algorithm is effect for large-scale text data clustering.

作者宁涛晋博晨宋存利

机构地区大连交通大学软件学院

出处《计算机应用与软件》 CSCD 北大核心 2008年第8期251-253,共3页 Computer Applications and Software

关键词文本聚类 K-均值变量加权子空间 Text clustering K-means Features weight Subspace

分类号 TP391.12 [自动化与计算机技术—计算机应用技术] TS105.11 [轻工技术与工程—纺织工程]

引文网络
相关文献

参考文献5

1赵恒,杨万海.基于属性加权的模糊K-Modes聚类算法[J].系统工程与电子技术,2003,25(10):1299-1302. 被引量：12
2王宇,杨莉.模糊k-prototypes聚类算法的一种改进算法[J].大连理工大学学报,2003,43(6):849-852. 被引量：11
3陈涛,宋妍,谢阳群.基于IIG和LSI组合特征提取方法的文本聚类研究[J].情报学报,2005,24(2):203-209. 被引量：14
4Joshua Zhexue Huang, Michael K Ng, Hongqiang Rang, Zichen Li. Automated Variable Weighting in K-Means Type Clustering [ J ], IEEE transactions on pattern analysis and maching intelligence, 2005,27 (5) :657 -668.
5Steinbach M,Karypis G,Kumar V. A Comparison of Document Clustering Techniques [ R]. Department of Comp. Sci. & Eng University Of Minnesota,2000,1.

二级参考文献20

1高新波姬红兵.一种基于特征加权的模糊C-均值聚类算法[J].西安电子科技大学学报,2000,27(10):80-83.
2HUANG Zhe-xue. Extensions to the k-means algorithm for clustering large data sets with categorical values [J]. Data Mining and Knowl Discovery, 1998, 2(1) :283-304.
3HUANG Zhe-xue. Clustering large data sets with mixed numeric and categorical values [A].Proceedings of the Fisrt Pacific-Asia Conference on Knowledge Discovery and Data Mining [C].Singapore: World Scientific, 1997. 21-34.
4HANJia—wei KAMBERM.Data Mining Concepts and Techniques[M].北京:高等教育出版社,2001..
5Fabrizio Sebastiani. Machine learning in automated text categorization. ACM Computing Surveys,2002, 34( 1 ) : 1 - 47.
6Tom Mitchell. Machine learning. McGraw Hill, New York. 1996.
7R.D. Fierro and M.W. Berry. Efficient Computation of the Riemannian SVD in TLS Problems in Information Retrieval, in Total Least Squares and Errors-In-Variables Modeling: Analysis, Algorithms, and Applications, S. van Huffel and P. Lemmerling (Eds.), Kluwer Academic Publishers, Boston, 2002. 349 - 360.
8Thomas Hofmann. Gaussian Latent Semantic Models for Collaborative Filtering. 26th Annual International ACM SIGIR Conference, 2003.
9Han J Kamber M 范明孟小峰译.Data Mining Concepts and Techniques[M].北京:机械工业出版社,2001-08..
10BersonA SmithT Thur1ingK.构建面向CRM的数据挖掘应用[M].北京：人民邮电出版社,2001..

共引文献31

1王宇,杨莉.基于凝聚函数的混合属性数据聚类算法[J].大连理工大学学报,2006,46(3):446-448. 被引量：2
2陈晓红,刘蓉.改进的聚类算法及在复杂大群体决策中的应用[J].系统工程与电子技术,2006,28(11):1695-1699. 被引量：22
3杨鑫华,于宽.基于密度半径自适应选择的K-均值聚类算法[J].大连交通大学学报,2007,28(1):41-44. 被引量：2
4吴艳文,胡学钢,王东波.基于特征加权的k-modes聚类应用[J].中国科技信息,2007(16):271-272.
5陈京莲.信息选择的初步探讨[J].情报科学,2007,25(9):1314-1316. 被引量：2
6孙海霞,成颖.潜在语义标引(LSI)研究综述[J].现代图书情报技术,2007(9):49-53. 被引量：6
7刘海峰,王元元,张学仁.文本分类中一种改进的特征选择方法[J].情报科学,2007,25(10):1534-1537. 被引量：9
8刘海峰,王元元,刘守生.一种组合型中文文本分类特征选择方法[J].广西师范大学学报（自然科学版）,2007,25(4):208-211. 被引量：9
9刘蓉,陈晓红.新的大群体一致性学习修正决策方法[J].系统工程与电子技术,2008,30(5):847-850. 被引量：5
10史旗凯,郭菊娥.基于管理问题信息抽取的主题识别研究[J].情报科学,2008,26(10):1558-1562.

同被引文献7

1Gao G, Wu J,Yang Z.A fuzzy subspace clustering algorithm for clustering high dimensional data[C]//Li X, Zaiane 0 R, Li Z.Proc of the ADMA.Beflin, Heidelberg:Springer-Verlag, 2006: 271-278.
2A.H.Sung and S. Mukkamala. Feature Selection for Intrusion Detection using Neural NetworKs and Support Vector Machines [J]. Journal of the Transportation Research Board of the National Academics, 2005, 1822: 55-39.
3Jing L,Ng M K,Huang J Z.An entropy weighting k-means algorithm for subspace clustering of high-dimensional sparse data[J]. IEEE Trans on Knowledge and Data Engineering,2007, 19(8): 1-16.
4Hotelling H.Analysis of a complex of statistical variables into principal components[J]. Journal of Educatfonal Psychology, 1955,24(6) :417-441.
5Chu Y, Chert Y, Yang D, et aI.R, educing redundancy in subspace clustering[J].lEEE Transactions on Knowledge and Data Engineering, 2009,21 (10) : 1432-1446.
6单世民,闫妍,张宪超.基于k最相似聚类的子空间聚类算法[J].计算机工程,2009,35(14):4-6. 被引量：8
7陈黎飞,郭躬德,姜青山.自适应的软子空间聚类算法[J].软件学报,2010,21(10):2513-2523. 被引量：33

引证文献1

1张思亮,李广霞.子空间聚类在入侵检测中的应用[J].计算机安全,2013(12):2-6. 被引量：2

二级引证文献2

1蒋建军,刘彤.一种AMP架构下的处理器负载均衡改进方法[J].山东农业大学学报（自然科学版）,2015,46(1):96-100. 被引量：1
2韩红章.基于目标协同规划的网络入侵特征聚类仿真[J].计算机仿真,2015,32(4):273-276. 被引量：2

1程铃钫,何月顺.K-均值文本聚类算法在智能答疑系统中应用[J].科技广场,2009(1):75-78.
2盛靖友,张洪伟.基于预测强度的变量自动加权K-Means算法的研究与应用[J].四川理工学院学报（自然科学版）,2016,29(2):25-29. 被引量：1
3黄克,周奇才,赵炯,熊肖磊,陈罡.基于OSA-CBM的盾构液压系统故障诊断方法研究[J].机械科学与技术,2013,32(8):1153-1158. 被引量：7
4黄克,周奇才,赵炯,熊肖磊.盾构液压系统状态预测[J].浙江大学学报（工学版）,2013,47(8):1437-1443. 被引量：4
5左国玉,张洪亮,韩光胜,樊瑞元.基于动态目标点的行为分解编队算法[J].控制工程,2010,17(5):679-681. 被引量：3
6徐焕良,张灏,沈毅,任守纲.设施花卉环境参数低功耗传输及模糊控制研究[J].农业机械学报,2013,44(6):236-241. 被引量：5
7官伟波.利用数字图像处理技术识别纬编提花织物组织[J].丝绸,2005,42(12):42-44. 被引量：6
8许益萍.2018时尚面料设计开发与营销沙龙召开[J].纺织服装周刊,2017,0(3):27-27.
9《中国棉花踏上品质之路》[J].纺织服装周刊,2016,0(19):6-6.
10纺织科学技术其他学科基于聚类分析和支持向量机的布匹瑕疵分类方法[J].中国学术期刊文摘,2005,11(4):199-199.

计算机应用与软件

2008年第8期

浏览历史

内容加载中请稍等...

基于子空间变量自动加权的K-均值文本聚类算法的研究被引量：1

参考文献5

二级参考文献20

共引文献31

同被引文献7

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于子空间变量自动加权的K-均值文本聚类算法的研究 被引量：1

参考文献5

二级参考文献20

共引文献31

同被引文献7

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于子空间变量自动加权的K-均值文本聚类算法的研究被引量：1