基于K-means的文本聚类算法被引量：9

Text Clustering Algorithm Based on K-Means

下载PDF

导出

摘要针对K-means算法容易收敛到局部最优以及对初值的依赖性,基于多次采样一次预聚类搜索初始聚类中心的思想,提出了一种改进的K-means文本聚类方法。实验结果表明,改进的算法较原算法在准确率上有较大提高,并且具有更好的稳定性。

作者毛嘉莉

机构地区西华师范大学计算机学院

出处《计算机系统应用》 2009年第10期85-87,共3页 Computer Systems & Applications

基金四川省教育厅重点科研项目(07ZA121)

关键词 K—Means算法文本聚类向量空间模型

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1张玉芳,毛嘉莉,熊忠阳.一种改进的K-means算法[J].计算机应用,2003,23(8):31-33. 被引量：72
2唐立新,杨自厚,王梦光.用遗传算法改进聚类分析中的K-平均算法[J].数理统计与应用概率,1997,12(4):350-356. 被引量：23
3陈恩红,王上飞,宁岩,王煦法.一种利用代表点的有效聚类算法设计与实现[J].模式识别与人工智能,2001,14(4):417-422. 被引量：10
4Selim SZ, Alsultan K. A Simulated Annealing Algorithm for the Clustering Problem. Pattern Recognition. 1991,24(10): 1003 - 1008.
5Fayyad U, Reina C, Bradley PS. Initialization of Iterative Refinement Clustering Algorithms. Microsof~ Research Technical Report MSR-TR-98- 38. June 1998.
6Faber V. Clustering and the Continuous k-Means Algorithm.http://library.lan.lgov/cgi-bin/getfile?00412 967. pdf.1994.
7Larsen B, Aone C. Fast and Effective Text Mining Using Lineartime Document Clustering. Proc. of the fifth ACM SIGKDD International Conf. on Knowledge Discovery and Datamining. San Diego, 1999:16 - 22.
8尉景辉,何丕廉,孙越恒.基于K-Means的文本层次聚类算法研究[J].计算机应用,2005,25(10):2323-2324. 被引量：18

二级参考文献23

1(加)HanJ KamberM 范明盂小峰等译.数据挖掘概念与技术m[M].北京：机械工业出版社,2001.223-262.
2..http://lib, slat. Cmu. Edu/datasets/places. Data,.
3Forgy E. Cluster analysis of multivariate data: Efficiency vs. interpretabillty of classifications[ M]. Biometrics, 1965, 21(3) : 768.
4MacQueen J. Some methods for classlfication and analysis of multivariate observations[ A]. Proceedinss of the Fifth Berkeley Symposium on Mathematical Statistics and Probability[ C]. Volume 1. Le-Cam LM, Neyman N, Ed. University of California Press, 1967.
5Duda RO, Hart PE. Pattern Classification and Scene Analysis[ M].New York: John Wiley and Sons, 1973.
6Selim SZ, Alsultan K. A Simulated Annealing Algorithm for the Clustering Problem[J]. Pattern Recognition, 1991, 24(10): 1003- 1008.
7Fayyad U, Reina C, Bradley PS. Initialization of Iterative Refinement Clustering Algorithms[ R]. Microsoft Research Technical Report MSR-TR-98-38, June 1998.
8Selim SZ, Ismail MA. K-Means-Type Algorithms: A Generalized Convergence Theorem and Charadterization of Local Optimality[ M].IEEE Trans Pattern Analysis and Machine Intelligence, 1984, PA-MI-6(1).
9Kaufman L, Rouseeuw P. Finding Groups in Data: An Introduction to Cluster Analysis[ M]. New York : John Wiley and Sons, 1990.
10Alsabti K, Ranks S, Singh V. An Efficient K-Means Clustering Algorithm[ A]. Proc. First Workshop on High-Performance Data Mining[C], 1997.

共引文献117

1刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111. 被引量：22
2赵大伟,肖周芳.一种改进的基于密度和样本数量的K-means算法[J].科技信息,2008(28):170-172. 被引量：1
3黎新伍.医学图像体分割的特征聚类算法[J].清华大学学报（自然科学版）,2008,48(S2):1790-1793. 被引量：1
4万尤宝,褚君浩,于天燕,余丙鲲.铁电晶体铌酸钾锂的二次谐波产生[J].人工晶体学报,2000,29(S1).
5曹树志,项响琴.基于改进的K_Means算法的城市高架桥交通流分析[J].公路交通科技（应用技术版）,2010,6(10):261-264.
6李丽珊,朱文兴.基于簇中心动态迁移的一个聚类算法[J].福建农林大学学报（自然科学版）,2004,33(4):508-511.
7陈炯,范卓华,张虎.汉语文本聚类及其算法设计[J].山西电子技术,2005(2):29-30. 被引量：3
8江华,王翰虎,陈梅.一种基于K-means聚类分组的P2P超结点模型[J].计算机应用与软件,2005,22(10):67-68. 被引量：1
9孙国强,卫志农,周封伟.改进迭代自组织数据分析法的不良数据辨识[J].中国电机工程学报,2006,26(11):162-166. 被引量：33
10龚静,李英杰.文本聚类算法的分析与比较[J].湖南环境生物职业技术学院学报,2006,12(3):283-286. 被引量：2

同被引文献72

1李胜东,吕学强,魏震,施水才.基于两层阈值的话题/报道表示模型[J].华中科技大学学报（自然科学版）,2013,41(S2):117-120. 被引量：1
2刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,25(6):54-58. 被引量：122
3骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
4ICTCLAS汉语分词系统.[2008-09-12].http://ictclas.org/index.html.
5Dunn J C. A fuzzy relative of the ISODATA process and its use in detecting compact well-separated clusters. Cybemet, 1974, 3 (3) : 32 - 57.
6Bezdek J C. Cluster validity with fuzzy sets. Journal of Cybernetics, 1974,3(3) :58 -72.
7北京大学计算语言学研究所.[2009-07-16].http://www.icl.pku.edu.cn/default_cn.asp.
8Frakes W B,Baeza-Yates R. Information retrieval:Data structures and algorithms. New Jersey: Prentice-Hall, Inc., 1992.
9Yang Y M, Liu X. A re -examination of text categorization methods//Hearst M, Gey F, Tong R. Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval. New York : Assoc Computing Machinery, 1999 : 42 - 49.
10Salton G. Buckley C. Term--weighting approaches in automatic retrieval[J]. Information Processing & Management, 1988,24(5) : 513-523.

引证文献9

1高劲松,张俊丽.基于粒子群的模糊C均值文本聚类算法研究[J].图书情报工作,2010,54(6):57-60. 被引量：2
2罗晖霞,曲晓玲.基于网络舆情的K-Means算法的改进研究[J].电脑开发与应用,2010,23(8):4-6. 被引量：3
3刘海峰,姚泽清,刘守生.一种基于模糊加权的改进文本聚类方法[J].微电子学与计算机,2011,28(9):39-42.
4荀瑞新.基于模糊聚类算法的故障数据分析与类型识别[J].现代计算机,2011,17(21):13-15.
5罗姗姗,杜庆治,杨秋萍,龙华.一种改进的孤立点消除及网络文本聚类算法[J].云南师范大学学报（自然科学版）,2012,32(1):48-51. 被引量：2
6李胜东,吕学强,施水才,孙军.基于话题检测的自适应增量K-means算法[J].中文信息学报,2014,28(6):190-193. 被引量：6
7顾晓雪,章成志.结合内容和标签的Web文本聚类研究[J].现代图书情报技术,2014(11):45-52. 被引量：8
8王晨曦.基于聚类算法k-means的异常检测系统[J].电子技术与软件工程,2018(6):188-188. 被引量：3
9夏亚飞.基于K均值聚类和二维Otsu的棉花HSV图像分割[J].软件,2020,41(7):170-173. 被引量：6

二级引证文献30

1黄凯锋,吴庆涛,郑瑞娟.基于模糊C-均值聚类优化的入侵检测算法[J].计算机工程与设计,2012,33(11):4100-4104. 被引量：1
2赖锦辉,梁松.一种消除孤立点的微博热点话题发现方法[J].计算机应用与软件,2014,31(1):105-107. 被引量：9
3王丽美,蔡剑锋,钟一文,彭富强.基于并行的非支配排序遗传Ⅱ算法优化双聚类[J].大理学院学报（综合版）,2014,13(12):15-21. 被引量：1
4岑晓雪,秦江涛.改进k-means聚类在股价波动趋势上的应用[J].科技和产业,2016,16(1):144-148. 被引量：1
5黄凌云.图书馆数字资源自动推荐优化算法研究[J].情报探索,2016(2):25-29. 被引量：1
6洪文,聂延平,青巧.馆藏资源自动推荐模型结构与处理流程优化分析[J].情报理论与实践,2016,39(5):130-133. 被引量：1
7李欣雨,袁方,刘宇,李琮.面向中文新闻话题检测的多向量文本聚类方法[J].郑州大学学报（理学版）,2016,48(2):47-52. 被引量：6
8武高敏,张宇晨,韩京宇.基于隐含语义分析的在线新闻话题发现方法[J].计算机技术与发展,2016,26(9):1-7. 被引量：1
9姚冬冬,袁方,王煜,刘宇.基于半监督DPMM的新闻话题检测[J].郑州大学学报（理学版）,2016,48(3):63-68. 被引量：2
10毕强,刘健,鲍玉来.基于语义相似度的文本聚类研究[J].现代图书情报技术,2016(12):9-16. 被引量：8

1曹洪江,傅魁.协同过滤推荐系统中聚类搜索方法研究[J].计算机工程与应用,2014,50(5):16-20. 被引量：8
2王飞,秦小麟,刘亮,沈尧.云环境下基于数据流的k-means聚类算法[J].计算机科学,2015,42(11):235-239. 被引量：12
3李欢,刘锋,朱二周.基于改进K-means算法的海量数据分析技术研究[J].微电子学与计算机,2016,33(5):52-57. 被引量：9
4周岚.提升小画幅传感器画质的方法与思路[J].中外企业家,2015(12X):101-102.
5黄韬,刘胜辉,谭艳娜.基于k-means聚类算法的研究[J].计算机技术与发展,2011,21(7):54-57. 被引量：87
6Xiaona SONG Zuobing WANG.Research on Image Segmentation Algorithm based on Fuzzy C-mean Clustering[J].International Journal of Technology Management,2015(2):28-30.
7卢希.聚类搜索在电子商务中的应用研究[J].科技信息,2012(24):271-271. 被引量：1
8于焱,楼晓宁（摄影）.bbmao的神秘配方[J].数字商业时代,2007(4):62-64.
9李维思,彭洁.基于用户需求特征的聚类搜索模型设计[J].情报杂志,2009,28(4):28-31. 被引量：1
10曹宇,尹刚,李翔,程荣斌,王怀民.聚类搜索引擎研究进展浅析[J].电脑知识与技术,2011,7(8):5398-5400. 被引量：2

计算机系统应用

2009年第10期

浏览历史

内容加载中请稍等...

基于K-means的文本聚类算法被引量：9

参考文献8

二级参考文献23

共引文献117

同被引文献72

引证文献9

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于K-means的文本聚类算法 被引量：9

参考文献8

二级参考文献23

共引文献117

同被引文献72

引证文献9

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于K-means的文本聚类算法被引量：9