基于特征关联度的K-means初始聚类中心优化算法被引量：29

An Improved Initial Cluster Centers Selection Algorithm for K-means Based on Features Correlative Degree

下载PDF

导出

摘要针对K-means算法在进行文本聚类时对初始聚类中心敏感的问题,提出基于特征关联度的初始聚类中心选择算法。由于在原始文本集中不易找到类别代表性都较强的多个独立文本作为初始聚类中心,因此先从降维后的文本特征集合中,选取关联度大的特征构造新的文本集,再利用"或运算"合并其中的相似文本得到初始聚类中心候选集,最后通过计算文本密度并结合"最小最大"原则从候选集中选取最优的初始中心。在5个数据集上进行对比实验,该算法在多数聚类结果中的F-score值都高于90%,熵值低于0.5,明显优于Mahout提供的K-means算法,表明该算法可选出高质量的初始聚类中心,得到更好的聚类结果。 In order to solve the problem that K-means algorithms is highly sensitive to initial clusters centers in text clustering,an initial cluster center selection algorithm based on the correlative degree of features was proposed. Features with high correlative degree were chosen after reducing dimensions and a new dataset was created. Subsequently,a candidate initial cluster center set was constructed by merging the similar documents in the new dataset using'OR operation'. Finally,the best centers from the candidate dataset were obtained through computing document density and following the minimax principle. The results of five experimental datasets showed that most F-scores are more than 90%,and entropies are below 0. 5. Comparison with the K-means algorithms of Mahout showed that the improved algorithm can choose higher quality centers and produce better clustering results.

作者陈兴蜀吴小松王文贤王海舟

机构地区四川大学计算机学院网络与可信计算研究所

出处《四川大学学报（工程科学版）》 EI CAS CSCD 北大核心 2015年第1期13-19,共7页 Journal of Sichuan University (Engineering Science Edition)

基金国家科技支撑计划资助项目(2012BAH18B05) 国家自然科学基金资助项目(61272447) 四川大学青年教师科研启动基金资助项目(2013SCU11017)

关键词 K-MEANS 特征关联度初始聚类中心文本聚类 K-means feature correlative degree initial cluster center text clustering

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1王纵虎,刘志镜,陈东辉.基于统计学习的自适应文本聚类[J].四川大学学报（工程科学版）,2012,44(1):106-111. 被引量：2
2张健沛,杨悦,杨静,张泽宝.基于最优划分的K-Means初始聚类中心选取算法[J].系统仿真学报,2009,21(9):2586-2590. 被引量：61
3汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量：139
4张文明,吴江,袁小蛟.基于密度和最近邻的K-means文本聚类算法[J].计算机应用,2010,30(7):1933-1935. 被引量：29
5张霞,王素贞,尹怡欣,赵海龙.基于模糊粒度计算的K-means文本聚类算法研究[J].计算机科学,2010,37(2):209-211. 被引量：12
6钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
7朱颢东,钟勇,赵向辉.一种优化初始中心点的K-Means文本聚类算法[J].郑州大学学报（理学版）,2009,41(2):29-32. 被引量：13
8刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37

二级参考文献77

1胡建军,唐常杰,李川,彭京,元昌安,陈安龙,蒋永光.基于最近邻优先的高效聚类算法[J].四川大学学报（工程科学版）,2004,36(6):93-99. 被引量：24
2王汉芝,刘振全.一种新的确定K-均值算法初始聚类中心的方法[J].天津科技大学学报,2005,20(4):76-79. 被引量：9
3李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39
4张文君,顾行发,陈良富,余涛,许华.基于均值-标准差的K均值初始聚类中心选取算法[J].遥感学报,2006,10(5):715-721. 被引量：57
5FAHIM A.M,SALEM A.M,TORKEY F.A,RAMADAN M.A.An efficient enhanced k-means clustering algorithm[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2006,7(10):1626-1633. 被引量：29
6田珂,朱清新,向培素.基于混合遗传算法的工作流重构研究[J].计算机科学,2007,34(1):103-105. 被引量：2
7钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
8牛琨,张舒博,陈俊亮.融合网格密度的聚类中心初始化方案[J].北京邮电大学学报,2007,30(2):6-10. 被引量：15
9袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
10Han J, Kamber M. Data Mining Concepts and Techniques. Orlando, USA: Morgan Kaufmann Publishers, 2001

共引文献280

1况夯,罗军.基于遗传FCM算法的文本聚类[J].计算机应用,2009,29(2):558-560. 被引量：5
2李霞,蒋盛益,郭艾侠.基于聚类和信息熵的特征选择算法[J].郑州大学学报（理学版）,2009,41(1):77-80. 被引量：4
3高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
4王海,高岭,陈东棋,任杰.一种基于用户行为的嵌入式功耗优化方法[J].系统仿真学报,2015,27(2):320-326.
5周爱武,汪贤惠,刘慧婷.基于HowNet词汇相关性的文本聚类[J].微电子学与计算机,2015,32(4):90-93. 被引量：4
6严莉莉,张燕平.基于类信息的文本聚类中特征选择算法[J].计算机工程与应用,2007,43(12):144-146. 被引量：7
7赵鹏,耿焕同,蔡庆生.一种基于语义和统计特征的中文文本特征表示方法[J].小型微型计算机系统,2007,28(7):1311-1313. 被引量：8
8何中市,徐浙君.一种新型的文本无监督特征选择方法[J].重庆大学学报（自然科学版）,2007,30(6):77-79. 被引量：2
9汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量：139
10殷钢,苗夺谦,段其国.一种新的粗糙Leader聚类算法[J].计算机科学,2009,36(5):203-205. 被引量：6

同被引文献296

1贺建风,李宏煜.大数据背景下基于社交网络的聚类随机游走抽样算法研究[J].统计研究,2021(4):131-144. 被引量：8
2刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111. 被引量：22
3刘春涛,陈祥光,刘志成.多传感器信息融合技术在动态油量计量中的应用[J].仪器仪表学报,2005,26(z1):43-46. 被引量：8
4王云松,付玉红,宋艳慧.储油罐多相界面液位测控系统的研究[J].仪器仪表学报,2003,24(z1):285-286. 被引量：4
5任喜伟,任工昌,杨帆.电磁场式油水界面测量分析及数据优化方法[J].化工自动化及仪表,2012,39(7):858-861. 被引量：8
6叶志伟,尹宇洁,王明威,赵伟.一种基于杜鹃搜索算法的聚类分析方法[J].微电子学与计算机,2015,32(5):104-110. 被引量：6
7洪月华.一种具有学习能力的人工蜂群优化算法[J].微电子学与计算机,2015,32(6):154-158. 被引量：2
8李存华,孙志挥,陈耿,胡云.核密度估计及其在聚类算法构造中的应用[J].计算机研究与发展,2004,41(10):1712-1719. 被引量：61
9李道国,苗夺谦,张红云.粒度计算的理论、模型与方法[J].复旦学报（自然科学版）,2004,43(5):837-841. 被引量：41
10单梁,强浩,李军,王执铨.基于Tent映射的混沌优化算法[J].控制与决策,2005,20(2):179-182. 被引量：188

引证文献29

1钱涛,姬东鸿,戴文华.一个基于超图的词义归纳模型[J].四川大学学报（工程科学版）,2016,48(1):152-157. 被引量：5
2贺呈磊,唐磊,刘曦.一种拟人聚类算法在PHM聚类分析中的应用[J].微电子学与计算机,2016,33(9):32-35. 被引量：1
3文静,曹妍,牟向伟.双重遗传算法在文本聚类中的应用[J].计算机工程与设计,2016,37(9):2435-2439.
4赵春晖,李雪源,崔颖.混合编码方式的图像聚类算法[J].通信学报,2017,38(2):1-9. 被引量：3
5黄森旺,孔纪名,崔云,王仁超,邱洪志.“4·25”尼泊尔M_(s)8.1地震西藏重灾区次生地质灾害空间分布规律与危险性分区[J].自然灾害学报,2017,26(1):80-88. 被引量：10
6罗元,李慧敏,张毅.基于兴趣点定位的局部方向模式人脸识别方法[J].计算机应用,2017,37(8):2248-2252. 被引量：1
7李梅莲,郭超峰.基于闻香识源的改进人工蜂群聚类算法[J].河南大学学报（自然科学版）,2017,47(5):552-559.
8李梅莲.基于密度分布的K-Means初始聚类中心选择算法[J].许昌学院学报,2017,36(2):20-24. 被引量：2
9洪月华.基于MPI蜂群K均值聚类算法并行化计算[J].计算机工程与设计,2017,38(12):3339-3343. 被引量：5
10文静,曹妍,张琳,牟向伟.基于双重遗传的聚类分析算法研究[J].计算机工程与科学,2017,39(12):2320-2325. 被引量：8

二级引证文献168

1赵栋梁,周晓磊,窦志强,武暕.基于改进FA算法的河流突发水污染事件溯源[J].计算机系统应用,2022,31(10):191-198. 被引量：1
2唐辉,刘晓波,韩祥民,邱知,徐邦贤.基于混沌剑鱼算法的K_means算法[J].智能计算机与应用,2022,12(1):69-73.
3张宜浩,刘智,朱常鹏.融合距离度量和高斯混合模型的中文词义归纳模型[J].计算机科学,2017,44(8):265-269. 被引量：2
4余晓敏,陈尔刚,季鹏,郭涛,秦昆.众包图像数据采集与聚类分析方法探讨[J].地理空间信息,2017,15(11):16-17.
5王少林.基于遥感影像的矿山地质灾害形成机理分析[J].世界有色金属,2017,42(22):183-183. 被引量：2
6刘荣凯,孙忠林.针对K-means初始聚类中心优化的PCA-TDKM算法[J].软件导刊,2018,17(9):85-87. 被引量：3
7宣东东,汪军.自底向上的图像显著性检测研究综述[J].宜春学院学报,2018,40(9):50-55. 被引量：1
8刘荣凯,孙忠林.PCA-KDKM算法及其在微博舆情中的应用[J].山东科技大学学报（自然科学版）,2018,37(6):84-92. 被引量：5
9费红英,孙丹.应用于数字电视用户浏览行为的二分K-medoids聚类算法[J].计算机应用研究,2018,35(12):3575-3578. 被引量：1
10蔡祺祥,翟胡萍,王炜,郭剑坤.基于层次分析法的多因素模糊综合评价方法在专利转化中的应用[J].南京理工大学学报,2018,42(4):497-502. 被引量：19

1仝雪姣,孟凡荣,王志晓.对k-means初始聚类中心的优化[J].计算机工程与设计,2011,32(8):2721-2723. 被引量：29
2胡杨,冯旭鹏,黄青松,付晓东,刘骊,刘利军.面向短文本情感分类的特征拓扑聚合模型[J].中文信息学报,2016,30(5):28-35. 被引量：3
3张健沛,杨悦,杨静,张泽宝.基于最优划分的K-Means初始聚类中心选取算法[J].系统仿真学报,2009,21(9):2586-2590. 被引量：61
4杨永涛,李静.一种改进的K-means数字资源聚类算法[J].计算机技术与发展,2014,24(6):107-109. 被引量：1
5张永,薛芝茂.RBF神经网络在人脸识别中的应用[J].电脑编程技巧与维护,2009(14):95-96. 被引量：1
6张翀,唐九阳,肖卫东,汤大权.基于簇核心的XML结构聚类方法[J].计算机研究与发展,2011,48(11):2161-2176. 被引量：4
7马骏,尉广军.一种改进的RBF神经网络学习算法[J].计算机系统应用,2013,22(2):84-87. 被引量：5
8赵靖,龚卫国,杨利平.基于GMM的普通话和四川方言独立文本的说话人确认[J].计算机应用,2008,28(3):792-794. 被引量：2
9安增文,王超,徐杰锋.基于机器学习的网页正文提取方法[J].微型机与应用,2010,29(12):4-6. 被引量：7
10张继昊,张爱新,陆松年,高奎,金波.基于自组织映射网络的图像分割算法[J].信息安全与通信保密,2010,7(4):50-52. 被引量：1

四川大学学报（工程科学版）

2015年第1期

浏览历史

内容加载中请稍等...

基于特征关联度的K-means初始聚类中心优化算法被引量：29

参考文献8

二级参考文献77

共引文献280

同被引文献296

引证文献29

二级引证文献168

相关作者

相关机构

相关主题

浏览历史

基于特征关联度的K-means初始聚类中心优化算法 被引量：29

参考文献8

二级参考文献77

共引文献280

同被引文献296

引证文献29

二级引证文献168

相关作者

相关机构

相关主题

浏览历史

基于特征关联度的K-means初始聚类中心优化算法被引量：29