SVD优化初始簇中心的K-means中文文本聚类算法被引量：10

Optimizing Initial Cluster Centroids by SVD in K-means Algorithm for Chinese Text Clustering

下载PDF

导出

摘要为了改善传统K-means算法在聚类过程中,聚类数目K难以准确预设,聚类结果受初始中心影响,对噪声点敏感,不稳定等缺点,同时针对文本聚类中文本向量化后数据维数较高,空间分布稀疏,存在潜在语义结构等问题,提出了一种利用奇异值分解(Singular Value Decomposition, SVD)的物理意义进行粗糙分类,再结合K-means算法的中文文本聚类优化算法(SVD-Kmeans)。新算法利用SVD分解的数学意义对文本数据进行了平滑处理,同时利用SVD分解的物理意义对文本数据进行粗糙分类,将分类的结果作为K-means算法的初始聚类中心点。实验结果表明,相比其他K-means及其改进算法,SVD-Kmeans算法的聚类质量F-Measure值有明显提升。 In process of clustering with traditional K-means algorithm, it is difficult to identify the value of the number of clusters K and its clustering results are influenced by initial centers. It has the weakness of sensitivity to noise and instability. Meanwhile, to solve the problems for the high dimensions, sparse spatial and latent semantic structure of the text data, an algorithm for Chinese text clustering was proposed. This new algorithm uses the physical significance of Singular Value Decomposition （SVD） to firstly classify the data rough, and then uses K-means for text clustering. It applies SVD to decompose and keep semantic features, remove noise, make smoothing process of text data, meanwhile, it takes the advantage of physical significance of SVD to have rough set classification, and then regard classification results as initial centers of K-means. Experiment results demonstrate that the F-Measure of cluster quality has been improved compared with other K-means algorithms.

作者戴月明王明慧张明王艳 Dai Yueming, Wang Minghui, Zhang Ming, Wang Yan(Engineering Research Center of Intemet of Things Technology Applications Ministry of Education, Jiangnan University, Wuxi 214122, China)

机构地区江南大学教育部物联网技术应用工程研究中心

出处《系统仿真学报》 CAS CSCD 北大核心 2018年第10期3835-3842,共8页 Journal of System Simulation

基金国家自然科学基金(61572238) 江苏省杰出青年基金(BK20160001)

关键词 SVD 文本聚类 K-MEANS 初始中心点 SVD text clustering K-means initial center point

分类号 TP317 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1王怡,盖杰,武港山,王继成.基于潜在语义分析的中文文本层次分类技术[J].计算机应用研究,2004,21(8):151-154. 被引量：15
2蔡宇浩,梁永全,樊建聪,李璇,刘文华.加权局部方差优化初始簇中心的K-means算法[J].计算机科学与探索,2016,10(5):732-741. 被引量：11
3熊忠阳,陈若田,张玉芳.一种有效的K-means聚类中心初始化方法[J].计算机应用研究,2011,28(11):4188-4190. 被引量：86
4邓海,覃华,孙欣.一种优化初始中心的K-means聚类算法[J].计算机技术与发展,2013,23(11):42-45. 被引量：22
5吴夙慧,成颖,郑彦宁,潘云涛.文本聚类中文本表示和相似度计算研究综述[J].情报科学,2012,30(4):622-627. 被引量：23
6林少波,杨丹,徐玲.基于类别相关的新文本特征提取方法[J].计算机应用研究,2012,29(5):1680-1683. 被引量：10
7龚静,李安民.一种改进的k-means中文文本聚类算法[J].湖南工业大学学报,2008,22(2):52-54. 被引量：13
8张健沛,杨悦,杨静,张泽宝.基于最优划分的K-Means初始聚类中心选取算法[J].系统仿真学报,2009,21(9):2586-2590. 被引量：62
9牛琨,张舒博,陈俊亮.融合网格密度的聚类中心初始化方案[J].北京邮电大学学报,2007,30(2):6-10. 被引量：16
10彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44

二级参考文献155

1尉景辉,何丕廉,孙越恒.基于K-Means的文本层次聚类算法研究[J].计算机应用,2005,25(10):2323-2324. 被引量：18
2朱红灿,孟志青.一种基于SOM和层次凝聚的中文文本聚类方法[J].湘潭大学自然科学学报,2005,27(3):36-40. 被引量：8
3张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
4赵军,金千里,徐波.面向文本检索的语义计算[J].计算机学报,2005,28(12):2068-2078. 被引量：28
5王汉芝,刘振全.一种新的确定K-均值算法初始聚类中心的方法[J].天津科技大学学报,2005,20(4):76-79. 被引量：9
6黄建鹏,陆立强.一种新的相似度标准及其相关的聚类算法[J].复旦学报（自然科学版）,2006,45(2):177-184. 被引量：4
7张文君,顾行发,陈良富,余涛,许华.基于均值-标准差的K均值初始聚类中心选取算法[J].遥感学报,2006,10(5):715-721. 被引量：57
8FAHIM A.M,SALEM A.M,TORKEY F.A,RAMADAN M.A.An efficient enhanced k-means clustering algorithm[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2006,7(10):1626-1633. 被引量：30
9罗娜,左万利,袁福宇,张靖波,张慧杰.Using ontology semantics to improve text documents clustering[J].Journal of Southeast University(English Edition),2006,22(3):370-374. 被引量：8
10CUI Zifeng,XU Baowen,ZHANG Weifeng,XU Junling.A New Approach of Feature Selection for Text Categorization[J].Wuhan University Journal of Natural Sciences,2006,11(5):1335-1339. 被引量：6

共引文献566

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：15
2杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
3赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
4王义,戴月明.基于混合互信息算法的文本情感分析[J].计算机应用研究,2020,37(2):337-341.
5段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
6孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3
7王鹏,郑贵省,郭强,贾蓓.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90. 被引量：1
8陈频.基于自然语言处理的中文科技论文特征提取研究[J].电脑知识与技术（过刊）,2007(16):1112-1114. 被引量：1
9高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
10陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29

同被引文献101

1贺建风,李宏煜.大数据背景下基于社交网络的聚类随机游走抽样算法研究[J].统计研究,2021(4):131-144. 被引量：9
2张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：20
3陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
4刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,25(6):54-58. 被引量：122
5杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：190
6张文君,顾行发,陈良富,余涛,许华.基于均值-标准差的K均值初始聚类中心选取算法[J].遥感学报,2006,10(5):715-721. 被引量：57
7牛琨,张舒博,陈俊亮.融合网格密度的聚类中心初始化方案[J].北京邮电大学学报,2007,30(2):6-10. 被引量：16
8汤艳君.关键字搜索方法在电子数据取证中的应用[J].中国刑警学院学报,2008(2):25-27. 被引量：2
9卞亦文.大样本数据聚类的改进方法[J].统计与决策,2009,25(1):12-13. 被引量：5
10周佳晶,唐友喜.JTIDS扩频序列的估计[J].电子科技大学学报,2007,36(S2):1054-1056. 被引量：6

引证文献10

1薛潇.船舶水下通信系统中海声信道文本数据聚类方法研究[J].舰船科学技术,2019,0(20):115-117.
2宋阳,石鸿雁.基于MapReduce框架下的K-means聚类算法的改进[J].计算机与现代化,2019,0(8):28-32. 被引量：7
3徐文进,管克航,寻晴晴,许瑶,解钦.基于KNN算法的改进K-means算法[J].青岛科技大学学报（自然科学版）,2019,40(5):107-111. 被引量：6
4盖璇.基于聚类分析算法的垃圾邮件识别[J].计算机与现代化,2020(10):17-22. 被引量：3
5汤艳君,苏梅,许彩滇,屈丽.利用Doc2Vec及改进K-means聚类实现文本取证分析[J].中国刑警学院学报,2020(4):115-121. 被引量：3
6徐文进,管克航,马越,黄海广.基于K-means算法的轨迹数据热点挖掘算法[J].计算机与现代化,2021(10):23-28. 被引量：1
7刘波,梁龙跃.基于KM-SVMSMOTE-CNN的信用卡欺诈检测[J].计算机系统应用,2022,31(6):361-367. 被引量：1
8张鹏飞,江岸,熊念.Hadoop平台下基于优化X-means算法的大数据聚类研究[J].计算机测量与控制,2023,31(12):284-289. 被引量：1
9张慧芝,张天骐,方蓉,罗庆予.基于SVD-K-means算法的软扩频信号伪码序列盲估计[J].系统工程与电子技术,2024,46(1):326-333. 被引量：1
10张天骐,张慧芝,罗庆予,方蓉.带残余频偏的软扩频信号伪码序列盲估计[J].系统工程与电子技术,2024,46(10):3586-3593.

二级引证文献23

1李鹏飞.基于K-means聚类算法的高校图书馆用户分类及价值评价[J].电子元器件与信息技术,2019,3(9):73-76. 被引量：7
2李安宇.基于KNN算法实现手写数字识别的探索[J].通讯世界,2020,27(2):37-38. 被引量：1
3张国华,叶苗,陆霞,吉晓香,梁德鸿.基于线程与分布式排序对比实验的设计与研究[J].实验技术与管理,2020,37(8):186-188. 被引量：1
4万珊,苟文博.基于改进K-means聚类的数据自动采集系统设计[J].自动化与仪器仪表,2020(10):108-112. 被引量：4
5薛慧敏.基于MapReduce的分布式云计算数据挖掘方法[J].安阳师范学院学报,2020(5):24-27. 被引量：4
6潘卫军,刘皓晨,王润东,胡博文.基于ANN的改进Spark系统在空管大数据处理中的应用[J].计算机与现代化,2020(12):78-82. 被引量：1
7金巨波.基于K-mean聚类算法的海量数据分析方法[J].九江学院学报（自然科学版）,2020,35(4):53-55. 被引量：5
8李雪,南建国.基于IK-means聚类的分簇路由算法[J].计算机应用研究,2021,38(4):1149-1153. 被引量：1
9于红.基于文本聚类的档案数据全自动分类方法研究[J].电子测试,2021,32(14):53-54. 被引量：1
10宋紫阳,张菁,刘小康,刘传修.基于微簇融合的密度峰值聚类算法[J].传感器与微系统,2021,40(10):132-135. 被引量：1

1尹积栋,谢茶花,彭崧,刘红,曾昭虎.基于句法结构分析的中文文本聚类方法研究[J].计算机与数字工程,2018,46(5):933-935. 被引量：6
2齐丽花,张妮妮,秦晓梅.基于K-means的专利文本聚类分析[J].电脑知识与技术,2018,14(8):206-207. 被引量：8
3《“一带一路”大数据报告2018》发布[J].新西部,2018,0(10):93-93.
4尹宝勇,吴斌,刘建生.一种改进的K-means算法[J].江西理工大学学报,2018,39(5):97-102. 被引量：6
5沈美英.基于免疫网络学习机制的中文网络短文本聚类算法[J].自动化与仪器仪表,2018,0(10):185-186.
6王思杰,唐雁.改进的分类数据聚类中心初始化方法[J].计算机应用,2018,38(A01):73-76. 被引量：5
7苏光富.如何提高初中数学课堂教学效率[J].南北桥,2018,0(17):61-61.
8庄园.论康德崇高中“大”的三个层次[J].美与时代（美学）（下）,2018,0(10):38-40.
9邹臣嵩,刘松.基于谱聚类的全局中心快速更新聚类算法[J].计算机与现代化,2018(10):6-11. 被引量：3
10郭继坤,陈司晗.矿井下分布式光纤定位精度及感测距离研究[J].吉林大学学报（信息科学版）,2018,36(5):510-515. 被引量：6

系统仿真学报

2018年第10期

浏览历史

内容加载中请稍等...

SVD优化初始簇中心的K-means中文文本聚类算法被引量：10

参考文献12

二级参考文献155

共引文献566

同被引文献101

引证文献10

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

SVD优化初始簇中心的K-means中文文本聚类算法 被引量：10

参考文献12

二级参考文献155

共引文献566

同被引文献101

引证文献10

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

SVD优化初始簇中心的K-means中文文本聚类算法被引量：10