K-Means聚类的多种距离计算方法的文本实验比较被引量：6

Experimental comparison of K-Means text clustering by varied distance calculation methods

下载PDF

导出

摘要针对文本类型数据的分类进行研究,用VSM模型和TF-IDF技术对文本文件进行了数据样本抽取加权,得到文本相似度矩阵;采用不同样本距离计算方法和K-Means算法对数据进行了聚类实验,获得聚类结果并进行了分析和总结;基于实验结论,研究了不同距离计算方法之间的区别以及适用的数据类型。 Text data samples were extracted and weighted and the text similarity matrices were obtained by vector space model（ VSM） model and TF- IDF weighting technology. The data clustering was conducted via different distance calculation methods and K-Means algorithm. The clustering results were analysed. The differences among the distance calculation methods and the applicable data types were studied.

作者林滨

机构地区福州软件职业技术学院计算机系

出处《福建工程学院学报》 CAS 2016年第1期80-85,共6页 Journal of Fujian University of Technology

关键词文本聚类 TF-IDF K-MEANS 距离计算 text clustering TF-IDF K-Means distance calculation

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1061
2余正涛,樊孝忠,郭剑毅,耿增民.基于潜在语义分析的汉语问答系统答案提取[J].计算机学报,2006,29(10):1889-1893. 被引量：44
3吴飞,韩亚洪,庄越挺,邵健.图像-文本相关性挖掘的Web图像聚类方法[J].软件学报,2010,21(7):1561-1575. 被引量：10
4吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011(5):28-35. 被引量：161
5翟东海,鱼江,高飞,于磊,丁锋.最大距离法选取初始簇中心的K-means文本聚类算法的研究[J].计算机应用研究,2014,31(3):713-715. 被引量：107
6Jain A K. Data clustering: 50 years beyond k-Means[J]. Pattern Recognition Letters,2010,31(8):651-666.
7Song Q B, Ni J J, Wang G T. A fast clustering-based feature subset selection algorithm for highdimensional data[J]. IEEE Trans on Knowledge and Data Engineering,2013,25(1):1-14.
8Aldahdooh R T, Ashour W. Distance-based initialization method for Kmeans clustering algorithm[J]. International Journal of Intelligent Systems and Applications,2013,5(2):41-51.
9李法运,农罗锋.基于向量语义相似度的改进K-Means算法[J].情报科学,2013,31(2):34-37. 被引量：2

二级参考文献91

1王汉芝,刘振全.一种新的确定K-均值算法初始聚类中心的方法[J].天津科技大学学报,2005,20(4):76-79. 被引量：9
2李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：113
3李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39
4张文君,顾行发,陈良富,余涛,许华.基于均值-标准差的K均值初始聚类中心选取算法[J].遥感学报,2006,10(5):715-721. 被引量：57
5蒋盛益,李庆华.一种增强的k-means聚类算法[J].计算机工程与科学,2006,28(11):56-59. 被引量：15
6张逸清,刘文才.聚类数的确定[J].计算机与数字工程,2007,35(2):42-44. 被引量：7
7牛琨,张舒博,陈俊亮.融合网格密度的聚类中心初始化方案[J].北京邮电大学学报,2007,30(2):6-10. 被引量：15
8谌志群,张国煊.文本挖掘与中文文本挖掘模型研究[J].情报科学,2007,25(7):1046-1051. 被引量：48
9彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
10Khan S S, Ahmad A. Cluster Center Initialization Algorithm for K - means Clustering [ J ]. Pattern Recognition Letters, 2004,25 (11) :1293 -1302.

共引文献1357

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
3林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
4高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
5毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
6张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：3
7李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
8尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
9段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
10何睿,余娜,李淼,张峻巍,王浩杰,赵玉茗.基于单细胞RNA测序数据的细胞类型聚类算法[J].智能计算机与应用,2020,10(7):104-108. 被引量：2

同被引文献54

1牛夏牧,焦玉华.感知哈希综述[J].电子学报,2008,36(7):1405-1411. 被引量：97
2李冠林,马占鸿,黄冲,迟永伟,王海光.基于K_means硬聚类算法的葡萄病害彩色图像分割方法[J].农业工程学报,2010,26(S2):32-37. 被引量：63
3李寒,王库,刘韶军.基于灰度冗余和SURF算法的电气设备红外和可见光图像配准[J].电力系统保护与控制,2011,39(11):111-115. 被引量：21
4纪文君,李曦,李成学,周银,史舟.基于全谱数据挖掘技术的土壤有机质高光谱预测建模研究[J].光谱学与光谱分析,2012,32(9):2393-2398. 被引量：49
5葛亮,王斌,张立明.基于波段聚类的高光谱图像波段选择[J].计算机辅助设计与图形学学报,2012,24(11):1447-1454. 被引量：12
6李震,洪添胜,曾祥业,郑健宝.基于K-means聚类的柑橘红蜘蛛图像目标识别[J].农业工程学报,2012,28(23):147-153. 被引量：42
7郝勇,孙旭东,王豪.基于改进连续投影算法的光谱定量模型优化[J].江苏大学学报（自然科学版）,2013,34(1):49-53. 被引量：8
8戴文远.基于红外热图像的故障诊断方法综述[J].红外,2013,34(2):16-21. 被引量：14
9王志社,杨风暴,纪利娥,陈磊.基于聚类分割和形态学的可见光与SAR图像配准[J].光学学报,2014,34(2):176-182. 被引量：13
10刘明博,唐延林,李晓利,楼佳.水稻叶片氮含量光谱监测中使用连续投影算法的可行性[J].红外与激光工程,2014,43(4):1265-1271. 被引量：27

引证文献6

1朱淑鑫,杨宸,顾兴健,张永春,艾玉春,徐焕良.K均值算法结合连续投影算法应用于土壤速效钾含量的高光谱分析[J].江苏农业学报,2020,36(2):358-365. 被引量：10
2曾军,王东杰,范伟,刘滨滨,赵洪山.基于红外热成像的电气设备组件识别研究[J].红外技术,2021,43(7):679-687. 被引量：14
3田浩.自动调优技术在智慧校园数据库的应用与优化[J].湖南邮电职业技术学院学报,2021,20(4):26-29. 被引量：1
4闵威,刘小忠.基于工程实现的一种雷达分选方法[J].信息技术与信息化,2022(6):175-178.
5宗春梅,赵青杉,郝耀军,裴春琴.改进的聚类算法在现代教育技术混合式教学中的应用[J].高师理科学刊,2023,43(2):80-84.
6袁逸铭,刘宏志,李海生.基于密度峰值的改进K-Means文本聚类算法及其并行化[J].武汉大学学报（理学版）,2019,65(5):457-464. 被引量：18

二级引证文献43

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2陈兴蜀,常天祐,王海舟,赵志龙,张杰.基于微博数据的“新冠肺炎疫情”舆情演化时空分析[J].四川大学学报（自然科学版）,2020,57(2):409-416. 被引量：86
3汤艳君,苏梅,许彩滇,屈丽.利用Doc2Vec及改进K-means聚类实现文本取证分析[J].中国刑警学院学报,2020(4):115-121. 被引量：3
4陆泉,陈仕,陈静,郝志同,朱安琪.高维稀疏情境下微博专业领域热点话题挖掘研究[J].情报理论与实践,2020,43(11):137-143. 被引量：6
5傅承涛,谢佳璇,牛永洁.新闻类短文本聚类新方法的研究[J].延安大学学报（自然科学版）,2020,39(4):67-71. 被引量：3
6田园,原野.基于改进K-means算法的电力大数据系统研究[J].电子设计工程,2021,29(2):76-80. 被引量：3
7张玉西,苏小会,高广棵,尚煜.改进主成分和K-均值聚类算法的行驶工况[J].科学技术与工程,2021,21(8):3199-3205. 被引量：3
8毛伊敏,陶涛,曹文梁.基于网格密度和局部敏感哈希函数的并行化聚类算法[J].计算机应用研究,2021,38(5):1422-1427. 被引量：4
9陶涛,毛伊敏.基于MapReduce和改进人工蜂群算法的并行划分聚类算法[J].科学技术与工程,2021,21(21):8989-8998. 被引量：5
10赵隽宇,石媛媛,覃祚玉,潘波,黄小芮,唐健.桂北桉树人工林红壤速效钾含量高光谱反演模型研究[J].安徽农业科学,2021,49(21):154-156.

1周国辉.基于样本抽取的优化SMO算法研究[J].大众科技,2008,10(9):61-63.
2陈丽芳,王云,张奉.粗决策树动态规则提取算法研究及应用[J].计算机应用,2015,35(11):3222-3226. 被引量：3
3罗军锋,洪丹丹.基于数据抽样的自动k-means聚类算法[J].现代电子技术,2014,37(8):19-21. 被引量：4
4苏毅娟,邓振云,程德波,宗鸣.大数据下的快速KNN分类算法[J].计算机应用研究,2016,33(4):1003-1006. 被引量：29
5陈春玲,陈琳,熊晶,余瀚.基于Simhash算法的重复数据删除技术的研究与改进[J].南京邮电大学学报（自然科学版）,2016,36(3):85-91. 被引量：15
6韩敏,唐常杰,段磊,李川,巩杰.基于TF-IDF相似度的标签聚类方法[J].计算机科学与探索,2010,4(3):240-246. 被引量：22
7秦亚辉,何利力.基于分块后重叠K-means聚类的KNN分类算法[J].工业控制计算机,2017,30(2):103-104. 被引量：1
8陈自洁,夏成锋.基于模糊c-均值聚类的SVC迭代训练算法[J].仲恺农业工程学院学报,2011,24(1):39-43. 被引量：1
9职为梅,郭华平,张婷,范明.一种新的面向非平衡分类问题的特征变换方法[J].小型微型计算机系统,2015,36(5):1037-1041. 被引量：1
10吴连亮,蔡鸿明,姜丽红.基于视觉词袋的视频检索校准方法[J].图学学报,2016,37(1):66-73.

福建工程学院学报

2016年第1期

浏览历史

内容加载中请稍等...

K-Means聚类的多种距离计算方法的文本实验比较被引量：6

参考文献9

二级参考文献91

共引文献1357

同被引文献54

引证文献6

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

K-Means聚类的多种距离计算方法的文本实验比较 被引量：6

参考文献9

二级参考文献91

共引文献1357

同被引文献54

引证文献6

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

K-Means聚类的多种距离计算方法的文本实验比较被引量：6