基于词向量和多特征语义距离的文本聚类算法被引量：8

Text Clustering Algorithm Based on Word Vector and Multi-feature Semantic Distance

下载PDF

导出

摘要针对传统文本聚类算法中存在语义相似度计算向量维度高、忽视特征词词频、位置、词距和语义缺失等问题,提出了一种基于词向量和多特征语义距离的文本聚类算法(M-W2-KS)。首先使用Word2Vec训练语料库中的所有特征词,以向量形式进行表征;然后综合考虑特征词的词频、位置、词距信息以及特征词间的欧式距离,计算文本间的语义相似度,并将其应用到K-means算法中,实现文本的聚类。实验结果表明,运用M-W2-KS算法,可以有效提升聚类效果,使聚类结果更加准确。 The traditional text clustering algorithm ignores high dimension of semantic similarity calculation vectors, word frequency, location, word distance and semantic missing of feature words. Therefore, a text clustering algorithm based on word vector and multi-feature semantic distance (M-W2-KS) is proposed. Firstly, all feature words in word2Vec training corpus are represented as vectors, and then the semantic similarity between texts is calculated by combining the frequency, location, distance and Euclidean distance of feature words. Finally, it is applied to K-means algorithm to realize text clustering. The experiment results show that M-W2-KS algorithm can effectively enhance clustering results, and make clustering results more accurate.

作者张弛张贯虹 ZHANG Chi;ZHANG Guanhong(Department of Computer Science and Technology, Hefei University, Hefei 230601, China)

机构地区合肥学院计算机科学与技术系

出处《重庆科技学院学报（自然科学版）》 CAS 2019年第3期69-72,77,共5页 Journal of Chongqing University of Science and Technology：Natural Sciences Edition

基金安徽省自然科学基金青年项目“面向金融信息领域的文本情感分析研究”(051308085QF115) 高校优秀青年人才支持计划重点项目“基于深度神经网络学习的融合模型词对齐研究”(GXYQZD2016275) 合肥学院重点教学研究项目“基于SSH框架的智能实验报告管理系统设计与实现研究”(2018HFJYXM08)

关键词文本聚类词向量特征向量 Word2Vec K-MEANS text clustering word vector eigenvector word2Vec K-means

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1马莹,赵辉,李万龙,庞海龙,崔岩.结合改进的CHI统计方法的TF-IDF算法优化[J].计算机应用研究,2019,36(9):2596-2598. 被引量：18
2龚静,黄欣阳.基于k最近邻和改进TF-IDF的文本分类框架[J].计算机工程与设计,2018,39(5):1340-1344. 被引量：10
3周源,刘怀兰,杜朋朋,廖岭.基于改进TF-IDF特征提取的文本分类模型研究[J].情报科学,2017,35(5):111-118. 被引量：48
4韩栋,王春华,肖敏.结合半监督学习和LDA模型的文本分类方法[J].计算机工程与设计,2018,39(10):3265-3271. 被引量：7
5马建红,樊跃翔.基于改进Labeled LDA模型的科技视频文本分类[J].计算机工程,2018,44(9):274-279. 被引量：3
6吴舜尧,邵峰晶,王金龙,孙仁诚,王营.融合语义资源和关键词的文本聚类[J].计算机工程,2014,40(4):223-227. 被引量：7
7廖开际,杨彬彬.基于加权语义网的文本相似度计算的研究[J].情报杂志,2012,31(7):182-186. 被引量：10
8李国,张春杰,张志远.一种基于加权LDA模型的文本聚类方法[J].中国民航大学学报,2016,34(2):46-51. 被引量：10
9阳小兰,杨威,钱程,朱福喜.融合HowNet和BTM模型的短文本聚类方法[J].计算机工程与设计,2017,38(5):1258-1263. 被引量：9

二级参考文献86

1靳小波.文本分类综述[J].自动化博览,2006,23(z1):24-29. 被引量：16
2侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32
3陈文亮,朱靖波,朱慕华,姚天顺.基于领域词典的文本特征表示[J].计算机研究与发展,2005,42(12):2155-2160. 被引量：22
4张承立,陈剑波,齐开悦.基于语义网的语义相似度算法改进[J].计算机工程与应用,2006,42(17):165-166. 被引量：38
5高茂庭,王正欧.几种文本特征降维方法的比较分析[J].计算机工程与应用,2006,42(30):157-159. 被引量：16
6张雪英.基于机器学习的文本自动分类研究进展[J].情报学报,2006,25(6):730-739. 被引量：11
7席运江,党延忠.基于加权知识网络的个人知识存量表示与度量方法[J].管理学报,2007,4(1):28-31. 被引量：8
8彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
9Banerjee S, Ramanathan K, Gupta A, et al. Clustering Short Texts Using Wikipedia[C]//Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Amsterdam, Holland: [s. n.], 2007: 788-789.
10Wu Shunyao, Wang Jinlong, Vu H Q, et al. Text Clustering with Important Words Using Normalization[C]//Proceedings of the 10th Annual Joint Conference on Digital Libraries. Gold Coast, Australia: [s. n.], 2010: 393-394.

共引文献107

1余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
2尚珍宇(译),程可欣,简钰清,王志芳,王颖(译),周佳怡(译).社交媒体文本数据分析方法对比与适用性研究:以北京市城市公园感知为例[J].景观设计学（中英文）,2023,11(5):8-29.
3马建国,杨金山,赵静,赵秀云.综合物探在宾州浸出油厂找水的应用[J].黑龙江水利科技,2000,28(2):64-65.
4李文慧,张英俊,潘理虎.多因素影响特征选择的短文本分类方法[J].计算机系统应用,2018,27(12):216-221. 被引量：3
5王琼.一种改进的k-means文本聚类优化方法[J].计算机与现代化,2015(3):48-51.
6赵士杰,陈秋.基于语义和TF-IDF的项目相似度计算方法[J].计算机时代,2015(5):1-3. 被引量：8
7曹晓.文本聚类研究综述[J].情报探索,2016(1):131-134. 被引量：16
8程玉胜,梁辉,王一宾,任勇.结合关键词微变和LD算法的文本相似性研究[J].计算机工程与应用,2016,52(8):70-73.
9王玥.大数据网络中用户特征数据准确检测仿真[J].计算机仿真,2017,34(6):415-418. 被引量：11
10黄栋,徐博,许侃,林鸿飞,杨志豪.基于词向量和EMD距离的短文本聚类[J].山东大学学报（理学版）,2017,52(7):66-72. 被引量：11

同被引文献75

1杨晓枫.概率论之古典概型研究探讨[J].大众标准化,2020(16):167-168. 被引量：3
2刘迁,焦慧,贾惠波.信息抽取技术的发展现状及构建方法的研究[J].计算机应用研究,2007,24(7):6-9. 被引量：41
3化柏林.国内外知识抽取研究进展综述[J].情报杂志,2008,27(2):60-62. 被引量：13
4文翰,黄国顺.“软件工程”课程双语教学模式的探究[J].计算机教育,2008(23):83-85. 被引量：3
5邵晓霞.概念图及WordNet辅助大学英语词汇教学的可能性探究[J].教育与教学研究,2009,23(3):86-88. 被引量：4
6李晓飞.Huffman编解码及其快速算法研究[J].现代电子技术,2009,32(21):102-104. 被引量：9
7赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：533
8王小华,徐宁,谌志群.基于共词分析的文本主题词聚类与主题发现[J].情报科学,2011,29(11):1621-1624. 被引量：33
9丁君军,郑彦宁,化柏林.基于规则的学术概念属性抽取[J].情报理论与实践,2011,34(12):10-14. 被引量：28
10郑文超,徐鹏.利用word2vec对中文词进行聚类的研究[J].软件,2013,34(12):160-162. 被引量：29

引证文献8

1杜政康,邓思铭,戴小鹏.概念抽取的技术分析[J].福建电脑,2020,36(1):87-88.
2傅承涛,谢佳璇,牛永洁.新闻类短文本聚类新方法的研究[J].延安大学学报（自然科学版）,2020,39(4):67-71. 被引量：3
3何烨辛,谷林,孙晨.基于CNN的程序编译错误信息特征提取[J].计算机技术与发展,2021,31(5):204-208. 被引量：1
4柴庆凤,史霖炎,梅珊,熊海涛,贺惠新.基于人工特征和机器特征融合的科技文献知识元抽取[J].数据分析与知识发现,2021,5(8):132-143. 被引量：11
5方博平,郭佳怡,陆欣怡,王梦怡,宋涛.基于文本挖掘技术的智慧政务舆情分析研究[J].科技风,2021(34):86-88. 被引量：1
6何烨辛,谷林,孙晨.基于word2vec的程序编译错误信息特征提取方法[J].计算机与数字工程,2022,50(6):1317-1322. 被引量：1
7黄伟强,刘海,梁韬文,杨海华.针对在线教育情感分析的数据扩充研究[J].网络安全与数据治理,2022,41(7):93-100.
8黄江平,蹇杰安,李琳,黄颖,刘歆.中外合作办学软件类课程教与学质量提升方法与实践[J].计算机教育,2022(10):169-173.

二级引证文献17

1徐绪堪,薛梦瑶,钱进.基于知识元语义描述模型的红色文化数字资源知识抽取研究[J].科技情报研究,2022,4(1):23-33. 被引量：9
2梁家富,李家华.基于Doc2Vec和随机森林的外卖评价预测方法[J].微型电脑应用,2022,38(6):142-144. 被引量：1
3熊回香,叶佳鑫.面向科技文献检索的关键词层次结构构建[J].情报理论与实践,2022,45(9):157-163. 被引量：3
4任亮,杜薇薇,刘伟利.面向科技文献知识元的知识图谱构建研究[J].情报科学,2022,40(9):26-31. 被引量：7
5沈雪莹,欧石燕.科学文献知识单元抽取及应用研究:梳理与展望[J].情报理论与实践,2022,45(12):195-207. 被引量：7
6沈东义,姬银秀,毛火明,郭林,袁秋霞.基于Word2vec和K-Means算法的勘探开发成果文档聚类研究[J].湖北大学学报（自然科学版）,2023,45(1):113-119.
7陈寅,马佳斌.基于ERNIE-DPCNN模型的地址清洗匹配方法研究[J].地矿测绘,2022,38(4):7-11.
8邹洋杰,李秀霞,王晓璎.基于知识元抽取的不同学科领域研究方法交流态势分析——以情报学与计算机科学学为例[J].情报杂志,2023,42(7):154-160. 被引量：3
9王宇琪,周庆山,赵菲菲.面向信息弱势群体的电子公共服务网络评论观点挖掘与诉求主题分析[J].情报资料工作,2023,44(4):77-84. 被引量：1
10唐晓波,吴海婷,吴佳琳.基于特征知识元的专利语义引用识别方法研究——以量子计算领域为例[J].情报理论与实践,2023,46(10):86-95.

1郭跃辉.修辞手法在作文中的运用辨析[J].新作文（中学作文教学研究）,2019,0(4):16-17.
2崔彤彤,崔荣一.基于潜在语义分析的文本指纹提取方法[J].中文信息学报,2018,32(5):74-79. 被引量：7
3汪骏飞,徐晓亮,温坤,王永泉,陈花玲.基于粒子群算法的支持向量回归机优化算法在铣刀磨损量建模中的应用[J].机床与液压,2018,46(23):184-187. 被引量：1
4黄勇,罗文辉,张瑞舒.改进朴素贝叶斯算法在文本分类中的应用[J].科技创新与应用,2019,9(5):24-24. 被引量：10
5陈建明,时铭慧.结合改进的SIFT算法的双目视觉测距[J].轻工学报,2018,33(5):90-96. 被引量：7
6谭敏,张宏源,张海超.基于弱监督深度学习的文本聚类算法及应用[J].计算机应用与软件,2019,36(4):171-177. 被引量：2
7张春英,李春虎,付其峰.基于WV-CNN的中文文本语义相似度计算方法[J].华北理工大学学报（自然科学版）,2019,41(1):123-132. 被引量：7
8邓栋,吴晓鹏.基于状态估计的变流器功率模块故障预测研究[J].电子元器件与信息技术,2018,2(12):60-62. 被引量：6
9张克亮,李芊芊.基于本体的语义相似度计算研究[J].郑州大学学报（理学版）,2019,0(2):52-59. 被引量：11
10宋中山,张广凯,尹帆,帖军.基于频繁模式的长尾文本聚类算法[J].计算机系统应用,2019,28(4):139-144. 被引量：1

重庆科技学院学报（自然科学版）

2019年第3期

浏览历史

内容加载中请稍等...

基于词向量和多特征语义距离的文本聚类算法被引量：8

参考文献9

二级参考文献86

共引文献107

同被引文献75

引证文献8

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于词向量和多特征语义距离的文本聚类算法 被引量：8

参考文献9

二级参考文献86

共引文献107

同被引文献75

引证文献8

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于词向量和多特征语义距离的文本聚类算法被引量：8