基于word2vec和CNN的短文本聚类研究被引量：4

Short Text Clustering Based on Word2vec and CNN

下载PDF

导出

摘要文本特征提取对短文本聚类效果至关重要,针对传统的基于统计学习的特征提取方法仅停留在特征词的层面,无法表达文本上下文语义特征的问题。基于此,笔者提出了一种基于word2vec词向量和卷积神经网络(Convolutional Neural Networks,CNN)的文本特征提取方法用于短文本聚类,首先利用word2vec工具训练大规模语料库中的词语,以低维向量的形式表征,然后利用CNN提取文本的深层语义特征,得到能够用于聚类的文本特征向量。实验结果表明,该方法可以有效提升短文本聚类的准确性。 Text feature extraction is very important for short text clustering.Traditional feature extraction methods based on statistical learning only stay at the level of feature words,which can not express the semantic features of text context.Based on this,the author proposes a text feature extraction method based on word 2vec and convolutional neural networks(CNN)for short text clustering.First,the words in large-scale corpus are trained by word 2vec tool,which are expressed in the form of low-dimensional vector,and then the deep semantic features of text are extracted by CNN to obtain the text that can be used for clustering This eigenvector.Experimental results show that this method can effectively improve the accuracy of short text clustering.

作者杨俊峰尹光花 Yang Junfeng;Yin Guanghua(School of Computer,Zhongyuan University of Technology,Zhengzhou Henan 450007,China)

机构地区中原工学院计算机学院

出处《信息与电脑》 2019年第24期20-22,共3页 Information & Computer

关键词 CNN word2vec 短文本聚类特征提取 CNN word2vec short text clustering feature extraction

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1李霄野,李春生,李龙,张可佳.基于LDA模型的文本聚类检索[J].计算机与现代化,2018(6):7-11. 被引量：7

二级参考文献9

1马军红.文本聚类算法初探[J].电子世界,2012(6):71-72. 被引量：2
2唐晓波,房小可.基于文本聚类与LDA相融合的微博主题检索模型研究[J].情报理论与实践,2013,36(8):85-90. 被引量：44
3江浩,陈兴蜀,杜敏.基于主题聚簇评价的论坛热点话题挖掘[J].计算机应用,2013,33(11):3071-3075. 被引量：5
4杨平,王丹,赵文兵.微博网站中面向主题的权威信息搜索技术研究[J].计算机科学与探索,2013,7(12):1135-1145. 被引量：2
5王振振,何明,杜永萍.基于LDA主题模型的文本相似度计算[J].计算机科学,2013,40(12):229-232. 被引量：91
6李湘东,张娇,袁满.基于LDA模型的科技期刊主题演化研究[J].情报杂志,2014,33(7):115-121. 被引量：64
7焦潞林,彭岩,林云.面向网络舆情的文本知识发现算法对比研究[J].山东大学学报（理学版）,2014,49(9):62-68. 被引量：1
8王鹏,高铖,陈晓美.基于LDA模型的文本聚类研究[J].情报科学,2015,33(1):63-68. 被引量：64
9孟雪井,孟祥兰,胡杨洋.基于文本挖掘和百度指数的投资者情绪指数研究[J].宏观经济研究,2016(1):144-153. 被引量：53

共引文献6

1彭阳,左锋,余芳强,张铭.“工业互联网+”建筑工程文档的知识网络研究[J].建筑经济,2021,42(S01):411-414.
2杨秀璋.基于LDA模型和文本聚类的水族文献主题挖掘研究[J].现代计算机,2019,25(5):13-17. 被引量：16
3王英杰.基于TF-IDF的网络地理文本信息分类研究[J].科学技术创新,2020(10):76-77. 被引量：2
4张秀云.基于用户日志双向聚类的跨语言信息检索系统设计[J].现代电子技术,2021,44(24):158-162. 被引量：2
5彭阳,余芳强.工程资料的自动分类和智能搜索技术探析[J].福建建筑,2022(7):105-108.
6陈邦举.基于12328热线数据的城市交通与公路物流业务研究[J].公路,2024,69(5):356-364.

同被引文献27

1何炎祥,孙松涛,牛菲菲,李飞.用于微博情感分析的一种情感语义增强的深度学习模型[J].计算机学报,2017,40(4):773-790. 被引量：127
2周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251. 被引量：1644
3耿巧曼,徐小力,吴国新,夏欣雨.一种改进空间向量模型的东巴文本表示方法[J].北京信息科技大学学报（自然科学版）,2018,33(3):57-60. 被引量：3
4梁吉业,乔洁,曹付元,刘晓琳.面向短文本分析的分布式表示模型[J].计算机研究与发展,2018,55(8):1631-1640. 被引量：7
5孙昭颖,刘功申.面向短文本的神经网络聚类算法研究[J].计算机科学,2018,45(B06):392-395. 被引量：14
6胡朝举,赵晓伟.基于词向量技术和混合神经网络的情感分析[J].计算机应用研究,2018,35(12):3556-3559. 被引量：10
7邹雪君,谢珺,任密蜂,续欣莹.基于全覆盖粒计算的K-medoids文本聚类算法[J].现代电子技术,2019,42(7):162-166. 被引量：3
8邓可君,华凯,邓昌明,姜宁,袁玲,彭一明,张治坤.基于机器学习的论文作者名消歧方法研究[J].四川大学学报（自然科学版）,2019,56(2):241-245. 被引量：8
9杨慧婷,杨文忠,殷亚博,许超英.基于深度信念网络的K-means聚类算法研究[J].现代电子技术,2019,42(8):145-150. 被引量：13
10谢娟英,丁丽娟.完全自适应的谱聚类算法[J].电子学报,2019,47(5):1000-1008. 被引量：22

引证文献4

1牛太冬,靳达森,张海若,张宪帅.基于机器学习的论文评分研究[J].信息与电脑,2021,33(11):54-56.
2高静,王钢.基于知识图谱的k-modes文本聚类研究[J].南京理工大学学报,2022,46(1):76-82. 被引量：1
3贾君霞,王会真,任凯,康文.基于句向量和卷积神经网络的文本聚类研究[J].计算机工程与应用,2022,58(16):123-128. 被引量：4
4钟磊,冷根.基于神经网络的文本聚类研究[J].信息与电脑,2022,34(11):154-156.

二级引证文献5

1查君林,汪卓赟.医院科研大数据平台建设探索[J].齐齐哈尔医学院学报,2022,43(17):1659-1663. 被引量：3
2申喜凤,李美婷,张维宁,南嘉乐,孙媛媛,付玉伟,高东平.基于多特征融合的医疗社区问题文本聚类研究[J].中国数字医学,2022,17(12):28-34.
3郭越.基于改进CNN的工业控制网络入侵检测研究[J].机械设计与制造工程,2023,52(6):103-108.
4芦子涵,郑中团.基于文本融合特征的突发事件子话题聚类研究[J].智能计算机与应用,2023,13(10):45-51.
5王理,龚妍芸,陈大明,江洪波.技术机会分析方法研究综述[J].情报探索,2024(3):128-134.

1曾明睿,袁梦奇,邵曦,鲍秉坤,徐常胜.文本特征提取的研究进展[J].南京信息工程大学学报（自然科学版）,2019,11(6):706-715. 被引量：1
2马力,杭捷,蔡裕谦.基于失效（有效）专利文本聚类的技术主题演变研究[J].研究与发展管理,2019,31(6):155-166. 被引量：4
3张宇艺,左亚尧,陈小帮.基于改进的CBOW与ABiGRU的文本分类研究[J].计算机工程与应用,2019,55(24):135-140. 被引量：6
4栾春娟,宋博文.全球太阳能技术中心转移及核心主题演进研究[J].中国科技论坛,2019(12):68-74. 被引量：2
5庞彦伟,白翔,章国锋.计算机视觉中的深度学习专题简介[J].中国科学：信息科学,2019,49(12):1659-1659. 被引量：2
6聂维民,陈永洲,马静.融合多粒度信息的文本向量表示模型[J].数据分析与知识发现,2019,3(9):45-52. 被引量：13
7林龙成.基于遗传算法的改进K-means算法[J].电子技术与软件工程,2020(1):111-112. 被引量：1
8袁祯祺,宋威,陈璟.基于Gate-ResNet-D模型的远程监督关系提取方法[J].中文信息学报,2019,33(10):57-63. 被引量：2
9陈珊,戴俊谭.基于哨兵节点的微博信息传播范围监测研究[J].传播力研究,2019,3(33):262-264.
10方秋莲,王培锦,隋阳,郑涵颖,吕春玥,王艳彤.朴素Bayes分类器文本特征向量的参数优化[J].吉林大学学报（理学版）,2019,57(6):1479-1484. 被引量：4

信息与电脑

2019年第24期

浏览历史

内容加载中请稍等...

基于word2vec和CNN的短文本聚类研究被引量：4

参考文献1

二级参考文献9

共引文献6

同被引文献27

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于word2vec和CNN的短文本聚类研究 被引量：4

参考文献1

二级参考文献9

共引文献6

同被引文献27

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于word2vec和CNN的短文本聚类研究被引量：4