基于WV-CNN的中文文本语义相似度计算方法被引量：7

Computation Method of Semantic Similarity in Chinese Texts Based on WV-CNN

下载PDF

导出

摘要为解决传统中文文本语义相似度计算存在的语义及句法信息缺失、人工提取特征误差较大等问题,融合词向量与卷积神经网络方法,构建中文文本语义相似度计算模型,并给出WV-CNN(Word Vector-Convolutional Neural Network)文本语义相似度计算方法。通过Embedding层将词语向量化后的结果作为CNN的输入,CNN中设置了卷积、Dropout、池化和Flatten4层网络,经过参数选择、训练、调优后输出结果。选取第6届全国数据挖掘竞赛提供的数据集以及在百度的WebQa数据集作为实验对象,使用Accuracy值、F1值、AUC值、KS值4种评测指标进行对比实验。结果表明,WV-CNN具有更好的计算精度和效果。 In order to solve the problems of semantic similarity calculation in traditional Chinese text,such as lack of semantic information,lack of syntax information,and large errors in artificial extraction features,a fusion word vector and deep learning method were proposed to construct a semantic similarity calculation model of Chinese text,and the computation method of the semantic similarity in Chinese texts was given based on WV-CNN or Word Vector-Convolutional Neural Network.).The vectorization result of the word was used as the input of the CNN through the Embedding layer.The CNN was configured with a convolutional,Dropout,pooling,and Flatten four-layer network,through parameter selection.The results were output after training and tuning.The data set provided by the 6 th National Data Mining Contest and the WebQa data set of Baidu were selected as the experimental subjects,and four evaluation indexes such as Accuracy,F1,AUC,and KSwere used for contrast experiments.The results show that WVCNN has better computation accuracy and effect.

作者张春英李春虎付其峰 ZHANG Chun-ying;LI Chun-hu;FU Qi-feng(College of Science,Ndrth China Universityof Science and Technology,Tangshan Hebei 063210,China;College of Information Engineering,North China University of Science and Technology,Tangshan Hebei 063210,China)

机构地区华北理工大学理学院华北理工大学信息工程学院

出处《华北理工大学学报（自然科学版）》 CAS 2019年第1期123-132,共10页 Journal of North China University of Science and Technology：Natural Science Edition

基金河北省自然科学基金(F2016209344 F2018209374)

关键词中文文本语义相似度词向量深度学习 WV-CNN semantic similarity of Chinese text word vector deep learning WV-CNN

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1黄楚新,任芳言.网络“标题党”:成因与对策[J].新闻与写作,2015(12):24-28. 被引量：15
2王文辉,吴敏华,骆力明,刘杰.基于相似度算法的英语智能问答系统设计与实现[J].计算机应用与软件,2017,34(6):62-68. 被引量：13
3胡珅健.关于社区问答中答案选择的研究[J].现代计算机（中旬刊）,2017(11):10-14. 被引量：1
4陈攀,杨浩,吕品,王海晖.基于LDA模型的文本相似度研究[J].计算机技术与发展,2016,26(4):82-85. 被引量：12

二级参考文献34

1王燕.一种改进的K-means聚类算法[J].计算机应用与软件,2004,21(10):122-123. 被引量：9
2姜园,张朝阳,仇佩亮,周东方.用于数据挖掘的聚类算法[J].电子与信息学报,2005,27(4):655-662. 被引量：67
3张剑,李春平.基于WordNet概念向量空间模型的文本分类[J].计算机工程与应用,2006,42(4):174-178. 被引量：16
4叶正,林鸿飞,杨志豪.基于问句相似度的中文FAQ问答系统[J].计算机工程与应用,2007,43(9):161-163. 被引量：14
5刘里,曾庆田.自动问答系统研究综述[J].山东科技大学学报（自然科学版）,2007,26(4):73-76. 被引量：21
6周法国,杨炳儒.句子相似度计算新方法及在问答系统中的应用[J].计算机工程与应用,2008,44(1):165-167. 被引量：45
7Deerwester S, Dumais S T A. Indexing by latent semantic analysis[ J]. Journal of the Society for Information Science, 1990, 41 (6) :391-407.
8Blei D, Ng A, Jordan M. Latent Dirichlet allocation [ J ]. Journal of Machine Leaning Research,2003,3 : 993 - 1022.
9Salton G, Wong A, Yang C S. A vector space model for automatic indexing [ J ]. Communications of the ACM, 1975, 18 (11) :613-620.
10Hastie T, Tibshirani R. Discriminant adaptive nearest neighbor classification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1996,18 (6) :607-616.

共引文献37

1孙瑞.基于英语翻译应用视角下的计算机智能校对系统开发研究[J].微型电脑应用,2020,36(2):145-148. 被引量：6
2刘英华,雷紫晶,丁雪怡,李禄含,林欣然.诱饵点击、失灵和反转:社交媒体中新闻客观性与情绪化的矛盾[J].北方工业大学学报,2024,36(2):133-144.
3肖尚,房至一,董洪良,赵帅,王涵瑜.基于改进型VSM-HowNet融合相似度算法研究[J].吉林大学学报（信息科学版）,2018,36(6):674-680. 被引量：5
4瞿霞.根除“标题党”毒瘤——写在《互联网新闻信息服务管理规定(修订征求意见稿)》发布之际[J].西部广播电视,2015,36(22):103-103.
5梅珊珊.浅析网络新闻客户端的标题党新闻——以今日头条为例[J].西部广播电视,2016,37(16):25-25. 被引量：2
6李琳琳,左健.自媒体平台“标题党”乱象及解决对策[J].传媒观察,2017,0(5):45-47. 被引量：1
7董海琴.浅析标题党的成因[J].新闻研究导刊,2017,8(10):98-98.
8薛翔.互联网传播中新闻误解的负面效应与规避路径[J].武汉职业技术学院学报,2017,16(3):75-79. 被引量：2
9张宇川,焦若薇.网络新闻“标题党”现象的成因与对策[J].新闻世界,2017(8):55-57. 被引量：2
10钟俊辉.以波特推理图式分析“标题党”的道德问题[J].新闻研究导刊,2017,8(14):76-76.

同被引文献64

1詹悦,陈志峰.基于交叉熵函数的神经网络研究[J].休闲,2021(12):0217-0217. 被引量：1
2刘亚军,徐易.一种基于加权语义相似度模型的自动问答系统[J].东南大学学报（自然科学版）,2004,34(5):609-612. 被引量：35
3刘增锁,吴敬.产生式规则在考试评分系统中的应用研究[J].计算机技术与发展,2006,16(7):162-164. 被引量：4
4麦范金,岳晓光,赵子强,路英,王挺,岳砥柱.基于自然语言处理的智能评分系统[J].桂林理工大学学报,2010,30(3):426-430. 被引量：4
5卫敏,余乐安.具有最优学习率的RBF神经网络及其应用[J].管理科学学报,2012,15(4):50-57. 被引量：48
6王永新,王秋芬,梁道雷.一种高效LCS算法[J].南阳理工学院学报,2013,5(6):61-64. 被引量：5
7张量,詹国华.开放式、智能化计算机考核阅卷系统的设计与实现[J].计算机工程与应用,2001,37(10):108-110. 被引量：47
8李辉阳,韩忠愿.有限领域简述文字的自动判读及其在CAI中的应用[J].计算机工程与应用,2002,38(8):76-78. 被引量：18
9陶卿,曹进德,孙德敏.基于支持向量机分类的回归方法[J].软件学报,2002,13(5):1024-1028. 被引量：46
10刘开旻,吴小俊.一种基于新隶属度函数的模糊支持向量机[J].计算机工程,2016,42(4):155-159. 被引量：16

引证文献7

1肖灵云,侯开虎,戴洪涛,杨少琦.自动评分方法研究现状及趋势[J].软件,2019,40(6):153-156. 被引量：1
2张春英,兰思武,李春虎.基于LCS+LSTM的智能阅读交互系统设计与实现[J].华北理工大学学报（自然科学版）,2019,41(4):95-102.
3张楚婷,常亮,王文凯,陈红亮,宾辰忠.基于BiLSTM-CRF的细粒度知识图谱问答[J].计算机工程,2020,46(2):41-47. 被引量：11
4马艳荣,温煜坤.基于向量空间模型的对外汉语应用文写作词汇分类系统研究[J].现代电子技术,2021,44(8):137-140. 被引量：2
5范庆春,王欣莲.基于加权词向量的毕业设计选题查重方法研究[J].电脑知识与技术,2021,17(26):179-182.
6蔚佳璇,张起贵.融合注意力及句法的短文本相似度计算方法[J].计算机工程与设计,2022,43(11):3127-3134. 被引量：3
7程兆亮,沈雅婷,唐俊杰,王泽铭.改进过滤模型解决音变问题研究[J].电脑与电信,2023(9):5-10.

二级引证文献17

1李春霞,许键,彭艳兵.基于语义关联融合的案件识别[J].数字技术与应用,2024,42(3):155-160.
2廖瑞雪,李凯龙,许亚辉,赵传哲,徐立鹏.基于VBA技术的AutoCAD智能自动评分系统的设计[J].内江科技,2023,44(2):36-37.
3李鑫柏,吴鑫然,岳昆.基于贝叶斯网的开放世界知识图谱补全[J].计算机工程,2021,47(6):104-114. 被引量：4
4周贞云,邱均平.面向人工智能的我国知识图谱研究的分布特点与发展趋势[J].情报科学,2022,40(1):184-192. 被引量：8
5何儒汉,唐娇,史爱武,陈佳,李相朋,胡新荣.基于实体消岐和多粒度注意力的知识库问答[J].计算机工程与设计,2022,43(2):560-566. 被引量：2
6栗婧,张志珍,杜璇,王真,刘紫薇,辛艳丽.基于文本分类技术的煤矿违章行为统计方法研究[J].矿业科学学报,2022,7(3):344-353. 被引量：4
7周贞云,邱均平.中图分类号的学科应用及其可视化——以我国知识图谱研究为例[J].现代情报,2022,42(5):3-12. 被引量：6
8黄阿娜.基于Attention-Based LSTM算法的文本分类模型[J].自动化技术与应用,2022,41(8):169-171. 被引量：2
9王勇,江洋,王红滨,侯莎.面向科技情报分析的知识库构建方法[J].计算机工程与应用,2022,58(22):142-149.
10刘臣,谢宁静,周立欣.基于邻域采样的异质网络链接预测算法[J].计算机与数字工程,2022,50(10):2127-2134.

1陈柯锦,侯俊安,郭智,梁霄.基于多尺度相似度特征的答案选择算法[J].系统工程与电子技术,2018,40(6):1398-1404. 被引量：3
2王欣,余志奇.基于SSA-神经网络的地铁沉降趋势分析与预测[J].城市勘测,2018(6):153-155. 被引量：1
3吴锐帆.基于语法规律的相关材料标记模型[J].韩山师范学院学报,2018,39(3):27-34.
4成勇.电感耦合等离子体原子发射光谱法测定钒铬钛合金中11种元素[J].冶金分析,2018,38(12):41-47. 被引量：4
5李腾飞,石磊.基于节点层网络关键等级的嵌入式软件集成测试序列生成方法[J].软件导刊,2018,17(12):52-55. 被引量：4
6杜志云,李晓刚,姚文秀,邱锐琴,乔木,韩雁雁,曹沐琳.B型脑钠肽与N端脑钠肽前体在新生儿心源性呼吸困难鉴别诊断中的应用[J].中国临床医生杂志,2018,46(12):1497-1499. 被引量：6
7季沈杰,龚莉.血清AFP、CA125、TK1联合检测对原发性肝癌的诊断价值[J].热带医学杂志,2018,18(11):1482-1485. 被引量：11
8杭琦,杨敬辉.机器学习随机森林算法的应用现状[J].电子技术与软件工程,2018(24):125-127. 被引量：17
9孙长友,徐子胜.黑龙江垦区大米营销策略初探[J].农场经济管理,2018(12):28-31. 被引量：1
10唐伟,李琳,王琳.H型高血压患者检测血清补体C1q的临床意义[J].医学理论与实践,2018,31(24):3741-3742. 被引量：2

华北理工大学学报（自然科学版）

2019年第1期

浏览历史

内容加载中请稍等...

基于WV-CNN的中文文本语义相似度计算方法被引量：7

参考文献4

二级参考文献34

共引文献37

同被引文献64

引证文献7

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于WV-CNN的中文文本语义相似度计算方法 被引量：7

参考文献4

二级参考文献34

共引文献37

同被引文献64

引证文献7

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于WV-CNN的中文文本语义相似度计算方法被引量：7