多头自注意力机制Siamese网络文本相似度计算方法被引量：4

Siamese network text similarity calculation with multi-head self-attention mechanism

下载PDF

导出

摘要文本相似度的计算是自然语言处理的核心问题.现有的文本相似度计算方法,存在对于深层次的语义信息提取的不充分,且对长文本的相似度计算能力有限的问题.针对现有文本相似度计算方法的缺陷,提出一种基于多头自注意力机制的Siamese网络,利用双向GRU为基础的Siamese模型精确提取文本样本中上下文的语义信息,同时加入多头自注意力机制学习长文本深层次的语义信息.在公开的SICK数据集上,实验结果表明加入多头自注意力机制的Bi-GRU Siamese网络模型可以学习到长文本深层次的语义信息,对比其他的文本相似度的计算方法,相关系数显著提升,处理长文本效果较好. Calculating text similarity is the key to natural language processing.Existing text similarity calculation methods can not fully extract deep semantic information.And the ability to calculate the similarity of long texts is limited.Aiming at the shortcoming of existing text similarity calculation methods,a Siamese network based on multi-head self-attention mechanism is proposed.This method uses the Siamese model based on bidirectional GRU to accurately extract the semantic information of the context.Then learning deep semantic information of long text by adding multi head self-attention mechanism.Experimental results show that Siamese network with multi-head self-attention mechanism can learn the deep semantic information of long text in the SICK dataset.Compared with other text similarity calculation methods,the correlation coefficient of the proposed method is significantly improved.The effect of processing long text is improved.

作者曹小鹏周凯强 CAO Xiaopeng;ZHOU Kaiqiang(School of Computer Science and Technology,Xi′an University of Posts&Telecommunications,Xi′an 710121,Shaanxi,China)

机构地区西安邮电大学计算机学院

出处《微电子学与计算机》 2021年第10期15-20,共6页 Microelectronics & Computer

基金国家自然科学基金(61136002) 陕西省重点研发计划项目(2021GY-181) 陕西省教育厅科技计划资助项目(2013jk1128)。

关键词 Siamese网络文本相似度多头自注意力机制双向GRU SICK数据集 Siamese network Text similarity Multi-head Self-Attention mechanism bidirectional GRU SICK dataset

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1俞婷婷,徐彭娜,江育娥,林劼.基于改进的Jaccard系数文档相似度计算方法[J].计算机系统应用,2017,26(12):137-142. 被引量：31
2刘文,马慧芳,脱婷,陈海波.融合共现距离和区分度的短文本相似度计算方法[J].计算机工程与科学,2018,40(7):1281-1286. 被引量：9
3肖和,付丽娜,姬东鸿.神经网络与组合语义在文本相似度中的应用[J].计算机工程与应用,2016,52(7):139-142. 被引量：7
4陈二静,姜恩波.文本相似度计算方法研究综述[J].数据分析与知识发现,2017,1(6):1-11. 被引量：77
5张小川,余林峰,张宜浩.基于LDA的多特征融合的短文本相似度计算[J].计算机科学,2018,45(9):266-270. 被引量：9

二级参考文献61

1秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
2刘宏哲.文本语义相似度计算方法研究[D].北京:北京交通大学,2012.
3曹恬,周丽,张国煊.一种基于词共现的文本相似度计算[J].计算机工程与科学,2007,29(3):52-53. 被引量：14
4Furlan B,Batanovi?V,Nikoli?B.Semantic similarity of short texts in languages with a deficient natural language processing support[J].Decision Support Systems,2013,55(3):710-719.
5Mihalcea R,Corley C,Strapparava C.Corpus-based and knowledge-based measures of text semantic similarity[C]//Proceedings of the AAAI,2006,6:775-780.
6Park E K,Ra D Y,Jang M G.Techniques for improving web retrieval effectiveness[J].Information Processing&Management,2005,41(5):1207-1223.
7Manning C D,Raghavan P,Schütze H.Introduction to information retrieval[M].Cambridge:Cambridge University Press,2008.
8Ramage D,Rafferty A N,Manning C D.Random walks for text semantic similarity[C]//Proceedings of the 2009Workshop on Graph-based Methods for Natural Language Processing.[S.l.]:Association for Computational Linguistics,2009:23-31.
9Agirre E,Diab M,Cer D,et al.Semeval-2012 task 6:A pilot on semantic textual similarity[C]//Proceedings of the First Joint Conference on Lexical and Computational Semantics-Volume 1:Proceedings of the Main Conference and the Shared Task,and Volume 2:Proceedings of the Sixth International Workshop on Semantic Evaluation.[S.l.]:Association for Computational Linguistics,2012:385-393.
10Leacock C.Combining local context and Word Net sense similarity for word sense identification[M]//In Word Net,an Electronic Lexical Database.[S.l.]:The MIT Press,1998.

共引文献126

1李飞跃,宋佳霏.基于文本相似度分析的《红楼梦》化用唐诗研究[J].中外文化与文论,2024(2):213-228. 被引量：1
2龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：8
3赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
4吴汉东,李安.网络版权治理的算法技术与算法规则[J].网络法律评论,2020,20(1):78-101. 被引量：8
5谢红.基于词频比的改进Jaccard系数文本相似度计算[J].内江科技,2021,42(8):27-28. 被引量：9
6裴培,丁雪晶.基于本体的语义相似度计算综述[J].合肥学院学报（综合版）,2020(5):68-74. 被引量：3
7廖振.利用相似度分析方法缩短变电站端子箱、机构箱内驱潮装置故障排查时间[J].电气开关,2020,0(1):81-85.
8康锋,张会巍.论文查重的技术原理、局限及其合理应用[J].编辑学报,2023,35(3):288-294. 被引量：4
9王景田,杨赴云,张月英.单胺氧化酶抑制剂及其相互作用[J].中国药学杂志,2000,35(5):351-353. 被引量：16
10王寒茹,张仰森.文本相似度计算研究进展综述[J].北京信息科技大学学报（自然科学版）,2019,34(1):68-74. 被引量：11

同被引文献44

1陆晓蕾,倪斌.基于预训练语言模型的BERT-CNN多层级专利分类研究[J].中文信息学报,2021,35(11):70-79. 被引量：19
2苏小英,孟环建.基于神经网络的微博情感分析[J].计算机技术与发展,2015,25(12):161-164. 被引量：14
3李晓,解辉,李立杰.基于Word2vec的句子语义相似度计算研究[J].计算机科学,2017,44(9):256-260. 被引量：56
4王志刚,曲劲光.基于大数据的电信诈骗治理技术研究[J].电信工程技术与标准化,2017,30(4):86-89. 被引量：12
5王彬宇,刘文芬,胡学先,魏江宏.基于余弦距离选取初始簇中心的文本聚类研究[J].计算机工程与应用,2018,54(10):11-18. 被引量：23
6李家樑.基于随机森林算法的移动电话骚扰号码识别策略研究[J].通讯世界,2019,26(8):93-94. 被引量：3
7杜鹏辉,仇继扬,彭书涛,柴沣伟,刘意先.基于Scrapy的网络爬虫的设计与实现[J].电子设计工程,2019,27(22):120-123. 被引量：22
8熊回香,赵登鹏,卢晨凡.基于词向量模型的中文序列比对研究[J].图书情报工作,2020,64(10):86-98. 被引量：7
9李振宇,邓向阳,张立民,王彦哲.基于Swish激活函数的双通道CNN结构[J].计算机与数字工程,2020,48(6):1413-1416. 被引量：5
10石彩霞,李书琴,刘斌.多重检验加权融合的短文本相似度计算方法[J].计算机工程,2021,47(2):95-102. 被引量：12

引证文献4

1姜彤彤,许鸿奎,周俊杰,张子枫,卢江坤,胡文烨.融合自注意力机制的诈骗电话分类模型[J].计算机时代,2022(11):101-104. 被引量：2
2邹丽强,何月顺.多特征融合的文本相似度方法[J].现代电子技术,2023,46(11):103-108. 被引量：1
3陈丽春.结合ERNIE2.0和多尺度网络的数字图书馆文本分类研究[J].电子设计工程,2023,31(19):1-5.
4尹杰,倪鹏锐.基于深度学习的网站类型识别研究[J].电子设计工程,2023,31(21):42-46.

二级引证文献3

1魏嘉迪,赵晓凡,陈丽,宋震.电信网络诈骗犯罪防治研究综述[J].中国人民公安大学学报（自然科学版）,2024,30(2):102-108.
2尹春勇,沈子宁.基于交互式特征与多尺度特征的文本相似度研究[J].计算机技术与发展,2024,34(8):86-92.
3刘亮,樊野.基于复杂网络视角的电信网络欺诈识别模型应用研究[J].江苏通信,2024,40(4):119-123.

1Yingshan Zhang,Yan Li,Chunyun Guo.Acupuncture Treating Heart Disease Based on Eight Palaces or Eight Veins <br/>—Mathematical Reasoning of Treatment Principle Based on Yin Yang Wu Xing Theory in Traditional Chinese Medicine (IV)[J].Chinese Medicine,2021,12(3):47-117. 被引量：1
2孙静静.基于网络文本的三圣花乡旅游形象感知研究[J].市场周刊·理论版,2021(11):75-76.
3罗颖,陈伟,张超.基于LDA模型的疾病患者网络社区发现方法[J].九江学院学报（自然科学版）,2021,36(3):59-62. 被引量：1
4翁兆琦,张琳.基于多角度信息交互的文本语义匹配模型[J].计算机工程,2021,47(10):97-102. 被引量：2
5唐舒放,王志胜.基于双注意力机制的街景语义分割[J].计算机与现代化,2021(10):69-74.
6白杨.标签关联与学习模型相结合的用户兴趣变化识别算法[J].辽东学院学报（自然科学版）,2021,28(3):180-186.
7严李强,田博,梁炜恒,杨欢欢.藏文文本相似度计算方法研究[J].高原科学研究,2021,5(3):70-77. 被引量：3

微电子学与计算机

2021年第10期

浏览历史

内容加载中请稍等...

多头自注意力机制Siamese网络文本相似度计算方法被引量：4

参考文献5

二级参考文献61

共引文献126

同被引文献44

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

多头自注意力机制Siamese网络文本相似度计算方法 被引量：4

参考文献5

二级参考文献61

共引文献126

同被引文献44

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

多头自注意力机制Siamese网络文本相似度计算方法被引量：4