一种增强的多粒度特征融合语义匹配模型被引量：1

An Enhanced Multi Granularity Feature Fusion Model for Semantic Matching

下载PDF

导出

摘要语义匹配作为自然语言处理任务中重要的一环,直接制约问答系统、信息检索等任务的效率。针对现有语义模型大多只以词为基本语义单元进行注意力交互,较少考虑中文中的词边界模糊和字符信息获取不足而带来的语言颗粒度对整体建模忽略的问题,提出一种增强的多粒度特征融合语义匹配模型EMGFM。首先结合BERT模型和word2vec以获得增强的字符向量表示,然后从字、词、句三种粒度进行注意力的交互,并对交互结果进行加权融合,以突出不同交互信息对整体建模的贡献。为减少交互过程中产生的信息损失,通过构造差异性来对交互信息进行信息增强。最后通过最大池化、平均池化两种方式获得文本的最终语义表示以进行匹配度的计算。该模型在CCKS问句匹配大赛中文数据集上达到了87%的正确率,相比于一些语义匹配的经典模型准确率均有提升,证明该方法确实能有效提升问句语义匹配的准确性。 As an important part of natural language processing tasks,semantic matching directly restricts the efficiency of question answering system,information retrieval and other tasks.Most of the existing semantic models only take words as the basic semantic unit for attention interaction,and less take into account the problem of language granularity ignoring the overall modeling caused by the fuzzy word boundary and insufficient acquisition of character information in Chinese.Therefore,an enhanced multi granularity feature fusion semantic matching model EMGFM is proposed.Firstly,the BERT model and word2vec are combined to obtain the enhanced character vector representation,then the attention interaction is carried out from the three granularity of words,phrases and sentences,and the interaction results are weighted fused to highlight the contribution of different interaction information to the overall modeling.In order to reduce the information loss in the interactive process,the interactive information is enhanced by constructing differences.Finally,the final semantic representation of the text is obtained by maximum pooling and average pooling to calculate the matching degree.The model achieves 87%accuracy on the Chinese data set of CCKS question matching competition.Compared with some classical models of semantic matching,the accuracy is improved.It proves that the proposed method can effectively improve the accuracy of question semantic matching.

作者尚福华蒋毅文曹茂俊 SHANG Fu-hua;JIANG Yi-wen;CAO Mao-jun(School of Computer and Information Technology,Northeast Petroleum University,Daqing 163318,China)

机构地区东北石油大学计算机与信息技术学院

出处《计算机技术与发展》 2022年第7期28-33,共6页 Computer Technology and Development

基金黑龙江省自然科学基金(LH2019F004) 东北石油大学青年科学基金(2018QNL-25) 东北石油大学优秀中青年科研创新团队(KYCXTD201903)。

关键词语义匹配语言颗粒度 Siamese网络可分解注意力机制 BERT模型 semantic matching language granularity Siamese network decomposable attention mechanism BERT model

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献7

1朱张莉,饶元,吴渊,祁江楠,张钰.注意力机制在深度学习中的研究进展[J].中文信息学报,2019,33(6):1-11. 被引量：123
2吴少洪,彭敦陆,苑威威,陈章,刘丛.MGSC:一种多粒度语义交叉的短文本语义匹配模型[J].小型微型计算机系统,2019,40(6):1148-1152. 被引量：11
3吴炎,王儒敬.基于BERT的语义匹配算法在问答系统中的应用[J].仪表技术,2020(6):19-22. 被引量：7
4王玉荣,林民,李艳玲.BERT跨语言词向量学习研究[J].计算机科学与探索,2021,15(8):1405-1417. 被引量：2
5李伟康,李炜,吴云芳.深度学习中汉语字向量和词向量结合方式探究[J].中文信息学报,2017,31(6):140-146. 被引量：16
6庞亮,兰艳艳,徐君,郭嘉丰,万圣贤,程学旗.深度文本匹配综述[J].计算机学报,2017,40(4):985-1003. 被引量：65
7孙海霞,钱庆,成颖.基于本体的语义相似度计算方法研究综述[J].现代图书情报技术,2010(1):51-56. 被引量：61

二级参考文献49

1吴友政,赵军,段湘煜,徐波.问答式检索技术及评测研究综述[J].中文信息学报,2005,19(3):1-13. 被引量：48
2荀恩东,颜伟.基于语义网计算英语词语相似度[J].情报学报,2006,25(1):43-48. 被引量：41
3曹泽文,钱杰,张维明,邓苏.一种综合的概念相似度计算方法[J].计算机科学,2007,34(3):174-175. 被引量：35
4黄果,周竹荣,周亭.基于领域本体的语义相似度计算研究[J].计算机工程与科学,2007,29(5):112-117. 被引量：21
5Raftopoulou P, Petrakis E. Semantic Similarity Measures: A Comparison Study[R]. 2005.
6An Information - Theoretic Definition of Similarity [ EB/OL ]. [2007 - 12 -20 ]. http://www, cs. ualberta, ea/lindek/papers/ sim. pdf.
7Rada R, Mili H, Bicknell E, et al. Development and Application of a Metric on Semantic Nets[ J 1- IEEE Transactions on Systems, Man, and Cybernetics, 1989,19(1) :17 -30.
8Richardson R, Smeaton A, Murphy J. Using WordNet as a Knowledge Base for Measuring Semantic Similarity Between Words [ EB/ OL]. [2008 -12 -02 ]. http://citeseerx. ist. psu. edu/viewdoc/download? doi = 10.1.1. 124. 4773&rep = repl &type = pdf.
9Wu Z, Palmer M. Verb Semantics and Lexical Selection[C]. In: Proceedings of the 32nd Annual Meeting of the Associations for Computational Linguistics. 1994 : 133 - 138.
10Antoniou G, Van Harmelen F. A Semantic Web Primer[ M]. The Mit Press ,2004:200 - 208.

共引文献274

1才智杰,才让卓玛,孙茂松.一种多基元联合训练的藏文词向量表示方法[J].中文信息学报,2020(5):44-49. 被引量：3
2宋颖毅,叶东升,王坤龙,葛志.无监督的问句相似度匹配方法[J].计算机应用研究,2020,37(S02):69-72. 被引量：2
3裴培,丁雪晶.基于本体的语义相似度计算综述[J].合肥学院学报（综合版）,2020(5):68-74. 被引量：2
4林少娃,陈奕汝,顾洁,伍蓓蓓,雍旭龙.基于隐含狄利克雷分布主题模型和特征级异构数据融合的电力故障主动性预警研究[J].电子器件,2022,45(2):432-438. 被引量：6
5杨延云,杜建强,聂斌,罗计根,贺佳.融合数据增强和注意力机制的中医实体及关系联合抽取[J].智能计算机与应用,2023,13(8):186-191.
6胡雨晴,纪明宇,王晨龙.基于依存句法的句子相似度计算方法[J].智能计算机与应用,2020(4):113-118. 被引量：2
7周利民,童珉,陈燕双.面向互联网视频主题管理的搜索引擎关键技术研究及实现[J].广播与电视技术,2014,41(6):31-35. 被引量：1
8唐晓波,罗毅.基于领域本体和语义相似度的数据挖掘模型[J].情报科学,2011,29(2):275-278. 被引量：5
9朝乐门,张勇,邢春晓.面向跨领域海量信息资源的元搜索引擎研究[J].中国图书馆学报,2011,37(2):19-29. 被引量：9
10董慧,唐敏.语义检索在Web2.0环境下的应用探讨[J].中国图书馆学报,2011,37(2):115-119. 被引量：15

同被引文献17

1赵亮,楼向英,张春景,刘炜.元数据应用:语义、结构与句法[J].图书馆杂志,2004,23(7):49-55. 被引量：9
2Arianna D’Ulizia,Fernando Ferri,Anna Formica,Patrizia Grifoni.Approximating Geographical Queries[J].Journal of Computer Science & Technology,2009,24(6):1109-1124. 被引量：3
3YAN Haowen.Fundamental Theories of Spatial Similarity Relations in Multi-scale Map Spaces[J].Chinese Geographical Science,2010,20(1):18-22. 被引量：18
4唐雅媛,徐德智,赖雅.基于概念特征的语义相似度计算方法[J].计算机工程,2012,38(5):170-172. 被引量：5
5崔春华,李华.基于本体的概念相似度计算的改进[J].世界科技研究与发展,2013,35(2):211-213. 被引量：1
6谭永滨,李霖,王伟,于忠海,张志军,毛凯,许赟.本体属性的基础地理信息概念语义相似性计算模型[J].测绘学报,2013,42(5):782-789. 被引量：23
7张焕炯,王国胜,钟义信.基于汉明距离的文本相似度计算[J].计算机工程与应用,2001,37(19):21-22. 被引量：56
8杨娜娜,张青年,牛继强.基于本体结构的空间实体语义相似度计算模型[J].测绘科学,2015,40(3):107-111. 被引量：13
9王寒茹,张仰森.文本相似度计算研究进展综述[J].北京信息科技大学学报（自然科学版）,2019,34(1):68-74. 被引量：10
10胡维华,鲍乾,李柯.结合汉明距离及语义的文本相似度量方法研究[J].杭州电子科技大学学报（自然科学版）,2016,36(3):36-41. 被引量：6

引证文献1

1高玲玲,谭永滨.多源数据语义匹配模型的研究进展[J].江西科学,2023,41(3):536-543.

1黄波.乡村振兴背景下的人才引进路径研究[J].农村实用技术,2022(5):30-32. 被引量：1
2龚隽.从经史之学到道学:再论北宋思想史上的辟佛说[J].中国哲学史,2022(3):25-32. 被引量：1
3高聪蕊,马春利.现代中原文化图文设计可拓语义转译研究——以马街书会为例[J].包装工程,2022,43(14):425-433. 被引量：3

计算机技术与发展

2022年第7期

浏览历史

内容加载中请稍等...

一种增强的多粒度特征融合语义匹配模型被引量：1

参考文献7

二级参考文献49

共引文献274

同被引文献17

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种增强的多粒度特征融合语义匹配模型 被引量：1

参考文献7

二级参考文献49

共引文献274

同被引文献17

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种增强的多粒度特征融合语义匹配模型被引量：1