一种基于孪生网络预训练语言模型的文本匹配方法研究被引量：2

A Text Matching Method Based on a Pretraining Language Model:Sentence Embeddings Using Siamese BERT-Networks

下载PDF

导出

摘要孪生网络预训练语言模型(Sentence Embeddings using Siamese BERT-Networks,SBERT)在文本匹配的表示层面上存在两个缺点:(1)两个文本查询经BERT Encoder得到向量表示后,直接进行简单计算;(2)该计算不能考虑到文本查询之间更细粒度表示的问题,易产生语义上的偏离,难以衡量单个词在上下文中的重要性。该文结合交互方法,提出一种结合多头注意力对齐机制的SBERT改进模型。该模型首先获取经SBERT预训练的两个文本查询的隐藏层向量;然后,计算两文本之间的相似度矩阵,并利用注意力机制分别对两个文本中的token再次编码,从而获得交互特征;最后进行池化,并整合全连接层进行预测。该方法引入了多头注意力对齐机制,完善了交互型文本匹配算法,加强了相似文本之间的关联度,提高了文本匹配效果。在ATEC 2018 NLP数据集及CCKS 2018微众银行客户问句匹配数据集上,对该方法进行验证,实验结果表明,与当前流行的5种文本相似度匹配模型ESIM、ConSERT、BERT-whitening、SimCSE以及baseline模型SBERT相比,本文模型在F1评价指标上分别达到了84.7%和90.4%,比Baseline分别提高了18.6%和8.7%,在准确率以及召回率方面也表现出了较好的效果,且具备一定的鲁棒性。 The sentence embeddings using Siamese BERT-Networks pre-trained language model has two shortcomings in its presentation layer for text matching,that is,(1)two queried texts are directly computed after they are represented in vectors by the BERT Encoder,(2)such computation does not consider the needs to refine the granular representation of the two queried texts.As such presented semantics could be deviated and it is also difficult to assess the importance of single words in text matching.This paper proposes an improved text similarity matching model SBMAA based on SBERT pre-trained language model.Firstly,the hidden layer vectors of the two queries passing through the SBERT model are obtained,and then the similarity matrix between the two is calculated.The attention mechanism is used to encode the tokens in the two sentences again to obtain interactive features and pool them.Finally,the fully connected layer is connected for prediction.This method introduces the multi-head attention alignment mechanism,which is a common way of interactive text matching algorithm,and strengthens the correlation degree between similar texts,so that the model can achieve more accurate matching effect.The experimental results on ATEC 2018 NLP data set and CCKS 2018 Webank Customer Question Matching dataset show that compared with the five popular text similarity matching models ESIM,ConSERT,BERT-whitening,SimCSE and Baseline model SBERT,The proposed SBMAA model achieves 84.7%and 90.4%in F1evaluation index,18.6%and 8.7%higher than Baseline,respectively.It also shows good effect in accuracy and recall rate,and has certain robustness.

作者卢美情申妍燕 LU Meiqing;SHEN Yanyan(Faculty of Intelligent Manufacturing,Wuyi University,Jiangmen 529020,China;Institute of Advanced Computing and Digital Engineering,Shenzhen Institute of Advanced Technology,Chinese Academy of Sciences,Shenzhen 518055,China)

机构地区五邑大学智能制造学部中国科学院深圳先进技术研究院先进计算与数字工程研究所

出处《集成技术》 2023年第2期53-63,共11页 Journal of Integration Technology

基金国家重点研发计划项目(2019YFB1405200) 广东省2019年省拨高建“冲补强”专项项目(5041700175) 教育部第二批新工科研究与实践项目(E-RGZN20201036)。

关键词文本匹配 Sentence-BERT 多头注意力对齐机制 text matching Sentence-BERT Multiple attention alignment mechanisms

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1余传明,薛浩东,江一帆.基于深度交互的文本匹配模型研究[J].情报学报,2021,40(10):1015-1026. 被引量：3
2曹帅.基于深度学习的文本匹配研究综述[J].现代计算机,2021,27(16):74-78. 被引量：6
3周烨恒,石嘉晗,徐睿峰.结合预训练模型和语言知识库的文本匹配方法[J].中文信息学报,2020,34(2):63-72. 被引量：10
4唐晓波,刘亚岚.基于Sentence-BERT语义表示的咨询问题提示列表自动构建方法研究——以糖尿病咨询为例[J].现代情报,2021,41(8):3-15. 被引量：14
5张小川,戴旭尧,刘璐,冯天硕.融合多头自注意力机制的中文短文本分类模型[J].计算机应用,2020,40(12):3485-3489. 被引量：18
6魏垂沛,李海华,朱红杰.基于语义的招标文件示范文本智能更新研究[J].招标采购管理,2021(2):23-27. 被引量：1
7黄静,陈新府豪.一种简化门控结构的增强序列文本语义匹配模型研究[J].软件工程,2022,25(1):50-55. 被引量：1
8罗鹏程,王继民,王世奇,郭鑫,高正,赵常煜.基于深度学习的科学数据集检索方法研究[J].情报理论与实践,2022,45(7):49-56. 被引量：12
9周献杭,申妍燕.基于多粒度语义交互的无监督法律裁判文书检索[J].集成技术,2022,11(2):55-66. 被引量：1
10吕乐宾,刘群,彭露,邓维斌,王崇宇.结合多粒度信息的文本匹配融合模型[J].计算机科学,2021,48(6):196-201. 被引量：3

二级参考文献35

1倪维健,郭浩宇,刘彤,曾庆田.基于多头自注意力神经网络的购物篮推荐方法[J].数据分析与知识发现,2020,4(2):68-77. 被引量：7
2黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：21
3张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
4郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258. 被引量：101
5李丽亚,宋扬,薛中玉,李春梅.基于Ontology的科学数据共享检索体系解析[J].情报理论与实践,2009,32(5):81-85. 被引量：10
6林莉媛,王中卿,李寿山,周国栋.基于PageRank的中文多文档文本情感摘要[J].中文信息学报,2014,28(2):85-90. 被引量：19
7金碧漪,许鑫.社会化问答社区中糖尿病健康信息的需求分析[J].中华医学图书情报杂志,2014,23(12):37-42. 被引量：36
8王寒茹,张仰森.文本相似度计算研究进展综述[J].北京信息科技大学学报（自然科学版）,2019,34(1):68-74. 被引量：11
9张超,陈利,李琼.一种PST_LDA中文文本相似度计算方法[J].计算机应用研究,2016,33(2):375-377. 被引量：18
10刘征宏,谢庆生,李少波,林丽.基于潜在语义分析和感性工学的用户需求匹配[J].浙江大学学报（工学版）,2016,50(2):224-233. 被引量：29

共引文献59

1王佳睿,彭程,范敏.面向长文本的两阶段文本匹配模型TP-TM[J].计算机应用,2023,43(S01):33-38.
2齐佳琪,迟呈英,战学刚.基于ERNIE-DPCNN的短文本分类研究[J].电脑编程技巧与维护,2021(4):26-27. 被引量：1
3ZHAO Yuanyuan,GAO Shining,LIU Yang,GONG Xiaohui.Long Text Classification Algorithm Using a Hybrid Model of Bidirectional Encoder Representation from Transformers-Hierarchical Attention Networks-Dilated Convolutions Network[J].Journal of Donghua University(English Edition),2021,38(4):341-350. 被引量：1
4谭天,司峥鸣.基于深度学习的网络语言规范智能把关模式[J].青年记者,2021(15):19-21. 被引量：2
5李超凡,陈羽中.一种用于答案选择的知识增强混合神经网络[J].小型微型计算机系统,2021,42(10):2065-2073. 被引量：2
6刘硕,王庚润,任玉媛.基于LOTClass模型的弱监督中文短文本分类算法[J].信息工程大学学报,2021,22(5):613-620.
7和志强,王梦雪,马宁,陈萌.短文本聚类方法研究综述[J].河北省科学院学报,2021,38(5):34-40. 被引量：3
8罗孝波,林佳瑜,梁祖红,王漳.针对低频词进行改进的中文短文本分类方法[J].计算机应用研究,2022,39(2):468-473. 被引量：3
9周晴,吴琼英.问题提示列表应用于医患沟通的研究进展[J].全科护理,2022,20(7):902-905. 被引量：1
10蒙懿,徐庆娟.基于CNN-BiLSTM和注意力机制的股票预测[J].南宁师范大学学报（自然科学版）,2021,38(4):70-77. 被引量：6

同被引文献18

1陈文亮,朱靖波,朱慕华,姚天顺.基于领域词典的文本特征表示[J].计算机研究与发展,2005,42(12):2155-2160. 被引量：22
2胡泽文,王效岳,白如江.国内外文本分类研究计量分析与综述[J].图书情报工作,2011,55(6):78-81. 被引量：17
3黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：221
4庞亮,兰艳艳,徐君,郭嘉丰,万圣贤,程学旗.深度文本匹配综述[J].计算机学报,2017,40(4):985-1003. 被引量：65
5俞婷婷,徐彭娜,江育娥,林劼.基于改进的Jaccard系数文档相似度计算方法[J].计算机系统应用,2017,26(12):137-142. 被引量：31
6高源.自然语言处理发展与应用概述[J].中国新通信,2019,21(2):117-118. 被引量：8
7赵京胜,宋梦雪,高祥.自然语言处理发展及应用综述[J].信息技术与信息化,2019(7):142-145. 被引量：77
8赵芸,刘德喜,万常选,刘喜平,廖国琼.检索式自动问答研究综述[J].计算机学报,2021,44(6):1214-1232. 被引量：15
9石晨,张宇,胡博.基于共同语境的近义词/同义词短语查找模型[J].计算机工程与应用,2021,57(14):142-147. 被引量：1
10周知,李名子,崔旭.基于领域情感词典的用户生成内容有用性评价研究——以豆瓣读书为例[J].情报理论与实践,2022,45(1):86-92. 被引量：13

引证文献2

1朱欣娟,牛婷婷.融合领域词典的文旅客服问句匹配模型[J].西安工程大学学报,2024,38(3):92-99.
2王瑞杰,王倩,王军,袁葆,玄鑫,郑倩.基于特征和语义的电网设备技术标准差异分析方法研究[J].标准科学,2024(S01):81-85.

1Make a Sentence[J].小学生时代（大嘴英语）,2023(3):11-11.
2侯旭刚.已知最冷的天体——海卫一[J].疯狂英语（新策略）,2023(2):40-42.
3许乃上,徐丹丹,王宇航.语言训练对儿童孤独症的康复治疗有效性研究[J].中文科技期刊数据库（文摘版）医药卫生,2021(4):422-423.
4梅云华,李兰平,李璐娟,牛国景,李娟.儿童孤独症家庭干预应用效果分析[J].中文科技期刊数据库（全文版）医药卫生,2022(5):88-91.
5杜影,程云仙.康复护理干预在自闭症儿童社会交往障碍治疗中的应用效果及影响[J].中文科技期刊数据库（全文版）医药卫生,2021(10):203-204.
6郝慧斌.基于SimCSE的疾病知识图谱问答系统[J].电脑与信息技术,2023,31(2):97-100. 被引量：1
7张菊.听觉统合训练联合家庭康复训练对孤独症患儿ASD行为及智力水平的影响[J].中文科技期刊数据库（全文版）医药卫生,2021(12):262-264.
8杜少凡.句子写作集中教学的探索——管窥美国“超级句子”写作教学法[J].小学语文教师,2023(2):79-82.
9黄耀珍.早期家庭护理干预在儿童孤独症患儿中的应用效果分析[J].中文科技期刊数据库（全文版）医药卫生,2021(4):202-202.
10Dmitrii Nabok,Stefan Blügel,Christoph Friedrich.Publisher Correction: Electron–plasmon and electron–magnon scattering in ferromagnets from first principles by combining GW and GT self-energies[J].npj Computational Materials,2022(1):716-716.

集成技术

2023年第2期

浏览历史

内容加载中请稍等...

一种基于孪生网络预训练语言模型的文本匹配方法研究被引量：2

参考文献10

二级参考文献35

共引文献59

同被引文献18

引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于孪生网络预训练语言模型的文本匹配方法研究 被引量：2

参考文献10

二级参考文献35

共引文献59

同被引文献18

引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于孪生网络预训练语言模型的文本匹配方法研究被引量：2