结合自监督学习的多任务文本语义匹配方法被引量：4

Multi-task Semantic Matching with Self-supervised Learning

下载PDF

导出

摘要基于文本交互信息对文本语义匹配模型的重要性,提出一种结合序列生成任务的自监督学习方法。该方法利用自监督模型提取的文本数据对的交互信息,以特征增强的方式辅助基于神经网络的语义匹配模型,构建多任务的文本匹配模型。9个模型的实验结果表明,加入自监督学习模块后,原始模型的效果都有不同程度的提升,表明所提方法可以有效地改进深度文本语义匹配模型。 In semantic matching,the interaction information between pairs of texts is critical in predicting a matching score for the pairs.This paper proposes a multi-task learning framework with self-supervised learning for deep learning semantic matching problem.Specifically,a self-supervised model is designed for the paired sentences to regenerate each other with sequence-to-sequence generation method.Then a multi-task learning framework integrates the representation from the self-supervised generation with that of the deep matching model to predict the similarity score of the texts.Experimentations with 9 deep matching models prove that the proposed framework can improve the performances of the traditional deep matching models.

作者陈源丘心颖 CHEN Yuan;QIU Xinying(School of Information Science and Technology,Guangdong University of Foreign Studies,Guangzhou 510006;Guangzhou Key Laboratory of Multilingual Intelligent Processing,Guangdong University of Foreign Studies,Guangzhou 510006)

机构地区广东外语外贸大学信息科学与技术学院广州市非通用语种智能处理实验室

出处《北京大学学报（自然科学版）》 EI CAS CSCD 北大核心 2022年第1期83-90,共8页 Acta Scientiarum Naturalium Universitatis Pekinensis

基金国家社会科学基金(17BGL068) 广东省自然科学基金(2018A030313777)资助。

关键词自监督学习文本语义匹配多任务学习 self-supervised learning semantic matching multi-task learning

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1陈二静,姜恩波.文本相似度计算方法研究综述[J].数据分析与知识发现,2017,1(6):1-11. 被引量：77

二级参考文献28

1秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
2郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258. 被引量：101
3孙海霞,钱庆,成颖.基于本体的语义相似度计算方法研究综述[J].现代图书情报技术,2010(1):51-56. 被引量：61
4魏韡,向阳,陈千.计算术语间语义相似度的混合方法[J].计算机应用,2010,30(6):1668-1670. 被引量：7
5葛斌,李芳芳,郭丝路,汤大权.基于知网的词汇语义相似度计算方法研究[J].计算机应用研究,2010,27(9):3329-3333. 被引量：66
6田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报（信息科学版）,2010,28(6):602-608. 被引量：178
7盛志超,陶晓鹏.基于维基百科的语义相似度计算方法[J].计算机工程,2011,37(7):193-195. 被引量：15
8边振兴.WordNet中概念语义相似度IC参数模型研究[J].计算机工程与应用,2011,47(19):128-131. 被引量：8
9王艳娜,周子力,何艳.WordNet中基于IC的概念语义相似度算法[J].计算机工程,2011,37(22):42-44. 被引量：5
10李文清,孙新,张常有,冯烨.一种本体概念的语义相似度计算方法[J].自动化学报,2012,38(2):229-235. 被引量：46

共引文献76

1李飞跃,宋佳霏.基于文本相似度分析的《红楼梦》化用唐诗研究[J].中外文化与文论,2024(2):213-228.
2龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：8
3吴汉东,李安.网络版权治理的算法技术与算法规则[J].网络法律评论,2020,20(1):78-101. 被引量：8
4谢红.基于词频比的改进Jaccard系数文本相似度计算[J].内江科技,2021,42(8):27-28. 被引量：9
5裴培,丁雪晶.基于本体的语义相似度计算综述[J].合肥学院学报（综合版）,2020(5):68-74. 被引量：3
6廖振.利用相似度分析方法缩短变电站端子箱、机构箱内驱潮装置故障排查时间[J].电气开关,2020,0(1):81-85.
7康锋,张会巍.论文查重的技术原理、局限及其合理应用[J].编辑学报,2023,35(3):288-294. 被引量：4
8黄梦龙.基于分词的天地图福建多源POI重复检测方法[J].地理空间信息,2018,16(2):51-53. 被引量：2
9李琳,李辉.一种基于概念向量空间的文本相似度计算方法[J].数据分析与知识发现,2018,2(5):48-58. 被引量：22
10王峰,林丽珊,刘毅.基于群组平台知识圈的精准信息推荐[J].现代情报,2018,38(7):74-80. 被引量：2

同被引文献33

1才智杰,才让卓玛,孙茂松.一种多基元联合训练的藏文词向量表示方法[J].中文信息学报,2020(5):44-49. 被引量：4
2庞亮,兰艳艳,徐君,郭嘉丰,万圣贤,程学旗.深度文本匹配综述[J].计算机学报,2017,40(4):985-1003. 被引量：65
3曹兆龙,杨松威.文献检索系统的基础架构设计与实现[J].电子技术与软件工程,2019,0(18):39-41. 被引量：2
4段炼.面向重大活动的网络安全保障体系研究与实践[J].网络空间安全,2020,11(1):45-49. 被引量：1
5周烨恒,石嘉晗,徐睿峰.结合预训练模型和语言知识库的文本匹配方法[J].中文信息学报,2020,34(2):63-72. 被引量：10
6吴云.大数据分析技术的图书馆信息检索系统设计与研究[J].现代电子技术,2020,43(19):167-170. 被引量：21
7王筱纶,赵宇翔,王曰芬.倾向得分匹配法:促进数据科学视角下情报学研究的因果推断[J].情报学报,2020,39(11):1191-1203. 被引量：14
8李锐,彭明洋,顾衍璋.数字化转型下的南方电网供电可靠性发展策略[J].供用电,2021,38(3):38-44. 被引量：15
9路璐,孟妮娜.不同比例尺居民地数据的多因子加权匹配方法[J].甘肃科学学报,2021,33(2):33-37. 被引量：5
10王乃钰,叶育鑫,刘露,凤丽洲,包铁,彭涛.基于深度学习的语言模型研究进展[J].软件学报,2021,32(4):1082-1115. 被引量：48

引证文献4

1徐欢,王尧,萧展辉,沈宇红.基于知识迁移和蒸馏的轻量级领域信息表示模型研究[J].电力大数据,2022,25(9):37-44.
2杨进,朱云飞,陈晨,阿永强.基于TMS-BERT的藏文多粒度语义匹配模型研究[J].高原科学研究,2023,7(2):84-92. 被引量：2
3庞泰,翁巍,孟灿,赵蕾,牛红伟.基于特征挖掘的企业融资信息资源数据智能匹配方法[J].信息技术与信息化,2024(3):157-161.
4陈岳林,高铸成,蔡晓东.基于BERT与密集复合网络的长文本语义匹配模型[J].吉林大学学报（工学版）,2024,54(1):232-239. 被引量：1

二级引证文献3

1于博帆,严嘉兴.基于BERT的煤矿事故风险LEC评价与优化研究[J].现代矿业,2024,40(1):217-221. 被引量：1
2徐世阳.基于双向长短记忆网络融合模型的招标文件解析技术研究[J].电力大数据,2024,27(4):80-94.
3严李强,吴瑜,拉巴顿珠,梁炜恒.基于LaBSE的藏文信息检索模型研究[J].高原科学研究,2024,8(3):110-116.

1刘东杰.基于三种机器学习算法的面向对象土地覆被分类[J].科学技术创新,2022(1):57-60. 被引量：1

北京大学学报（自然科学版）

2022年第1期

浏览历史

内容加载中请稍等...

结合自监督学习的多任务文本语义匹配方法被引量：4

参考文献1

二级参考文献28

共引文献76

同被引文献33

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

结合自监督学习的多任务文本语义匹配方法 被引量：4

参考文献1

二级参考文献28

共引文献76

同被引文献33

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

结合自监督学习的多任务文本语义匹配方法被引量：4