融合多角度特征的文本匹配模型被引量：1

Text Matching Model Incorporating Multi-angle Features

下载PDF

导出

摘要文本匹配是自然语言处理的一个核心研究领域,深度文本匹配模型大致可以分为表示型和交互型两种类型,表示型模型容易失去语义焦点难以衡量词上下文重要性,交互型模型缺少句型、句间等全局性信息.针对以上问题提出一种融合多角度特征的文本匹配模型,该模型以孪生网络为基本架构,利用BERT模型生成词向量进行词相似度融合加强语义特征,利用Bi-LSTM对文本的句型结构特征进行编码,即融合文本词性序列的句型结构信息,使用Transformer编码器对文本句型结构特征和文本特征进行多层次交互,最后拼接向量推理计算出两个文本之间的相似度.在Quora部分数据集上的实验表明,本模型相比于经典深度匹配模型有更好的表现. Text matching is a core research area in natural language processing.Deep text matching models can be broadly classified into representational models and interactive models.The former tends to lose semantic focus and fails to measure the contextual importance of words.The latter lacks global information such as sentence type and intersentence information.To address these problems,we propose a text matching model incorporating multi-angle features based on Siamese neural network.The model generates word vectors using the BERT model and enhances semantic features by the similarity fusion of words.It then encodes the syntactic structured features using Bi-LSTM,namely the syntactic structured information containing the lexical sequence.A Transformer encoder is utilized to realize the multilevel interaction between the syntactic structured features and the text features.Finally,the similarity is deduced by spliced vectors.Experiments on part of Quora question pair show that this model performs better than the classical deep matching model.

作者李广刘新马中昊黄浩钰张远明 LI Guang;LIU Xin;MA Zhong-Hao;HUANG Hao-Yu;ZHANG Yuan-Ming(School of Computer Science&School of Cyberspace Security,Xiangtan University,Xiangtan 411105,China)

机构地区湘潭大学计算机学院·网络空间安全学院

出处《计算机系统应用》 2022年第7期158-164,共7页 Computer Systems & Applications

基金智能化公共法律服务关键技术湖南省重点研发项目(2022SK2106)。

关键词文本匹配句型结构 Transformer框架孪生网络 Bi-LSTM 特征融合注意力机制自然语言处理 text matching sentence structure Transformer framework Siamese neural network Bi-LSTM feature fusion attention mechanism natural language processing(NLP)

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：216
2张小川,余林峰,张宜浩.基于LDA的多特征融合的短文本相似度计算[J].计算机科学,2018,45(9):266-270. 被引量：8

二级参考文献26

1Fung B C M,Wang K,Ester M.Hierarchical document clustering//Wang John ed.The Encyclopedia of Data Warehousing and Mining,idea Group.2005:970-975.
2Salton G.The SMART Retrieval System-Experiments in Automatic Document Processing.Englewood Cliffs,New Jersey:Prentice Hall Inc,1971.
3Wang Y,Julia H.Document clustering with semantic analysis//Proceedings of the 39th Hawaii International Conferences on System Sciences.Hawaii,US,2006:54-63.
4Hotho A,Staab S,Stumme G.Wordnet improves text document clustering//Proceedings of the Semantic Web Workshop at SIGIR-2003,26th Annual International ACM SIGIR Conference.Toronto,Canada,2003:541-550.
5Hall P,Dowling G.Approximate string matching.Computing Survey,1980,12(4):381-402.
6Coelho T,Calado P,Souza L,Ribeiro-Neto B,Muntz R.Image retrieval using multiple evidence ranking.IEEETransactions on Knowledge and Data Engineering,2004,16(4):408-417.
7Ko Y,Park J,Seo J.Improving text categorization using the importance of sentences.lnformation Processing and Management,2004,40(1):65-79.
8Erkan G,Radev D.Lexrank:Graph-based lexical centrality as salience in text summarization.Journal of Artificial Intelligence Research,2004,22(7):457-479.
9Theobald M,Siddharth J,Paepcke A.SpotSigs:Robust and efficient near duplicate detection in large Web collections//Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Singapore,2008:563-570.
10Han J,Kamber M.Data Mining:Concept and Techniques.2nd Edition.San Francisco,CA,USA:Elsevier Inc,2006.

共引文献220

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：12
2杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
3赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
4孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3
5王鹏,郑贵省,郭强,贾蓓.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90. 被引量：1
6高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
7王景田,杨赴云,张月英.单胺氧化酶抑制剂及其相互作用[J].中国药学杂志,2000,35(5):351-353. 被引量：16
8皮靖,邵雄凯,肖雅夫.基于朴素贝叶斯算法的主题爬虫的研究[J].计算机与数字工程,2012,40(6):76-78. 被引量：6
9周亦鹏,杜军平.基于时空情境模型的主题跟踪[J].华南理工大学学报（自然科学版）,2012,40(8):82-87. 被引量：1
10杨传慧,吉根林,章志刚.AP算法在图像聚类中的应用研究[J].计算机与数字工程,2012,40(10):119-121. 被引量：6

同被引文献12

1陈文亮,朱靖波,朱慕华,姚天顺.基于领域词典的文本特征表示[J].计算机研究与发展,2005,42(12):2155-2160. 被引量：22
2黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：216
3庞亮,兰艳艳,徐君,郭嘉丰,万圣贤,程学旗.深度文本匹配综述[J].计算机学报,2017,40(4):985-1003. 被引量：65
4赵芸,刘德喜,万常选,刘喜平,廖国琼.检索式自动问答研究综述[J].计算机学报,2021,44(6):1214-1232. 被引量：14
5石晨,张宇,胡博.基于共同语境的近义词/同义词短语查找模型[J].计算机工程与应用,2021,57(14):142-147. 被引量：1
6周知,李名子,崔旭.基于领域情感词典的用户生成内容有用性评价研究——以豆瓣读书为例[J].情报理论与实践,2022,45(1):86-92. 被引量：11
7蒋延杰,李云红,苏雪平,张蕾涛,贾凯莉,陈锦妮.基于特征权重的词向量文本表示模型[J].西安工程大学学报,2022,36(1):108-114. 被引量：5
8孟金旭,单鸿涛,万俊杰,贾仁祥.BSLA:改进Siamese-LSTM的文本相似模型[J].计算机工程与应用,2022,58(23):178-185. 被引量：2
9卢美情,申妍燕.一种基于孪生网络预训练语言模型的文本匹配方法研究[J].集成技术,2023,12(2):53-63. 被引量：1
10刘权,余正涛,何世柱,刘康,高盛祥.融入法律知识的问句匹配[J].软件学报,2023,34(4):1824-1836. 被引量：1

引证文献1

1朱欣娟,牛婷婷.融合领域词典的文旅客服问句匹配模型[J].西安工程大学学报,2024,38(3):92-99.

1梁小红.数智时代信息技术赋能家校共育[J].中小学信息技术教育,2022(5):37-39. 被引量：1
2王杉,徐楚怡,师春香,张瑛.基于CNN-LSTM的卫星云图云分类方法研究[J].计算机科学,2022,49(S01):675-679. 被引量：2
3武迎晗,杨军.从“出”的音变历程看今本《经典释文》的改撰情况[J].古汉语研究,2022(2):39-48.
4李怡林.枣庄方言主观极性程度量构式“X得不撑”研究[J].枣庄学院学报,2021,38(4):119-124.
5宋培,黎剑,陈龙.“党建+”模式引领农商银行高质量发展路径研究[J].韶关学院学报,2022,43(7):93-97. 被引量：3
6林燕娟.幼儿园音乐活动游戏化有效教学的策略研究[J].课程教育研究,2022(6):151-153.
7陈珊,闻永毅.《黄帝内经·素问》中“刺”的语义内涵研究[J].河南中医,2021,41(10):1465-1468.
8潘云磊.基于改进蚁群算法的行人运动特征跟踪提取方法[J].河北北方学院学报（自然科学版）,2022,38(7):1-6.
9赵小棠.北京市中小学冬奥冰雪运动数据库建设研究[J].体育教学,2022,42(6):23-24.
10本刊编辑部(整理).党建+强基,为高质量办学治校赋能助力[J].平安校园,2022(4):31-32.

计算机系统应用

2022年第7期

浏览历史

内容加载中请稍等...

融合多角度特征的文本匹配模型被引量：1

参考文献2

二级参考文献26

共引文献220

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

融合多角度特征的文本匹配模型 被引量：1

参考文献2

二级参考文献26

共引文献220

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

融合多角度特征的文本匹配模型被引量：1