-
题名基于渐进机器学习的中文问句匹配方法
- 1
-
-
作者
贺学剑
陈安琪
郭志强
王致茹
陈群
-
机构
河南林业职业学院
西北工业大学软件学院
西北工业大学计算机学院
-
出处
《工程科学学报》
EI
北大核心
2025年第1期79-90,共12页
-
基金
国家自然科学基金面上资助项目(62172335)。
-
文摘
问句匹配旨在判断不同问句的意图是否相近.近年来,随着大型预训练语言模型的发展,利用其挖掘问句对在语义层面隐含的匹配信息,取得了目前为止最好的性能.然而,由于基于独立同分布假设,在真实场景中,这些深度学习模型的性能仍然受制于训练数据的充足程度和目标数据与训练数据之间的分布漂移.本文提出一种基于渐进机器学习的中文问句匹配方法.该方法基于渐进机器学习框架,从不同角度提取问句特征,构建融合各类特征信息的因子图,然后通过迭代的因子推理实现从易到难的渐进学习.在特征建模中,设计并实现了两种类型特征的提取:(1)基于TF-IDF(Term frequency-inverse document frequency)的关键词特征;(2)基于DNN(Deep neural network)的深度语义特征.最后,通过通用的基准中文数据集LCQMC和BQ corpus验证了所提方法的有效性.实验表明,相比于单纯的深度学习模型,基于渐进机器学习的方法可以有效提升问句匹配的准确率,且其性能优势随着标签训练数据的减少而增大.
-
关键词
自然语言理解
中文问句匹配
渐进机器学习
自然语言预训练模型
因子图推理
-
Keywords
natural language understanding
chinese question matching
gradual machine learning
natural language pretraining model
factor graph inference
-
分类号
TG319
[金属学及工艺—金属压力加工]
-