-
题名基于最优传输的密集增强文档检索研究
- 1
-
-
作者
刘军平
唐佳伟
朱强
彭涛
胡新荣
-
机构
纺织服装智能化湖北省工程研究中心
湖北省服装信息化工程技术研究中心
武汉纺织大学计算机与人工智能学院
-
出处
《长江信息通信》
2023年第9期142-145,共4页
-
基金
研究生智慧教育网络学习空间及智能服务研究(2022GA046)。
-
文摘
密集文档检索模型需要大量标记训练数据才能获得良好的性能。然而,基于Mixup的数据增强方式虽然在一定程度上解决了密集文档检索模型标记训练数据的问题,但是这种数据增强方式破坏了文本结构,无法保证合成样本语义信息的一致性且大量生成的同类型训练数据容易导致模型过拟合。针对以上问题,文章提出了一种基于最优传输密集增强文档检索模型OTDAR。该模型首先利用Mixup数据增强方式获得带有软标签的新文档;然后,利用最优传输OT(Optimal Transport)中GWD(Gromov Wasserstein distance)距离的损失函数剔除掉不相关的混合样本;最后,利用最优传输中WD(Wasserstein distance)距离取代余弦距离,更准确计算查询和目标文档之间的相关性,同时使得模型更具可解释性。在Natural Questions和TriviaQA数据集上的实验表明,该方法在检索阶段T-1的准确率相比于最优的基准方法分别提高了4.59%和7.92%。
-
关键词
密集文档检索
Mixup
数据增强
过拟合
最优传输
-
Keywords
Dense Doucment Retrieval
Mixup
Data Enhancement
Overfitting
Optimal Transport
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-