期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于最优传输的密集增强文档检索研究
1
作者 刘军平 唐佳伟 +2 位作者 朱强 彭涛 胡新荣 《长江信息通信》 2023年第9期142-145,共4页
密集文档检索模型需要大量标记训练数据才能获得良好的性能。然而,基于Mixup的数据增强方式虽然在一定程度上解决了密集文档检索模型标记训练数据的问题,但是这种数据增强方式破坏了文本结构,无法保证合成样本语义信息的一致性且大量生... 密集文档检索模型需要大量标记训练数据才能获得良好的性能。然而,基于Mixup的数据增强方式虽然在一定程度上解决了密集文档检索模型标记训练数据的问题,但是这种数据增强方式破坏了文本结构,无法保证合成样本语义信息的一致性且大量生成的同类型训练数据容易导致模型过拟合。针对以上问题,文章提出了一种基于最优传输密集增强文档检索模型OTDAR。该模型首先利用Mixup数据增强方式获得带有软标签的新文档;然后,利用最优传输OT(Optimal Transport)中GWD(Gromov Wasserstein distance)距离的损失函数剔除掉不相关的混合样本;最后,利用最优传输中WD(Wasserstein distance)距离取代余弦距离,更准确计算查询和目标文档之间的相关性,同时使得模型更具可解释性。在Natural Questions和TriviaQA数据集上的实验表明,该方法在检索阶段T-1的准确率相比于最优的基准方法分别提高了4.59%和7.92%。 展开更多
关键词 密集文档检索 Mixup 数据增强 过拟合 最优传输
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部