-
题名基于查询语义特性的稠密文本检索模型
- 1
-
-
作者
赵铁柱
林伦凯
杨秋鸿
-
机构
东莞理工学院计算机科学与技术学院
东莞城市学院人工智能学院
-
出处
《计算机应用研究》
CSCD
北大核心
2024年第5期1388-1393,共6页
-
基金
广东省普通高校重点领域专项资助项目(2021ZDZX3007)
东莞市社会发展科技资助项目(20231800936732)
东莞城市学院青年教师发展基金资助项目(2022QJY005Z)。
-
文摘
针对现有稠密文本检索模型(dense passage retrieval,DPR)存在的负采样效率低、易产生过拟合等问题,提出了一种基于查询语义特性的稠密文本检索模型(Q-DPR)。首先,针对模型的负采样过程,提出了一种基于近邻查询的负采样方法。该方法通过检索近邻查询,快速地构建高质量的负相关样本,以降低模型的训练成本。其次,针对模型易产生过拟合的问题,提出了一种基于对比学习的查询自监督方法。该方法通过建立查询间的自监督对比损失,缓解模型对训练标签的过拟合,从而提升模型的检索准确性。Q-DPR在面向开放领域问答的大型数据集MSMARCO上表现优异,取得了0.348的平均倒数排名以及0.975的召回率。实验结果证明,该模型成功地降低了训练的开销,同时也提升了检索的性能。
-
关键词
查询
稠密文本检索
近邻
对比学习
自监督
-
Keywords
query
dense passage retrieval
neighbor
contrastive learning
self-supervised
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-