-
题名通过多文档精排与融合的开放域问答任务增强实现
- 1
-
-
作者
李博
朱天佑
刘俊健
吕宏伟
陈振宇
-
机构
国家电网有限公司大数据中心
-
出处
《软件导刊》
2024年第9期82-89,共8页
-
基金
国家电网有限公司大数据中心自建科技项目(SGSJ0000YFJS2200047)。
-
文摘
开放域问答(OpenQA)是自然语言处理中的一项具有挑战性的任务,传统的机器学习和深度学习技术通常用于从原始语料库中检索与问题相关的候选文档片段以进行答案提取。然而,当前方法检索的候选文档片段往往包含大量的噪声以及与问题无关的信息,并且主流的OpenQA模型在准确响应需要多个文档片段作为相关证据的问题方面存在不足。鉴于此,提出通过多文档精排与融合增强开放域问答的方法(RFMD),该方法在检索阶段设计了基于Transformer的文档精排模块,以减少候选文档中的噪声信息;在阅读理解阶段,RFMD采用以文本生成为中心的问答模块,通过构建跨文档片段的全局注意力机制,整合多个相关文档片段的信息,准确回答需要多个文档片段作为支持证据的问题。RFMD在NaturalQuestions和TriviaQA数据集上的EM得分分别达到45.8%和63.4%,验证了该模型在OpenQA任务中的有效性和优越性。
-
关键词
开放域问答
预训练模型
生成模型
相似度分数
Prompt设计
-
Keywords
open-domain question answering
pre-training model
generative model
similarity score
Prompt design
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-