摘要
随着互联网的兴起和发展,数据规模急速增长,如何利用机器阅读理解技术对海量的非结构化数据进行解析,从而帮助用户快速、准确地查找到满意答案,是目前自然语言理解领域中的一个热门课题。该文通过对机器阅读理解中的深度神经网络模型进行研究,构建了RBiDAF模型。首先,通过对DuReader数据集进行数据探索,并对数据进行预处理,从中提取出有利于模型训练的特征。其次在BiDAF模型的基础上提出了基于多文档重排序的RBiDAF机器阅读理解模型,该模型在BiDAF模型四层网络框架的基础上添加了ParaRanking层。其中在ParaRanking层,该文提出了多特征融合的ParaRanking算法,此外在答案预测层,提出了基于先验知识的多答案交叉验证算法,进而对答案进行综合预测。在"2018机器阅读理解技术竞赛"的最终评测中,该模型表现出了不错的效果。
Exploiting the deep neural network model in machine reading comprehension,this paper presents the RBiDAF model.Firstly,by the data exploration to the DuReader dataset and the preprocessing of the data,the features beneficial to model are extracted.Then,based on the BiDAF model,a machine reading comprehension model for multi-document reranking is proposed,named RBiDAF.This model adds a paragraph-ranking-layer to the fourlayer standard BiDAF model,in which we design the ParaRanking algorithm with multi-feature fusion.Additionally,in order to predict a comprehensive answer,we propose the multi-answer cross validation algorithm based on prior knowledge.Finally,the RBiDAF model has shown good results in the 2018 NLP Challenge on Machine Reading Comprehension
作者
杨志明
时迎成
王泳
潘昊杰
毛金涛
YANG Zhiming;SHI Yingcheng;WANG Yong;PAN Haojie;MAO Jintao(Institute of Software,Chinese Academy of Sciences,Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100049,China;DeepWise on Artificial Intelligence Robot Technology (Beijing)Co.Ltd,Bcijing 100085,China)
出处
《中文信息学报》
CSCD
北大核心
2018年第11期117-127,共11页
Journal of Chinese Information Processing
基金
国家自然科学基金(61303155)
中国科学院2017年度大学生创新实践项目基金(118900FA12)