摘要
机器阅读理解旨在训练模型使其拥有理解自然语言并回答问题的能力,以便于以较低的人力解决现实世界中的问题。该文提出了一种面向特定领域(餐饮行业)的中文阅读理解数据集——Restaurant(Res)。该数据集的初始数据来自大众点评应用程序,以餐饮行业的用户评论为初始文本,标注者在此基础上提出问题并给出答案。目前Res数据集有两个版本,Res_v1中所有问题的答案都可以在用户评论中找到,Res_v2在Res_v1的基础上增加评论中没有答案的问题,进一步契合现实场景。该文在此数据集上应用主流的BiDAF、QANet和Bert模型进行实验,实验结果显示该数据集上最高的准确率只有73.78%,相比于人类接近91.03%的正确率仍有较大差距。
This paper proposes a Chinese reading comprehension dataset-Restaurant(Res)for a specific field(catering industry).The data are collected from the Dianping application,with user reviews in the catering industry.The annotators provide questions and annotate the answers according to the date.There are currently two versions of the Res dataset:Res_v1 contains only questions with answers in user comments,and Res_v2 includes additional questions without answers in the comments.We apply the mainstream BiDAF,QANet and Bert models in the dataset,achieving as high as 73.78%accuracy.lagging far behind human performance of 91.03%.
作者
孙越凡
杨亮
林原
许侃
林鸿飞
SUN Yuefan;YANG Liang;LIN Yuan;XU Kan;LIN Hongfei(Information Retrieval Laboratory,Dalian University of Technology,Liaoning,Dalian 116000,China)
出处
《中文信息学报》
CSCD
北大核心
2022年第12期44-51,共8页
Journal of Chinese Information Processing
基金
国家自然科学基金(61702080,61806038,61632011,61772103)。
关键词
机器阅读理解
自由问答
自然语言处理
machine reading comprehension
free question and answer
natural language processing