面向特定领域中文阅读理解数据集研究

A Domain Specific Chinese Reading Comprehension Data Set

下载PDF

导出

摘要机器阅读理解旨在训练模型使其拥有理解自然语言并回答问题的能力,以便于以较低的人力解决现实世界中的问题。该文提出了一种面向特定领域(餐饮行业)的中文阅读理解数据集——Restaurant(Res)。该数据集的初始数据来自大众点评应用程序,以餐饮行业的用户评论为初始文本,标注者在此基础上提出问题并给出答案。目前Res数据集有两个版本,Res_v1中所有问题的答案都可以在用户评论中找到,Res_v2在Res_v1的基础上增加评论中没有答案的问题,进一步契合现实场景。该文在此数据集上应用主流的BiDAF、QANet和Bert模型进行实验,实验结果显示该数据集上最高的准确率只有73.78%,相比于人类接近91.03%的正确率仍有较大差距。 This paper proposes a Chinese reading comprehension dataset-Restaurant(Res)for a specific field(catering industry).The data are collected from the Dianping application,with user reviews in the catering industry.The annotators provide questions and annotate the answers according to the date.There are currently two versions of the Res dataset:Res_v1 contains only questions with answers in user comments,and Res_v2 includes additional questions without answers in the comments.We apply the mainstream BiDAF,QANet and Bert models in the dataset,achieving as high as 73.78%accuracy.lagging far behind human performance of 91.03%.

作者孙越凡杨亮林原许侃林鸿飞 SUN Yuefan;YANG Liang;LIN Yuan;XU Kan;LIN Hongfei(Information Retrieval Laboratory,Dalian University of Technology,Liaoning,Dalian 116000,China)

机构地区大连理工大学信息检索研究室

出处《中文信息学报》 CSCD 北大核心 2022年第12期44-51,共8页 Journal of Chinese Information Processing

基金国家自然科学基金(61702080,61806038,61632011,61772103)。

关键词机器阅读理解自由问答自然语言处理 machine reading comprehension free question and answer natural language processing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

1徐飞,张冬梅.《义务教育英语课程标准(2022年版)》的传承与创新发展[J].中小学外语教学,2022,45(23):1-6. 被引量：2
2刘伟,李秀霞.基于Word2vec与K-means的高校图书馆在线评论主题分析[J].图书馆学刊,2022,44(10):88-94.
3李树臣.准确把握课程内容变化全面落实核心素养教育——两个版本课标中初中学段课程内容比较研究[J].中学数学杂志,2022(10):5-10.
4曾碧卿,徐马一,杨健豪,裴枫华,甘子邦,丁美荣,程良伦.基于双通道语义差网络的方面级别情感分类[J].中文信息学报,2022,36(12):159-172.
5唐健雄,张佳乐.长沙市城区网红餐厅空间分布及影响因素研究[J].湖南财政经济学院学报,2022,38(6):88-98.
6肖钰可.局促,或从容的小说——也谈两个版本的《职业》《异秉》[J].文艺争鸣,2022(7):151-154.
7杨奇霖.《地藏菩萨本愿经》满文译本再探——兼论满文佛经对佛教中国化内涵的丰富[J].佛学研究,2022(1):57-77.

中文信息学报

2022年第12期

浏览历史

内容加载中请稍等...

面向特定领域中文阅读理解数据集研究

相关作者

相关机构

相关主题

浏览历史