中文阅读理解语料库构建技术研究被引量：3

A Research on Building of Chinese Reading Comprehension Corpus

下载PDF

导出

摘要阅读理解问答系统指的是能够自动分析一个自然语言文章,并且根据文中的信息为每个问题生成一个答案的系统,具有很高的研究价值。然而,缺乏中文阅读理解语料库已经成为制约汉语阅读理解问答系统发展的主要障碍。本文对于中文阅读理解语料库的构建过程进行了详细的介绍,包括语料选材、编写问句,标注答案句、语料加工和评测机制,尤其是基于汉语框架语义知识库对语料进行了框架元素、短语类型和句法功能三个层面标注的深加工技术。 A Question Answering System for Reading Comprehension （QARC） can automatically analyze a passage of natural language text and generate an answer for each question based on information in the passage. The reading comprehension task can be a valuable tool to evaluate the performance of a natural language understanding system. Unfortunately, insufficiency of Chinese Reading Comprehension Corpus（CRCC） is the main problem to the research and development of Chinese QARC. The paper describes in detail the process of building a Chinese Reading Compre- hension Corpus （CRCC）, including materials selecting, questions compiling, answers labeling, corpus processing and evaluation methods. In particular, we annotated texts on such three layers as frame element, phrase type and syntactic function, based on the knowledge base of Chinese FrameNet （CFN）.

作者郝晓燕李济洪由丽萍刘开瑛

机构地区太原理工大学计算机与软件学院山西大学

出处《中文信息学报》 CSCD 北大核心 2007年第6期29-35,共7页 Journal of Chinese Information Processing

基金国家863高技术研究发展计划资助项目(2006AA01Z142)

关键词计算机应用中文信息处理阅读理解问答系统中文阅读理解语料库汉语框架语义知识库 computer application Chinese information processing question answering system for reading comprehension Chinese reading comprehension corpus Chinese framenet

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1NIST. NIST Special Publication 500-207: The First Text Retrieval Conference ( TREC-1 ) http://trec. nist. gov/pubs/trec1/t1_proceedings. html.
2Voorhees, E. M. The TREC-8 Question Answering Track Evaluation [A]. In: Proceedings of the Text Retrieval Conference (TREC-8)[C]. Gaithersburg, Maryland, USA, 1999. 23-37.
3Voorhees, E.M. Natural language processing and information retrieval [A]. In: Information Extraction: towards scalable, adaptable systems Lecture notes in Artificial Intelligence[C]. 1999. 32-48.
4Charniak, E., Altun, Y., Braz, R.S. et al. Reading Comprehension Programs in a Statistical-Language- Processing Class[A]. ANLP/NAACL-2000 Workshop on Reading Comprehension Tests as Evaluation for Computer-Based Language Understanding Systems [C]. Seattle, Washington: 2000. 1-5.
5CLSP. Light, M., Mann, G. S., Riloff, E. Workshop 2000 reading comprehension [EB/OL]. http://www. clsp. jhu. edu/ws2000/groups/reading/
6Hirschman, L., Light M., Breck E. et al. Deep Read: A Reading Comprehension System [A]. In: Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics [C].1999. 325- 332.
7Ng, H. T., L. H. Teo, and L. P. Kwan. A Machine Learning Approach to Answering Questions for Reading Comprehension Tests[A]. In: Proceedings of the 2000 Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora[C]. 2000. 124-132.
8Kui Xu and Helen Meng. Design and Development of a Bilingual Reading Comprehension Corpus[J]. International Journal of Computational Linguistics and Chinese Language Processing, 2005, 10(2):251-276.
9刘开瑛,由丽萍.汉语框架语义知识库构建工程[A].中文信息处理前沿进展,中国中文信息学会成立二十五周年学术会议论文集[C].2006,11:64-71.
10Charles J. Fillmore. Frame semantics and the nature of language[A]. In: Annals of the New York Academy of Sciences: Conference on the Origin and Development of Language and Speech[C]. 1976. 280: 20- 32.

共引文献4

1郝晓燕,刘伟,李茹,刘开瑛.汉语框架语义知识库及软件描述体系[J].中文信息学报,2007,21(5):96-100. 被引量：49
2吾买尔江.库尔班,阿里甫.库尔班.基于配价的维吾尔语框架语义知识库的构建[J].中文信息学报,2007,21(6):36-42. 被引量：3
3袁毓林.语义资源建设的最新趋势和长远目标——通过映射对比、走向统一联合、实现自动推理[J].中文信息学报,2008,22(3):3-15. 被引量：13
4尹晓丽.通用语义角色自动标注研究[J].长春工业大学学报,2012,33(2):171-175. 被引量：1

同被引文献114

1昝红英,刘涛,牛常勇,赵悦淑,张坤丽,穗志方.面向儿科疾病的命名实体及实体关系标注语料库构建及应用[J].中文信息学报,2020,34(5):19-26. 被引量：16
2周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
3罗振声.清华大学TH大型通用汉语语料库系统的研制[J].清华大学学报（哲学社会科学版）,1996,11(1):94-98. 被引量：2
4高定国,索郎桑姆.大型藏语平衡语料库建设中样本类别号的研究[J].西藏大学学报（社会科学版）,2013,28(4):54-58. 被引量：1
5张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量：47
6张姝,赵铁军,杨沐昀,李生.面向事件的多语平行语料库构建研究[J].计算机应用研究,2005,22(11):23-24. 被引量：4
7淑琴,那顺乌日图.面向EBMT系统的汉蒙双语语料库的构建[J].内蒙古社会科学,2006,27(1):140-144. 被引量：5
8刘华.超大规模分类语料库构建[J].现代图书情报技术,2006(1):71-73. 被引量：6
9文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006,20(2):33-39. 被引量：82
10冯志伟.从格语法到框架网络[J].解放军外国语学院学报,2006,29(3):1-9. 被引量：64

引证文献3

1李茹,宋小香,王文晶.基于汉语框架网的中文问题分类[J].计算机工程与应用,2009,45(31):111-114. 被引量：8
2阿里甫.库尔班,吾买尔江.库尔班,尼加提.阿不都肉苏力.维吾尔语框架语义知识库的概念设计[J].中文信息学报,2010,24(4):114-118. 被引量：8
3黄水清,王东波.国内语料库研究综述[J].信息资源管理学报,2021,11(3):4-17. 被引量：37

二级引证文献53

1梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
2许行健.多语种军事综合语料库平台建设与应用[J].电声技术,2023,47(1):66-69.
3阿孜古丽.夏力甫.论维吾尔语SUBS+NP结构的形式化描述[J].中文信息学报,2011,25(2):117-121. 被引量：2
4王文晶,宋小香,李茹.面向问题分类的汉语框架网特征选择[J].计算机与现代化,2011(8):9-12.
5阿里甫.库尔班,吾买尔江.库尔班,尼加提.阿不都肉苏力.维吾尔语框架语义网及框架语义信息管理系统的设计[J].新疆大学学报（自然科学版）,2012,29(3):333-338.
6阿里甫.库尔班,吾买尔江.库尔班,房鼎益.维吾尔语框架语义角色标注标记集研究[J].中文信息学报,2013,27(2):41-46. 被引量：1
7田卫东,李亚娟.基于CRF和错误驱动的中心词识别[J].计算机应用研究,2013,30(8):2345-2348. 被引量：3
8镇丽华,王小林,杨思春.自动问答系统中问句分类研究综述[J].安徽工业大学学报（自然科学版）,2015,32(1):48-54. 被引量：10
9李业刚,黄河燕,史树敏,冯冲,苏超.多策略机器翻译研究综述[J].中文信息学报,2015,29(2):1-9. 被引量：21
10李连倍,刘胜全,刘艳,杨倩倩.基于跨语本体重用的维语本体构建方法[J].计算机工程与应用,2015,51(11):104-108. 被引量：1

1张帅,王瑞波,李济洪.基于分布式词语表示的中文阅读理解[J].太原师范学院学报（自然科学版）,2014,13(1):32-35. 被引量：1
2张金更,蒋星耀.基于事件／概念关系的自然语言文章／段落产生系统[J].上海工业大学学报,1992,13(1):89-94.
3李济洪,王瑞波,王凯华,李国臣.基于最大熵模型的中文阅读理解问题回答技术研究[J].中文信息学报,2008,22(6):55-62. 被引量：6
4吕雷.基于CRFsuite分类器的汉语框架语义角色标注[J].电脑开发与应用,2014,27(4):8-11.
5李济洪,杨杏丽,王瑞波,张娜,李国臣.基于规则的中文阅读理解问题回答技术研究[J].中文信息学报,2009,23(4):3-9. 被引量：1
6李济洪,高亚慧,王瑞波,李国臣.汉语框架自动识别中的歧义消解[J].中文信息学报,2011,25(3):38-44. 被引量：11
7李济洪,王瑞波,王蔚林,李国臣.汉语框架语义角色的自动标注[J].软件学报,2010,21(4):597-611. 被引量：41
8徐和飞,孙宝福.自动化专业创新型人才培养模式的构建[J].中国电力教育（下）,2010(3):35-36. 被引量：6
9由丽萍,杨翠.汉语框架语义知识库概述[J].电脑开发与应用,2007,20(6):2-4. 被引量：8
10牛洪梅,吐尔根,伊不拉音.维吾尔语的词性标注校对初探[J].微型电脑应用,2006,22(12):45-47. 被引量：1

中文信息学报

2007年第6期

浏览历史

内容加载中请稍等...

中文阅读理解语料库构建技术研究被引量：3

参考文献12

共引文献4

同被引文献114

引证文献3

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

中文阅读理解语料库构建技术研究 被引量：3

参考文献12

共引文献4

同被引文献114

引证文献3

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

中文阅读理解语料库构建技术研究被引量：3