汉语篇章级小句关系的标注体系被引量：3

Intra-Sentence Relationship Annotation Scheme for Chinese Discourse Analysis

下载PDF

导出

摘要句际关系自动分析属于篇章语义学研究的范畴,虽然英语句际关系的研究已有大量工作,但汉语句际关系的自动分析还只是刚刚起步。该文在RST理论框架下,结合汉语特点,提出了完整的汉语篇章级小句关系标注体系。将汉语话题和逻辑关系置于同一个框架下进行描述,将小句关系划分为事件附属关系和事件逻辑关系两大类。逻辑关系又包括6个中类、15个小类。目前已在人民日报语料上完成了8 000个句子的小句关系标注。抽取出其中1 000个句子检测了双盲标注的一致性,揭示了汉语意合性语言小句关系标注的困难;并基于标注数据对关系类型进行了定量分析,指示了汉语句际关系自动分析将面临的重点和难点。 Automatic discourse analysis has aroused strong interests in the recent years. Compared to the bulks of work on English discourse analysis, much less work has been clone in Chinese discourse parsing. A non-negligible reason is that there is no well-annotated Chinese discourse corpus publically available. Under the RST-framework, this paper proposes an intra-sentence relationship annotation scheme for Chinese discourse analysis. We consider both the topic and the logic aspect, discriminating the attachment relationship and logic relationship in Chinese intra- sentence relationship. The logic relationship consists of 6 types and 15 subtypes. Up to now, we have annotated 8,000 sentences in the People Daily News. We check 1,000 sentences in a double-blind manner for the inter-anno- tator agreement, which may give a hint for the difficulties in this task. Based on the annotated data, we give some statistics analysis and demonstrate some challenges for Chinese automatic discourse analysis.

作者吴云芳徐艺峰王恺然

机构地区计算语言学教育部重点实验室(北京大学)

出处《中文信息学报》 CSCD 北大核心 2015年第3期71-81,共11页 Journal of Chinese Information Processing

基金国家自然科学基金(61371129) 国家重点基础研究发展计划(2014CB340504) 国家社科基金重大项目(12&ZD227) 网络文化与数字传播北京市重点实验室开放课题(ICDD201402 ICDD201302)

关键词句际关系小句关系语料库标注 discourse relation Intra-Sentence Relationship corpus annotation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献19

1Mann W, Thompson S. Rhetorical structure theory: towards a functional theory of text organization [J], Text, 1998, 8(3): 243-281.
2Louis A, Nenkova A. Automatic identification of gen- eral and specific sentences by leveraging discourse an notations[C]//Proceedings of EMNLP, 2011.
3Lin Z, Ng H, Kan M. Automatically evaluating text coherence using discourse relations[C]//Proceedings of ACL, 2011.
4Girju R. Automatic detection of causal relations for question answering [C]//Proceedings of ACL work shop on multilingual summarization and question an-swering, 2003.
5张志昌,张宇,刘挺,李生.基于话题和修辞识别的阅读理解why型问题回答[J].计算机研究与发展,2011,48(2):216-223. 被引量：9
6Wang F, Wu Y. Exploiting discourse relations for sentiment analysis [C]//Proceedings of COLING, 2012.
7Guzman F, Joty S, Marquez L, Nakov P. Using Dis- course Structure Improves Machine Translation Evalu- ation[C]//Proceedings of ACL, 2014.
8Carlson L, Mareu D, Okurowski M, Okurowski M. Building a discourse-tagged corpus in the framework of Rhetorical Structure Theory [C]//Proceedings of the 2nd SIGDIAL workshop on discourse and dialogue, 2001.
9Prasad R, Dinesh N, Lee A, et al. The Penn Dis- course TreeBank 2. 0 [C]//Proceedings of LREC,2008.
10周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90

二级参考文献45

1戴浩一.概念结构与非自主性语法:汉语语法概念系统初探[J].当代语言学,2002,4(1):1-12. 被引量：109
2吴友政,赵军,徐波.基于主题语言模型的句子检索算法[J].计算机研究与发展,2007,44(2):288-295. 被引量：8
3车万翔,刘挺,李生.自动浅层语义分析[C].中国中文信息学会二十五周年学术会议,2006.
4Higashinaka R, Isozaki H. Corpus-based question answering for why-questions [C]//Proc of IJCNLP'08. Hyderabad, India: AFNLP, 2008:418-425.
5Fellbaum C. WordNet: An Electronic Lexical Database [M]. Cambridge: MIT Press, 1998.
6Hirschman L, Light M, Breck E, et al. Deep read: A reading comprehension system [C] //Proc of ACL 1999. College, Park, Maryland: Association for Computational Linguistics, 1999 : 325-332.
7Clarke C L A, Cormack G V, Lynam T R. Exploiting redundancy in question answering [C] //Proc of SIGIR 2001. New York, ACM, 2001, 358-365.
8Jijkoun V, De Rijke M. Retrieving answers from frequently asked questions pages on the Web [C] //Proe of CIKM-2005. New York: ACM, 2005:76-83.
9Ng H T, Teo L H, Lai J, et al. A machine learning approach to answering questions for reading comprehension tests [C] //Proc of the 2000 Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora. Hong Kong:Association for Computational Linguistics, 2000: 124-132.
10Xu Kui, Meng H. Using verb dependency matching in a reading comprehension system [G]. //LNCS 3411: Proc of AIRS 2004. Berlin: Springer, 2004:190-201.

共引文献118

1褚晓敏,奚雪峰,蒋峰,徐昇,朱巧明,周国栋.宏观篇章结构表示体系和语料建设[J].软件学报,2020,31(2):321-343. 被引量：5
2张兆滨,王素格,陈鑫,赵琳玲,王典.阅读理解中观点类问题的扩展研究[J].中文信息学报,2020(6):89-96. 被引量：2
3孙凯丽,邓沌华,李源,李妙,李洋.基于句内注意力机制多路CNN的汉语复句关系识别方法[J].中文信息学报,2020(6):9-17. 被引量：10
4付晓歌.汉语动结式依存结构与特征结构对比分析[J].襄樊学院学报,2009,30(4):62-65.
5党政法,周强.短语树到依存树的自动转换研究[J].中文信息学报,2005,19(3):21-27. 被引量：12
6李幸,宗成庆.引入标点处理的层次化汉语长句句法分析方法[J].中文信息学报,2006,20(4):8-15. 被引量：22
7周强.汉语基本块描述体系[J].中文信息学报,2007,21(3):21-27. 被引量：25
8李良炎.新的句法标注模型探索[J].重庆大学学报（社会科学版）,2007,13(3):131-134. 被引量：1
9李良炎,何中市.句法标注的一般模型与参数分析[J].计算机科学,2007,34(11):189-192. 被引量：1
10周强.汉语基本块规则的自动学习和扩展进化[J].清华大学学报（自然科学版）,2008,48(1):88-91. 被引量：6

同被引文献16

1连淑能.汉英句子的基本结构[J].厦门大学学报（哲学社会科学版）,1985,35(1):155-176. 被引量：5
2丁金国.语义分析[J].河北大学学报（哲学社会科学版）,1985,10(4):26-36. 被引量：2
3袁本良.从“N_状·V·之”看古汉语语义结构分析问题[J].语言科学,2004,3(5):70-77. 被引量：5
4刘丹青.语法调查与研究中的从属小句问题[J].当代语言学,2005,7(3):193-212. 被引量：48
5文旭,刘润清.汉语关系小句的认知语用观[J].现代外语,2006,29(2):111-119. 被引量：23
6扈畅.科技英语文摘的文体与表达[J].环境科学与技术,2007,30(10):112-114. 被引量：1
7周生,胡晓峰,罗批,李志强.战略决策文本的语义分析研究[J].计算机科学,2011,38(2):229-233. 被引量：1
8孙静,李艳翠,周国栋,冯文贺.汉语隐式篇章关系识别[J].北京大学学报（自然科学版）,2014,50(1):111-117. 被引量：15
9王遥,李景娜.标示-价值结构的功能句法分析——以“谁是NP?”和“NP是谁?”为例[J].当代外语研究,2014(3):15-19. 被引量：1
10丁彬,孔芳,李生,周国栋.汉语显式篇章关系分析[J].中文信息学报,2014,28(6):101-106. 被引量：1

引证文献3

1黄细凤.基于主题层次的文本篇章结构分析方法[J].电脑知识与技术,2019,15(5):12-16.
2温浩,何茜茹.学术文摘创新点挖掘的认知分析方法[J].情报学报,2021,40(5):489-499. 被引量：6
3赵云梅.佤德语支关系小句的标引特征[J].红河学院学报,2024,22(1):109-114.

二级引证文献6

1索传军,李木子.我国学术论文研究问题探析--基于2015-2020年图情领域CSSCI发表论文的实证研究[J].图书情报工作,2021,65(19):105-116. 被引量：4
2曹树金,曹茹烨.基于知识图谱的科技论文创新点动态识别研究[J].现代情报,2022,42(12):28-41. 被引量：6
3曾江峰,刘园园,程征,段尧清.基于UniLM模型的学术文摘观点自动生成研究[J].图书情报工作,2023,67(2):131-139.
4杨思洛,程濛,莫莹莹.学术论文研究亮点的语言特征与主题识别[J].图书馆论坛,2023,43(7):26-37.
5徐雷,张亚菲,叶均玲.科技文献创新内容的识别、组织与应用进展[J].情报学报,2024,43(2):237-250.
6刘越,郑德俊,程为.面向信息资源管理领域的学术创新特征分析[J].图书情报工作,2024,68(4):83-96.

1吴云芳,万富强,徐艺峰,吕学强.基于排序方法的汉语句际关系树自动分析（英文）[J].北京大学学报（自然科学版）,2016,52(1):65-74.
2谢振斌.汉语特点与拼音文字[J].中文信息,1993(3):34-35.
3刘海涛,赵怿怡.基于树库的汉语依存句法分析[J].模式识别与人工智能,2009,22(1):17-21. 被引量：4
4葛芝宾,谢立,陈军,金志权.基于负载平衡的并行JOIN关系划分粒度研究[J].计算机科学,1995,22(1):75-77.
5赵知纬,钱龙华,周国栋.一个面向信息抽取的中文跨文本指代语料库[J].中文信息学报,2015,29(1):57-66. 被引量：3
6张春菊,张雪英,王曙,廖建平,陈晓丹.中文文本的事件时空信息标注[J].中文信息学报,2016,30(3):213-222. 被引量：12
7戴敏,朱珠,李寿山,周国栋.面向中文文本的情感信息抽取语料库构建[J].中文信息学报,2015,29(4):67-73. 被引量：7
8周明,黄昌宁.面向语料库标注的汉语依存体系的探讨[J].中文信息学报,1994,8(3):35-52. 被引量：39
9吴云芳,石静,万富强,吕学强.汉语并列复句的自动识别方法[J].北京大学学报（自然科学版）,2013,49(1):1-6. 被引量：5
10王荀,李素建,王宇昕.内容标签和关系标签相结合的汉语篇章标注规范[J].中文信息学报,2015,29(3):65-70. 被引量：1

中文信息学报

2015年第3期

浏览历史

内容加载中请稍等...

汉语篇章级小句关系的标注体系被引量：3

参考文献19

二级参考文献45

共引文献118

同被引文献16

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

汉语篇章级小句关系的标注体系 被引量：3

参考文献19

二级参考文献45

共引文献118

同被引文献16

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

汉语篇章级小句关系的标注体系被引量：3