汉语基本块描述体系被引量：25

Base Chunk Scheme for the Chinese Language

下载PDF

导出

摘要块分析是自然语言处理研究中的重要技术,其处理基础是设计一套合理有效的块描述体系。本文在吸收和总结前人研究成果和经验的基础上,提出了一套基于拓扑结构的汉语基本块描述体系。它通过引入词汇关联信息确定基本拓扑结构,形成了很好的基本块内聚性判定准则,建立了句法形式与语义内容的有机联系桥梁。这套描述体系大大简化了从现有的句法树库TCT中自动提取基本块标注语料库和相关词汇关联知识库的处理过程,为进一步进行汉语基本块自动分析和词汇关联知识获取互动进化研究打下了很好的基础。 Chunk parsing is an important technique in the natural language processing research community, whose processing basis lies in a suitable and efficient chunk scheme. In this paper, we proposed a new topology-based base chunk scheme for the Chinese language. After introducing the lexical cohesion relationships to determinate three basic topological structures, we formed a better set of principles to analyze the content cohesion of a base chunk and built an efficient bridge to link its syntactic form and semantic meaning. Based on the chunk scheme, we can greatly simplify the processing procedure to automatically extract useful base chunk annotated corpora and corresponding lexical cohesion knowledge from a large scale Chinese syntactically annotated corpus TCT. All these research work will lay good foundations for the further explorations to develop Chinese base chunk parser and lexical cohesion knowledge acquisition tools.

作者周强

机构地区清华信息科学与技术国家实验室计算机科学与人工智能研究部

出处《中文信息学报》 CSCD 北大核心 2007年第3期21-27,共7页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60573185 60520130299)

关键词计算机应用中文信息处理基本块部分分析语料库标注词汇知识获取 computer application Chinese information processing base chunk partial parsing corpus annotation lexical knowledge acquisition

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1Steven Abney. Parsing by Chunks [A]. In: Robert Berwick, Steven Abney and Carol Tenny (eds.) Principle Based Parsing [C]. Kluwer Academic Publishers, 1991.
2Erik F. Tjong Kim Sang and Sabine Buchholz. Introduction to CoNLL-2000 Shared Task: Chunking [A].In: Proceedings of CoNLL 2000 and LLL-2000 [C].Lisbon, Portugal, 127-132.
3Sang T K and D jean H. Introduction to the CoNLL2001 Shared Task: Clause Identification [A]. In:Proc. of CoNLL-2001 [C]. Toulouse, France, 53-57.
4Carreras X. and Marquez, L. Introduction to the con-Ⅱ-2005 shared tasks: Semantic role labeling [A]. In:Proc. of CoNLL-2005 [C].
5Ivan A. Sag, Timothy Baldwin, Francis Bond, Ann Copestake, and Dan Flickinger. Multiword Expressions: A Pain in the Neck for NLP [A]. In: Proc.Third International Conference of Computational Linguistics and Intelligent Text Processing (CICLing 2002) [C]. Mexico City, Mexico, February 2002. 17-23.
6徐通锵.语言论[M].吉林长春:东北师范大学出版社,1997..
7董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：59
8董振东，董强．关于知网中文信息结构库[A]，http：／／www．keenage．com／，2000．
9汉语基本短语标注规范[R]．清华大学计算机系智能技术与系统国家重点实验室，技术资料，2002年2月．
10张昱琪,周强.汉语基本短语的自动识别[J].中文信息学报,2002,16(6):1-8. 被引量：41

二级参考文献24

1戴浩一.概念结构与非自主性语法:汉语语法概念系统初探[J].当代语言学,2002,4(1):1-12. 被引量：109
2周强.汉语语料库的短语自动划分和标注研究.北京大学博士研究生学位论文[M].-,1996..
3赵军.汉语基本名词短语识别及结构分析研究.清华大学工学博士学位论文[M].-,1998..
4孙宏林.现代汉语非受限文本的实语块分析.北京大学博士研究生学位论文[M].-,2001..
5Brants, S., & Hansen, S. (2002). Developments in the TIGER annotation scheme and their realization in the corpus[A]. In: Proceedings of the Third Conference on Language Resources and Evaluation (LREC-02)[C]. Las Palmas de Gran Canaria, Spain. 1643-164
6Collins, M. (1999) Head-Driven Statistical Models for Natural Language Parsing[D]. Ph.D. Thesis. Dept. of Computer Science and Information, The University of Pennsylvania.
7Hajic, J. (1999). Building a syntactically annotated corpus: The Prague Dependency Treebank[A]. In: E. Hajicova (Ed.), Issues of valency and meaning. Studies in honour of Jarmila Panevova. Prague, Czech Republic: Charles University Press.
8Chu-Ren Huang, Feng-Yi Chen, Keh-Jiann Chen, & al.(2000). Sinica Treebank: Design Criteria, Annotation Guidelines, and On-line Interface[A], Proceedings of the Second Chinese Language Processing Workshop[C], HongKong. 29-37.
9Kingsbury, P.; Martha Palmer, and Marcus, M. (2002). Adding Semantic Annotation to the Penn TreeBank[A]. In: Proceedings of the Human Language Technology Conference[C], San Diego, California.
10Leech, G.; and Garside, R. (1991). Running a grammar factory: The production of syntactically analysed corpora or ‘treebanks' [A]. In: Stig Johansson and Anna-Brita Stenstrom (eds.) English Computer Corpora: Selected papers and Research Guide. 1991. 15-3

共引文献212

1孙凯丽,邓沌华,李源,李妙,李洋.基于句内注意力机制多路CNN的汉语复句关系识别方法[J].中文信息学报,2020(6):9-17. 被引量：10
2付晓歌.汉语动结式依存结构与特征结构对比分析[J].襄樊学院学报,2009,30(4):62-65.
3岑运强.把握语言学发展史的总脉络——试论“五段两线三解放”[J].北京师范大学学报（社会科学版）,2004(3):53-60. 被引量：7
4王轻鸿.汉语的文化特征与原型的诗性存在[J].学术论坛,2004,27(5):127-132.
5马秉义.果裸转语与R词族比较[J].解放军外国语学院学报,2001,24(6):33-36. 被引量：12
6冯志伟.汉字和汉语的计算机处理[J].当代语言学,2001,3(1):1-21. 被引量：23
7董振东,董强.知网和汉语研究[J].当代语言学,2001,3(1):33-44. 被引量：57
8田雯,曹存根,王海涛.心理常识概念的表示、获取和分析[J].计算机科学,2004,31(6):5-12. 被引量：2
9谭咏梅,姚天顺,陈晴,李珩,朱靖波.基于SVM+Sigmoid的汉语组块识别[J].计算机科学,2004,31(8):142-146. 被引量：3
10董振东,董强.面向信息处理的词汇语义研究中的若干问题[J].语言文字应用,2001(3):27-32. 被引量：36

同被引文献267

1周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
2刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量：43
3程葳,赵军,刘非凡,徐波.面向口语翻译的双语语块自动识别[J].计算机学报,2004,27(8):1016-1020. 被引量：3
4谭咏梅,姚天顺,陈晴,李珩,朱靖波.基于SVM+Sigmoid的汉语组块识别[J].计算机科学,2004,31(8):142-146. 被引量：3
5陈立民.汉语的时态和时态成分[J].语言研究,2002,22(3):14-31. 被引量：49
6关存太,陈永彬.非特定人四声识别[J].声学学报,1993,18(5):379-385. 被引量：4
7孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：38
8党政法,周强.短语树到依存树的自动转换研究[J].中文信息学报,2005,19(3):21-27. 被引量：12
9刘世岳,李珩,张俐,姚天顺.Co-training机器学习方法在中文组块识别中的应用[J].中文信息学报,2005,19(3):73-79. 被引量：8
10王立霞,孙宏林.现代汉语介词短语边界识别研究[J].中文信息学报,2005,19(3):80-86. 被引量：11

引证文献25

1李济洪,王瑞波,王凯华,李国臣.基于最大熵模型的中文阅读理解问题回答技术研究[J].中文信息学报,2008,22(6):55-62. 被引量：6
2宇航,周强.汉语基本块标注系统的内部关系分析[J].清华大学学报（自然科学版）,2009(10):1708-1711. 被引量：8
3李双红,李茹,钟立军,郭伟昱.基于多词块的框架元素语义核心词自动识别研究[J].中文信息学报,2010,24(1):30-36. 被引量：4
4周强,李玉梅.汉语块分析评测任务设计[J].中文信息学报,2010,24(1):123-128. 被引量：9
5李国臣,王瑞波,李济洪.基于条件随机场模型的汉语功能块自动标注[J].计算机研究与发展,2010,47(2):336-343. 被引量：7
6李济洪,高亚慧,王瑞波,李国臣.汉语框架自动识别中的歧义消解[J].中文信息学报,2011,25(3):38-44. 被引量：11
7刘海霞,黄德根.语义信息与CRF结合的汉语功能块自动识别[J].中文信息学报,2011,25(5):53-59. 被引量：4
8邱晗,周强.自动获取大规模的汉语紧密组合词汇关联对[J].清华大学学报（自然科学版）,2011,51(9):1293-1297. 被引量：1
9罗森林,刘盈盈,冯扬,韩磊,陈功,王倩.BFS-CTC汉语句义结构标注语料库构建方法[J].北京理工大学学报,2012,32(3):311-315. 被引量：10
10尹晓丽.通用语义角色自动标注研究[J].长春工业大学学报,2012,33(2):171-175. 被引量：1

二级引证文献96

1李济洪,杨杏丽,王瑞波,张娜,李国臣.基于规则的中文阅读理解问题回答技术研究[J].中文信息学报,2009,23(4):3-9. 被引量：1
2豆增发,高琳.应用粒子群优化-条件随机域的文本生物实体识别[J].西安交通大学学报,2010,44(12):38-42. 被引量：2
3杨玉珍,刘培玉,姜沛佩.向量空间模型中结合句法的文本表示研究[J].计算机工程,2011,37(3):58-60. 被引量：6
4赵文娟,闫红梅,王蔚林.基于汉语框架网的语义角色标注算法[J].图书情报工作,2011,55(6):57-60.
5孙广路,郎非,薛一波.基于条件随机域和语义类的中文组块分析方法[J].哈尔滨工业大学学报,2011,43(7):135-139. 被引量：5
6康旭珍,李茹,李双红.框架元素语义核心词自动识别研究[J].中文信息学报,2011,25(4):115-121. 被引量：1
7刘海霞,黄德根.语义信息与CRF结合的汉语功能块自动识别[J].中文信息学报,2011,25(5):53-59. 被引量：4
8刘开瑛.汉语框架语义网构建及其应用技术研究[J].中文信息学报,2011,25(6):46-52. 被引量：23
9李胜梅.“语篇言语块”的理论位置及研究路径[J].阜阳师范学院学报（社会科学版）,2012(3):14-20. 被引量：8
10张禄彭,易绵竹,周云.中文歧义研究25年——以《中文信息学报》论文为例[J].中文信息学报,2012,26(4):73-84. 被引量：4

1章成志,苏新宁.面向信息检索的词汇知识发现[J].现代图书情报技术,2007(1):10-14. 被引量：3
2魏莉,谭红叶,郑家恒,孙健.汉语句法树库一致性检验方法研究[J].广西师范大学学报（自然科学版）,2010,28(1):139-142. 被引量：2
3赵知纬,钱龙华,周国栋.一个面向信息抽取的中文跨文本指代语料库[J].中文信息学报,2015,29(1):57-66. 被引量：3
4周明,黄昌宁.面向语料库标注的汉语依存体系的探讨[J].中文信息学报,1994,8(3):35-52. 被引量：40
5徐燕青.“不是/是P,(而)是/不是Q”的表达方式及其制约因素[J].今日科苑,2009(2):238-239. 被引量：1
6任朝晖.谈校园网的组建方案[J].天津职业院校联合学报,2006,8(6):133-135.
7黄雄.无线网络技术在校园网建设中的应用[J].洛阳大学学报,2004,19(2):56-59. 被引量：3
8卢强华.无线网络在企业网中的应用[J].广东电脑与电讯,2000(2):29-32.
9徐振峰,尹晶晶,陈小林,周全.基于ZigBee协议栈的无线传感器网络的设计[J].电子设计工程,2012,20(5):75-77. 被引量：25
10卢强华.无线网络在企业网中的应用[J].郑州纺织工学院学报,1999,10(4):90-94.

中文信息学报

2007年第3期

浏览历史

内容加载中请稍等...

汉语基本块描述体系被引量：25

参考文献13

二级参考文献24

共引文献212

同被引文献267

引证文献25

二级引证文献96

相关作者

相关机构

相关主题

浏览历史

汉语基本块描述体系 被引量：25

参考文献13

二级参考文献24

共引文献212

同被引文献267

引证文献25

二级引证文献96

相关作者

相关机构

相关主题

浏览历史

汉语基本块描述体系被引量：25