摘要
现有功能块分析器对于不同长度和不同结构功能块的分析性能研究表明,长的结构复杂的功能块正是功能块自动分析的难点所在。由此,我们设计了新的分层次的功能块体系,并从清华句法树库TCT中自动生成了新的功能块语料库。通过对新的功能块语料库长度分布、内部结构分布分析,以及与单层次功能块语料库的相互关系的研究,我们证实了新的分层次功能块描述体系具有结构简单、长度短且分布均匀的优良特点。这些性质对功能块分析器的性能提高将会有很大的帮助。
Through an experimental analysis of the relation between the length and the structure of functional chunks and the performance of the parser, this paper reveals that it is the long, complex-structured functional chunks that are the major difficulty in parsing. Therefore, this paper proposes a new hierarchical functional chunk scheme and automatically generates the new functional chunk bank from Tsinghua Chinese Tree Bank (TCT). Further extensive researches about the length and structure distribution of the new chunk bank indicates that the new functional chunks bear short length and simple structure, which will help to improve the performance of functional chunk parser.
出处
《中文信息学报》
CSCD
北大核心
2008年第3期24-31,43,共9页
Journal of Chinese Information Processing
基金
国家自然科学基金资助项目(60573185)
国家高技术研究发展计划资助项目(2007AA01Z173)
关键词
计算机应用
中文信息处理
部分分析
功能块
分层次描述
computer application
Chinese information processing
partial parsing
functional chunk
hierarchical description