摘要
统计句法分析利用概率评价模型评价每棵候选句法树存在的可能性 ,选择概率值最高的候选句法树作为最终的句法分析结果 .因此 ,统计句法分析的核心是一个概率评价模型 ,而各种概率评价模型的本质区别主要在于它们分别是根据上下文中的哪些特征来赋予句法树概率的 .在统计句法分析研究领域 ,虽然已经提出了大量的概率评价模型 ,然而 ,不同的模型用到了不同类型的特征 .如何评价这些特征类型对于句法分析的作用呢 ?针对以上的问题 ,本研究为统计句法分析提出了一种特征类型的分析模型 ,该模型可以从信息论的角度量化地分析不同类型的上下文特征对于句法结构的预测作用 .其基本思想是利用信息论中熵与条件熵的度量来显示一个特征类型是否抓住了预测句法结构的主要信息 .如果加入某个特征类型之后当前句法结构的不确定性 (熵 )明显下降 ,则认为该特征类型抓住了上下文中影响句法结构的某些主要信息 .特征类型分析的信息论模型利用预测信息量、预测信息增益、预测信息关联度以及预测信息总量四种度量从不同的侧面量化地分析各种特征类型及特征类型组合对于当前目标的预测作用 .实验以 Penn Tree Bank为训练集 ,将上下文中不同的特征类型对于句法分析规则的预测作用进行了系统的量化分析 。
The paper proposes an information-theory-based feature type analysis model. Using the method, we can quantitatively analyze the power of different feature types for syntactic structure prediction from the viewpoint of information theory. The basic idea is that we use entropy and conditional entropy to measure whether a feature type grasps some of the information for syntactic structure prediction. If the average uncertainty of the syntactic structures declines apparently, the feature type is deemed to have grasped some intrinsic linguistic information in the context that has close relation to the syntactic structure. Using Penn-Treebank training and testing set, our experiment quantitatively analyze the different feature types' predictive power for syntactic structure predictive power for syntactic structure prediction in a systematic way and draws a series of conclusions which reflect the predictive power of different feature types and feature type combination for syntactic parsing.
出处
《计算机学报》
EI
CSCD
北大核心
2001年第2期144-151,共8页
Chinese Journal of Computers
基金
国家"九七三"项目! (G19980 30 5 0 7-4 )
国家自然科学基金! (6 94830 0 3)资助