摘要
本文研究了基于最大熵原理的汉语词性标注。文章采用了准确率增量驱动的上下文特征选取策略,而后采用EM算法量化了特征之间的相依程度,并将其作为概率特征引入到统一的特征表示框架;建模过程充分利用了语法词典中的知识,针对外部词汇构造了伪事件,并将词的候选词性限制在一个特定的子集内,有效缩减了词性标记的搜索范围。文章以北京大学人民日报标记语料作为试验数据,验证了该方法的有效性。
出处
《光盘技术》
2007年第6期17-18,共2页
CD TECHNOLOGY
关键词
最大熵
特征选取
词典知识
汉语词性标注
maxinum entropy
feature selection
knowledge dictionary
Chinese POS tagging