期刊文献+

基于EM算法的汉语自动分词方法 被引量:23

Segmenting Chinese by EM Algorithm
下载PDF
导出
摘要 汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用 ,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型 ,并重点剖析了EM(Expectation Maximization)算法 ,对实验结果进行了分析。最后对算法进行了总结与讨论。 Word segmentation is a basic task of Chinese information processing.In this paper we present a simple probabilistic model of Chinese text based on the occurrence probability of the words,which can be seen as a zero-th order hidden Markov Model(HMM).Then we investigate how to discover by EM Algorithm the words and their probabilities from a corpus of unsegmented text without using a dictionary.The last part is conclusion and discussion about the algorithm.
出处 《情报学报》 CSSCI 北大核心 2002年第3期269-272,共4页 Journal of the China Society for Scientific and Technical Information
基金 国家自然科学基金项目 (编号 6 9975 0 2 4) 国家自然科学基金重点项目 (编号 6 9931040 )资助
  • 相关文献

参考文献1

  • 1Thomas EMERSON.Segmenting Chinese in Unicode[]..2000

同被引文献202

引证文献23

二级引证文献200

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部