期刊文献+

一种基于概率模型的分词系统 被引量:16

Segmenting Chinese Based on Probabilistic Model
下载PDF
导出
摘要 汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型,并重点剖析了EM(Expectation- Maximization)算法,最后给出了一个基于本模型的汉语文本处理仿真系统。 Word Segmentation is a basic task of Chinese Information Processing. In this paper we present a simple probabilistic model of Chinese text based on the occurrence probability of the words, which can be seen as a zero-th order hidden Markov Model (HMM). Then we investigate how to discover by EM algorithm the words and their probabilities from a corpus of unsegmented text without using a dictionary. The last part presents a simulation system of processing Chinese text.
出处 《系统仿真学报》 CAS CSCD 2002年第5期544-546,550,共4页 Journal of System Simulation
基金 国家自然科学基金项目(编号: 69975024) 国家自然科学基金重点项目(编号: 69931040)
关键词 概率模型 分词系统 EM算法 语料库 系统仿真 汉语自动分词 中文信息处理 word segmentation EM algorithm corpus HMM, system simulation
  • 相关文献

参考文献3

  • 1[1]Xianping Ge, Wanda Pratt, Padhraic Smyth. Discovering Chinese Words from Unsegmented Text [A]. SIGIR'99 (Proceedings on the 22nd Annual International ACMSIGIR Conference on Research and Development in Information Retrieval, August 15-19 1999 Berkeley CA USA) [C]. 271-272.
  • 2[2]Thomas Emerson. Segmenting Chinese in Unicode [A]. 16th International Unicode Conference, Amsterdam, The Netherlands, March 2000.
  • 3[3]Ponte J M, Croft W B. Useg: A retargetavle word segmentation procedure for information retrieval [A]. Sympoium on Document Analysis and Information Retrieval 96(SDAIR), 1996.

同被引文献178

引证文献16

二级引证文献144

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部