摘要
针对基于统计模型的中文分词系统,从系统实现的角度探讨了主流的相关技术,涉及:n-gram语言模型,语料库,统计模型的参数 估计及参数平滑等概念,重点对Katz平滑算法作了改进,并在分词系统原型中实现了该算法。
This paper gives some insight into related theory and technology of Chinese word segmentation, and presents a n-gram model based on Katz smoothing.
出处
《计算机工程》
CAS
CSCD
北大核心
2004年第B12期371-372,共2页
Computer Engineering