期刊文献+

大标记集汉语字(词)Markov 语言模型的建立 被引量:3

Construction and Application of Large Symbol Set of Chinese Character/Word Markov Language Model
下载PDF
导出
摘要 给出了一种基于快速排序和归并排序的高阶汉语大标记集Markov统计语言模型的统计算法,并对算法的时间复杂性和空间复杂性进行了分析。依据这种统计算法,设计实现了一个汉语字(词)概率统计系统。通过对上千万字的汉语语料的统计,建立起了汉语字(词)一元、二元和三元Markov模型,并对统计结果进行了分析。 This paper puts forward an algorithm which combines quick sorting and merge sorting to construct a large symbol set of Chinese character/word Markov Language models The time and the space complexity are discussed According to the algorithm,a Chinese character/word probability distribution computing system is introduced The unigram,bigram and trigram Chinese larguage models based on more than twenty million Chinese characters,and the results are analyzed From the experimental results we find statistical language models have a good performance in approaching the near constraint relationship of the Chinese language
出处 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 1997年第5期23-27,共5页 Journal of Harbin Institute of Technology
基金 国家八六三高技术计划 霍英东基金
关键词 MARKOV模型 统计语言模型 汉语 信息处理 Markov model statistical language model
  • 相关文献

参考文献4

  • 1赵以定,硕士学位论文,1996年
  • 2Chien L F,IEEE Trans Speech Audio Process,1993年,1卷,2期
  • 3王晓龙,科学通报,1989年,11期,907页
  • 4严蔚敏,数据结构,1989年

同被引文献24

引证文献3

二级引证文献19

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部