大标记集汉语字(词)Markov 语言模型的建立被引量：3

Construction and Application of Large Symbol Set of Chinese Character/Word Markov Language Model

下载PDF

导出

摘要给出了一种基于快速排序和归并排序的高阶汉语大标记集Ｍａｒｋｏｖ统计语言模型的统计算法，并对算法的时间复杂性和空间复杂性进行了分析。依据这种统计算法，设计实现了一个汉语字（词）概率统计系统。通过对上千万字的汉语语料的统计，建立起了汉语字（词）一元、二元和三元Ｍａｒｋｏｖ模型，并对统计结果进行了分析。 This paper puts forward an algorithm which combines quick sorting and merge sorting to construct a large symbol set of Chinese character/word Markov Language models The time and the space complexity are discussed According to the algorithm,a Chinese character/word probability distribution computing system is introduced The unigram,bigram and trigram Chinese larguage models based on more than twenty million Chinese characters,and the results are analyzed From the experimental results we find statistical language models have a good performance in approaching the near constraint relationship of the Chinese language

作者王轩李巍王晓龙赵淑香

机构地区哈尔滨工业大学计算机系应用软件教研室

出处《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 1997年第5期23-27,共5页 Journal of Harbin Institute of Technology

基金国家八六三高技术计划霍英东基金

关键词 MARKOV模型统计语言模型汉语信息处理 Markov model statistical language model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1赵以定，硕士学位论文，1996年
2Chien L F，IEEE Trans Speech Audio Process，1993年，1卷，2期
3王晓龙，科学通报，1989年，11期，907页
4严蔚敏，数据结构，1989年

同被引文献24

1王维兰,陈万军.藏文字丁、音节频度及其信息熵[J].术语标准化与信息技术,2004(2):27-31. 被引量：17
2吕士楠,齐士钤,张家.合成言语自然度的研究[J].声学学报,1994,19(1):59-65. 被引量：7
3冯志伟.汉字的极限熵[J].中文信息,1996(2):53-56. 被引量：10
4吴军,王作英.汉语信息熵和语言模型的复杂度[J].电子学报,1996,24(10):69-71. 被引量：14
5张仰森,曹元大,俞士汶.语言模型复杂度度量与汉语熵的估算[J].小型微型计算机系统,2006,27(10):1931-1934. 被引量：7
6侯敏，计算语言学进展与应用，1995年，81页
7刘源，信息处理用现代汉语分词规范及自动分词方法，1994年
8何克抗，中文信息学报，1991年，2期，1页
9马宴，硕士学位论文，1991年
10刘源，现代汉语常用词词频词典，1990年

引证文献3

1刘挺,吴岩,王开铸.最大概率分词问题及其解法[J].哈尔滨工业大学学报,1998,30(6):37-41. 被引量：16
2陈静,周毅刚,周建林.符合人耳听觉特性的语音音质的客观评价方法[J].哈尔滨工业大学学报,1998,30(6):80-83. 被引量：3
3完么扎西.现代藏语信息熵的估算及语言模型的复杂度[J].电子技术与软件工程,2020(17):213-215.

二级引证文献19

1曾华琳,李堂秋.基于上下文信息提取的概率分词算法[J].学术问题研究,2006,0(1):127-131.
2车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：65
3金瑜,陆启明,高峰.基于上下文相关的最大概率汉语自动分词算法[J].计算机工程,2004,30(16):146-148. 被引量：8
4赵博,蔡莲红.合成语音自然度客观测度[J].计算机工程与应用,2005,41(7):32-33. 被引量：2
5马晓娜,杨承磊.基于面向对象的受限自然语言查询系统的设计与实现[J].计算机工程与应用,2005,41(10):165-168. 被引量：5
6马光志,秦丹.利用互信息实现音乐风格的分类[J].计算机应用,2005,25(5):1116-1118.
7曾华琳,李堂秋,史晓东.一种基于提取上下文信息的分词算法[J].计算机应用,2005,25(9):2025-2027. 被引量：9
8梁刚.基于机械分词与统计学的新词识别研究[J].情报理论与实践,2005,28(5):475-477. 被引量：6
9张传禄.工作也要“普遍怀疑”[J].出版参考（新阅读）,2006(7):45-45.
10高红,黄德根,杨元生.一种与分词一体化的中文人名识别方法[J].计算机工程,2006,32(19):9-10. 被引量：2

1张辉,武亚红,黄润才.基于规则和统计的汉语多输出切分系统[J].微电子学与计算机,2007,24(7):56-58. 被引量：1
2沈亚敏,赵晖,张权,唐朝京.面向语音转换的汉语语料自动选取算法[J].计算机工程,2011,37(5):256-257.
3徐菁,张辉,陆汝占.汉语语料的切分标注加工系统[J].计算机工程,2003,29(9):66-68. 被引量：4
4马宁,李亚超,何向真,于洪志.一种实用的资源稀缺条件下的分词方法[J].计算机应用研究,2016,33(1):68-70. 被引量：4
5刘龙飞,陈斌,党荣.基于CNET模型的无词典汉语自动分词算法研究[J].计算机应用与软件,2007,24(10):219-221.
6高军,陈锡先.无监督的动态分词方法[J].北京邮电大学学报,1997,20(4):66-69. 被引量：4
7钱揖丽,郑家恒.汉语语料词性标注自动校对方法的研究[J].中文信息学报,2004,18(2):30-35. 被引量：11
8方华,陆汝占,刘绍明.一个实现多种切分标注算法的系统[J].计算机工程,2004,30(24):122-124. 被引量：2
9姜亚辉,姬东鸿.结合半监督与主动学习的复杂名词短语识别[J].计算机工程与设计,2015,36(2):498-501. 被引量：1
10谢法奎,张全.HNC语义标注模型的构建[J].计算机科学,2009,36(5):238-240. 被引量：3

哈尔滨工业大学学报

1997年第5期

浏览历史

内容加载中请稍等...

大标记集汉语字(词)Markov 语言模型的建立被引量：3

参考文献4

同被引文献24

引证文献3

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

大标记集汉语字(词)Markov 语言模型的建立 被引量：3

参考文献4

同被引文献24

引证文献3

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

大标记集汉语字(词)Markov 语言模型的建立被引量：3