-
题名基于聚类和索引技术的语言模型压缩方法
- 1
-
-
作者
祁斌川
杨端端
丁建国
-
机构
中国科学院上海应用物理研究所束测控制部门
盛大创新研究院语音主题部门
-
出处
《计算机技术与发展》
2012年第12期25-28,共4页
-
基金
国家"973"重点基础研究发展计划项目(2011CB808300)
-
文摘
由于训练语料的庞大,SRILM训练生成的ARPA统计语言模型数据文件体积过大,导致查找效率低下以及消耗大量的存储空间。针对该问题,借鉴聚类和索引查找的思想,提出了一种基于K均值(K-means)聚类算法的对语言模型中的转移概率和回退概率压缩,并通过多级索引技术提高查找速度的压缩方法。理论分析和实验表明,该方法可以在减少压缩造成的数据失真对选词影响的同时,取得非常好的压缩效果,同时提高了对语言模型文件查找效率,并且输入法的反应速度得到了明显的提升。
-
关键词
语言模型
压缩方法
聚类算法
多级索引
-
Keywords
language model
compression method
K-means clustering algorithm
multilevel index technology
-
分类号
TP319.14
[自动化与计算机技术—计算机软件与理论]
-
-
题名肖码的沉浮
- 2
-
-
作者
李政
-
出处
《科技与企业》
2003年第2期54-56,共3页
-
文摘
当人们走进肖水清那间阴暗低矮的'办公室'的时候,很难想象眼前的人是名噪一时的肖码的发明者与微型键盘的发明者,也很难想象名片上写着董事长的他竟在北京东城区一个民航招待所的平房内办公,而且平房也不是他租的,而是他的副手,一个退了休的老人租的49岁的肖水清不太在乎目前的寒酸——他破了产,只能住在副手出钱租来的房子里办公、搞研究。但在交谈中,他有那么多的惆怅、也有那么多的希望从眉宇间流出,这让人对他的身世充满了兴趣……
-
关键词
肖码
肖水清
发明人
中国
人物介绍
计算机
五笔字型
-
分类号
TP319.14
[自动化与计算机技术—计算机软件与理论]
TP317.2
[自动化与计算机技术—计算机软件与理论]
-