-
题名特定领域的汉语语言模型平滑算法比较研究
被引量:5
- 1
-
-
作者
杨琳
张建平
颜永红
-
机构
中科院声学所中科信利语音实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2006年第32期14-16,共3页
-
基金
国家自然科学基金资助项目(编号:60535030)。
-
文摘
为了完成特定领域的语音识别任务,利用有限的语料建立高性能的语言模型成为提高系统性能的关键。针对此问题,对特定领域的语言模型进行了研究。提出了利用高频新词来加强模型的领域特征的方法,采取了两种方案:一种是将高频新词直接加入原有字典,并在训练过程中增加这些新词的权重,使模型更能表达与领域相关的特征;一种是基于高频新词统计出一个和领域相关的小词表,并对这两种方案进行了比较研究。通过实验研究了适合汉语语言的平滑策略。最后,实验结果表明,对于特定领域问题,语言模型平滑算法对模型性能影响较大;采用适合汉语的Witten-Bell插值平滑,可以使识别率达到88.4%,比通用模型性能相对提高了18.18%。
-
关键词
语言模型
特定领域
语音识别
平滑
字典
-
Keywords
language model,specific domain,speech recognition,smoothing algorithm,dictionary
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-