-
题名面向口语统计语言模型建模的自动语料生成算法
被引量:1
- 1
-
-
作者
司玉景
肖业鸣
徐及
潘接林
颜永红
-
机构
中国科学院声学研究所语言声学与内容理解重点实验室
-
出处
《自动化学报》
EI
CSCD
北大核心
2014年第12期2808-2814,共7页
-
基金
国家高技术研究发展计划(863计划)(2012AA012503)
国家自然科学基金(10925419
+8 种基金
90920302
61072124
11074275
11161140319
91120001
61271426)
中国科学院战略性先导利技专项(XDA06030100
XDA06030500)
中国利学院重点部岩项日(KGZD-EW-103-2)资助~~
-
文摘
在资源相对匮乏的自动语音识别(Automatic speech recognition,ASR)领域,如面向电话交谈的语音识别系统中,统计语言模型(Language model,LM)存在着严重的数据稀疏问题,本文提出了一种基于等概率事件的采样语料生成算法,白动生成领域相关的语料,用来强化统计语言模型建模实验结果表明,加入本算法生成的采样语料可以缓解语言模型的稀疏性,从而提升整个语音识别系统的性能,在开发集上语言模型的困惑度相对降低7.5%,字错误率(Character error rate,CER)绝对降低0.2个点;在测试集上语言模型的困惑度相对降低6%,字错误率绝对降低0.4点.
-
关键词
自动语音识别
资源匮乏
语言模型
等概率事件
语料生成算法
-
Keywords
Automatic speech recognition (ASR), resource-lack, language model (LM), equality probability event, textcorpus generation
-
分类号
TN912.34
[电子电信—通信与信息系统]
-