-
题名特定领域的汉语语言模型平滑算法比较研究
被引量:5
- 1
-
-
作者
杨琳
张建平
颜永红
-
机构
中科院声学所中科信利语音实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2006年第32期14-16,共3页
-
基金
国家自然科学基金资助项目(编号:60535030)。
-
文摘
为了完成特定领域的语音识别任务,利用有限的语料建立高性能的语言模型成为提高系统性能的关键。针对此问题,对特定领域的语言模型进行了研究。提出了利用高频新词来加强模型的领域特征的方法,采取了两种方案:一种是将高频新词直接加入原有字典,并在训练过程中增加这些新词的权重,使模型更能表达与领域相关的特征;一种是基于高频新词统计出一个和领域相关的小词表,并对这两种方案进行了比较研究。通过实验研究了适合汉语语言的平滑策略。最后,实验结果表明,对于特定领域问题,语言模型平滑算法对模型性能影响较大;采用适合汉语的Witten-Bell插值平滑,可以使识别率达到88.4%,比通用模型性能相对提高了18.18%。
-
关键词
语言模型
特定领域
语音识别
平滑
字典
-
Keywords
language model,specific domain,speech recognition,smoothing algorithm,dictionary
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名一种应用于体育节目中的关键词检测与比赛分类系统
- 2
-
-
作者
卢鲤
徐燃
赵庆卫
颜永红
-
机构
中科院声学所中科信利语音实验室
-
出处
《微计算机应用》
2009年第11期38-43,共6页
-
基金
国家高技术研究发展计划(863计划
2006AA010102)
+5 种基金
国家科技支撑计划(2008BAI50B00)
国家重点基础研究发展规划项目计划(973计划
2004CB318106)
国家自然科学基金(No.10874203
60875014
60535030)经费资助
-
文摘
提出一种应用于体育节目音频分析中的关键词检索系统框架,并利用关键词检索结果对比赛实现了体育类别的自动判断。采用一种基于距离测算和基于模型选择融合的前端音频处理模块,实现了对复杂音频流中语音的高效提取;采用基于LVCSR系统的关键词系统框架,利用少量体育节目语音数据,对声学模型进行了自适应,构建体育类语言模型同时提出一种针对特定关键词词频分布的语言模型自适应,较大幅度提高了关键词系统的检出性能;针对不同体育比赛选择特征关键词,并利用关键词系统检索结果实现了比赛类别的自动判定,在由七种体育共15场比赛构成的测试集中,判定正确率达到100%。
-
关键词
系统
音频分段
语言模型自适应
体育比赛分类
-
Keywords
keyword spotting, audio segmentation, acoustic model adaptation, sport game
-
分类号
TP319
[自动化与计算机技术—计算机软件与理论]
-