-
题名一种联合语种识别的新型大词汇量连续语音识别算法
被引量:10
- 1
-
-
作者
单煜翔
邓妍
刘加
-
机构
清华大学电子工程系清华信息科学与技术国家实验室
-
出处
《自动化学报》
EI
CSCD
北大核心
2012年第3期366-374,共9页
-
基金
高技术研究发展计划(国家863计划)(2008AA02Z414
2008AA040201)
+2 种基金
国家自然科学基金(60776800
61005019)
国家自然科学基金委员会与香港研究资助局联合科研基金(60931160443)资助~~
-
文摘
提出了一种联合语种识别的新型大词汇量连续语音识别(Large vocabulary continuo us speech recognition,LVCSR)算法,并构建了实时处理系统.该算法能够充分利用语音解码过程中收集的音素识别假设,在识别语音内容的同时识别语种类别.该系统可以应用于多语种环境,不仅可以以更小的系统整体计算开销替代独立的语种识别模块,更能有效应对在同一段语音中混有非目标语种的情况,极大地减少由非目标语种引入的无意义识别错误,避免错误积累对后续识别过程的误导.为将语音内容识别和语种识别紧密整合在一个统一语音识别解码过程中,本文提出了三种不同的算法对解码产生的音素格结构进行调整(重构):一方面去除语音识别中由发音字典和语言模型引入的特定目标语种偏置,另一方面在音素格中包含更加丰富的音素识别假设.实验证明,音素格重构算法可有效提高联合识别中语种识别的精度.在汉语为目标语种、汉英混杂的电话对话语音库上测试表明,本文提出的联合识别算法将集外语种引起的无意义识别错误减少了91.76%,纯汉字识别错误率为54.98%.
-
关键词
语音识别
语种识别
集外语种问题
音素格重构
-
Keywords
Speech recognition, language recognition, out-of-language problem, phone lattice reconstruction
-
分类号
TN912.34
[电子电信—通信与信息系统]
-