-
题名说话人自适应训练方法在连续语音识别中的应用
被引量:1
- 1
-
-
作者
罗骏
欧智坚
王作英
-
机构
清华大学电子工程系语音识别实验室
-
出处
《中文信息学报》
CSCD
北大核心
2004年第3期61-65,共5页
-
基金
国家"86 3"高技术项目 ( 86 3- 30 6 -ZD0 3- 0 1- 2 )
-
文摘
自适应技术在近年来得到越来越多的重视 ,其中应用广泛的包括MAP、MLLR ,该技术利用少量特定人数据就可以调整码本 ,快速地提升识别性能 ,它要求原始的码本有很好的说话人无关性。本文介绍了结合MLLR自适应的说话人自适应训练 (SpeakerAdaptiveTraining ,以下简称SAT)算法 ,这种方法将每个说话人码本视为说话人无关码本经过线性变换的结果 ,在此基础上训练的说话人无关码本更有效剔除了说话人相关信息 ,因此在说话人自适应中时能根据特定数据调整更好地逼近说话人特性 ,从而有更好的性能表现。
-
关键词
计算机应用
中文信息处理
自适应
MLLR
SAT
-
Keywords
computer application
Chinese information processing
adaptation
MLLR
SAT
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名高斯样本模式混淆度分析及其在语音识别中的应用
- 2
-
-
作者
王作英
赵蕤
-
机构
清华大学电子工程系语音识别实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2002年第18期11-13,共3页
-
基金
清华大学"985"重大项目(编号:985校-22-攻关-06)
-
文摘
文章介绍了一种非统计地分析具有高斯分布样本的模式之间混淆度的方法,并将此种方法应用在语音识别中。实验表明,由此种方法得到的模式之间的混淆度信息对提高模式识别系统的性能有很大的帮助。
-
关键词
高斯样本模式
混淆度分析
语音识别
模式识别
高斯分布
贝叶斯判别准则
语音信号处理
-
Keywords
Pattern recognition,Gauss distribution,Bayes rule,Confusion,Speech recognition
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名实时语音识别系统语言层的改进
- 3
-
-
作者
鄢翔
王作英
-
机构
清华大学电子工程系语音识别实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2002年第19期65-66,200,共3页
-
基金
国家863高技术研究发展项目(编号:863-306-2003-02-1)
"九八五"重大项目(编号:985校-22-攻关-06)
-
文摘
该文介绍了在语音识别语言层搜索中为了实时化的需要所做的改进。文章应用词典树技术提高了从拼音到词的查找速度,并且使词典更易动态改动;同时采用多阶段搜索的框架,并在第一阶段搜索中采用一元剪枝和“2.5元”剪枝技术,极大提高了搜索速度。实验表明,在识别率没有受到影响的情况下,识别速度提高了近一倍。
-
关键词
实时语音识别系统
语言层
语言层解码器
词典树
-
Keywords
Real-time speech recognition,Linguistic decoder,Lexicon tree
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名基于词图树扩展的语音命令理解及其容错算法的研究
- 4
-
-
作者
陈俊燕
李涓子
王作英
-
机构
清华大学电子工程系语音识别实验室
-
出处
《中文信息学报》
CSCD
北大核心
2002年第1期54-59,共6页
-
基金
国家 8 6 3高技术项目 (86 3- 30 6 -ZD0 3- 0 2 - 1)
985重大项目"人机自然语言交互技术"(985校 - 2 2 -攻关 - 0 6 )
-
文摘
本文对计算机语音命令理解的算法作了一些探索性的研究。首先针对词图结构的特点提出了一种词图树扩展理解算法 ,通过分析与实验比较 ,发现该算法在保证精确率的下降很小的条件下可获得比传统的Nbest路径理解算法高得多的召回率 ,而计算效率仅相当于Nbest路径理解算法中句子候选数取值很小时的情况 ;其次根据对实验结果的分析与观察 ,给出了一种行之有效的命令理解容错算法 ,使得理解召回率提高到91 7% ,精确率仍保持在 90 %以上 ,而理解错误率降低了 13 5 % 。
-
关键词
计算机
语音命令理解
语音识别
语音输入
N-best路径理解算法
词图扩展
图表句法分析方法
容错
语音输入
-
Keywords
voice command
N best paths understanding algorithm
Word Graph Expansion
Top Down Chart parsing
error tolerance
-
分类号
TN912.34
[电子电信—通信与信息系统]
TP334.24
[自动化与计算机技术—计算机系统结构]
-
-
题名一种利用主曲线的说话人自适应方法
- 5
-
-
作者
王晶莹
王作英
-
机构
清华大学电子工程系语音识别实验室
-
出处
《高技术通讯》
CAS
CSCD
北大核心
2007年第5期470-473,共4页
-
基金
863计划(2001AA114071)资助项目.
-
文摘
为了克服噪声对语音识别系统的影响,提出了一种基于主曲线的说话人自适应方法,这种方法可以通过一组主曲线描述所有状态的特征统计信息和码本参数之间的关系,并利用特征统计量在主曲线上的投影更新码本。当有背景噪声存在时,这种方法可以有效修正状态的特征统计信息以减弱或去掉噪声的影响。在863大词汇量连续语音识别数据库上的实验结果证明:这种方法相对于基线以及本征音说话人自适应算法,系统识别性能都有明显的提高。
-
关键词
主曲线
说话人自适应
相关性
空间相关性
-
Keywords
principal curves, speaker adaptation, correlation, spatial dependence
-
分类号
TN912.34
[电子电信—通信与信息系统]
-