期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
Improved vocal effort modeling by exploiting echo state network and radial basis function network
1
作者 Chao Hao Dong Liang Liu Yongli 《The Journal of China Universities of Posts and Telecommunications》 EI CSCD 2019年第3期98-104,共7页
The independent hypothesis between frames in vocal effect(VE) recognition makes it difficult for frame based spectral features to describe the intrinsic temporal correlation and dynamic change information in speech ph... The independent hypothesis between frames in vocal effect(VE) recognition makes it difficult for frame based spectral features to describe the intrinsic temporal correlation and dynamic change information in speech phenomena. A novel VE detection method based on echo state network(ESN) is proposed. The input sequences are mapped into a fixed-dimensionality vector in high dimensional coding space by reservoir of the ESN. Then, radial basis function(RBF) networks are employed to fit the probability density function(pdf) of each VE mode by using the vectors in the high dimensional coding space. Finally, the minimum error rate Bayesian decision is employed to judge the VE mode. The experiments which are conducted on isolated words test set achieve 79.5% average recognition accuracy, and the results show that the proposed method can overcome the defect of the independent hypothesis between frames effectively. 展开更多
关键词 vocal effort ECHO state network RESERVOIR RADIAL BASIS function support vector machine
原文传递
基于发音特征的声效相关鲁棒语音识别算法 被引量:8
2
作者 晁浩 宋成 彭维平 《计算机应用》 CSCD 北大核心 2015年第1期257-261,共5页
针对声效(VE)相关的语音识别鲁棒性问题,提出了基于多模型框架的语音识别算法。首先,分析了不同声效模式下语音信号的声学特性以及声效变化对语音识别精度的影响;然后,提出了基于高斯混合模型(GMM)的声效模式检测方法;最后,根据声效检... 针对声效(VE)相关的语音识别鲁棒性问题,提出了基于多模型框架的语音识别算法。首先,分析了不同声效模式下语音信号的声学特性以及声效变化对语音识别精度的影响;然后,提出了基于高斯混合模型(GMM)的声效模式检测方法;最后,根据声效检测的结果,训练专门的声学模型用于耳语音识别,而将发音特征与传统的谱特征一起用于其余4种声效模式的语音识别。基于孤立词识别的实验结果显示,采用所提方法后语音识别准确率有了明显的提高:与基线系统相比,所提方法 5种声效的平均字错误率降低了26.69%;与声学模型混合语料训练方法相比,平均字错误率降低了14.51%;与最大似然线性回归(MLLR)自适应方法相比,平均字错误率降低了15.30%。实验结果表明:与传统谱特征相比发音特征对于声效变化更具鲁棒性,而多模型框架是解决声效相关的语音识别鲁棒性问题的有效方法。 展开更多
关键词 语音识别 声效 发音特征 多模型框架 孤立词
下载PDF
语音识别中声效模式的分析及检测 被引量:3
3
作者 晁浩 宋成 彭维平 《计算机应用研究》 CSCD 北大核心 2015年第8期2292-2294,2338,共4页
针对声效相关的语音识别鲁棒性问题,在分析了声效变化情况下声强、时长、帧能量分布以及频谱倾斜能方面特性的基础上,建立了基于GMM的声效检测器。同时,还研究了声效变化对语音识别精度的影响,并提出了基于多模型框架的语音识别算法。... 针对声效相关的语音识别鲁棒性问题,在分析了声效变化情况下声强、时长、帧能量分布以及频谱倾斜能方面特性的基础上,建立了基于GMM的声效检测器。同时,还研究了声效变化对语音识别精度的影响,并提出了基于多模型框架的语音识别算法。汉语孤立词语音识别实验显示,除正常模式的语音识别精度略有下降外,其他四种声效模式的识别精度均有大幅度的提高。实验结果表明,语音信号的声强、时长、帧能量分布以及频谱倾斜等信息能够用于识别声效模式,而多模型框架是解决声效相关的语音识别鲁棒性问题的有效方法。 展开更多
关键词 语音识别 声效 多模型框架 高斯混合模型 孤立词
下载PDF
基于模型自适应的声效鲁棒性语音识别算法 被引量:1
4
作者 晁浩 宋成 +1 位作者 薛霄 刘志中 《计算机工程与应用》 CSCD 北大核心 2016年第2期156-160,204,共6页
针对声音效果变化引起的语音声学特性的改变,提出基于声学模型自适应的方法。分析了正常模式下训练的声学模型在识别其他声效模式下语音的表现;根据随机段模型的模型特性,将最大似然线性回归方法引入到随机段模型系统中,并利用自适应后... 针对声音效果变化引起的语音声学特性的改变,提出基于声学模型自适应的方法。分析了正常模式下训练的声学模型在识别其他声效模式下语音的表现;根据随机段模型的模型特性,将最大似然线性回归方法引入到随机段模型系统中,并利用自适应后的声学模型来识别对应的声效模式下的语音。在"863-test"测试集上进行的汉语连续语音识别实验显示,正常模式下训练的声学模型识别其他四种声效模式下的语音时,识别精度均有较大程度的下降;而自适应后的系统在识别对应的声效模式的语音时,识别精度有了明显的改观。表明了基于声学模型自适应的方法在解决语音识别中声音效果变化问题上的有效性。 展开更多
关键词 语音识别 声音效果 自适应 最大似然线性回归
下载PDF
基于ESN-RBF框架的声效模式检测 被引量:1
5
作者 晁浩 董亮 《河南理工大学学报(自然科学版)》 CAS 北大核心 2019年第4期114-119,共6页
针对声效检测过程中基于帧的谱特征不能描述语音现象中固有的时间相关性和动态变化信息的问题,提出一种结合回声状态网络和径向基函数网络的声效检测方法。首先将声学观测特征序列输入到回声状态网络,根据回声状态网络中储备池的节点状... 针对声效检测过程中基于帧的谱特征不能描述语音现象中固有的时间相关性和动态变化信息的问题,提出一种结合回声状态网络和径向基函数网络的声效检测方法。首先将声学观测特征序列输入到回声状态网络,根据回声状态网络中储备池的节点状态对输入的观测矢量序列进行编码,从而将基于语音帧的声学观测矢量序列映射到高维编码空间;然后径向基函数网络被用于拟合每种声效模式编码后的概率密度函数;最后使用最小错误率贝叶斯决策方法来确定声效模式。对拥有5 000个孤立词的测试集进行声效检测试验,获得79.5%的识别精度。结果表明,所提方法可以有效获取语音帧之间的相关性信息,克服帧间独立假设的缺陷。 展开更多
关键词 声效检测 回声状态网络 储备池 径向基函数 支持向量机
下载PDF
基于MAP+CMLLR的说话人识别中发声力度问题 被引量:1
6
作者 黄文娜 彭亚雄 贺松 《计算机应用》 CSCD 北大核心 2017年第3期906-910,共5页
为了改善发声力度对说话人识别系统性能的影响,在训练语音存在少量耳语、高喊语音数据的前提下,提出了使用最大后验概率(MAP)和约束最大似然线性回归(CMLLR)相结合的方法来更新说话人模型、投影转换说话人特征。其中,MAP自适应方法用于... 为了改善发声力度对说话人识别系统性能的影响,在训练语音存在少量耳语、高喊语音数据的前提下,提出了使用最大后验概率(MAP)和约束最大似然线性回归(CMLLR)相结合的方法来更新说话人模型、投影转换说话人特征。其中,MAP自适应方法用于对正常语音训练的说话人模型进行更新,而CMLLR特征空间投影方法则用来投影转换耳语、高喊测试语音的特征,从而改善训练语音与测试语音的失配问题。实验结果显示,采用MAP+CMLLR方法时,说话人识别系统等错误率(EER)明显降低,与基线系统、最大后验概率(MAP)自适应方法、最大似然线性回归(MLLR)模型投影方法和约束最大似然线性回归(CMLLR)特征空间投影方法相比,MAP+CMLLR方法的平均等错率分别降低了75.3%、3.5%、72%和70.9%。实验结果表明,所提出方法削弱了发声力度对说话人区分性的影响,使说话人识别系统对于发声力度变化更加鲁棒。 展开更多
关键词 说话人识别 发声力度 最大后验概率 最大似然线性回归 约束最大似然线性回归
下载PDF
基于VEMAP的说话人识别鲁棒性研究
7
作者 黄文娜 彭亚雄 贺松 《电声技术》 2016年第11期44-47,共4页
为了改善发声力度变化对说话人识别系统性能的影响。针对不同发声力度下语音信号的分析,提出了使用发声力度最大后验概率(Vocal Effort Maximum A Posteriori,VEMAP)自适应方法更新基于高斯混合模型-通用背景模型(Gaussian Mixture Mode... 为了改善发声力度变化对说话人识别系统性能的影响。针对不同发声力度下语音信号的分析,提出了使用发声力度最大后验概率(Vocal Effort Maximum A Posteriori,VEMAP)自适应方法更新基于高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)的说话人识别系统模型。实验表明,所提出的方法使不同发声力度下系统EER%降低了88.45%与85.16%,有效解决了因发声力度变化引起的训练语音与测试语音音量失配,从而导致说话人识别性能降低的问题,改善说话人识别系统性能效果显著。 展开更多
关键词 说话人识别 发声力度 发声力度最大后验概率自适应 高斯混合模型-通用背景模型
下载PDF
基于元音模板匹配的声效多级检测 被引量:4
8
作者 晁浩 宋成 刘志中 《北京邮电大学学报》 EI CAS CSCD 北大核心 2016年第4期98-102,共5页
针对鲁棒语音识别中的声效模式检测问题,提出了一种分级检测方法.首先使用整体谱特征训练高斯混合模型来判定语音信号是否耳语.对于非耳语的语音信号,通过声学界标点检测来获取信号中的元音段,然后通过元音模板匹配来确定语音信号具体... 针对鲁棒语音识别中的声效模式检测问题,提出了一种分级检测方法.首先使用整体谱特征训练高斯混合模型来判定语音信号是否耳语.对于非耳语的语音信号,通过声学界标点检测来获取信号中的元音段,然后通过元音模板匹配来确定语音信号具体的声效模式.在863-test测试集上进行的声效检测实验结果显示,除耳语识别精度略有下降外,其他4种声效模式的识别精度均有大幅度的提高.实验结果表明了将语音信号整体特征与局部元音特征相结合在声效检测中的有效性. 展开更多
关键词 语音识别 声效 元音 模板匹配 高斯混合模型
原文传递
基于谱信息熵和互补模型的声效模式检测
9
作者 晁浩 鲁保云 +2 位作者 刘永利 刘志中 宋成 《北京邮电大学学报》 EI CAS CSCD 北大核心 2018年第2期56-61,共6页
提出了一种基于模型融合的声效检测方法.首先提取对所有声效模式都具有良好辨识能力的谱信息熵特征,并进行声效辨识度分析;然后引入互补模型进行声效识别,从模型层面实现了整体谱特征、梅尔频率倒谱系数和谱信息熵的融合.对孤立词测试... 提出了一种基于模型融合的声效检测方法.首先提取对所有声效模式都具有良好辨识能力的谱信息熵特征,并进行声效辨识度分析;然后引入互补模型进行声效识别,从模型层面实现了整体谱特征、梅尔频率倒谱系数和谱信息熵的融合.对孤立词测试集进行了声效检测实验,识别精度为81.6%,实验结果表明,谱信息熵在3类特征中具有最好的分类能力,而互补模型能够有效集成3种特征蕴含的显著性信息. 展开更多
关键词 声效 谱信息熵 支持向量机 高斯混合模型 多层感知器
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部