期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
语音特征波形的分解与量化 被引量:1
1
作者 王贵平 鲍长春 李靓 《电声技术》 2005年第1期50-54,58,共6页
波形内插语音编码模型作为当今最具潜力的低速率语音编码方案之一,因其良好的性能,越来越受到人们的重视。基于波形内插(WI)语音编码算法,全面总结和分析了现存的特征波形分解和量化的方法,这将为该领域的研究人员提供重要的参考。
关键词 语音编码 语音分解 波形内插
下载PDF
用于周期分解语音活动检测的基频提取方法研究 被引量:1
2
作者 刘海波 李辉 凌震华 《中国科学技术大学学报》 CAS CSCD 北大核心 2012年第2期106-111,共6页
介绍了基于语音信号周期分解的语音活动检测算法.传统语音活动检测算法在动态低信噪比背景噪声环境下的效果很不理想,这主要是因为传统方法中提取的能量与过零率等检测特征针对的是平稳噪声,对信噪比的变化很敏感.而本文介绍的周期分解... 介绍了基于语音信号周期分解的语音活动检测算法.传统语音活动检测算法在动态低信噪比背景噪声环境下的效果很不理想,这主要是因为传统方法中提取的能量与过零率等检测特征针对的是平稳噪声,对信噪比的变化很敏感.而本文介绍的周期分解语音活动检测方法能较好地解决这个问题,因为语音信号中浊音段的周期性是区别一般噪声信号的重要特征,并且该特征受背景噪声类型和信噪比变化的影响小.在周期分解语音活动检测方法中,基频提取的准确性对最终检测性能有很大影响.针对此情况,提出了自相关、循环均值幅度差分和YIN三种基频提取算法相融合的方法.实验结果表明,在背景噪声为白噪声、汽车噪声、嘈杂人声以及信噪比0dB,5dB,10dB的情况下,该方法相对单一基频提取算法,可以有效提升基频提取与周期分解语音活动检测的准确性. 展开更多
关键词 语音活动检测 语音周期分解 似然比 基频估计
下载PDF
融合语言模型的端到端中文语音识别算法 被引量:13
3
作者 吕坤儒 吴春国 +4 位作者 梁艳春 袁宇平 任智敏 周柚 时小虎 《电子学报》 EI CAS CSCD 北大核心 2021年第11期2177-2185,共9页
为了解决语音识别模型在识别中文语音时鲁棒性差,缺少语言建模能力而无法有效区分同音字或近音字的不足,本文提出了融合语言模型的端到端中文语音识别算法.算法建立了一个基于深度全序列卷积神经网络和联结时序分类的从语音到拼音的语... 为了解决语音识别模型在识别中文语音时鲁棒性差,缺少语言建模能力而无法有效区分同音字或近音字的不足,本文提出了融合语言模型的端到端中文语音识别算法.算法建立了一个基于深度全序列卷积神经网络和联结时序分类的从语音到拼音的语音识别声学模型,并借鉴Transformer的编码模型,构建了从拼音到汉字的语言模型,之后通过设计语音帧分解模型将声学模型的输出和语言模型的输入相连接,克服了语言模型误差梯度无法传递给声学模型的难点,实现了声学模型和语言模型的联合训练.为验证本文方法,在实际数据集上进行了测试.实验结果表明,语言模型的引入将算法的字错误率降低了21%,端到端的联合训练算法起到了关键作用,其对算法的影响达到了43%.和已有5种主流算法进行比较的结果表明本文方法的误差明显低于其他5种对比模型,与结果最好的Deep⁃Speech2模型相比字错误率降低了28%. 展开更多
关键词 语音识别 联结时序分类 语言模型 声学模型 语音分解
下载PDF
一种基于暂时分解的高效线谱频率参数量化方法 被引量:1
4
作者 李靓 鲍长春 《信号处理》 CSCD 2003年第z1期105-108,共4页
本文基于二阶暂时分解模型,利用LSF参数的有序性,给出了一种用于LSF参数压缩的TD算法,在参数未量化的情况下可获得约为1.28dB的平均谱失真,对表征随时间变化的LSF参数序列的事件函数和事件函数矢量分别进行矢量量化,实验结果表明编码速... 本文基于二阶暂时分解模型,利用LSF参数的有序性,给出了一种用于LSF参数压缩的TD算法,在参数未量化的情况下可获得约为1.28dB的平均谱失真,对表征随时间变化的LSF参数序列的事件函数和事件函数矢量分别进行矢量量化,实验结果表明编码速率在500b/s以下时,能够获得一个相对较低的平均谱失真. 展开更多
关键词 语音编码 暂时分解 线性预测 线谱频率
下载PDF
Speech-stream detection in short-wave channel based on empirical mode decomposition and higher-order statistics 被引量:1
5
作者 钱真 李雪耀 +1 位作者 张汝波 王武 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2009年第5期713-716,共4页
To capture the presence of speech embedded in nonspeech events and background noise in shortwave non-cooperative communication, an algorithm for speech-stream detection in noisy environments is presented based on Empi... To capture the presence of speech embedded in nonspeech events and background noise in shortwave non-cooperative communication, an algorithm for speech-stream detection in noisy environments is presented based on Empirical Mode Decomposition (EMD) and statistical properties of higher-order cumulants of speech signals. With the EMD, the noise signals can be decomposed into different numbers of IMFs. Then, the fourth-order cumulant ( FOC ) can be used to extract the desired feature of statistical properties for IMF components. Since the higher-order eumulants are blind for Gaussian signals, the proposed method is especially effective regarding the problem of speech-stream detection, where the speech signal is distorted by Gaussian noise. With the self-adaptive decomposition by EMD, the proposed method can also work well for non-Gaussian noise. The experiments show that the proposed algorithm can suppress different noise types with different SNRs, and the algorithm is robust in real signal tests. 展开更多
关键词 speech-stream detection higher-order statistics Empirical Mode Decomposition
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部