期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
Improved Speech Emotion Recognition Focusing on High-Level Data Representations and Swift Feature Extraction Calculation
1
作者 Akmalbek Abdusalomov Alpamis Kutlimuratov +1 位作者 Rashid Nasimov Taeg Keun Whangbo 《Computers, Materials & Continua》 SCIE EI 2023年第12期2915-2933,共19页
The performance of a speech emotion recognition(SER)system is heavily influenced by the efficacy of its feature extraction techniques.The study was designed to advance the field of SER by optimizing feature extraction... The performance of a speech emotion recognition(SER)system is heavily influenced by the efficacy of its feature extraction techniques.The study was designed to advance the field of SER by optimizing feature extraction tech-niques,specifically through the incorporation of high-resolution Mel-spectrograms and the expedited calculation of Mel Frequency Cepstral Coefficients(MFCC).This initiative aimed to refine the system’s accuracy by identifying and mitigating the shortcomings commonly found in current approaches.Ultimately,the primary objective was to elevate both the intricacy and effectiveness of our SER model,with a focus on augmenting its proficiency in the accurate identification of emotions in spoken language.The research employed a dual-strategy approach for feature extraction.Firstly,a rapid computation technique for MFCC was implemented and integrated with a Bi-LSTM layer to optimize the encoding of MFCC features.Secondly,a pretrained ResNet model was utilized in conjunction with feature Stats pooling and dense layers for the effective encoding of Mel-spectrogram attributes.These two sets of features underwent separate processing before being combined in a Convolutional Neural Network(CNN)outfitted with a dense layer,with the aim of enhancing their representational richness.The model was rigorously evaluated using two prominent databases:CMU-MOSEI and RAVDESS.Notable findings include an accuracy rate of 93.2%on the CMU-MOSEI database and 95.3%on the RAVDESS database.Such exceptional performance underscores the efficacy of this innovative approach,which not only meets but also exceeds the accuracy benchmarks established by traditional models in the field of speech emotion recognition. 展开更多
关键词 feature extraction mfcc ResNet speech emotion recognition
下载PDF
改进的混合MFCC语音识别算法研究 被引量:18
2
作者 袁正午 肖旺辉 《计算机工程与应用》 CSCD 北大核心 2009年第33期108-110,共3页
针对MFCC特征参数在语音识别中对中高频信号的识别精度不高的特点,提出采用IMFCC,MIDMFCC,MFCC相结合的改进算法,使用混合滤波器组,提高在语音中高频区域中的识别精度。实验结果表明,改进之后的算法与经典算法比较,在相同环境下对语音... 针对MFCC特征参数在语音识别中对中高频信号的识别精度不高的特点,提出采用IMFCC,MIDMFCC,MFCC相结合的改进算法,使用混合滤波器组,提高在语音中高频区域中的识别精度。实验结果表明,改进之后的算法与经典算法比较,在相同环境下对语音信息的识别率都有一定程度的提高。 展开更多
关键词 Mel频率倒谱系数(mfcc) 语音识别 特征提取
下载PDF
语音MFCC特征提取的FPGA实现 被引量:7
3
作者 谢秋云 肖铁军 《计算机工程与设计》 CSCD 北大核心 2008年第21期5474-5475,5493,共3页
提出了在FPGA上实现语音MFCC特征提取的方法,巧妙设计了FFT、三角滤波、取对数和DCT的硬件结构,采用多时钟、状态机、模块复用、IP核和多级流水技术,大大提高了运算速度,实验表明与软件相比,结果误差在1%以内,50M时钟频率下每秒语音数... 提出了在FPGA上实现语音MFCC特征提取的方法,巧妙设计了FFT、三角滤波、取对数和DCT的硬件结构,采用多时钟、状态机、模块复用、IP核和多级流水技术,大大提高了运算速度,实验表明与软件相比,结果误差在1%以内,50M时钟频率下每秒语音数据计算时间仅为8.5 ms,与VQ、HMM结合后,对系统识别率影响可以忽略,达到了嵌入式实时系统的应用要求。 展开更多
关键词 mfcc FPGA 语音识别 特征提取 嵌入式计算
下载PDF
说话人识别中改进的MFCC参数提取方法 被引量:6
4
作者 何朝霞 潘平 《科学技术与工程》 2011年第18期4215-4218,4227,共5页
在说话人识别技术中,特征参数的提取对语音训练和识别有着非常重要的作用。而Mel频标倒谱系数MFCC是一种常用的特征,它能对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。同时由于语音信号具有... 在说话人识别技术中,特征参数的提取对语音训练和识别有着非常重要的作用。而Mel频标倒谱系数MFCC是一种常用的特征,它能对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。同时由于语音信号具有时变和混沌特性,以非线性随机共振理论和人类对听觉的理解为基础,提出了一种基于随机共振的MFCC特征参数提取方法。通过实验比较两种方法的结果,论证了改进方法的可行性以及优越性,为说话人识别技术中特征参数提取提供了一条新的研究方向。 展开更多
关键词 说话人识别 特征提取 mfcc参数 随机共振
下载PDF
噪声环境下MFCC特征提取 被引量:9
5
作者 宫晓梅 王怀阳 《微计算机信息》 北大核心 2007年第22期247-249,共3页
梅尔倒谱系数(MFCC)模拟了人耳的听觉特性,在语音识别实际应用中取得了较高的识别率。本文研究了在噪声环境下提取MFCC的一般过程和方法,研究了对噪声信号在时域与频域中的处理方法。最后用HTK工具箱进行实验验证文中所用方法的识别性能... 梅尔倒谱系数(MFCC)模拟了人耳的听觉特性,在语音识别实际应用中取得了较高的识别率。本文研究了在噪声环境下提取MFCC的一般过程和方法,研究了对噪声信号在时域与频域中的处理方法。最后用HTK工具箱进行实验验证文中所用方法的识别性能,本系统与基本特征提取方法相比,识别率有很大提高。 展开更多
关键词 语音识别 mfcc 特征提取 谱减法
下载PDF
语音识别特征提取中对特征方法的对比
6
作者 郭明琦 《计算机应用文摘》 2024年第2期96-99,共4页
人工智能概念的提出,让语音识别迎来了新的生机。随着相关知识与技能的飞速发展,神经网络带动了语音识别领域相关知识的革新。文章使用语音识别中常见的LPCC特征、MFCC特征和PLP特征对同一段语音进行特征提取,通过特征图像化可以直观展... 人工智能概念的提出,让语音识别迎来了新的生机。随着相关知识与技能的飞速发展,神经网络带动了语音识别领域相关知识的革新。文章使用语音识别中常见的LPCC特征、MFCC特征和PLP特征对同一段语音进行特征提取,通过特征图像化可以直观展示其特征的优劣势。其中,LPCC特征对频谱包络变化较为敏感;MFCC特征具有较好语音信号的短时频谱,对信号的语音干扰和音量变化等抗干扰能力较好,但高频细节不够清晰;PLP特征具有较好的鲁棒性,对信号的语音干扰和音量变化等有很好的抗干扰能力,且对高频部分的细节信息表示更为准确。 展开更多
关键词 语音识别 特征提取 LPCC mfcc PLP
下载PDF
二次特征提取及其在说话人识别中的应用 被引量:10
7
作者 马志友 杨莹春 吴朝晖 《电路与系统学报》 CSCD 2003年第2期130-133,共4页
传统的特征提取方法在处理小范围的说话人识别时尚可为之,但是在较大用户群的情况下,由于特征覆盖范围不够导致性能下降。鉴于此,本文提出了一种新的二次特征提取方法,它通过综合运用加权、微分、组合、筛选等方法,进一步挖掘说话人语... 传统的特征提取方法在处理小范围的说话人识别时尚可为之,但是在较大用户群的情况下,由于特征覆盖范围不够导致性能下降。鉴于此,本文提出了一种新的二次特征提取方法,它通过综合运用加权、微分、组合、筛选等方法,进一步挖掘说话人语音背后的隐性个性差异。在采用138人的YOHO数据库上进行的说话人识别测试中,其性能优于传统的特征提取方法。 展开更多
关键词 发音机理 说话人识别 特征提取 二次特征提取 mfcc LPCC
下载PDF
基于改进语音特征提取方法的语音识别 被引量:8
8
作者 李建文 张晋平 《微电子学与计算机》 CSCD 北大核心 2009年第7期230-233,共4页
在分析语音特征提取方法基础上提出一种改进组合算法,并采用HMM声学模型和Viterbi算法进行模式训练和识别.实验结果表明,该算法在噪声环境中具有较好的鲁棒性,能有效提高噪声环境下中文连续语音识别的正确率,增强语音识别整体性能,因此... 在分析语音特征提取方法基础上提出一种改进组合算法,并采用HMM声学模型和Viterbi算法进行模式训练和识别.实验结果表明,该算法在噪声环境中具有较好的鲁棒性,能有效提高噪声环境下中文连续语音识别的正确率,增强语音识别整体性能,因此在噪声环境下的语音识别系统中具有一定的实用价值. 展开更多
关键词 语音识别 特征提取 最大似然线性转换 MEL频率倒谱系数 隐马尔柯夫模型
下载PDF
基于小波变换的鲁棒性语音特征提取新方法 被引量:6
9
作者 张君昌 李艳艳 《计算机仿真》 CSCD 北大核心 2010年第8期355-358,362,共5页
提高语音识别系统的鲁棒性是语音识别技术一个重要的研究课题。语音识别系统往往由于训练环境下的数据和识别环境下的数据不匹配造成系统的识别性能下降。为了能得到无噪音的语音识别特性,让语音识别系统在含噪的环境下获得令人满意的... 提高语音识别系统的鲁棒性是语音识别技术一个重要的研究课题。语音识别系统往往由于训练环境下的数据和识别环境下的数据不匹配造成系统的识别性能下降。为了能得到无噪音的语音识别特性,让语音识别系统在含噪的环境下获得令人满意的工作性能,根据人听觉特性提出了一种鲁棒语音特征提取方法。将小波变换和MFCC算法相结合,在MFCC的前端用小波包变换代替FFT和Mel滤波器组,同时在后端用临界小波变换代替DCT,最后得到鲁棒语音特征。通过实验结果分析表明,将方法用于抗噪声分析可以提高系统的抗噪声能力;同时特征的处理方法对不同噪声有很好的适应性。 展开更多
关键词 语音识别 特征提取 小波变换 美尔频率倒谱系数 鲁棒性
下载PDF
基于非线性共振的说话人特征提取研究与仿真 被引量:4
10
作者 何朝霞 潘平 罗辉 《科学技术与工程》 北大核心 2012年第25期6507-6510,共4页
针对人发声系统的非线性特性和语音信号的类混沌特性,提出了一种基于非线性共振Duffing模型的说话人语音信号的特征提取方法。实验结果表明:采用非线性共振Duffing模型的特征提取方法,较基于非线性动力学提取广义维数特征具有较高的识... 针对人发声系统的非线性特性和语音信号的类混沌特性,提出了一种基于非线性共振Duffing模型的说话人语音信号的特征提取方法。实验结果表明:采用非线性共振Duffing模型的特征提取方法,较基于非线性动力学提取广义维数特征具有较高的识别率。同时,同一语音信号在相同的识别系统中,与经典的MFCC特征相比,也具有较高的识别率。 展开更多
关键词 非线性共振 语音信号 特征提取 识别率
下载PDF
基于duffing随机共振的说话人特征提取方法 被引量:4
11
作者 潘平 何朝霞 《计算机工程与应用》 CSCD 2012年第35期123-125,142,共4页
说话人特征参数的提取直接影响识别模型的建立,MFCC与LPC参数提取方法,分别以局域低频信息和全局AR信号为主要特征。提出一种基于duffing随机共振的说话人频谱特征提取方法。仿真结果表明,该方法能识别说话人之间频谱的微小差别,有效地... 说话人特征参数的提取直接影响识别模型的建立,MFCC与LPC参数提取方法,分别以局域低频信息和全局AR信号为主要特征。提出一种基于duffing随机共振的说话人频谱特征提取方法。仿真结果表明,该方法能识别说话人之间频谱的微小差别,有效地提取说话人频谱的基本特征,从而为说话人识别模型提供更为精细的识别模型。 展开更多
关键词 duffing随机共振 说话人识别(SR) 特征提取
下载PDF
噪声背景下语音识别特征参数选择研究 被引量:3
12
作者 刘顺兰 窦园园 应娜 《杭州电子科技大学学报(自然科学版)》 2011年第4期73-76,共4页
为提高语音识别系统的实用性与实时性,该文采用缺失特征分量的方法研究了美尔频率倒谱系数静态特征及其一阶差分各分量对识别率的影响。在不同信噪比情况下,分别对含白噪声、粉红噪声、车载噪声和工厂噪声这四种典型噪声的语音进行了实... 为提高语音识别系统的实用性与实时性,该文采用缺失特征分量的方法研究了美尔频率倒谱系数静态特征及其一阶差分各分量对识别率的影响。在不同信噪比情况下,分别对含白噪声、粉红噪声、车载噪声和工厂噪声这四种典型噪声的语音进行了实验研究,结果表明:在保证系统有较高识别率的情况下,在低信噪比时,含白噪声的语音信号缺失美尔频率倒谱系数静态特征及其一阶差分的低阶分量,有助于提升识别率;含粉红噪声的语音识别系统和含工厂噪声的语音识别系统,不能缺失美尔倒谱频率系数和美尔倒谱频率系数的一阶差分的任何特征分量;含车载噪声的语音可以缺失部分高阶MFCC分量和部分一阶差分分量。 展开更多
关键词 语音识别 特征提取 美尔倒谱频率系数 美尔倒谱频率系数的一阶差分
下载PDF
基于频率段的语音识别算法设计与实现 被引量:1
13
作者 袁正午 肖旺辉 《计算机工程与设计》 CSCD 北大核心 2011年第2期659-662,共4页
线性预测倒谱参数(LPCC)能很好的体现人的声道特性,而梅尔倒谱参数(MFCC)能很好的模拟人耳的听觉效应。针对MFCC在不同频率段的识别精度不一致和LPCC不能准确模拟人的听觉系统问题,将MFCC参数和IMFCC参数分别作为语音不同频率段的特征参... 线性预测倒谱参数(LPCC)能很好的体现人的声道特性,而梅尔倒谱参数(MFCC)能很好的模拟人耳的听觉效应。针对MFCC在不同频率段的识别精度不一致和LPCC不能准确模拟人的听觉系统问题,将MFCC参数和IMFCC参数分别作为语音不同频率段的特征参数,结合线性预测参数(LPCC),均衡滤波器的分布,完整覆盖到整个频率段范围。将梅尔倒谱参数和线性预测参数结合起来作为语音识别的特征提取参数。实验结果表明,改进之后的算法从效率上和识别率上都有不同程度的提高。 展开更多
关键词 线性预测参数(LPCC) 梅尔倒谱系数(mfcc) 逆梅尔倒谱系数(Imfcc) 语音识别 特征提取
下载PDF
特定人孤立词语音识别系统的特征提取方法研究 被引量:1
14
作者 王路 周翠 《软件导刊》 2007年第9期115-117,共3页
随着语音识别技术的不断发展,特定人孤立词语音识别技术己基本成熟并逐渐开始应用于社会众多领域。而系统所追求的成本低、速度快和识别率高等目标,使主因素特征参数的选取成为其重点和难点。在实验的基础上对特征提取方法进行了深入的... 随着语音识别技术的不断发展,特定人孤立词语音识别技术己基本成熟并逐渐开始应用于社会众多领域。而系统所追求的成本低、速度快和识别率高等目标,使主因素特征参数的选取成为其重点和难点。在实验的基础上对特征提取方法进行了深入的研究,提出了对传统Mel倒谱参数的改进方法,有效提高了系统的识别性能。 展开更多
关键词 语音识别 孤立词语音识别系统 特征提取 mfcc
下载PDF
基于多任务学习的轻量级语音情感识别模型 被引量:3
15
作者 宋羽凯 谢江 《计算机工程》 CAS CSCD 北大核心 2023年第5期122-128,共7页
现有的语音情感识别(SER)模型存在训练参数量大、模型泛化性能差、情感识别准确率低等问题,利用有限的语音情感数据建立一个轻量级的模型以提高识别效率和准确率尤为重要。提出一种轻量级端到端多任务学习的P-CNN+Gender深度模型,该模... 现有的语音情感识别(SER)模型存在训练参数量大、模型泛化性能差、情感识别准确率低等问题,利用有限的语音情感数据建立一个轻量级的模型以提高识别效率和准确率尤为重要。提出一种轻量级端到端多任务学习的P-CNN+Gender深度模型,该模型由语音特征组合网络、负责情感特征和性别特征提取的主体卷积网络以及情感和性别分类器组成。以语音的梅尔频率倒谱系数(MFCC)特征作为输入,特征组合网络使用多个大小不同的卷积核从MFCC特征中平行提取特征再进行组合,供后续的主体卷积网络进行情感特征和性别特征的提取。考虑到情感表达和性别的相关性,将性别分类作为辅助任务融合到情感分类中以提高模型的情感分类性能。实验结果表明,该模型在IEMOCAP、Emo-DB和CASIA语音情感数据集上的类别分类准确率分别达到73.3%、96.4%和93.9%,较P-CNN模型分别提高3.0、5.8和6.5个百分点,与3D-ACRNN、CNNBiRNN等模型相比,其训练参数量仅为其他模型的1/10~1/2,且处理速度更快、准确率更高。 展开更多
关键词 语音情感识别 mfcc特征 特征提取 卷积网络 深度学习
下载PDF
基于HMM/SVM的抗噪语音特征提取及优化 被引量:9
16
作者 李婉玲 张秋菊 《传感器与微系统》 CSCD 2019年第4期55-58,共4页
为了提高语音识别的鲁棒性,提出一种新的特征组合方法。方法基于F比对梅尔频率倒谱系数(MFCC)进行加权优化,同时将不同特征组合输入到语音隐马尔科夫模型(HMM)进行训练,得到具有抗噪性的最佳组合,并采用主成分分析(PCA)进行降维,增加支... 为了提高语音识别的鲁棒性,提出一种新的特征组合方法。方法基于F比对梅尔频率倒谱系数(MFCC)进行加权优化,同时将不同特征组合输入到语音隐马尔科夫模型(HMM)进行训练,得到具有抗噪性的最佳组合,并采用主成分分析(PCA)进行降维,增加支持向量机(SVM)分类器作为后处理器。实验表明,改进的MFCC、短时平均能量和Teager能量算子组合参数识别效果最优,识别率达到90. 48%。PCA降维后识别率降低了0. 4%,提升了计算速度。增加后处理器,系统识别率达到95. 25%,提高了系统的识别效率和分类决策力,相对于常规识别方法,准确率有所提高。 展开更多
关键词 语音识别 梅尔频率倒谱系数 特征参数提取 主成分分析 隐马尔可夫模型 支持向量机
下载PDF
基于统计阈值的鲁棒性语音识别(英文) 被引量:1
17
作者 李银国 蒲甫安 郑方 《重庆邮电大学学报(自然科学版)》 北大核心 2012年第2期127-132,共6页
近几十年来,语音识别系统已由实验室环境走向真实的世界中。在不同的环境噪声下,识别性能却仍不尽人意,尤其是在低信噪比的环境中。为解决在低信噪比情况下的低识别率的问题,以声学参数MFCC(Mel-frequency cepstrum coefficient)为基础... 近几十年来,语音识别系统已由实验室环境走向真实的世界中。在不同的环境噪声下,识别性能却仍不尽人意,尤其是在低信噪比的环境中。为解决在低信噪比情况下的低识别率的问题,以声学参数MFCC(Mel-frequency cepstrum coefficient)为基础,提出了一种基于统计阈值的倒谱均值方差归一化算法,该算法能进一步减小训练环境和测试环境的不匹配程度,从而提升了语音识别系统对环境噪声的鲁棒性。首先,对输入的语音提取MFCC声学参数,然后对提取的声学参数作均值方差归一化处理,最后采用统计阈值的方法抑制归一化后存在变异的特征。该算法能增加带噪语音特征和纯净语音特征的相似性;与MFCC为基线的系统相比,在低信噪比情况下,该算法的错误率最高下降约40%,同时该方法也优于其他的鲁棒性特征倒谱均值减和倒谱均值归一。 展开更多
关键词 鲁棒性 特征提取 均值减 均值方差归一(MVN) 梅尔频率倒谱系数(mfcc) 统计阈值 语音识别
原文传递
基于轻量化神经网络的多语音识别方法研究 被引量:1
18
作者 汪玉秀 苏战波 《自动化与仪器仪表》 2023年第10期167-169,174,共4页
针对传统英语多语音识别准确率低的问题,提出一种基于轻量化神经网络的英语语音识别及控制系统。其中,首先采用MFCC方法对输入语音特征进行提取;然后以时延神经网络TDNN为基础网络,通过步进裁剪得到轻量化的神经网络;最后将提取到的多... 针对传统英语多语音识别准确率低的问题,提出一种基于轻量化神经网络的英语语音识别及控制系统。其中,首先采用MFCC方法对输入语音特征进行提取;然后以时延神经网络TDNN为基础网络,通过步进裁剪得到轻量化的神经网络;最后将提取到的多语音特征输入神经网络中进行识别。结果表明,经过轻量化的神经网络其大小由77 M降低至21 M;在Dev93和Eval92数据集上的测试,其WER值分别为5.12%和3.99%,相较于直接裁剪和未裁剪的WER值更低,英语语音识别准确率更高。由此得出,本研究构建的轻量化神经网络可用于多语音的识别,进而可拓展至包含英语交流机器人在内的领域。 展开更多
关键词 mfcc特征提取 语音识别 TDNN神经网络 轻量化 步进裁剪
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部