期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
基于MFCC-SVM和交叉验证方法的环境音分类 被引量:8
1
作者 李玲俐 《计算机与现代化》 2016年第8期36-39,共4页
用于音乐和语音的识别方法不适用于环境音的识别。提出一种基于MFCC(Mel频率倒谱系数)-SVM(支持向量机)的方法,使用特征表示和学习优化共同来实现办公室10种环境音的分类。环境音数据使用的是IEEE Audio and Acoustic Signal Processing... 用于音乐和语音的识别方法不适用于环境音的识别。提出一种基于MFCC(Mel频率倒谱系数)-SVM(支持向量机)的方法,使用特征表示和学习优化共同来实现办公室10种环境音的分类。环境音数据使用的是IEEE Audio and Acoustic Signal Processing(AASP)Challenge Dataset下载的标准数据集。在分析和优化SVM参数过程中,通过改变Mel系数参数的个数,充分考虑有效的MFCC特征表示。实验结果表明,使用MFCC特征和SVM分类器,采用5-折交叉验证的测试方法,得到的平均分类准确率可达88.05%,分类效果明显优于默认的MFCC-SVM算法。 展开更多
关键词 MEL频率倒谱系数 支持向量机 交叉验证 环境音分类 特征提取
下载PDF
基于MFCC的空中交通管制语音指令的特征提取研究
2
作者 王兴林 《电声技术》 2023年第6期68-72,共5页
随着人工智能技术的不断应用,智能安全与智慧民航不断深入发展,通过科技手段提高空中交通飞行安全成为全球民航的共同选择。空中交通管制语音数据作为民航新型生产要素,对语音信号进行深入研究并合理运用,对于提高飞行安全具有重要意义... 随着人工智能技术的不断应用,智能安全与智慧民航不断深入发展,通过科技手段提高空中交通飞行安全成为全球民航的共同选择。空中交通管制语音数据作为民航新型生产要素,对语音信号进行深入研究并合理运用,对于提高飞行安全具有重要意义。文章介绍空中交通管制指令的基本要求,详细分析语音信号特征提取的各个环节,通过梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)提取语音信号的特征,再使用高斯混合模型(Gaussian Mixture Model,GMM)进行训练和分类,从而实现语音信号的识别,具有一定的实际运用价值。 展开更多
关键词 语音信号 特征提取 梅尔频率倒谱系数(mfcc) 高斯混合模型(GMM) 模型训练
下载PDF
基于音频特征的水车室工作状态异常检测 被引量:2
3
作者 曾广栋 魏学锋 +2 位作者 何林 孙长江 张旋 《水电能源科学》 北大核心 2024年第8期168-172,共5页
水电站的水车室包含轴承和顶盖等机械设备,受水力因素影响,水车室的异常工作会带来较大的安全隐患,基于大数据分析的精确维护对于水车室的可靠运行至关重要。针对水车室的异常工作状态,通过模型训练、特征工程和分类模型的开发等过程,采... 水电站的水车室包含轴承和顶盖等机械设备,受水力因素影响,水车室的异常工作会带来较大的安全隐患,基于大数据分析的精确维护对于水车室的可靠运行至关重要。针对水车室的异常工作状态,通过模型训练、特征工程和分类模型的开发等过程,采用STFT、Log-Mel、MFCC等方法对音频数据进行了预处理,建立了基于音频数据的异常检测模型,并对溪洛渡水电站水车室工作状态进行了异常检测。结果表明,Log-Mel方法具有有效性。研究结果不仅降低了异常检测的成本,还为水电机组的健康监测提供了参考。 展开更多
关键词 音频数据 水车室 STFT Log-Mel 梅尔频率倒频谱系数(mfcc) 时域特征 支持向量机
下载PDF
Improved MFCC-Based Feature for Robust Speaker Identification 被引量:7
4
作者 吴尊敬 曹志刚 《Tsinghua Science and Technology》 SCIE EI CAS 2005年第2期158-161,共4页
The Mel-frequency cepstral coefficient (MFCC) is the most widely used feature in speech and speaker recognition. However, MFCC is very sensitive to noise interference, which tends to drastically de- grade the perfor... The Mel-frequency cepstral coefficient (MFCC) is the most widely used feature in speech and speaker recognition. However, MFCC is very sensitive to noise interference, which tends to drastically de- grade the performance of recognition systems because of the mismatches between training and testing. In this paper, the logarithmic transformation in the standard MFCC analysis is replaced by a combined function to improve the noisy sensitivity. The proposed feature extraction process is also combined with speech en- hancement methods, such as spectral subtraction and median-filter to further suppress the noise. Experi- ments show that the proposed robust MFCC-based feature significantly reduces the recognition error rate over a wide signal-to-noise ratio range. 展开更多
关键词 mel-frequency cepstral coefficient (mfcc) robust speaker identification feature extraction
原文传递
基于声音多特征贝叶斯网络融合的话者识别研究 被引量:14
5
作者 朱坚民 张雷 +1 位作者 翟东婷 雷静桃 《仪器仪表学报》 EI CAS CSCD 北大核心 2013年第9期2058-2067,共10页
针对基于语音单一特征提取方法所存在的话者识别准确率较低的问题,提出将话者语音中反映人耳听觉感知特性的MFCC特征和接近心理声学临界频带的1/3倍频程(1/3 octave)特征作为话者声音的特征参数,设计话者识别的贝叶斯网络,融合2种声音... 针对基于语音单一特征提取方法所存在的话者识别准确率较低的问题,提出将话者语音中反映人耳听觉感知特性的MFCC特征和接近心理声学临界频带的1/3倍频程(1/3 octave)特征作为话者声音的特征参数,设计话者识别的贝叶斯网络,融合2种声音特征参数,通过贝叶斯网络推理实现话者识别。贝叶斯网络通过学习过程确定已注册话者各声音特征的条件概率。进行话者识别时,贝叶斯网络利用贝叶斯定理及条件独立性假设融合待识别话者声音的MFCC特征和1/3倍频程特征,计算每个已注册话者对输入语音特征矢量的后验概率,根据后验概率的大小实现待识别话者的推断。话者识别实验结果表明:提出的基于声音多特征贝叶斯网络融合的话者识别方法可行有效,识别正确率达到100%。 展开更多
关键词 mfcc特征 1 3倍频程特征 贝叶斯网络 后验概率 话者识别 融合
下载PDF
话者识别系统中语音特征参数的研究与仿真 被引量:17
6
作者 王金明 张雄伟 《系统仿真学报》 CAS CSCD 2003年第9期1276-1278,共3页
在说话者识别系统中,提取反映说话者个性的语音信号特征参数是系统的关键问题之一。研究并提取了几种重要的语音特征参数,包括线性预测倒谱系数、美尔倒谱系数、语音动态参数等,对这些参数进行了分析和比较,并研究了将多种参数组合使用... 在说话者识别系统中,提取反映说话者个性的语音信号特征参数是系统的关键问题之一。研究并提取了几种重要的语音特征参数,包括线性预测倒谱系数、美尔倒谱系数、语音动态参数等,对这些参数进行了分析和比较,并研究了将多种参数组合使用对识别系统性能的影响。通过仿真和实验,证明混合参数识别方法能使话者识别系统的正确识别率有明显的提高。 展开更多
关键词 说话者识别 动态特征 线性预测倒谱系数 美尔倒谱系数 仿真
下载PDF
有效的基于内容的音频特征提取方法 被引量:6
7
作者 郑继明 魏国华 吴渝 《计算机工程与应用》 CSCD 北大核心 2009年第12期131-133,137,共4页
音频特征提取是音频分类的基础,好的特征将会有效提高分类精度。在提取频域特征Mel频率倒谱系数(MFCC)的同时,对每一帧信号做离散小波变换,提取小波域特征,把频域和小波域特征相结合计算其统计特征。通过SVM模型建立音频模板,对纯语音... 音频特征提取是音频分类的基础,好的特征将会有效提高分类精度。在提取频域特征Mel频率倒谱系数(MFCC)的同时,对每一帧信号做离散小波变换,提取小波域特征,把频域和小波域特征相结合计算其统计特征。通过SVM模型建立音频模板,对纯语音、音乐及带背景音乐的语音进行分类识别,取得了较高的识别精度。 展开更多
关键词 特征提取 小波变换 MEL频率倒谱系数 支持向量机
下载PDF
基于SVM的非特定人声调识别的研究 被引量:4
8
作者 肖汉光 蔡从中 《计算机工程与应用》 CSCD 北大核心 2009年第9期174-176,共3页
在建立非特定人普通话四声语调语音数据库的基础上,采用Mel频率倒谱系数(MFCCs)对语音数据进行特征参数的提取,并利用支持向量机(SVM)对语音中的四种声调进行了训练和识别研究。实验结果表明MFCCs和SVM的结合得到的平均识别率达到了97.6%。
关键词 声调识别 特征提取 Mel频率倒谱系数(mfcc) 支持向量机
下载PDF
一种基于临界带宽的新小波包变换算法 被引量:2
9
作者 李杰 刘贺平 《计算机工程与应用》 CSCD 2012年第14期5-7,89,共4页
针对传统语音短时分析技术容易出现丢失信息的现状,提出了一种基于临界带宽的小波包变换算法,该算法借鉴传统倒谱特征参数(MFCC)提取的过程并在该过程中引入临界带宽(Critical Bandwidth)的概念。在基于高斯混合模型的说话人识别系统中... 针对传统语音短时分析技术容易出现丢失信息的现状,提出了一种基于临界带宽的小波包变换算法,该算法借鉴传统倒谱特征参数(MFCC)提取的过程并在该过程中引入临界带宽(Critical Bandwidth)的概念。在基于高斯混合模型的说话人识别系统中进行实验,结果表明在选取不同小波包函数的情况下,该算法所取得的识别率较MFCC参数均有提高。 展开更多
关键词 特征提取 小波包变换 临界频带 Mel频率倒谱系数(mfcc)
下载PDF
说话人识别中语音特征参数研究 被引量:5
10
作者 杨建华 于小宁 《大理学院学报(综合版)》 CAS 2009年第8期32-35,共4页
在说话人识别系统中,特征参数的选择和提取对系统的识别性能有关键性的影响。研究了两种重要的语音特征参数,线性预测倒谱系数和美尔倒谱系数,在此基础上提出改进的相位自相关系数,通过实验对几种参数进行了对比,结果表明改进的相位自... 在说话人识别系统中,特征参数的选择和提取对系统的识别性能有关键性的影响。研究了两种重要的语音特征参数,线性预测倒谱系数和美尔倒谱系数,在此基础上提出改进的相位自相关系数,通过实验对几种参数进行了对比,结果表明改进的相位自相关系数能够使系统的误识率明显下降。 展开更多
关键词 说话人识别 特征参数 线性预测倒谱系数 美尔倒谱系数
下载PDF
一种基于贪婪策略的说话人语音特征优选方法 被引量:1
11
作者 陈觉之 张贵荣 周宇欢 《计算机与现代化》 2013年第5期201-205,共5页
为了提高说话人识别的性能,提出一种语音特征优选方法,从目前使用效果较好的特征参数中,采用贪婪算法优选出若干维特征用于识别。在TIMIT语音数据库上实验显示,识别率相比传统方法提高了1.6%;对于加入了噪声的语音,识别率提高了6%,识别... 为了提高说话人识别的性能,提出一种语音特征优选方法,从目前使用效果较好的特征参数中,采用贪婪算法优选出若干维特征用于识别。在TIMIT语音数据库上实验显示,识别率相比传统方法提高了1.6%;对于加入了噪声的语音,识别率提高了6%,识别速度提高了5倍左右。实验结果表明,优选后的特征参数能够去除不良特征对识别系统的干扰,有效提高说话人识别系统的识别率和识别速度。 展开更多
关键词 说话人识别 特征选择 高斯混合模型 贪婪算法 美尔倒谱系数
下载PDF
多类型语音特征进化选择算法
12
作者 张小恒 谢文宾 李勇明 《计算机工程与应用》 CSCD 北大核心 2016年第14期150-155,219,共7页
基于特征选择的语音特征获取用于说话人识别是目前较为有效的方式。但是,最优语音特征随着具体应用环境的变化而不同。因此,提出了基于四类型语音特征封装式遗传特征选择算法(FSF-Wr GAF),该算法提取了四种类型的语音特征参数,通过链式... 基于特征选择的语音特征获取用于说话人识别是目前较为有效的方式。但是,最优语音特征随着具体应用环境的变化而不同。因此,提出了基于四类型语音特征封装式遗传特征选择算法(FSF-Wr GAF),该算法提取了四种类型的语音特征参数,通过链式智能体遗传算法和GMM-UBM进行封装式动态特征选择,获取高精度的识别准确率。采用了多种指标完成该算法的性能测试。实验结果表明,该算法具体实现过程简便,改进效果明显,较同类算法在多项指标(识别率,EER,DET曲线)上都有显著提高。 展开更多
关键词 说话人识别 多类型语音特征 链式智能体遗传算法 伽马通滤波器倒谱系数(GFCC) 梅尔频率倒谱系数(mfcc) 线性预测倒谱系数(LPCC)
下载PDF
基于神经网络的说话人识别实验设计 被引量:17
13
作者 杨瑶 陈晓 《实验室研究与探索》 CAS 北大核心 2020年第9期38-41,50,共5页
针对目前国内人工智能教学和科研活动中缺乏真实现场验证,设计了利用BP神经网络进行说话人识别实验。先对已有说话人语音数据库的样本进行采集,将所采集的语音进行梅尔倒谱系数(MFCC)特征参数的提取,构建了利用BP神经网络实现说话人识... 针对目前国内人工智能教学和科研活动中缺乏真实现场验证,设计了利用BP神经网络进行说话人识别实验。先对已有说话人语音数据库的样本进行采集,将所采集的语音进行梅尔倒谱系数(MFCC)特征参数的提取,构建了利用BP神经网络实现说话人识别功能的系统。然后利用Matlab软件进行编程测试。实验时既可用训练好的网络直接进行说话人识别的验证性实验,也可作为创新性实验,由学生自行设计并编程实现神经网络进行说话人识别。 展开更多
关键词 说话人识别 梅尔倒谱系数 BP神经网络 特征提取
下载PDF
短时谱特征的汉语重音检测方法研究 被引量:2
14
作者 赵云雪 张珑 郑世杰 《计算机科学与探索》 CSCD 2014年第9期1120-1128,共9页
重音是语言交流中不可或缺的部分,在语言交流中扮演着非常重要的角色。为了验证基于听觉模型的短时谱特征集在汉语重音检测方法中的应用效果,使用MFCC(Mel frequency cepstrum coefficient)和RASTAPLP(relative spectra perceptual line... 重音是语言交流中不可或缺的部分,在语言交流中扮演着非常重要的角色。为了验证基于听觉模型的短时谱特征集在汉语重音检测方法中的应用效果,使用MFCC(Mel frequency cepstrum coefficient)和RASTAPLP(relative spectra perceptual linear prediction)算法提取每个语音段的短时谱信息,分别构建了基于MFCC算法的短时谱特征集和基于RASTA-PLP算法的短时谱特征集;选用NaiveBayes分类器对这两类特征集进行建模,把具有最大后验概率的类作为该对象所属的类,这种分类方法充分利用了当前语音段的相关语音特性;基于MFCC的短时谱特征集和基于RASTA-PLP的短时谱特征集在ASCCD(annotated speech corpus of Chinese discourse)上能够分别得到82.1%和80.8%的汉语重音检测正确率。实验结果证明,基于MFCC的短时谱特征和基于RASTA-PLP的短时谱特征能用于汉语重音检测研究。 展开更多
关键词 重音检测 Mel频率倒谱系数(mfcc) 相关谱感知线性预测(RASTA-PLP) 短时谱特征
下载PDF
采用Mel倒谱参数的咳嗽声识别方法 被引量:2
15
作者 尹永 莫鸿强 《信息技术》 2012年第10期85-91,共7页
在诊断一个有慢性咳嗽的病人时,他的咳嗽强度和频率评估能提供很有价值的信息。因此提高咳嗽识别率,对疾病的诊断有着重要意义。从语音识别中被广泛应用的Mel倒谱参数出发,寻找咳嗽和语音在Mel倒谱参数中的区别。基于Mel倒谱参数的原理... 在诊断一个有慢性咳嗽的病人时,他的咳嗽强度和频率评估能提供很有价值的信息。因此提高咳嗽识别率,对疾病的诊断有着重要意义。从语音识别中被广泛应用的Mel倒谱参数出发,寻找咳嗽和语音在Mel倒谱参数中的区别。基于Mel倒谱参数的原理,将其计算过程中的Mel刻度滤波器对数能量的极值数分布情况提取出来作为咳嗽的识别特征。在病房环境下对录音文件进行实验,得到的咳嗽识别率为90%以上,同时能够将语音等非咳嗽信号有效地剔除,实验结果显示90%以上的语音信号被排除。在录音设备及环境等各项参数不变的条件下,对不同病人样本,可使用同一阈值对咳嗽进行识别。该方法过程简单,数据计算量小,便于快速识别。 展开更多
关键词 Mel倒谱参数(mel-frequency cepstrum coefficient mfcc) Mel刻度滤波器对数能量 咳嗽识别
下载PDF
基于HMM/SVM的抗噪语音特征提取及优化 被引量:9
16
作者 李婉玲 张秋菊 《传感器与微系统》 CSCD 2019年第4期55-58,共4页
为了提高语音识别的鲁棒性,提出一种新的特征组合方法。方法基于F比对梅尔频率倒谱系数(MFCC)进行加权优化,同时将不同特征组合输入到语音隐马尔科夫模型(HMM)进行训练,得到具有抗噪性的最佳组合,并采用主成分分析(PCA)进行降维,增加支... 为了提高语音识别的鲁棒性,提出一种新的特征组合方法。方法基于F比对梅尔频率倒谱系数(MFCC)进行加权优化,同时将不同特征组合输入到语音隐马尔科夫模型(HMM)进行训练,得到具有抗噪性的最佳组合,并采用主成分分析(PCA)进行降维,增加支持向量机(SVM)分类器作为后处理器。实验表明,改进的MFCC、短时平均能量和Teager能量算子组合参数识别效果最优,识别率达到90. 48%。PCA降维后识别率降低了0. 4%,提升了计算速度。增加后处理器,系统识别率达到95. 25%,提高了系统的识别效率和分类决策力,相对于常规识别方法,准确率有所提高。 展开更多
关键词 语音识别 梅尔频率倒谱系数 特征参数提取 主成分分析 隐马尔可夫模型 支持向量机
下载PDF
水下蛙人呼吸声Mel倒谱特征的实验研究 被引量:5
17
作者 朱知萌 郭育 +1 位作者 王冠 章佳荣 《声学技术》 CSCD 北大核心 2017年第3期286-292,共7页
为提高水下蛙人呼吸声识别的准确度,提出一种基于Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)的蛙人呼吸声信号特征匹配方法。计算呼吸声信号之间、信号与环境噪声及舰船辐射噪声的MFCC夹角和MFCC距离并进行匹配比较,以... 为提高水下蛙人呼吸声识别的准确度,提出一种基于Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)的蛙人呼吸声信号特征匹配方法。计算呼吸声信号之间、信号与环境噪声及舰船辐射噪声的MFCC夹角和MFCC距离并进行匹配比较,以进行分类识别。某湖试验数据的处理结果表明:蛙人呼吸声与舰船辐射噪声及环境噪声的MFCC参数有着明显的差异,能够对蛙人呼吸声信号与干扰噪声进行区分,证明了基于MFCC特征算法的有效性,对发展港口、码头等近海海域附近的水下蛙人探测声呐和预警系统具有实际意义。 展开更多
关键词 被动声呐 水下小目标 MEL频率倒谱系数 特征匹配
下载PDF
基于多特征融合的乐器声品质评价方法研究
18
作者 陈燕文 李坤 +1 位作者 韩焱 王燕平 《测试技术学报》 2019年第5期421-427,共7页
在乐器声品质研究中,以往研究主要是从乐器的结构以及物理特性出发,忽略了乐音本身的重要性以及客观评价测量的不易实现性.为此,提出了一种基于多特征融合的乐器声品质评价方法.通过主观评价法获取乐器琵琶的声品质评价结果,建立具有主... 在乐器声品质研究中,以往研究主要是从乐器的结构以及物理特性出发,忽略了乐音本身的重要性以及客观评价测量的不易实现性.为此,提出了一种基于多特征融合的乐器声品质评价方法.通过主观评价法获取乐器琵琶的声品质评价结果,建立具有主观评价的乐音信号库作为实验对象;提取乐音信号的相关系数(CC)、常数Q变换(CQT)和梅尔频率倒谱系数(MFCC)作为单一特征输入,以及多特征融合输入;并构建基于BP神经网络的乐器声品质评价模型.实验结果表明,该方法可以很好地应用于乐器声品质评价. 展开更多
关键词 乐器声品质 主观评价 相关系数 mfcc 常数Q变换 多特征融合 BP神经网络
下载PDF
基于特征比较和模拟退火-遗传算法的普通话音素评分模型 被引量:3
19
作者 王健 关添 叶大田 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第6期880-884,共5页
为了帮助发音困难者障碍者和外语学习者矫正普通话发音错误,提出基于Mel频率倒谱系数(Mel frequencycepstrum coefficient,MFCC)特征比较和模拟退火-遗传算法(simulated annealing genetic algorithm,SAGA)的普通话音素评分模型。该模... 为了帮助发音困难者障碍者和外语学习者矫正普通话发音错误,提出基于Mel频率倒谱系数(Mel frequencycepstrum coefficient,MFCC)特征比较和模拟退火-遗传算法(simulated annealing genetic algorithm,SAGA)的普通话音素评分模型。该模型采用动态时间弯折(dynamic timewarping,DTW)算法对普通话音素进行相似度比对,并基于SAGA评分机制对发音进行自动评分。本文对比了不同优化算法(SAGA和局部优化算法)、不同DTW算法对语音评分的影响。结果发现:SAGA评分模型下的音素评分正确率大于94%,远远优于局部优化算法。此外,在SAGA评分模型下,搜索路径为平行四边形的改进DTW算法具有最优的评分结果。因此,基于MFCC和SAGA的评分模型适用于普通话音素评分。 展开更多
关键词 特征比较 Mel频率倒谱系数(mfcc) 改进动态时间弯折(DTW)算法 模拟退火-遗传算法(SA-GA) 音素评分
原文传递
基于统计阈值的鲁棒性语音识别(英文) 被引量:1
20
作者 李银国 蒲甫安 郑方 《重庆邮电大学学报(自然科学版)》 北大核心 2012年第2期127-132,共6页
近几十年来,语音识别系统已由实验室环境走向真实的世界中。在不同的环境噪声下,识别性能却仍不尽人意,尤其是在低信噪比的环境中。为解决在低信噪比情况下的低识别率的问题,以声学参数MFCC(Mel-frequency cepstrum coefficient)为基础... 近几十年来,语音识别系统已由实验室环境走向真实的世界中。在不同的环境噪声下,识别性能却仍不尽人意,尤其是在低信噪比的环境中。为解决在低信噪比情况下的低识别率的问题,以声学参数MFCC(Mel-frequency cepstrum coefficient)为基础,提出了一种基于统计阈值的倒谱均值方差归一化算法,该算法能进一步减小训练环境和测试环境的不匹配程度,从而提升了语音识别系统对环境噪声的鲁棒性。首先,对输入的语音提取MFCC声学参数,然后对提取的声学参数作均值方差归一化处理,最后采用统计阈值的方法抑制归一化后存在变异的特征。该算法能增加带噪语音特征和纯净语音特征的相似性;与MFCC为基线的系统相比,在低信噪比情况下,该算法的错误率最高下降约40%,同时该方法也优于其他的鲁棒性特征倒谱均值减和倒谱均值归一。 展开更多
关键词 鲁棒性 特征提取 均值减 均值方差归一(MVN) 梅尔频率倒谱系数(mfcc) 统计阈值 语音识别
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部