题名 采用Mel倒谱参数的咳嗽声识别方法
被引量:2
1
作者
尹永
莫鸿强
机构
华南理工大学自动化科学与工程学院
出处
《信息技术》
2012年第10期85-91,共7页
文摘
在诊断一个有慢性咳嗽的病人时,他的咳嗽强度和频率评估能提供很有价值的信息。因此提高咳嗽识别率,对疾病的诊断有着重要意义。从语音识别中被广泛应用的Mel倒谱参数出发,寻找咳嗽和语音在Mel倒谱参数中的区别。基于Mel倒谱参数的原理,将其计算过程中的Mel刻度滤波器对数能量的极值数分布情况提取出来作为咳嗽的识别特征。在病房环境下对录音文件进行实验,得到的咳嗽识别率为90%以上,同时能够将语音等非咳嗽信号有效地剔除,实验结果显示90%以上的语音信号被排除。在录音设备及环境等各项参数不变的条件下,对不同病人样本,可使用同一阈值对咳嗽进行识别。该方法过程简单,数据计算量小,便于快速识别。
关键词
Mel倒 谱 参数 (Mel-Frequency
CEPSTRUM
Coefficient
mfcc )
Mel刻度 滤波器对数能量
咳嗽识别
Keywords
Mel-frequency cepstrum coefficient
mel scale filter logarithmic energy
cough recognition
分类号
TP391.42
[自动化与计算机技术—计算机应用技术]
题名 采用主成分分析的特征映射
被引量:8
2
作者
郭武
戴礼荣
王仁华
机构
中国科学技术大学电子工程与信息科学系科大讯飞语音实验室
出处
《自动化学报》
EI
CSCD
北大核心
2008年第8期876-879,共4页
基金
国家高技术研究发展计划(863计划)(2006AA010104)
中国科学技术大学青年教师基金资助~~
文摘
在与文本无关的说话人识别研究中,特征映射的方法可以有效减少信道的影响.本文首先通过主成分分析的方法在模型域中估计出信道因子所在的空间,然后通过映射的方法在特征参数域中减去信道因子的影响.采用这种方法需要有信道信息标记的数据,但是在特征映射时不需要对信道进行判决.在NIST 2006年SRE lconv4w-lconv4w数据库上,采用本文推荐方法的系统相对基线系统在等错误率上降低了19%.
关键词
说话人确认
混合高斯模型
超矢量
梅尔 刻度 式 倒 谱 参数
Keywords
Speaker verification, Gaussian mixture model (GMM), supervector, Mel frequency cepstral coefficients (mfcc )
分类号
TN912.3
[电子电信—通信与信息系统]
题名 基于模型距离和支持向量机的说话人确认
被引量:2
3
作者
姚红
梁栋
郭武
机构
安徽大学计算智能与信号处理教育部重点实验室
中国科学技术大学电子工程与信息科学系
出处
《计算机仿真》
CSCD
北大核心
2009年第3期343-346,共4页
文摘
针对采用支持向量机的说话人的确认问题,提出采用背景模型、说话人模型、测试语句模型间距离和夹角作为支持向量机的特征矢量,同时将组特征矢量与广义线性判别式序列核函数的参数相拼接,能够取得相对于基线的混合高斯模型算法更高的识别率。在2004年NIST评测数据库上,采用推荐算法的系统等错误率比基线的混合高斯-背景模型系统低16%。对说话人识别取得一定进展。
关键词
马氏距离
广义线性判别式 序列核函数
梅尔 刻度 式 倒 谱 参数
Keywords
Mahalanobis distance
GLDS
mfcc
分类号
TN912.34
[电子电信—通信与信息系统]
题名 基于频率段的语音识别算法设计与实现
被引量:1
4
作者
袁正午
肖旺辉
机构
重庆邮电大学中韩合作GIS研究所
重庆大学土木工程学博士后流动站
出处
《计算机工程与设计》
CSCD
北大核心
2011年第2期659-662,共4页
基金
国家863高技术研究发展计划基金项目(2007AA12Z226)
文摘
线性预测倒谱参数(LPCC)能很好的体现人的声道特性,而梅尔倒谱参数(MFCC)能很好的模拟人耳的听觉效应。针对MFCC在不同频率段的识别精度不一致和LPCC不能准确模拟人的听觉系统问题,将MFCC参数和IMFCC参数分别作为语音不同频率段的特征参数,结合线性预测参数(LPCC),均衡滤波器的分布,完整覆盖到整个频率段范围。将梅尔倒谱参数和线性预测参数结合起来作为语音识别的特征提取参数。实验结果表明,改进之后的算法从效率上和识别率上都有不同程度的提高。
关键词
线性预测参数 (LPCC)
梅尔 倒 谱 系数(mfcc )
逆梅尔 倒 谱 系数(Imfcc )
语音识别
特征提取
Keywords
linear prediction cepstral coefficients (LPCC)
mel-freqnency cepstral coefficients (mfcc )
inverted mel frequency cepstral coefficient (Imfcc )
speech recognition
feature extraction
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 采用模型间距离夹角的说话人确认测试算法
5
作者
郭武
王仁华
戴礼荣
机构
中国科技大学电子工程与信息科学系科大讯飞语音实验室
出处
《小型微型计算机系统》
CSCD
北大核心
2008年第2期377-380,共4页
文摘
提出在与文本无关说话人确认中采用模型间马氏(Mahalanobis)距离的夹角作为测试算法,在混合高斯模型(Gaussian Mixture Model)的情况下,采用这种算法在保持识别率与传统的对数似然度算法相近的前提下,可以大大降低运算量,对于说话人确认或识别的实时实现有很大的帮助.另外,推荐的算法与传统的对数似然度算法的结果可以融合,可以将说话人确认的等错误率降低12~15%.
关键词
说话人确认
马氏距离
梅尔 刻度 式 倒 频谱 参数
Keywords
speaker verification
mahalanobis distance
mfcc
分类号
TN912.34
[电子电信—通信与信息系统]
题名 多类型语音特征进化选择算法
6
作者
张小恒
谢文宾
李勇明
机构
重庆广播电视大学
重庆大学通信工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2016年第14期150-155,219,共7页
基金
国家自然科学基金(No.91438104)
中央高校基本科研业务费专项资金(No.CDJZR10160003
+3 种基金
No.CDJZR13160008
No.CDJZR155507)
中国博士后科学基金(No.2013M532153)
重庆市博士后科研项目特别资助
文摘
基于特征选择的语音特征获取用于说话人识别是目前较为有效的方式。但是,最优语音特征随着具体应用环境的变化而不同。因此,提出了基于四类型语音特征封装式遗传特征选择算法(FSF-Wr GAF),该算法提取了四种类型的语音特征参数,通过链式智能体遗传算法和GMM-UBM进行封装式动态特征选择,获取高精度的识别准确率。采用了多种指标完成该算法的性能测试。实验结果表明,该算法具体实现过程简便,改进效果明显,较同类算法在多项指标(识别率,EER,DET曲线)上都有显著提高。
关键词
说话人识别
多类型语音特征
链式 智能体遗传算法
伽马通滤波器倒 谱 系数(GFCC)
梅尔 频率倒 谱 系数(mfcc )
线性预测倒 谱 系数(LPCC)
Keywords
speaker recognition
multiple voice features types
chain-like agent genetic algorithm
Gammatone Frequency Cepstrum Coefficient(GFCC)
Mel Frequency Cepstrum Coefficient(mfcc )
Linear Prediction Cepstrum Coefficient(LPCC)
分类号
TN912
[电子电信—通信与信息系统]
题名 基于改进DTW算法的窨井盖盗损检测方法
7
作者
李林丰
薛波
机构
江苏理工学院机械工程学院
出处
《电声技术》
2022年第9期111-116,共6页
基金
国家自然科学基金项目(62003151)
江苏省基础研究计划项目(BK20191035)。
文摘
针对城市窨井盖被盗或被损坏的现象,提出一种基于改进动态时间规整(Dynamic Time Warping,DTW)算法的窨井盖盗损检测方法。根据窨井盖在正常振动与非正常振动下产生的声纹差异,采用梅尔倒谱系数(Mel-frequency Cepstral Coefficients,MFCC)并整合差分倒谱系数作为特征参数,结合改进的DTW算法进行声纹识别。通过调整动态时间规整函数,将传统DTW算法搜索区域约束为较小面积的菱形,使其达到减小存储空间和缩短识别时间的目的。仿真实验结果表明,铁锤敲击井盖声、车辆碾压井盖声等七种声音类型的平均识别率为81.4%,平均识别速率提高了29.37%。
关键词
差分倒 谱 参数
动态时间规整(DTW)
声纹识别
梅尔 倒 谱 系数(mfcc )
Keywords
differential cepstrum parameters
Dynamic Time Warping(DTW)
voiceprint recognition
Mel-frequency Cepstral Coefficients(mfcc )
分类号
TN912.3
[电子电信—通信与信息系统]
题名 采用高斯概率分布和支持向量机的说话人确认
被引量:2
8
作者
郭武
戴礼荣
王仁华
机构
中国科学技术大学电子工程与信息科学系科大讯飞语音实验室
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2008年第6期794-798,共5页
基金
国家863计划资助项目(No.2006AA010104)
文摘
在采用支持向量机的说话人确认中,将语音特征参数相对于通用背景模型各高斯分量的概率分布作为支持向量机输入,在线性核函数的情况下,系统能取得与广义线性判别式序列核函数(GLDS)几乎相同的识别率,同时该高斯概率分布算法能够与混合高斯背景模型、广义线性判别式序列核函数的得分进行融合,进一步提高识别性能.在2006年 NIST SRE 1conv4w-1conv4w 数据库上,融合后的系统相对于基线的混合高斯模型最多有25%的等错误率下降.
关键词
广义线性判别式 序列(GLDS)
梅尔 刻度 式 倒 谱 参数 (mfcc )
线性预测倒 谱 参数 (LPCC)
Keywords
Generalized Linear Discriminant Sequence (GLDS), Mel Frequency Cepstrum Coefficient ( mfcc ), Linear Prediction Cepstrum Coefficient (LPCC)
分类号
TN912.34
[电子电信—通信与信息系统]