期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于音频特征的水车室工作状态异常检测 被引量:1
1
作者 曾广栋 魏学锋 +2 位作者 何林 孙长江 张旋 《水电能源科学》 北大核心 2024年第8期168-172,共5页
水电站的水车室包含轴承和顶盖等机械设备,受水力因素影响,水车室的异常工作会带来较大的安全隐患,基于大数据分析的精确维护对于水车室的可靠运行至关重要。针对水车室的异常工作状态,通过模型训练、特征工程和分类模型的开发等过程,采... 水电站的水车室包含轴承和顶盖等机械设备,受水力因素影响,水车室的异常工作会带来较大的安全隐患,基于大数据分析的精确维护对于水车室的可靠运行至关重要。针对水车室的异常工作状态,通过模型训练、特征工程和分类模型的开发等过程,采用STFT、Log-Mel、MFCC等方法对音频数据进行了预处理,建立了基于音频数据的异常检测模型,并对溪洛渡水电站水车室工作状态进行了异常检测。结果表明,Log-Mel方法具有有效性。研究结果不仅降低了异常检测的成本,还为水电机组的健康监测提供了参考。 展开更多
关键词 音频数据 水车室 STFT Log-Mel 梅尔频率倒频谱系数(MFCC) 时域特征 支持向量机
下载PDF
A method of whispered speech enhancement based on speech absence probability and modified mel-domain masking model
2
作者 TAO Zhi~(1,2) ZHAO Heming~2 WU Di~1 CHEN Daqing~1 ZHANG Xiaojun~1 (1 School of Physical Science and Technology,Soochow University Suzhou 215006) (2 School of Electronics and Information Engineering,Soochow University Suzhou 215006) 《Chinese Journal of Acoustics》 2011年第3期345-357,共13页
Whispered speech enhancement using auditory masking model in modified Mel- domain and Speech Absence Probability (SAP) was proposed. In light of the phonation char- acteristic of whisper, we modify the Mel-frequency... Whispered speech enhancement using auditory masking model in modified Mel- domain and Speech Absence Probability (SAP) was proposed. In light of the phonation char- acteristic of whisper, we modify the Mel-frequency Scaling model. Whispered speech is filtered by the proposed model. Meanwhile, the value of masking threshold for each frequency band is dynamically determined by speech absence probability. Then whispered speech enhancement is conducted by adaptively rectifying the spectrum subtraction coefficients using different masking threshold values. Results of objective and subjective tests on the enhanced whispered signal show that compared with other methods; the proposed method can enhance whispered signal with better subjective auditory quality and less distortion by reducing the music noise and background noise under the masking threshold value. 展开更多
关键词 A method of whispered speech enhancement based on speech absence probability and modified mel-domain masking model Mel
原文传递
基于MFCC提取和DTW优化的连续音频识别算法设计
3
作者 王鸿瑞 张玉辰 +2 位作者 陈鹭 高博韬 高昕悦 《中国现代教育装备》 2024年第17期41-45,52,共6页
介绍了一种新型的利用梅尔频率倒谱系数(MFCC)提取和动态时间规整技术(DTW)优化的连续音频识别算法。首先对数学原理与算法步骤进行设计与规划,使用大规模音频数据库进行预处理,经过时域和频域分析提取相应的特征;然后利用双门限法把连... 介绍了一种新型的利用梅尔频率倒谱系数(MFCC)提取和动态时间规整技术(DTW)优化的连续音频识别算法。首先对数学原理与算法步骤进行设计与规划,使用大规模音频数据库进行预处理,经过时域和频域分析提取相应的特征;然后利用双门限法把连续音频切分为不同的音频块,并对切分部分进行针对性识别,将其与时频域数据库的模板进行匹配比对,实现了较好的连续音频识别效果,在时域和频域识别上的准确性均能达到89%。该研究成果可应用于钢琴教学系统的开发,尤其是在辅助学习者正确弹出曲谱方面具有广阔的应用前景。 展开更多
关键词 语音识别 端点检测 梅尔频率倒谱系数 动态时间规整算法 时频域分析
下载PDF
基于域泛化的无监督机器设备异常声检测
4
作者 章林柯 许艳武 余永升 《海军工程大学学报》 CAS 北大核心 2023年第6期52-56,70,共6页
在基于声信号的机器设备异常检测中,机器运行时发出的声音可能会因机器运转状态的改变而发生变化,环境噪声也会改变场景中的声学特征,而传统的机器异常声音检测系统会因为声学特征的改变导致正常的声音被错误地标记为异常。针对这一问题... 在基于声信号的机器设备异常检测中,机器运行时发出的声音可能会因机器运转状态的改变而发生变化,环境噪声也会改变场景中的声学特征,而传统的机器异常声音检测系统会因为声学特征的改变导致正常的声音被错误地标记为异常。针对这一问题,提出了基于域泛化技术的无监督机器异常声音检测方法。首先,将声信号的对数梅尔谱图输入深度学习神经网络模型,结合域混合方法和坐标注意力机制模块,提高系统域泛化能力和异常识别性能;然后,在DCASE开源数据集上进行实验,与两种基线评估系统的AUC和pAUC得分进行对比。结果表明,所提出的方法在域泛化条件下的异常检测性能得到明显提升。 展开更多
关键词 无监督深度学习 异常声音检测 域泛化 对数梅尔谱图
下载PDF
基于频域能量分布分析的自适应元音帧提取算法 被引量:7
5
作者 钱博 李燕萍 +1 位作者 唐振民 徐利敏 《电子学报》 EI CAS CSCD 北大核心 2007年第2期279-282,共4页
本文提出了一种基于频域能量分布分析的自适应元音帧提取算法.该方法采用MEL标度映射各频率分量,通过分析低频、高频能量的分布关系判定元音帧并计算出该帧的短时能量、短时平均过零率的值指导时域帧提取的方案.为了适应连续语音检测过... 本文提出了一种基于频域能量分布分析的自适应元音帧提取算法.该方法采用MEL标度映射各频率分量,通过分析低频、高频能量的分布关系判定元音帧并计算出该帧的短时能量、短时平均过零率的值指导时域帧提取的方案.为了适应连续语音检测过程中响度大小的不断变化,文中选择了按概率抽样进行频域分析修正时域阈值的方式.这种方式利用较少抽样帧的变换分析指导时域检测,相对于全面变换分析降低了运算量,达到了实时检测的要求,同时提高了整体检测性能.实验表明,该方法总体运算量低,同时对发声过程中的音量变化有一定的自适应性.实验中,针对单字音元音帧的正确提取率达到了97%以上,平均丢帧率为3.95%;针对连续语音的正确提取率也达到了90%以上. 展开更多
关键词 元音帧提取 频域分析 自适应 NEL标度频谱
下载PDF
采用混合域注意力机制的无人机识别方法 被引量:7
6
作者 薛珊 卫立炜 +1 位作者 顾宸瑜 吕琼莹 《西安交通大学学报》 EI CAS CSCD 北大核心 2022年第10期141-150,共10页
针对在城市公园、广场和大型游乐场等公共环境中,雷达和无线电识别无人机易受到电子干扰、图像识别无人机易受到光线和遮挡物干扰的问题,提出了一种经济便捷、不易受到干扰的运用声音和采用通道空间混合域注意力机制多尺度分组卷积网络(... 针对在城市公园、广场和大型游乐场等公共环境中,雷达和无线电识别无人机易受到电子干扰、图像识别无人机易受到光线和遮挡物干扰的问题,提出了一种经济便捷、不易受到干扰的运用声音和采用通道空间混合域注意力机制多尺度分组卷积网络(ECSANet)的无人机识别方法。首先,建立民用的9大类无人机声音数据集,提取数据集的对数梅尔谱图及其动态特征;其次,为了网络参数量少,避免过拟合,设计了基于分组卷积、通道混洗和残差结构的通道混洗多尺度分组卷积网络(MSSGNet);然后,为了能更多、更有效地提取无人机声音特征,设计了通道空间混合域注意力机制模块(ECSA);最后,将ECSA模块插入MSSGNet网络构成改进的通道空间混合域注意力机制的多尺度分组卷积网络(ECSANet),形成新型声音识别无人机的方法。运用设计的ECSANet网络对自建的民用无人机声音数据集和Urbansound8K环境声音数据集进行了声音识别,识别结果表明:与ResNet18、ResNet34、ResNeXt18和MobileNetV2等基准网络相比,MSSGNet网络参数更少,识别准确率更高,达到了95.1%;ECSA模块可以插入多种网络,在不增加很多参数的情况下令网络模型的识别准确率获得提升,在无人机等声音分类任务上具有很好的效果;与MSSGNet网络相比,改进的ECSANet网络识别准确率能达到95.9%,提高了0.8%,表明了该网络在识别小样本无人机方面的优越性和可行性。 展开更多
关键词 无人机 声音识别 对数梅尔谱图 神经网络 混合域注意力机制
下载PDF
帕金森语音障碍的Mel变换域局部梯度统计分析
7
作者 张涛 林丽琴 +1 位作者 张亚娟 牛晓霞 《计算机科学与探索》 CSCD 北大核心 2022年第10期2345-2356,共12页
帕金森病语音障碍分析是进行基于语音的帕金森病早期诊断的信息分析基础。近年来,随着研究的深入,Mel变换域信息在本领域表现出越来越多的优势,同时提取结构特征对分类性能的提升日益显现。从帕金森病人语音信号的Mel变换域信息结构出发... 帕金森病语音障碍分析是进行基于语音的帕金森病早期诊断的信息分析基础。近年来,随着研究的深入,Mel变换域信息在本领域表现出越来越多的优势,同时提取结构特征对分类性能的提升日益显现。从帕金森病人语音信号的Mel变换域信息结构出发,提出Mel变换域局部梯度统计特征提取方法。该方法首先通过Mel频率变换的方法将语音信号转化为时频变换域能量信号,并将能量谱进行可视化表示;其次对能量数据进行滑动窗口处理,计算检测窗口内每个能量点的梯度与角度,获得Mel变换域的局部结构信息;最后根据角度统计所有检测窗口能量点的梯度,从而得到整体的局部梯度统计特征,以此表示Mel变换域中能量值的变化情况。在不同的帕金森病语音数据集上利用不同分类器进行实验,实验结果表明,与Mel变换域分析、倒谱分析和深度学习等方法相比,所提算法具有高准确度、高灵敏性的特点,从而验证了提出的局部梯度统计特征在帕金森语音障碍分析中的有效性。 展开更多
关键词 帕金森病 语音障碍 Mel变换域 局部梯度统计
下载PDF
能量匹配的MFS-HMM语音增强方法 被引量:2
8
作者 高珍珍 鲍长春 《信号处理》 CSCD 北大核心 2016年第8期937-944,共8页
针对基于梅尔频谱域隐马尔可夫模型(Mel-Frequency Spectral domain Hidden Markov Model,MFS-HMM)的语音增强算法中存在训练集和测试集能量不匹配问题,本文提出了能量匹配的MFS-HMM语音增强方法。该方法采用迭代的期望最大(Expectation... 针对基于梅尔频谱域隐马尔可夫模型(Mel-Frequency Spectral domain Hidden Markov Model,MFS-HMM)的语音增强算法中存在训练集和测试集能量不匹配问题,本文提出了能量匹配的MFS-HMM语音增强方法。该方法采用迭代的期望最大(Expectation Maximization,EM)法在线估计纯净语音和噪声的对数能量调整因子,并在线修正纯净语音和噪声的HMM参数,使得训练集和测试集能量相匹配,有效地解决了能量不匹配对增强语音质量影响的问题。主客观测试结果表明,本文所提方法优于参考算法。 展开更多
关键词 语音增强 隐马尔可夫模型 梅尔频谱域 能量调整
下载PDF
基于频域ICA的语音特征增强
9
作者 吕钊 吴小培 李密 《振动与冲击》 EI CSCD 北大核心 2011年第2期238-242,257,共6页
为了降低卷积噪声对语音特征所产生的影响,提高语音识别正确率,在此提出了一种基于频域ICA(Independent Component Analysis,独立分量分析)的语音特征增强算法。该算法首先使用频域ICA方法作对噪声进行估计,然后在倒谱域内将带噪语音信... 为了降低卷积噪声对语音特征所产生的影响,提高语音识别正确率,在此提出了一种基于频域ICA(Independent Component Analysis,独立分量分析)的语音特征增强算法。该算法首先使用频域ICA方法作对噪声进行估计,然后在倒谱域内将带噪语音信号的短时谱减去所估计噪声的短时谱,最后根据去噪后语音信号的短时谱计算美尔倒谱系数(MFCC)作为特征参数。在仿真和真实环境下的语音识别实验中,所提出的语音特征参数相比较传统的MFCC其识别正确率分别提升了38.2%和35.8%。实验结果表明该算法能够较好地解决卷积噪声环境下训练与识别特征不匹配的问题,有效提高了语音识别系统的识别正确率。 展开更多
关键词 频域ICA 语音 特征增强 美尔倒谱系数(MFCC)
下载PDF
基于梅尔频谱分离和LSCNet的声学场景分类方法 被引量:3
10
作者 费鸿博 吴伟官 +1 位作者 李平 曹毅 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2022年第5期124-130,123,共8页
针对现有频谱分离方法进行声学场景分类研究时其分类准确率不高的问题,提出了一种基于梅尔频谱分离和长距离自校正卷积神经网络(long-distance self-calibration convolutional neural network,LSCNet)的声学场景分类方法。首先,介绍了... 针对现有频谱分离方法进行声学场景分类研究时其分类准确率不高的问题,提出了一种基于梅尔频谱分离和长距离自校正卷积神经网络(long-distance self-calibration convolutional neural network,LSCNet)的声学场景分类方法。首先,介绍了频谱的谐波打击源分离原理,提出了一种梅尔频谱分离算法,将梅尔频谱分离出谐波分量、打击源分量和残差分量;然后,结合自校正神经网络和残差增强机制,提出了一种长距离自校正卷积神经网络;该模型采用频域自校正算法以及长距离增强机制来保留特征图原始信息,通过残差增强机制和通道注意力增强机制加强了深层特征与浅层特征间的关联度,且结合多尺度特征融合模块,以进一步提取模型训练中输出层的有效信息,从而提高模型的分类准确率;最后,基于Urbansound8K和ESC-50数据集开展了声学场景分类实验。实验结果表明:梅尔频谱的残差分量能够针对性地减少背景噪音的影响,从而具有更好的分类性能,且LSCNet实现了对特征图中频域信息的关注,其最佳分类准确率分别达到90.1%和88%,验证了该方法的有效性。 展开更多
关键词 声学场景分类 梅尔频谱分离算法 长距离自校正卷积神经网络 频域自校正算法 多尺度特征融合
下载PDF
Environmental Sound Recognition Using Double-Level Energy Detection
11
作者 Xiaoxia Zhang Ying Li 《Journal of Signal and Information Processing》 2013年第3期19-24,共6页
The performance of classic Mel-frequency cepstral coefficients (MFCC) is unsatisfactory in noisy environment with different sound sources from nature. In this paper, a classification approach of the ecological environ... The performance of classic Mel-frequency cepstral coefficients (MFCC) is unsatisfactory in noisy environment with different sound sources from nature. In this paper, a classification approach of the ecological environmental sounds using the double-level energy detection (DED) was presented. The DED was used to detect the existence of the sound signals under noise conditions. In addition, MFCC features from the frames which were detected the presence of the sound signals by DED were extracted. Experimental results show that the proposed technology has better noise immunity than classic MFCC, and also outperforms time-domain energy detection (TED) and frequency-domain energy detection (FED) respectively. 展开更多
关键词 Ecological ENVIRONMENTAL SOUNDS Double-Level ENERGY DETECTION Time-Domain ENERGY DETECTION Frequency-Domain ENERGY DETECTION Mel-Frequency Cepstral Coefficients
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部