期刊文献+
共找到289篇文章
< 1 2 15 >
每页显示 20 50 100
Speech Intelligibility Enhancement Algorithm Based on Multi-Resolution Power-Normalized Cepstral Coefficients(MRPNCC)for Digital Hearing Aids
1
作者 Xia Wang Xing Deng +2 位作者 Hongming Shen Guodong Zhang Shibing Zhang 《Computer Modeling in Engineering & Sciences》 SCIE EI 2021年第2期693-710,共18页
Speech intelligibility enhancement in noisy environments is still one of the major challenges for hearing impaired in everyday life.Recently,Machine-learning based approaches to speech enhancement have shown great pro... Speech intelligibility enhancement in noisy environments is still one of the major challenges for hearing impaired in everyday life.Recently,Machine-learning based approaches to speech enhancement have shown great promise for improving speech intelligibility.Two key issues of these approaches are acoustic features extracted from noisy signals and classifiers used for supervised learning.In this paper,features are focused.Multi-resolution power-normalized cepstral coefficients(MRPNCC)are proposed as a new feature to enhance the speech intelligibility for hearing impaired.The new feature is constructed by combining four cepstrum at different time–frequency(T–F)resolutions in order to capture both the local and contextual information.MRPNCC vectors and binary masking labels calculated by signals passed through gammatone filterbank are used to train support vector machine(SVM)classifier,which aim to identify the binary masking values of the T–F units in the enhancement stage.The enhanced speech is synthesized by using the estimated masking values and wiener filtered T–F unit.Objective experimental results demonstrate that the proposed feature is superior to other comparing features in terms of HIT-FA,STOI,HASPI and PESQ,and that the proposed algorithm not only improves speech intelligibility but also improves speech quality slightly.Subjective tests validate the effectiveness of the proposed algorithm for hearing impaired. 展开更多
关键词 Speech intelligibility enhancement multi-resolution power-normalized cepstral coefficients binary masking value hearing impaired
下载PDF
Modified Cepstral Feature for Speech Anti-spoofing
2
作者 何明瑞 ZAIDI Syed Faham Ali +3 位作者 田娩鑫 单志勇 江政儒 徐珑婷 《Journal of Donghua University(English Edition)》 CAS 2023年第2期193-201,共9页
The hidden danger of the automatic speaker verification(ASV)system is various spoofed speeches.These threats can be classified into two categories,namely logical access(LA)and physical access(PA).To improve identifica... The hidden danger of the automatic speaker verification(ASV)system is various spoofed speeches.These threats can be classified into two categories,namely logical access(LA)and physical access(PA).To improve identification capability of spoofed speech detection,this paper considers the research on features.Firstly,following the idea of modifying the constant-Q-based features,this work considered adding variance or mean to the constant-Q-based cepstral domain to obtain good performance.Secondly,linear frequency cepstral coefficients(LFCCs)performed comparably with constant-Q-based features.Finally,we proposed linear frequency variance-based cepstral coefficients(LVCCs)and linear frequency mean-based cepstral coefficients(LMCCs)for identification of speech spoofing.LVCCs and LMCCs could be attained by adding the frame variance or the mean to the log magnitude spectrum based on LFCC features.The proposed novel features were evaluated on ASVspoof 2019 datase.The experimental results show that compared with known hand-crafted features,LVCCs and LMCCs are more effective in resisting spoofed speech attack. 展开更多
关键词 spoofed speech detection log magnitude spectrum linear frequency cepstral coefficient(LFCC) hand-crafted feature
下载PDF
试验环境水下声信号的特征提取方法
3
作者 王红滨 王永乐 +1 位作者 何鸣 薛垚 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2024年第3期489-495,共7页
水下试验环境参数的反演是水声学研究领域的重要内容。而当前研究的关键是通过对水下声信号做特征提取从而获取参数信息。针对特征提取较难、模型很难拟合等问题。本文提出了一种试验环境水下声信号的特征提取方法。将水下声信号同时用... 水下试验环境参数的反演是水声学研究领域的重要内容。而当前研究的关键是通过对水下声信号做特征提取从而获取参数信息。针对特征提取较难、模型很难拟合等问题。本文提出了一种试验环境水下声信号的特征提取方法。将水下声信号同时用梅尔频谱倒谱系数及线性预测系数处理,两者运用特征加权组合方法得到新的特征矩阵;再应用映射插值算法对特征矩阵进行处理,获得适应神经网络输入的三通道矩阵。本文选取的网络模型为残差神经网络。利用实验室所录制的对河口水库数据集测试表明,本文提出的特征提取方法普遍优于仅利用梅尔频谱倒谱系数或线性预测系数的特征处理方法。利用单频矩形脉冲信号对环境进行深度5分类,准确率平均提升2%。利用线性调频信号对环境进行深度5分类,准确率平均提升2.03%。本文提出的特征提取方法对线性调频信号在深度分类任务下处理的结果要优于单频矩形脉冲信号处理的结果。 展开更多
关键词 环境反演 特征提取 梅尔频谱倒谱系数 线性预测系数 特征加权组合方法 残差神经网络 神经网络 水下声信号
下载PDF
基于融合特征ADRMFCC的语音识别方法
4
作者 朵琳 马建 +1 位作者 韦贵香 唐剑 《吉林大学学报(理学版)》 CAS 北大核心 2024年第4期943-950,共8页
针对在复杂噪声环境下语音识别准确率低和鲁棒性差的问题,提出一种基于增减残差Mel倒谱融合特征的语音识别方法.该方法首先利用增减分量法筛选关键语音特征,然后将其映射到Mel域-残差域空间坐标系中生成增减残差Mel倒谱系数,最后将这些... 针对在复杂噪声环境下语音识别准确率低和鲁棒性差的问题,提出一种基于增减残差Mel倒谱融合特征的语音识别方法.该方法首先利用增减分量法筛选关键语音特征,然后将其映射到Mel域-残差域空间坐标系中生成增减残差Mel倒谱系数,最后将这些融合特征用于训练端到端模型.实验结果表明,该方法在不同噪声类型和信噪比条件下均显著提高了语音识别准确率及性能,在-5 dB低信噪比条件下,语音识别准确率达73.13%,而在其他噪声条件下的平均语音识别准确率达88.67%,充分证明了该方法的有效性和鲁棒性. 展开更多
关键词 语音识别 残差Mel倒谱系数 特征筛选 增减分量法
下载PDF
基于MFCC-IMFCC混合倒谱的托辊轴承故障诊断
5
作者 陶瀚宇 陈换过 +2 位作者 彭程程 高祥冲 杨磊 《机电工程》 CAS 北大核心 2024年第7期1215-1222,共8页
针对梅尔倒谱系数(MFCC)对托辊轴承高频特征提取能力不足的问题,提出了一种基于梅尔倒谱系数和翻转梅尔倒谱系数(MFCC-IMFCC)的混合倒谱以及长短时记忆(LSTM)网络的托辊轴承故障诊断方法。首先,分析了三种状态下的托辊声音信号,明确了... 针对梅尔倒谱系数(MFCC)对托辊轴承高频特征提取能力不足的问题,提出了一种基于梅尔倒谱系数和翻转梅尔倒谱系数(MFCC-IMFCC)的混合倒谱以及长短时记忆(LSTM)网络的托辊轴承故障诊断方法。首先,分析了三种状态下的托辊声音信号,明确了托辊轴承故障信息主要分布在中高频区域;然后,为有效保留高频信息,提取了MFCC-IMFCC,以帧级串联的方式组成了混合倒谱特征;最后,将混合倒谱特征输入到双层LSTM模型中进行了训练,建立了托辊轴承故障诊断模型。研究结果表明:针对托辊正常、滚动体故障和偏心旋转故障三种状态,LSTM结合混合倒谱特征的平均识别准确率达到96.72%,相比于单一的MFCC和IMFCC特征,准确率分别提升3.94%和7.41%,凸显了混合倒谱特征在表征托辊轴承故障信息方面的显著优势。 展开更多
关键词 托辊轴承 轴承故障声音信号 高频信息 梅尔倒谱系数 翻转梅尔倒谱系数 混合倒谱系数 长短时记忆网络
下载PDF
基于多尺度时序感知网络的课堂语音情感识别方法
6
作者 周菊香 刘金生 +2 位作者 甘健侯 吴迪 李子杰 《计算机应用》 CSCD 北大核心 2024年第5期1636-1643,共8页
语音情感识别近年来在多场景智能系统中得到了广泛应用,也为实现智慧课堂环境下的教学行为智能分析提供了可能。通过课堂语音情感识别技术可以自动识别课堂教学中教师和学生的情感状态,帮助教师了解自己的授课风格并及时掌握学生的课堂... 语音情感识别近年来在多场景智能系统中得到了广泛应用,也为实现智慧课堂环境下的教学行为智能分析提供了可能。通过课堂语音情感识别技术可以自动识别课堂教学中教师和学生的情感状态,帮助教师了解自己的授课风格并及时掌握学生的课堂学习状态,从而达到精准施教的目的。针对课堂语音情感识别任务,首先,收集中小学的课堂实录教学视频,提取音频并进行人工切分和标注,构建了包含6类情感的中小学教学语音情感语料库;其次,基于时序卷积网络(TCN)和交叉门控机制(cross-gated mechanism)设计了双路时序卷积通道,以提取多尺度交叉融合特征;最后,采用动态权重融合策略调整不同尺度特征的贡献度,减少非重要特征对识别结果的干扰,进一步增强模型的表征和学习能力。实验结果表明,所提方法在多个公共数据集上优于TIM-Net(Temporal-aware bI-direction Multi-scaleNetwork)、GM-TCNet(Gated Multi-scale Temporal Convolutional Network)和CTL-MTNet(CapsNet and Transfer Learning-based Mixed Task Net)等先进模型,在真实课堂语音情感识别任务上未加权平均召回率(UAR)和加权平均召回率(WAR)分别达90.58%和90.45%。 展开更多
关键词 语音情感识别 课堂语音 时序卷积网络 交叉门控卷积 梅尔频率倒谱系数
下载PDF
结合MGCC特征与多尺度通道注意力的环境声深度学习分类方法
7
作者 杨俊杰 丁家辉 +2 位作者 杨柳 冯丽 杨超 《应用声学》 CSCD 北大核心 2024年第3期513-524,共12页
环境声分类技术在家居安全监测、人机语声交互等领域具有关键作用。然而,声源的多样性与混合性给环境声分类方法设计带来了重大挑战。为提高分类准确率与节约计算资源,该文提出一种基于多尺度通道注意力机制的深度学习分类模型。所提模... 环境声分类技术在家居安全监测、人机语声交互等领域具有关键作用。然而,声源的多样性与混合性给环境声分类方法设计带来了重大挑战。为提高分类准确率与节约计算资源,该文提出一种基于多尺度通道注意力机制的深度学习分类模型。所提模型由特征提取模块、多尺度卷积模块、高效通道注意力模块、输出层四部分组成。首先,通过引入加权型梅尔Gammatone频率倒谱系数(MGCC)挖掘环境声频谱幅值与相位结构信息;其次,融合多尺度卷积核与高效通道注意力机制优选出声频关键局部细节和通道特征;最后,在全连接层采用softmax函数映射特征并输出环境声类型的概率值。所提模型在6种环境声的iFLYTEK、10种环境声的Urbansound8k数据集上开展测试验证,分别取得了94%、76.52%、79.24%(iFLYTEK+Urbansound8k)的分类准确率。消融实验结果进一步表明:引入的多尺度卷积模块、通道注意力机制模块对分类准确率的提升贡献率分别接近于3.77%和1.89%。实验还详细对比了7种现有的深度学习分类方法,所提算法在分类准确率上排名第二;另外,在同级别算法中如ResNet18、GoogLeNet,所提算法在模型参数量和计算复杂度方面上实现了进一步的约减。 展开更多
关键词 环境声分类 梅尔Gammatone频率倒谱 多尺度核卷积 高效通道注意力 卷积神经网络
下载PDF
改进变值逻辑与线性预测在心音分类中的应用
8
作者 王彦麟 孙静 +3 位作者 杨宏波 郭涛 潘家华 王威廉 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期432-442,共11页
心音对于评价心脏健康状况具有重要作用.文章介绍了一种新的基于变值逻辑与线性预测倒谱系数融合特征的先心病分类算法,有助于提取心音中的深度病理特征.算法首先对心音进行降噪、包络提取;然后进行变值逻辑运算、标记并转换为可分析的... 心音对于评价心脏健康状况具有重要作用.文章介绍了一种新的基于变值逻辑与线性预测倒谱系数融合特征的先心病分类算法,有助于提取心音中的深度病理特征.算法首先对心音进行降噪、包络提取;然后进行变值逻辑运算、标记并转换为可分析的测度数据,并计算信号的线性预测倒谱系数进行特征融合;最后使用随机森林,XGBOOST和LIGHTGBM机器学习分类器进行先心病二分类.研究所用心音样本共4000例,测试结果对正常和异常心音分类的平均准确率为0.9138.算法无需对心音进行心动周期分割,大大简化了分析流程,可望用于先心病的筛查. 展开更多
关键词 心音 先心病 3比特编码变值逻辑 线性预测倒谱系数 特征融合
下载PDF
基于DBN的液压泵劣化程度评估方法研究
9
作者 李振宝 伊明 +2 位作者 李富强 张磊 姜万录 《机床与液压》 北大核心 2024年第14期219-226,共8页
针对轴向柱塞泵中心弹簧失效故障难以有效评估的问题,提出一种基于梅尔频率倒谱系数(MFCC)和深度信念神经网络(DBN)的液压泵劣化程度评估方法。对现场采集的正常数据和3种不同程度中心弹簧失效故障的液压泵振动信号进行信号预处理,包括... 针对轴向柱塞泵中心弹簧失效故障难以有效评估的问题,提出一种基于梅尔频率倒谱系数(MFCC)和深度信念神经网络(DBN)的液压泵劣化程度评估方法。对现场采集的正常数据和3种不同程度中心弹簧失效故障的液压泵振动信号进行信号预处理,包括预加重、分帧和加窗等;对预处理后的信号进行快速傅里叶变换(FFT),得到其频率谱和功率谱,然后让其通过Mel滤波器组,得到信号的对数能量;最后对对数能量进行离散余弦变换,得到信号的倒谱系数和一阶差分系数,并以此构成特征向量。基于DBN方法搭建深度学习模型,对特征向量进行学习,将测试样本导入深度学习模型,对中心弹簧失效程度进行评估,并将倒谱系数和一阶差分系数的识别结果进行对比。结果表明:当选择倒谱系数为特征向量时,具有较高的识别精度,能够有效识别轴向柱塞泵中心弹簧的性能劣化程度。 展开更多
关键词 梅尔频率倒谱系数 深度信念神经网络 轴向柱塞泵 劣化评估
下载PDF
砂岩破裂状态声发射梅尔倒谱系数判识方法
10
作者 何学秋 杨菲 +5 位作者 李振雷 李娜 宋大钊 王洪磊 SOBOLEV Aleksei RASSKAZOV Igor 《煤炭学报》 EI CAS CSCD 北大核心 2024年第2期753-766,共14页
岩体结构破裂是严重制约矿山、地铁、隧道等地下空间工程建设及其安全运行的重要因素。实现对岩体结构破裂状态的识别是当下研究的热点与重点之一。为此,开展了不同条件的砂岩加载破坏实验,提取了加载全程的声发射梅尔倒谱系数及其波动... 岩体结构破裂是严重制约矿山、地铁、隧道等地下空间工程建设及其安全运行的重要因素。实现对岩体结构破裂状态的识别是当下研究的热点与重点之一。为此,开展了不同条件的砂岩加载破坏实验,提取了加载全程的声发射梅尔倒谱系数及其波动差,研究了系数及其波动差在砂岩受载破坏全程的变化规律,分析了1号系数(一组声发射梅尔倒谱系数包括12个,1号系数指第1个声发射梅尔倒谱系数)及其波动差与砂岩破裂状态的相关性特征,基于此提出了砂岩破裂状态声发射梅尔倒谱系数判识方法,构建了判识准则并进行判识效果检验。结果表明:随载荷增加,1号系数整体上增大,系数及其离散性在破坏阶段显著增大并表现出显著的规律波动性特征;1号系数波动差具有阶段性变化特征,波动差的大小及其起伏变化可表征砂岩的破裂,波动差整体增大及突增的变化可反映砂岩非稳定变形和峰后破坏阶段的宏观破裂,波动差的突增幅度可反映砂岩破裂程度;声发射梅尔倒谱系数及其波动差对砂岩破裂表现出良好的响应特征,该特征受不同加载条件的影响较小,说明声发射梅尔倒谱系数在反映砂岩破裂上具有适用性;1号系数及其波动差与砂岩破裂状态具有较好相关性,该相关性可分为3个阶段,即1号系数及其波动差在砂岩微破裂阶段分布集中,在临近失稳破坏阶段分布范围急剧增大、整体值升高且出现高异常值,在峰后破坏阶段分布范围进一步增大、整体值更高、高异常值更多;利用1号系数的75%位点值和异常值、1号系数波动差的75%位点值和异常值构建了砂岩破裂状态判识准则,采用三分类模型混淆矩阵对判识准则的效果进行了检验,判识准确度和精准度分别为90.43%、94.45%。该成果可为其他种类煤岩的破裂状态识别提供借鉴,为煤岩失稳监测预警提供参考。 展开更多
关键词 砂岩破裂状态 声发射 梅尔倒谱系数 判识方法
下载PDF
带式输送机关键音频数据识别研究
11
作者 吴启航 李军霞 +2 位作者 刘少伟 秦志祥 张伟 《煤炭工程》 北大核心 2024年第5期145-151,共7页
针对带式输送机音频数据中存在大量冗余的问题,提出了一种基于改进蜜獾算法(IHBA)优化支持向量机(SVM)的带式输送机关键音频数据识别方法。提取音频数据的梅尔频率倒谱系数作为特征;采用Tent混沌映射增加种群多样性,引入新的密度因子和... 针对带式输送机音频数据中存在大量冗余的问题,提出了一种基于改进蜜獾算法(IHBA)优化支持向量机(SVM)的带式输送机关键音频数据识别方法。提取音频数据的梅尔频率倒谱系数作为特征;采用Tent混沌映射增加种群多样性,引入新的密度因子和黄金正弦机制来克服蜜獾算法(HBA)易陷入局部最优、收敛速度慢及寻优精度低等缺陷,并通过标准测试函数的仿真实验,验证了IHBA性能。采用IHBA优化SVM的参数,将梅尔频率倒谱系数特征输入IHBA-SVM模型中进行识别。结果表明,IHBA-SVM模型能够有效提高带式输送机关键音频数据的识别率。 展开更多
关键词 带式输送机 音频数据 梅尔频率倒谱系数 改进蜜獾算法 支持向量机
下载PDF
基于MFCC与CNN的机械故障声音自动识别
12
作者 黄炜 罗谢飞 《电声技术》 2024年第6期129-131,共3页
针对机械故障自动识别问题,提出一种结合梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)与一维卷积神经网络(Convolutional Neural Networks,CNN)的机械故障声音自动识别方法,并通过实验验证该方法的有效性。实验结果表明... 针对机械故障自动识别问题,提出一种结合梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)与一维卷积神经网络(Convolutional Neural Networks,CNN)的机械故障声音自动识别方法,并通过实验验证该方法的有效性。实验结果表明,该方法在机械故障声音识别中具有较高的准确率、精确率及召回率,能够有效识别故障案例。 展开更多
关键词 机械故障 声音识别 梅尔频率倒谱系数(MFCC) 卷积神经网络(CNN)
下载PDF
基于样本扩充网络的水声目标分类模型优化算法
13
作者 张博轩 赵天白 +2 位作者 常振兴 蒋翔宇 王少博 《计算机测量与控制》 2024年第4期143-150,共8页
水声目标识别是近年来各国的研发热点,但是由于水声目标难以采集而导致样本数据不足,严重影响了神经网络的识别效率以及自动化识别装备的水平和性能的发挥;为此,提出了一种基于样本扩充网络的水声目标分类模型优化方法,通过搭建掩模重... 水声目标识别是近年来各国的研发热点,但是由于水声目标难以采集而导致样本数据不足,严重影响了神经网络的识别效率以及自动化识别装备的水平和性能的发挥;为此,提出了一种基于样本扩充网络的水声目标分类模型优化方法,通过搭建掩模重建的样本扩充网络,充分利用无标注数据进行训练,使模型学习到样本的全局高维特征,再生成样本加入后续的识别模型训练中,在两次试验过程中,平均识别准确率从76%提升至80%,最佳识别准确率从88%提升至96%;基于实测数据的实验表明,该方法提升了分类器的准确率、收敛速度以及稳定性。 展开更多
关键词 水声目标识别 样本扩充网络 循环对抗生成网络 掩码训练 梅尔倒谱系数
下载PDF
基于梅尔频率倒谱系数的语音清晰度DRT识别
14
作者 马成龙 焦俊清 +4 位作者 焦富清 王杰 陈巧特 谢武俊 李军 《信息化研究》 2024年第2期63-68,共6页
语音清晰度在通信终端、设备系统语音识别方面具有重要意义。本文对110dB噪声干扰下采集到的语音信号进行谱减法降噪,双门限端点检测提取发音字段,然后提取梅尔频率倒谱系数(MFCC),再将其进行差分计算,得到一阶和二阶分量,结合短时能量... 语音清晰度在通信终端、设备系统语音识别方面具有重要意义。本文对110dB噪声干扰下采集到的语音信号进行谱减法降噪,双门限端点检测提取发音字段,然后提取梅尔频率倒谱系数(MFCC),再将其进行差分计算,得到一阶和二阶分量,结合短时能量作为语音信号的特征参数,最后通过动态时间归整(DTW)进行相似度识别。实验表明,本文算法对汉语清晰度诊断押韵测试(DRT)字表的测试结果高达92.90%,有良好的识别率。 展开更多
关键词 语音清晰度 谱减法 端点检测 梅尔频率倒谱系数 动态时间归整 汉语清晰度诊断押韵测试
下载PDF
基于动静态特征双输入神经网络的咳嗽声诊断COVID-19算法 被引量:2
15
作者 张永梅 孙捷 《电子学报》 EI CAS CSCD 北大核心 2023年第1期202-212,共11页
新型冠状病毒肺炎(COVID-19)已经在世界范围内造成了严重影响,在防控疫情方面学者们进行了大量研究.利用咳嗽声判断病变部位来诊断新冠肺炎具有非接触、成本低、易获取等优点,但是此类研究在国内较为匮乏.梅尔倒谱系数(Mel Frequency Ce... 新型冠状病毒肺炎(COVID-19)已经在世界范围内造成了严重影响,在防控疫情方面学者们进行了大量研究.利用咳嗽声判断病变部位来诊断新冠肺炎具有非接触、成本低、易获取等优点,但是此类研究在国内较为匮乏.梅尔倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)特征仅能够表示声音的静态特征,而一阶差分MFCC特征还能反应声音的动态特征.为了更好地防治新冠肺炎,本文提出了基于动静态特征双输入神经网络的咳嗽声诊断新冠肺炎算法,通过咳嗽声诊断新冠肺炎.在Coswara数据集基础上,对咳嗽声的音频进行裁剪,提取MFCC和一阶差分MFCC特征训练了一个动静态特征双输入神经网络模型.本文模型采用统计池化层,可以输入不同长度的MFCC特征.实验结果表明,与现有模型相比较,本文算法明显提升了识别准确率、召回率、特异性和F1值. 展开更多
关键词 深度学习 咳嗽声 新冠肺炎 梅尔倒谱系数 音频技术 卷积神经网络
下载PDF
Challenges and Limitations in Speech Recognition Technology:A Critical Review of Speech Signal Processing Algorithms,Tools and Systems
16
作者 Sneha Basak Himanshi Agrawal +4 位作者 Shreya Jena Shilpa Gite Mrinal Bachute Biswajeet Pradhan Mazen Assiri 《Computer Modeling in Engineering & Sciences》 SCIE EI 2023年第5期1053-1089,共37页
Speech recognition systems have become a unique human-computer interaction(HCI)family.Speech is one of the most naturally developed human abilities;speech signal processing opens up a transparent and hand-free computa... Speech recognition systems have become a unique human-computer interaction(HCI)family.Speech is one of the most naturally developed human abilities;speech signal processing opens up a transparent and hand-free computation experience.This paper aims to present a retrospective yet modern approach to the world of speech recognition systems.The development journey of ASR(Automatic Speech Recognition)has seen quite a few milestones and breakthrough technologies that have been highlighted in this paper.A step-by-step rundown of the fundamental stages in developing speech recognition systems has been presented,along with a brief discussion of various modern-day developments and applications in this domain.This review paper aims to summarize and provide a beginning point for those starting in the vast field of speech signal processing.Since speech recognition has a vast potential in various industries like telecommunication,emotion recognition,healthcare,etc.,this review would be helpful to researchers who aim at exploring more applications that society can quickly adopt in future years of evolution. 展开更多
关键词 Speech recognition automatic speech recognition(ASR) mel-frequency cepstral coefficients(MFCC) hidden Markov model(HMM) artificial neural network(ANN)
下载PDF
SPNCC与一维双通道CNN-LSTM相结合的变压器局部放电故障音频检测 被引量:1
17
作者 翟学明 郭嘉 翟羽佳 《智能系统学报》 CSCD 北大核心 2023年第3期534-543,共10页
变压器运行时产生的声音信号包含了丰富的状态信息,可作为变压器故障诊断的重要依据。为提高变压器故障音频诊断效果,首先将变压器运行时现场采集的声音信号分为工作环境噪声信号、正常工作音频信号以及局部放电故障音频信号;然后通过... 变压器运行时产生的声音信号包含了丰富的状态信息,可作为变压器故障诊断的重要依据。为提高变压器故障音频诊断效果,首先将变压器运行时现场采集的声音信号分为工作环境噪声信号、正常工作音频信号以及局部放电故障音频信号;然后通过卷积神经网络分类、小波包分解以及巴特沃斯带通滤波的方法去除原始音频信号中的非稳态环境噪声和短时稳态环境噪声信号;并建立了基于简化版幂律归一化倒谱系数特征的一维双通道卷积神经网络−长短时记忆网络的变压器局部放电故障识别模型。通过现场采集某500 kV变电站不同自然环境下的变压器运行声音信号与故障仿真实验,验证了提出的局部放电故障识别模型的可行性,相较于传统的音频故障诊断方法,提出的模型具有更快的收敛速度,更好的故障识别准确率与故障分类准确率。 展开更多
关键词 变压器局部放电 变压器故障检测 智能电网 小波包分解 简化版幂律归一化倒谱系数 Gammatone滤波器 卷积神经网络 长短时记忆网络
下载PDF
基于改进MFCC与IMFCC的心音分类研究
18
作者 张伟 杨宏波 +1 位作者 潘家华 王威廉 《计算机仿真》 北大核心 2023年第10期346-352,共7页
心音信号的研究有助于先天性心脏病的早期辅助诊断。提出一种对先天性心脏病心音分类的新方法:对每例心音截取2秒作为样本;用经验模态分解、多正弦窗、幂函数压缩法对MFCC与IMFCC进行改进,并用改进后的MFCC与IMFCC分别提取心音样本相应... 心音信号的研究有助于先天性心脏病的早期辅助诊断。提出一种对先天性心脏病心音分类的新方法:对每例心音截取2秒作为样本;用经验模态分解、多正弦窗、幂函数压缩法对MFCC与IMFCC进行改进,并用改进后的MFCC与IMFCC分别提取心音样本相应频率系数,并计算各自的一阶差分作为融合特征。分类模型选用两层CNN网络。对5000例样本训练测试的二分类准确率为0.921,灵敏度和特异度分别为0.898、0.944;F1和AUC分别达到了0.919与0.958。上述法有望用于先心病机器辅助诊断。 展开更多
关键词 心音 经验模态分解 梅尔频率倒谱系数 翻转梅尔频率倒谱系数 多正弦窗 幂函数压缩
下载PDF
LW30-252型SF 6高压断路器潜伏性故障声信号识别方法
19
作者 刘云鹏 韩帅 +3 位作者 廖思卓 杨宁 高飞 王博闻 《华北电力大学学报(自然科学版)》 CAS 北大核心 2023年第5期45-55,共11页
高压断路器动作声信号中包含其本体的机械状态信息。以LW30-252型SF 6高压断路器的CT26弹簧操动机构为研究对象,搭建故障模拟平台,模拟了高压断路器油缓冲器漏油、合闸弹簧疲劳、传动轴销磨损、主轴卡涩、地脚螺栓松动共5种典型潜伏性故... 高压断路器动作声信号中包含其本体的机械状态信息。以LW30-252型SF 6高压断路器的CT26弹簧操动机构为研究对象,搭建故障模拟平台,模拟了高压断路器油缓冲器漏油、合闸弹簧疲劳、传动轴销磨损、主轴卡涩、地脚螺栓松动共5种典型潜伏性故障,然后以断路器动作的声音为检测信号,提取声信号的梅尔倒谱系数、伽马通滤波倒谱系数与幂律归一化倒谱系数共同构成混合倒谱系数,输入卷积神经网络进行故障识别,并在实测的断路器潜伏性故障声纹数据集上进行了验证,结果表明本文方法能够有效实现断路器的5种潜伏性机械故障诊断。 展开更多
关键词 高压断路器 声音信号 混合倒谱系数 故障模拟 故障诊断
下载PDF
基于LSTM神经网络的油浸式变压器异常声纹诊断方法研究 被引量:11
20
作者 于达 张玮 王辉 《智慧电力》 北大核心 2023年第2期45-52,共8页
利用声音信号对电力变压器进行状态诊断是一种不停机、无接触的设备维护方法,可以诊断变压器异常状态类型。提出了一种基于LSTM神经网络的电力变压器异常诊断的方法,采集电力变压器在正常状态、过载和放电3种运行状态下发出的声音信号,... 利用声音信号对电力变压器进行状态诊断是一种不停机、无接触的设备维护方法,可以诊断变压器异常状态类型。提出了一种基于LSTM神经网络的电力变压器异常诊断的方法,采集电力变压器在正常状态、过载和放电3种运行状态下发出的声音信号,将声音信号进行预处理并提取声音信号的MFCC特征,再将其通过一、二阶差分组合成一组声音特征的矢量,输入LSTM神经网络中进行训练。训练结果表明,将LSTM神经网络应用在电力变压器状态声音诊断上对3种状态的识别均能达到99%以上的准确率。 展开更多
关键词 变压器声音诊断 梅尔倒谱系数 LSTM神经网络
下载PDF
上一页 1 2 15 下一页 到第
使用帮助 返回顶部