期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于Mel频谱值和深度学习网络的鸟声识别算法
1
作者 李大鹏 周晓彦 +2 位作者 王基豪 王丽丽 叶如 《应用声学》 CSCD 北大核心 2023年第4期825-832,共8页
为了增强网络对鸟鸣声信号的特征学习能力并提高识别精度,提出一种基于深度残差收缩网络和扩张卷积的鸟声识别方法。首先,提取鸟鸣声信号的对数Mel特征及其一阶和二阶差分系数组成log-Mel特征集,作为网络模型的输入;其次,通过深度残差... 为了增强网络对鸟鸣声信号的特征学习能力并提高识别精度,提出一种基于深度残差收缩网络和扩张卷积的鸟声识别方法。首先,提取鸟鸣声信号的对数Mel特征及其一阶和二阶差分系数组成log-Mel特征集,作为网络模型的输入;其次,通过深度残差收缩网络自动学习噪声阈值,减少噪声干扰;然后,引入扩张卷积增大卷积核感受野并利用注意力机制使网络聚焦于关键帧特征;最后,通过双向长短时记忆网络从学到的局部特征中学习长期依赖关系。以北京百鸟数据库中的19种中国常见鸟类作为实验对象,识别正确率可以达到96.58%,并对比模型在不同信噪比数据下的识别结果,结果表明该模型在噪声环境下的识别效果优于现有模型。 展开更多
关键词 鸟声识别 log-mel特征 深度残差收缩网 扩张卷积神经 注意力机制
下载PDF
基于改进Inception网络的语音分类模型 被引量:1
2
作者 张秋余 王煜坤 《计算机应用》 CSCD 北大核心 2023年第3期909-915,共7页
针对传统音频分类模型提取音频特征的过程繁琐,以及现有神经网络模型存在过拟合、分类精度不高、梯度消失等问题,提出一种基于改进Inception网络的语音分类模型。首先,在模型中加入ResNet中的残差跳连思想以改进传统的InceptionV2模型,... 针对传统音频分类模型提取音频特征的过程繁琐,以及现有神经网络模型存在过拟合、分类精度不高、梯度消失等问题,提出一种基于改进Inception网络的语音分类模型。首先,在模型中加入ResNet中的残差跳连思想以改进传统的InceptionV2模型,使网络模型在加深的同时避免梯度消失;其次,优化Inception模块中的卷积核大小,并利用不同尺寸卷积对原始语音的Log-Mel谱图进行深度特征提取,使模型通过自主学习的方式选择合适的卷积处理数据;同时,在深度与宽度两个维度改进模型以提高分类精度;最后,利用训练好的网络模型对语音数据进行分类预测,并通过Softmax函数得到分类结果。在清华大学汉语语音数据集THCHS-30与环境声音数据集UrbanSound8K数据集上的实验结果表明,改进的Inception网络模型在上述两个数据集上分类准确率分别为92.76%与93.34%。相较于VGG16、InceptionV2、GoogLeNet等模型,所提模型的分类准确率取得了最优,最多提高了27.30个百分点。所提模型具有更强的特征融合能力和更准确的分类结果,能够解决过拟合、梯度消失等问题。 展开更多
关键词 语音分类 卷积神经网络 残差跳连 对数梅尔谱图 深度特征
下载PDF
基于域泛化的无监督机器设备异常声检测
3
作者 章林柯 许艳武 余永升 《海军工程大学学报》 CAS 北大核心 2023年第6期52-56,70,共6页
在基于声信号的机器设备异常检测中,机器运行时发出的声音可能会因机器运转状态的改变而发生变化,环境噪声也会改变场景中的声学特征,而传统的机器异常声音检测系统会因为声学特征的改变导致正常的声音被错误地标记为异常。针对这一问题... 在基于声信号的机器设备异常检测中,机器运行时发出的声音可能会因机器运转状态的改变而发生变化,环境噪声也会改变场景中的声学特征,而传统的机器异常声音检测系统会因为声学特征的改变导致正常的声音被错误地标记为异常。针对这一问题,提出了基于域泛化技术的无监督机器异常声音检测方法。首先,将声信号的对数梅尔谱图输入深度学习神经网络模型,结合域混合方法和坐标注意力机制模块,提高系统域泛化能力和异常识别性能;然后,在DCASE开源数据集上进行实验,与两种基线评估系统的AUC和pAUC得分进行对比。结果表明,所提出的方法在域泛化条件下的异常检测性能得到明显提升。 展开更多
关键词 无监督深度学习 异常声音检测 域泛化 对数梅尔谱图
下载PDF
基于ZYNQ的枪声识别系统设计 被引量:1
4
作者 孙袖山 李剑 +3 位作者 贺斌 庞润嘉 马翊翔 郭锦铭 《电子测量技术》 北大核心 2023年第2期1-6,共6页
枪声识别技术在军事环境下可以快速准确地提供战场信息,但是目前大部分枪声识别系统均部署在服务器端,实用性和可行性不高,针对这一问题,本文设计了一种基于ZYNQ的枪声识别系统。该系统以ZYNQ7020芯片为核心,充分利用ZYNQ芯片集ARM与FPG... 枪声识别技术在军事环境下可以快速准确地提供战场信息,但是目前大部分枪声识别系统均部署在服务器端,实用性和可行性不高,针对这一问题,本文设计了一种基于ZYNQ的枪声识别系统。该系统以ZYNQ7020芯片为核心,充分利用ZYNQ芯片集ARM与FPGA于一体的特性,首先在芯片的FPGA部分设计了多通道数据传输链路和声场特征参数提取模块;其次在芯片的ARM部分部署经过PC端训练后的轻量化网络模型,对经过FPGA提取的特征参数进行处理,进而实现对枪声种类的识别;最后使用枪声数据集NIJ Grant 2016-DN-BX-0183中的3种枪声在外场进行试验。试验结果表明,该系统能够准确地对枪声进行分类,枪声的平均识别率达到91.67%。该成果在枪声识别领域具有较强的应用价值。 展开更多
关键词 ZYNQ 对数梅尔谱 枪声识别 神经网络
下载PDF
基于双源域迁移学习的肺音信号识别 被引量:1
5
作者 包善书 车波 邓林红 《计算机工程》 CAS CSCD 北大核心 2023年第9期295-302,312,共9页
针对目前肺音识别中因肺音数据集规模较小所致模型过拟合分类精度低的问题,提出一种基于双源域迁移学习的肺音识别方法。一方面,将音频数据集Audio Set上的预训练模型VGGish网络迁移至肺音识别中,融合高效通道注意力ECA-Net以增强识别能... 针对目前肺音识别中因肺音数据集规模较小所致模型过拟合分类精度低的问题,提出一种基于双源域迁移学习的肺音识别方法。一方面,将音频数据集Audio Set上的预训练模型VGGish网络迁移至肺音识别中,融合高效通道注意力ECA-Net以增强识别能力,然后提取肺音的对数梅尔频率谱特征,使用VGGish网络按照时序学习谱图中的信息,并对VGGish网络输出的特征向量经不同大小和扩张率的一维卷积核进行特征增强,将增强后的特征图输入双向门控循环单元以捕获肺音的时序信息;另一方面,将图像数据集ImageNet上的预训练模型VGG19迁移至肺音识别中,将肺音波形数据转换为谱图的形式输入并训练。将两方面的模型训练后作为特征提取器,融合具有高层语义的特征向量融合并输入集成学习算法CatBoost,实现最终的分类。实验结果表明,该方法对Coswara新冠数据集中肺音识别的特异性、敏感性指标和准确率分别达到80.66%、77.69%和79.18%,对ICBHI-2017数据集中肺音识别的特异性、敏感性指标和ICHBI-score分别达到88.75%、72.04%和80.39%,均优于对比的常见识别方法。 展开更多
关键词 肺音识别 迁移学习 通道注意力 对数梅尔频率谱 集成学习
下载PDF
基于自身注意力时空特征的语音情感识别算法 被引量:3
6
作者 徐华南 周晓彦 +1 位作者 姜万 李大鹏 《声学技术》 CSCD 北大核心 2021年第6期807-814,共8页
针对语音情感识别中无法对关键的时空依赖关系进行建模,导致识别率低的问题,提出一种基于自身注意力(self-attention)时空特征的语音情感识别算法,利用双线性卷积神经网络、长短期记忆网络和多组注意力(multi-head attention)机制去自... 针对语音情感识别中无法对关键的时空依赖关系进行建模,导致识别率低的问题,提出一种基于自身注意力(self-attention)时空特征的语音情感识别算法,利用双线性卷积神经网络、长短期记忆网络和多组注意力(multi-head attention)机制去自动学习语音信号的最佳时空表征。首先提取语音信号的对数梅尔(log-Mel)特征、一阶差分和二阶差分特征合成3D log-Mel特征集作为卷积神经网络的输入;然后综合考虑空间特征和时间依赖性关系,将双线性池化和双向长短期记忆网络的输出融合得到空间-时间特征表征,利用多组注意力机制捕获判别性强的特征;最后利用softmax函数进行分类。在IEMOCAP和EMO-DB数据库上进行实验,结果表明两种数据库的识别率分别为63.12%和87.09%,证明了此方法的有效性。 展开更多
关键词 语音情感识别 3D log-mel 双线性卷积神经网络 长短期记忆网络 多组注意力
下载PDF
采用混合域注意力机制的无人机识别方法 被引量:6
7
作者 薛珊 卫立炜 +1 位作者 顾宸瑜 吕琼莹 《西安交通大学学报》 EI CAS CSCD 北大核心 2022年第10期141-150,共10页
针对在城市公园、广场和大型游乐场等公共环境中,雷达和无线电识别无人机易受到电子干扰、图像识别无人机易受到光线和遮挡物干扰的问题,提出了一种经济便捷、不易受到干扰的运用声音和采用通道空间混合域注意力机制多尺度分组卷积网络(... 针对在城市公园、广场和大型游乐场等公共环境中,雷达和无线电识别无人机易受到电子干扰、图像识别无人机易受到光线和遮挡物干扰的问题,提出了一种经济便捷、不易受到干扰的运用声音和采用通道空间混合域注意力机制多尺度分组卷积网络(ECSANet)的无人机识别方法。首先,建立民用的9大类无人机声音数据集,提取数据集的对数梅尔谱图及其动态特征;其次,为了网络参数量少,避免过拟合,设计了基于分组卷积、通道混洗和残差结构的通道混洗多尺度分组卷积网络(MSSGNet);然后,为了能更多、更有效地提取无人机声音特征,设计了通道空间混合域注意力机制模块(ECSA);最后,将ECSA模块插入MSSGNet网络构成改进的通道空间混合域注意力机制的多尺度分组卷积网络(ECSANet),形成新型声音识别无人机的方法。运用设计的ECSANet网络对自建的民用无人机声音数据集和Urbansound8K环境声音数据集进行了声音识别,识别结果表明:与ResNet18、ResNet34、ResNeXt18和MobileNetV2等基准网络相比,MSSGNet网络参数更少,识别准确率更高,达到了95.1%;ECSA模块可以插入多种网络,在不增加很多参数的情况下令网络模型的识别准确率获得提升,在无人机等声音分类任务上具有很好的效果;与MSSGNet网络相比,改进的ECSANet网络识别准确率能达到95.9%,提高了0.8%,表明了该网络在识别小样本无人机方面的优越性和可行性。 展开更多
关键词 无人机 声音识别 对数梅尔谱图 神经网络 混合域注意力机制
下载PDF
基于改进残差网络的低空无人机声音识别方法 被引量:1
8
作者 薛珊 卫立炜 +2 位作者 顾宸瑜 孟宪宇 贾冰 《长春理工大学学报(自然科学版)》 2022年第4期100-107,共8页
“黑飞”无人机的泛滥给人们的生活带来了极大威胁。抵制“黑飞”无人机的首要任务是识别它。针对低空无人机识别问题,设计了一种基于改进残差网络的无人机声音识别方法。首先,采集低空无人机声音数据并进行预处理,建立数据集;其次,研... “黑飞”无人机的泛滥给人们的生活带来了极大威胁。抵制“黑飞”无人机的首要任务是识别它。针对低空无人机识别问题,设计了一种基于改进残差网络的无人机声音识别方法。首先,采集低空无人机声音数据并进行预处理,建立数据集;其次,研究并比较了梅尔频率倒谱系数(MFCC)、对数梅尔谱图(Log-Mel)及其一阶差分等音频特征;然后,设计了基于残差块改进的神经网络(IRBNet);最后,运用设计的IRBNet以及CNN-1、CNN-2、ResNet和IRBNet-1等基准网络对无人机进行识别实验。实验结果表明,IRBNet的识别准确率为97.45%,与其他基准网络相比,准确率更高;设计的IRBNet具有识别无人机的可行性和有效性。 展开更多
关键词 无人机 声音识别 特征提取 对数梅尔谱图 卷积神经网络
下载PDF
基于时频参数融合的自适应语音端点检测算法 被引量:7
9
作者 王晓华 屈雷 《计算机工程与应用》 CSCD 北大核心 2015年第20期203-207,212,共6页
为了解决低信噪比环境下传统的语音端点检测算法性能较差且不能自适应环境噪声,提出了一种基于时频参数融合的自适应语音端点检测算法。将对数能量与改进的Mel能量进行融合,获得了一种新的时频参数(TF),该参数能有效地区分语音段和噪声... 为了解决低信噪比环境下传统的语音端点检测算法性能较差且不能自适应环境噪声,提出了一种基于时频参数融合的自适应语音端点检测算法。将对数能量与改进的Mel能量进行融合,获得了一种新的时频参数(TF),该参数能有效地区分语音段和噪声段。使用该参数在噪声段对阈值进行更新,采用门限检测法判定出语音端点。仿真实验表明,该算法具有较好的鲁棒性,且能够准确地检测出语音端点。当信噪比(SNR)为0 d B时,端点检测错误率仅为15%左右。 展开更多
关键词 自适应 语音端点检测 Mel能量 时频参数
下载PDF
基于逆梅尔对数频谱系数的回放语音检测算法 被引量:8
10
作者 林朗 王让定 +1 位作者 严迪群 李璨 《电信科学》 2018年第5期90-98,共9页
高保真录音设备和回放设备的普及化及便携化,给说话人识别系统的抗回放语音攻击带来了严峻挑战。通过语谱图分析原始语音和回放语音在高频区的差异,有针对性地将语音信号在求取Mel(梅尔)倒谱系数过程中的Mel滤波器组逆置,并将DCT前的Me... 高保真录音设备和回放设备的普及化及便携化,给说话人识别系统的抗回放语音攻击带来了严峻挑战。通过语谱图分析原始语音和回放语音在高频区的差异,有针对性地将语音信号在求取Mel(梅尔)倒谱系数过程中的Mel滤波器组逆置,并将DCT前的Mel对数频谱系数作为算法的特征。最后,利用支持向量机作为分类器对待测语音进行判别。实验结果表明,此算法能够有效地检测回放语音。另外,将此算法加载到GMM-UBM说话人识别系统后,显著地提升了系统的抗回放语音攻击能力。 展开更多
关键词 说话人识别 回放语音检测 梅尔对数频谱 逆梅尔滤波器组
下载PDF
基于卷积神经网络的中国乐器分类 被引量:3
11
作者 李荣锋 谢祎凡 +1 位作者 李子晋 李学明 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2020年第5期517-522,共6页
中国乐器有着丰富的种类,但过去由于缺少数字化的保存形式,在音乐信息检索领域有关它们的研究很少.基于中国音乐学院收集完成的中国乐器数据库,本文旨在找到每种中国乐器各自独有的声音特征,并希望找到泛化能力较强的模型以更好地利用... 中国乐器有着丰富的种类,但过去由于缺少数字化的保存形式,在音乐信息检索领域有关它们的研究很少.基于中国音乐学院收集完成的中国乐器数据库,本文旨在找到每种中国乐器各自独有的声音特征,并希望找到泛化能力较强的模型以更好地利用有限的数据集.使用卷积神经网络并以对数Mel声谱图作为输入特征,在所构建的两个子数据集中实现了超过97%的分类准确率,说明所构建的模型能较好地学习到每种乐器的特征.此外,当以较短片段数据集训练的模型来对较长片段的数据集进行分类时,准确率依然高达92.70%,说明模型具有较好的泛化能力. 展开更多
关键词 中国乐器 卷积神经网络 对数Mel声谱图
下载PDF
运用核聚类和偏最小二乘回归的歌唱声音转换 被引量:2
12
作者 方鹏 李贤 汪增福 《智能系统学报》 CSCD 北大核心 2016年第1期55-60,共6页
语音转换是计算机听觉领域的热点问题之一,将歌声运用于语音转换是一种新的研究方向,同时拓宽了语音转换的应用范围。经典的高斯混合模型的方法在少量训练数据时会出现过拟合的现象,而且在转换时并未有效利用音乐信息。为此提出一种歌... 语音转换是计算机听觉领域的热点问题之一,将歌声运用于语音转换是一种新的研究方向,同时拓宽了语音转换的应用范围。经典的高斯混合模型的方法在少量训练数据时会出现过拟合的现象,而且在转换时并未有效利用音乐信息。为此提出一种歌唱声音转换方法以实现少量训练数据时的音色转换,并且利用歌曲的基频信息提高转换歌声的声音质量。该方法使用核聚类和偏最小二乘回归进行训练得到转换函数,采用梅尔对数频谱近似(MLSA)滤波器对源歌唱声音的波形直接进行滤波来获得转换后的歌唱声音,以此提高转换歌声的声音质量。实验结果表明,在少量训练数据时,该方法在相似度和音质方面都有更好的效果,说明在少量训练数据时该方法优于传统的高斯混合模型的方法。 展开更多
关键词 计算机视觉 语音转换 歌唱声音 核聚类 偏最小二乘回归 高斯混合模型 MLSA
下载PDF
基于STA-CRNN模型的语声情感识别
13
作者 张志浩 王坤侠 《应用声学》 CSCD 北大核心 2022年第5期843-850,共8页
语声情感识别对人机交互和情感计算研究领域具有重要作用,各类研究方法层出不穷。近期研究学者应用卷积神经网络和长短期记忆网络方法提取对数Mel谱图空间特征和时间特征,取得了一定的成果。然而不论是卷积神经网络还是长短期记忆网络... 语声情感识别对人机交互和情感计算研究领域具有重要作用,各类研究方法层出不穷。近期研究学者应用卷积神经网络和长短期记忆网络方法提取对数Mel谱图空间特征和时间特征,取得了一定的成果。然而不论是卷积神经网络还是长短期记忆网络提取特征时,都会产生特征冗余,导致语声情感识别效果下降。针对这一问题,该文提出了一种基于时空注意力机制的卷积-递归神经网络模型,采用对数Mel谱图和其一阶差分、二阶差分作为特征输入,在使用卷积神经网络提取空间特征和长短期记忆网络提取时间特征时,加入空间注意力和时间注意力机制,从而使上述网络能够更好地提取到对数Mel谱图中有效表征情感的空间特征和时间特征。该模型在Emo-DB和IEMOCAP语声数据集上的加权准确率分别达到86.8%、69.4%,未加权准确率分别达到84.7%、65.5%,优于当前大多数先进方法。 展开更多
关键词 语声情感识别 对数Mel频谱图 时空注意力 时间特征 空间特征
下载PDF
基于音频特征的水车室工作状态异常检测
14
作者 曾广栋 魏学锋 +2 位作者 何林 孙长江 张旋 《水电能源科学》 2024年第8期168-172,共5页
水电站的水车室包含轴承和顶盖等机械设备,受水力因素影响,水车室的异常工作会带来较大的安全隐患,基于大数据分析的精确维护对于水车室的可靠运行至关重要。针对水车室的异常工作状态,通过模型训练、特征工程和分类模型的开发等过程,采... 水电站的水车室包含轴承和顶盖等机械设备,受水力因素影响,水车室的异常工作会带来较大的安全隐患,基于大数据分析的精确维护对于水车室的可靠运行至关重要。针对水车室的异常工作状态,通过模型训练、特征工程和分类模型的开发等过程,采用STFT、Log-Mel、MFCC等方法对音频数据进行了预处理,建立了基于音频数据的异常检测模型,并对溪洛渡水电站水车室工作状态进行了异常检测。结果表明,Log-Mel方法具有有效性。研究结果不仅降低了异常检测的成本,还为水电机组的健康监测提供了参考。 展开更多
关键词 音频数据 水车室 STFT log-mel 梅尔频率倒频谱系数(MFCC) 时域特征 支持向量机
下载PDF
基于轻量级卷积神经网络的车辆声学识别
15
作者 封慧杰 赵红东 +1 位作者 于快快 刘赫 《传感器与微系统》 2024年第7期136-140,共5页
车型识别技术对交通监测具有重要意义。针对行驶中车辆的视觉信息易受环境干扰等问题,提出了一种基于ShuffleNet V2的车辆声学特征识别模型S-ShuffleNet,包含对ShuffleNet V2网络深度的缩减以及深度可分离卷积(DSC)中卷积(Conv)核大小... 车型识别技术对交通监测具有重要意义。针对行驶中车辆的视觉信息易受环境干扰等问题,提出了一种基于ShuffleNet V2的车辆声学特征识别模型S-ShuffleNet,包含对ShuffleNet V2网络深度的缩减以及深度可分离卷积(DSC)中卷积(Conv)核大小的改进,通过提取车辆声信号的对数—梅尔谱图(LMS)特征作为该模型的输入,进行车型识别。同时,将风、雨、雷暴噪声叠加在车辆音频上,以验证不同环境噪声的影响。实验结果表明:该模型参数量少、训练速度快,在VS10数据集上识别精度比基础网络ShuffleNet V2提高2.4%,识别准确率可达97.5%,与不同分类网络相比,S-ShuffleNet也具有良好性能。 展开更多
关键词 车型识别 声学特征 对数梅尔谱图 轻量级 卷积神经网络 环境噪声
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部