期刊文献+
共找到42篇文章
< 1 2 3 >
每页显示 20 50 100
基于Mel声谱图与改进SEResNet的鱼类行为识别
1
作者 杨雨欣 于红 +3 位作者 杨宗轶 涂万 张鑫 林远山 《渔业现代化》 CSCD 北大核心 2024年第1期56-63,共8页
养殖环境中饲料投放、水流变化等刺激源导致鱼类声音分辨难,使行为识别准确率不高,为解决上述问题,提出基于Mel声谱图(Mel spectrogram)与改进SEResNet的鱼类行为识别模型TAP-SEResNet。首先针对鱼类行为声音频率波动大、特征差异小,造... 养殖环境中饲料投放、水流变化等刺激源导致鱼类声音分辨难,使行为识别准确率不高,为解决上述问题,提出基于Mel声谱图(Mel spectrogram)与改进SEResNet的鱼类行为识别模型TAP-SEResNet。首先针对鱼类行为声音频率波动大、特征差异小,造成特征提取难的问题,采用高分辨率、特征表示较好的Mel声谱图以捕捉鱼类声音的频谱特征。其次针对鱼类声音特征关键信息易丢失的难题,提出在SEResNet模型中融合时序聚合池化层(Temporal Aggregated Pooling,TAP),提取池化区域的最大值和平均值,保留鱼类行为更多细粒度声音特征,提高识别准确率。为验证所提模型的有效性,分别设计了消融试验和模型性能对比试验,试验结果显示:TAP-SEResNet相比SEResNet在不降低检测速度的条件下准确率提升了3.23%;相比PANNS-CNN14、ECAPA-TDNN及MFCC+ResNet等先进声音识别模型,TAP-SEResNet在准确率上分别提升了5.32%、2.80%和1.64%。所提模型有助于养殖过程中对鱼类行为实现精准监测,对精准养殖具有重要的推动作用。 展开更多
关键词 鱼类行为识别 被动水声信号 mel声谱图 SEResNet
下载PDF
基于Mel-GADF与ConvNeXt-T的变压器铁心松动故障诊断方法
2
作者 万可力 马宏忠 +1 位作者 崔佳嘉 王健 《电力自动化设备》 EI CSCD 北大核心 2024年第3期217-224,共8页
为解决传统梅尔(Mel)时频谱图对变压器铁心松动程度识别率较低的问题,提出一种基于梅尔-格拉姆角差场(Mel-GADF)时频谱图与ConvNeXt-T网络相结合的变压器铁心松动故障诊断模型。将变压器声纹信号生成Mel时频谱图,同时将原始声纹数据经... 为解决传统梅尔(Mel)时频谱图对变压器铁心松动程度识别率较低的问题,提出一种基于梅尔-格拉姆角差场(Mel-GADF)时频谱图与ConvNeXt-T网络相结合的变压器铁心松动故障诊断模型。将变压器声纹信号生成Mel时频谱图,同时将原始声纹数据经过格拉姆角场(GAF)变换得到格拉姆角和场(GASF)与GADF这2种时频谱图;生成Mel-GASF与Mel-GADF这2种特征融合的时频谱图来弥补Mel时频谱图的低频缺失问题;将3种时频谱图放入ConvNeXt-T网络进行训练对比,选出效果最佳的诊断模型。以型号为S13-M-200/10的变压器为对象进行空载试验,对不同铁心松动程度下的声纹信号进行分析,分析结果表明,将Mel-GADF作为特征时频谱图结合ConvNeXt-T网络,可将测试集准确率从传统Mel时频谱图的98.273%提升至99.500%,提升了1.227个百分点。 展开更多
关键词 变压器 铁心松动 mel时频谱图 格拉姆角场 卷积神经网络 迁移学习
下载PDF
基于Vision Transformer和迁移学习的家庭领域哭声识别
3
作者 王汝旭 王荣燕 +2 位作者 曾科 杨传德 刘超 《智能计算机与应用》 2024年第6期119-126,共8页
针对SVM等传统机器学习算法准确率低和当前使用CNN处理家庭领域哭声识别在不同婴儿间出现泛化能力差的问题,提出了一种基于Vision Transformer和迁移学习的婴儿哭声音频分类算法。首先,为实现数据集样本的扩增,采用了包括梅尔频谱转换... 针对SVM等传统机器学习算法准确率低和当前使用CNN处理家庭领域哭声识别在不同婴儿间出现泛化能力差的问题,提出了一种基于Vision Transformer和迁移学习的婴儿哭声音频分类算法。首先,为实现数据集样本的扩增,采用了包括梅尔频谱转换和数据增强的数据预处理技术,进而达到了增强模型鲁棒性的目的。而后,在微调后的Vision Transformer模型上进行迁移学习训练,同时,训练过程中利用了LookAhead优化器来不断调整模型参数以避免过拟合,最终实验实现了对婴儿哭声音频的自动分类。实验结果表明,本实验模型相比其他深度学习模型具有更高的精确率和更快的收敛速度,同时还能有效地学习到婴儿哭声中更具区分性的特征。可以在新生儿监护、听力筛查和异常检测等领域中发挥重要作用。 展开更多
关键词 Vision Transformer模型 婴儿哭声 迁移学习 梅尔频谱图 LOOKAHEAD
下载PDF
基于轻量级卷积神经网络的车辆声学识别
4
作者 封慧杰 赵红东 +1 位作者 于快快 刘赫 《传感器与微系统》 CSCD 北大核心 2024年第7期136-140,共5页
车型识别技术对交通监测具有重要意义。针对行驶中车辆的视觉信息易受环境干扰等问题,提出了一种基于ShuffleNet V2的车辆声学特征识别模型S-ShuffleNet,包含对ShuffleNet V2网络深度的缩减以及深度可分离卷积(DSC)中卷积(Conv)核大小... 车型识别技术对交通监测具有重要意义。针对行驶中车辆的视觉信息易受环境干扰等问题,提出了一种基于ShuffleNet V2的车辆声学特征识别模型S-ShuffleNet,包含对ShuffleNet V2网络深度的缩减以及深度可分离卷积(DSC)中卷积(Conv)核大小的改进,通过提取车辆声信号的对数—梅尔谱图(LMS)特征作为该模型的输入,进行车型识别。同时,将风、雨、雷暴噪声叠加在车辆音频上,以验证不同环境噪声的影响。实验结果表明:该模型参数量少、训练速度快,在VS10数据集上识别精度比基础网络ShuffleNet V2提高2.4%,识别准确率可达97.5%,与不同分类网络相比,S-ShuffleNet也具有良好性能。 展开更多
关键词 车型识别 声学特征 对数梅尔谱图 轻量级 卷积神经网络 环境噪声
下载PDF
基于子音节表征的苗语语音合成方法
5
作者 蔡姗 王林 +3 位作者 谭棉 郭胜 吴磊 王飞 《科学技术与工程》 北大核心 2024年第19期8176-8185,共10页
少数民族语言的语音合成有助于民族文化的传承、保护和发展,目前相关研究成果较少。针对不同声调的相同词发音相似时易出现语音合成错误的问题,提出了一种基于子音节表征的苗语语音合成方法,该方法利用子音节作为训练基元来表征苗语发... 少数民族语言的语音合成有助于民族文化的传承、保护和发展,目前相关研究成果较少。针对不同声调的相同词发音相似时易出现语音合成错误的问题,提出了一种基于子音节表征的苗语语音合成方法,该方法利用子音节作为训练基元来表征苗语发音信息,以区分学习不同音节间的相似发音。根据文本序列和梅尔谱图之间对齐的单调性,引入单调对齐损失来指导注意力模块进行更准确的对齐学习,以减少因注意力机制的自回归性带来的跳词、重复等合成现象。为验证所提方法的有效性,以自建苗语语音合成语料库HmongSpeech(下载链接:http://sxjxsf.gzmu.edu.cn/info/1728/1214.htm)作为基准数据集,与典型的语音合成方法进行对比实验。实验结果表明,所提方法能够降低不同声调的相同词发音相似时导致的合成错误率,词错误率仅为0.96%,较基线方法改善了6.25%。 展开更多
关键词 苗语语音合成 子音节 单调对齐 语料库 梅尔谱图
下载PDF
基于幅值滤波与分层特征融合策略的语音情感识别
6
作者 喻永振 刘大明 《国外电子测量技术》 2024年第3期35-42,共8页
针对语音情感识别在多语言联合数据集上识别准确率低的问题,提出了一种基于幅值滤波与分层特征融合策略的语音情感识别方法。该方法首先对梅尔谱图内幅值分布规律进行幅值滤波,通过概率叠加扩大梅尔谱图内相近幅值之间的差异,实现谱图... 针对语音情感识别在多语言联合数据集上识别准确率低的问题,提出了一种基于幅值滤波与分层特征融合策略的语音情感识别方法。该方法首先对梅尔谱图内幅值分布规律进行幅值滤波,通过概率叠加扩大梅尔谱图内相近幅值之间的差异,实现谱图内的高频强增益、低频弱增益;同时,通过概率相乘缩小梅尔谱图内相远幅值之间的差异,以显示谱图内中频的细节部分。在此基础上,使用矩形卷积提取音频信号的时间动态特征,生成梅尔谱图动态特征图,并将其作为分层特征融合策略的输入。分层特征融合策略通过压缩特征图来提取不同尺度的时间动态特征,并提取不同深度中的时间动态特征。在多语言联合数据集CER上取得了84.44%的分类准确率。 展开更多
关键词 语音情感识别 幅值滤波 分层特征融合策略 梅尔谱图动态特征图
下载PDF
应用无监督最大互信息算法分类鸟类叫声
7
作者 潘婕 《福建电脑》 2024年第2期67-69,共3页
在建立鸟类叫声的分类模型时,由于自然界中具有准确标签的鸟类叫声数据较少,因此需要解决小样本下的模型训练问题。本文研究应用最大互信息的无监督网络来对鸟类叫声进行分类。通过同时提取梅尔图谱的高层语义特征和浅层特征并计算互信... 在建立鸟类叫声的分类模型时,由于自然界中具有准确标签的鸟类叫声数据较少,因此需要解决小样本下的模型训练问题。本文研究应用最大互信息的无监督网络来对鸟类叫声进行分类。通过同时提取梅尔图谱的高层语义特征和浅层特征并计算互信息,减少噪声特征的提取。训练时使用对抗样本,利用先验约束网络拉大不同类别之间的距离,降低模型对数据的依赖。实验证明,与现有无监督方法相比,利用最大互信息方法的无监督学习能够在鸟类叫声分类任务上取得最好的效果。 展开更多
关键词 最大互信息 无监督学习 梅尔图谱 鸟类叫声分类
下载PDF
基于Mel频谱图和CNN的电网涉鸟故障鸟声识别 被引量:5
8
作者 邱志斌 卢祖文 +1 位作者 王海祥 况燕军 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第2期129-136,共8页
为了提高电网渉鸟故障防治的针对性,提出了一种基于Mel频谱图和卷积神经网络(CNN)的鸟声识别方法。建立常见渉鸟故障对应的40类代表性鸟种的鸣声样本集,对鸟鸣信号进行分帧、加窗与降噪等预处理,计算每帧信号在各个Mel滤波器中的能量,... 为了提高电网渉鸟故障防治的针对性,提出了一种基于Mel频谱图和卷积神经网络(CNN)的鸟声识别方法。建立常见渉鸟故障对应的40类代表性鸟种的鸣声样本集,对鸟鸣信号进行分帧、加窗与降噪等预处理,计算每帧信号在各个Mel滤波器中的能量,根据能量大小与颜色深浅的映射关系提取鸟鸣信号的Mel频谱图。以电网涉鸟故障相关鸟种的Mel频谱图作为输入,通过CNN反复执行卷积-池化过程提取Mel频谱图特征,并进行多次迭代训练调整网络内部参数,得到最优模型用于鸟种识别。算例结果表明,40类鸟种的识别准确率达96.1%,识别效果优于其他迁移学习模型。文中研究结果可为输电线路运维人员正确识别相关鸟种、开展渉鸟故障差异化防治提供参考。 展开更多
关键词 输电线路 涉鸟故障 鸟种识别 mel频谱图 降噪 卷积神经网络
下载PDF
基于变压器声纹Mel语谱图-ResNet的铁心松动故障诊断 被引量:5
9
作者 何萍 李勇 +3 位作者 陈寿龙 许洪华 朱雷 王凌燕 《电机与控制应用》 2022年第9期75-80,共6页
为实现变压器铁心松动故障的识别,提出基于变压器声纹的ResNet卷积神经网络(CNN)用作铁心松动故障的识别,分别比较了相同卷积神经网络ResNet在交叉熵损失函数(SE-ResNet-Dense)和特征表达的角度空间中最大化分类界限的加性角度裕度损失... 为实现变压器铁心松动故障的识别,提出基于变压器声纹的ResNet卷积神经网络(CNN)用作铁心松动故障的识别,分别比较了相同卷积神经网络ResNet在交叉熵损失函数(SE-ResNet-Dense)和特征表达的角度空间中最大化分类界限的加性角度裕度损失函数(SE-ResNet-ArcLoss)不同表现效果。通过变压器空载试验采集变压器铁心在额定预紧力、松动20%、松动40%时的噪声信号,通过离散傅里叶变换将采集的声纹信号生成时频矩阵,并使用Mel滤波器对时频矩阵降维生成尺寸大大缩小的Mel-语谱图。将采集的噪声信号制作成数据集后输入到两种模型中训练,最终测试集在模型SE-ResNet-Dense上的预测结果为90.753%,在模型SE-ResNet-ArcLoss上的预测结果为97.541%。结果验证SE-ResNet-ArcLoss最适用于变压器铁心松动故障识别。 展开更多
关键词 变压器声纹 铁心松动故障 mel语谱图 卷积神经网络 故障识别
下载PDF
基于频谱增强和卷积宽度学习的音乐流派分类 被引量:1
10
作者 刘万军 李雨萌 曲海成 《计算机系统应用》 2023年第10期85-95,共11页
针对频谱图对于音乐特征挖掘较弱、深度学习分类模型复杂且训练时间长的问题,设计了一种基于频谱增强和卷积宽度学习(CNNBLS)的音乐流派分类模型.该模型首先通过SpecAugment中随机屏蔽部分频率信道的方法增强梅尔频谱图,再将切割后的梅... 针对频谱图对于音乐特征挖掘较弱、深度学习分类模型复杂且训练时间长的问题,设计了一种基于频谱增强和卷积宽度学习(CNNBLS)的音乐流派分类模型.该模型首先通过SpecAugment中随机屏蔽部分频率信道的方法增强梅尔频谱图,再将切割后的梅尔频谱图作为CNNBLS的输入,同时将指数线性单元函数(ELU)融合进CNNBLS的卷积层,以增强其分类精度.相较于其他机器学习网络框架,CNNBLS能用少量的训练时间获得较高的分类精度.此外,CNNBLS可以对增量数据进行快速学习.实验结果表明:无增量模型CNNBLS在训练400首音乐数据可获得90.06%的分类准确率,增量模型Incremental-CNNBLS在增加400首训练数据后可达91.53%的分类准确率. 展开更多
关键词 梅尔频谱 宽度学习 语音增强 音乐流派分类 指数线性单元函数(ELU)
下载PDF
基于改进Inception网络的语音分类模型 被引量:1
11
作者 张秋余 王煜坤 《计算机应用》 CSCD 北大核心 2023年第3期909-915,共7页
针对传统音频分类模型提取音频特征的过程繁琐,以及现有神经网络模型存在过拟合、分类精度不高、梯度消失等问题,提出一种基于改进Inception网络的语音分类模型。首先,在模型中加入ResNet中的残差跳连思想以改进传统的InceptionV2模型,... 针对传统音频分类模型提取音频特征的过程繁琐,以及现有神经网络模型存在过拟合、分类精度不高、梯度消失等问题,提出一种基于改进Inception网络的语音分类模型。首先,在模型中加入ResNet中的残差跳连思想以改进传统的InceptionV2模型,使网络模型在加深的同时避免梯度消失;其次,优化Inception模块中的卷积核大小,并利用不同尺寸卷积对原始语音的Log-Mel谱图进行深度特征提取,使模型通过自主学习的方式选择合适的卷积处理数据;同时,在深度与宽度两个维度改进模型以提高分类精度;最后,利用训练好的网络模型对语音数据进行分类预测,并通过Softmax函数得到分类结果。在清华大学汉语语音数据集THCHS-30与环境声音数据集UrbanSound8K数据集上的实验结果表明,改进的Inception网络模型在上述两个数据集上分类准确率分别为92.76%与93.34%。相较于VGG16、InceptionV2、GoogLeNet等模型,所提模型的分类准确率取得了最优,最多提高了27.30个百分点。所提模型具有更强的特征融合能力和更准确的分类结果,能够解决过拟合、梯度消失等问题。 展开更多
关键词 语音分类 卷积神经网络 残差跳连 对数梅尔谱图 深度特征
下载PDF
基于域泛化的无监督机器设备异常声检测
12
作者 章林柯 许艳武 余永升 《海军工程大学学报》 CAS 北大核心 2023年第6期52-56,70,共6页
在基于声信号的机器设备异常检测中,机器运行时发出的声音可能会因机器运转状态的改变而发生变化,环境噪声也会改变场景中的声学特征,而传统的机器异常声音检测系统会因为声学特征的改变导致正常的声音被错误地标记为异常。针对这一问题... 在基于声信号的机器设备异常检测中,机器运行时发出的声音可能会因机器运转状态的改变而发生变化,环境噪声也会改变场景中的声学特征,而传统的机器异常声音检测系统会因为声学特征的改变导致正常的声音被错误地标记为异常。针对这一问题,提出了基于域泛化技术的无监督机器异常声音检测方法。首先,将声信号的对数梅尔谱图输入深度学习神经网络模型,结合域混合方法和坐标注意力机制模块,提高系统域泛化能力和异常识别性能;然后,在DCASE开源数据集上进行实验,与两种基线评估系统的AUC和pAUC得分进行对比。结果表明,所提出的方法在域泛化条件下的异常检测性能得到明显提升。 展开更多
关键词 无监督深度学习 异常声音检测 域泛化 对数梅尔谱图
下载PDF
A Deep CNN-LSTM-Based Feature Extraction for Cyber-Physical System Monitoring
13
作者 Alaa Omran Almagrabi 《Computers, Materials & Continua》 SCIE EI 2023年第8期2079-2093,共15页
A potential concept that could be effective for multiple applications is a“cyber-physical system”(CPS).The Internet of Things(IoT)has evolved as a research area,presenting new challenges in obtaining valuable data t... A potential concept that could be effective for multiple applications is a“cyber-physical system”(CPS).The Internet of Things(IoT)has evolved as a research area,presenting new challenges in obtaining valuable data through environmental monitoring.The existing work solely focuses on classifying the audio system of CPS without utilizing feature extraction.This study employs a deep learning method,CNN-LSTM,and two-way feature extraction to classify audio systems within CPS.The primary objective of this system,which is built upon a convolutional neural network(CNN)with Long Short Term Memory(LSTM),is to analyze the vocalization patterns of two different species of anurans.It has been demonstrated that CNNs,when combined with mel-spectrograms for sound analysis,are suitable for classifying ambient noises.Initially,the data is augmented and preprocessed.Next,the mel spectrogram features are extracted through two-way feature extraction.First,Principal Component Analysis(PCA)is utilized for dimensionality reduction,followed by Transfer learning for audio feature extraction.Finally,the classification is performed using the CNN-LSTM process.This methodology can potentially be employed for categorizing various biological acoustic objects and analyzing biodiversity indexes in natural environments,resulting in high classification accuracy.The study highlights that this CNNLSTM approach enables cost-effective and resource-efficient monitoring of large natural regions.The dissemination of updated CNN-LSTM models across distant IoT nodes is facilitated flexibly and dynamically through the utilization of CPS. 展开更多
关键词 Cyber-physical system internet of things feature extraction classification CNN principal component analysis mel spectrograms MONITORING deep learning
下载PDF
A method of convolutional neural network based on frequency segmentation for monitoring the state of wind turbine blades
14
作者 Weijun Zhu Yunan Wu +3 位作者 Zhenye Sun Wenzhong Shen Guangxing Guo Jianwei Lin 《Theoretical & Applied Mechanics Letters》 CAS CSCD 2023年第6期465-480,共16页
Wind turbine blades are prone to failure due to high tip speed,rain,dust and so on.A surface condition detecting approach based on wind turbine blade aerodynamic noise is proposed.On the experimental measurement data,... Wind turbine blades are prone to failure due to high tip speed,rain,dust and so on.A surface condition detecting approach based on wind turbine blade aerodynamic noise is proposed.On the experimental measurement data,variational mode decomposition filtering and Mel spectrogram drawing are conducted first.The Mel spectrogram is divided into two halves based on frequency characteristics and then sent into the convolutional neural network.Gaussian white noise is superimposed on the original signal and the output results are assessed based on score coefficients,considering the complexity of the real environment.The surfaces of Wind turbine blades are classified into four types:standard,attachments,polishing,and serrated trailing edge.The proposed method is evaluated and the detection accuracy in complicated background conditions is found to be 99.59%.In addition to support the differentiation of trained models,utilizing proper score coefficients also permit the screening of unknown types. 展开更多
关键词 Wind turbine aerodynamic noise Surface condition detection mel spectrogram Image segmentation Convolution neural network(CNN)
下载PDF
一种基于WaveNet的藏语语音合成方法 被引量:1
15
作者 丁云涛 才让卓玛 +1 位作者 贡保加 才智杰 《计算机仿真》 北大核心 2023年第1期295-299,538,共6页
针对Griffin-Lim声码器合成语音保真度低、人工合成痕迹明显的问题,提出了一种基于WaveNet神经网络声码器的藏语语音合成方法。方法基于藏文文本特征及藏语Mel频谱,运用WaveNet的相位恢复能力实现了藏语的语音合成。先将藏文文本经字符... 针对Griffin-Lim声码器合成语音保真度低、人工合成痕迹明显的问题,提出了一种基于WaveNet神经网络声码器的藏语语音合成方法。方法基于藏文文本特征及藏语Mel频谱,运用WaveNet的相位恢复能力实现了藏语的语音合成。先将藏文文本经字符编码转换为相应词向量,并通过卷积运算和注意力权重赋值完成文本特征提取;利用非线性变换和线性投影预测Mel频谱;利用WaveNet声码器合成藏语语音波形。实验数据表明,相对于Griffin-Lim算法合成的语音,所提方法所合成的语音效果更好。 展开更多
关键词 藏语语音合成 梅尔频谱 神经网络声码器
下载PDF
基于Inception-CSA深度学习模型的鸟鸣分类 被引量:1
16
作者 李怀城 杨道武 +2 位作者 温治芳 王亚楠 陈爱斌 《华中农业大学学报》 CAS CSCD 北大核心 2023年第3期97-104,共8页
为进一步提高通过声音识别鸟类的精确度,本研究提出基于Inception-CSA深度学习模型的鸟鸣声分类方法,包含鸟鸣声音频样本预处理、特征提取、分类器分类等步骤。首先将鸟鸣声样本预处理成尺寸相同的梅尔频谱图,作为鸟鸣声特征图;其次利用... 为进一步提高通过声音识别鸟类的精确度,本研究提出基于Inception-CSA深度学习模型的鸟鸣声分类方法,包含鸟鸣声音频样本预处理、特征提取、分类器分类等步骤。首先将鸟鸣声样本预处理成尺寸相同的梅尔频谱图,作为鸟鸣声特征图;其次利用Inception-CSA模型对鸟鸣声特征图进行特征提取,其中Inception模块提取鸟鸣声特征图中的多尺度局部时频域特征,CSA模块获取鸟鸣声特征图的全局注意力权重,将二者的输出结合得到更强的特征图,再次利用最大池化层对特征图进行下采样;最后利用全连接层进行分类,得到最终的分类结果。以采集的华南地区自然环境中的10种野生鸟类的鸣叫声构建数据集,用于实验部分以验证方法的有效性。结果表明,本研究提出的方法在自建数据集上准确率达到了93.11%,相比于基于其他经典模型的分类方法,基于Inception-CSA模型的分类方法在拥有较少模型参数量的同时达到了更高的准确率。 展开更多
关键词 卷积神经网络 鸟鸣声分类 深度学习 梅尔频谱图 INCEPTION
下载PDF
基于ZYNQ的枪声识别系统设计 被引量:1
17
作者 孙袖山 李剑 +3 位作者 贺斌 庞润嘉 马翊翔 郭锦铭 《电子测量技术》 北大核心 2023年第2期1-6,共6页
枪声识别技术在军事环境下可以快速准确地提供战场信息,但是目前大部分枪声识别系统均部署在服务器端,实用性和可行性不高,针对这一问题,本文设计了一种基于ZYNQ的枪声识别系统。该系统以ZYNQ7020芯片为核心,充分利用ZYNQ芯片集ARM与FPG... 枪声识别技术在军事环境下可以快速准确地提供战场信息,但是目前大部分枪声识别系统均部署在服务器端,实用性和可行性不高,针对这一问题,本文设计了一种基于ZYNQ的枪声识别系统。该系统以ZYNQ7020芯片为核心,充分利用ZYNQ芯片集ARM与FPGA于一体的特性,首先在芯片的FPGA部分设计了多通道数据传输链路和声场特征参数提取模块;其次在芯片的ARM部分部署经过PC端训练后的轻量化网络模型,对经过FPGA提取的特征参数进行处理,进而实现对枪声种类的识别;最后使用枪声数据集NIJ Grant 2016-DN-BX-0183中的3种枪声在外场进行试验。试验结果表明,该系统能够准确地对枪声进行分类,枪声的平均识别率达到91.67%。该成果在枪声识别领域具有较强的应用价值。 展开更多
关键词 ZYNQ 对数梅尔谱 枪声识别 神经网络
下载PDF
基于CNN和XLNet的音乐多模态情感分析方法 被引量:1
18
作者 张晶晶 陈伟 李庆珍 《贵阳学院学报(自然科学版)》 2023年第2期34-39,共6页
在情感分析领域,仅依靠文本等单一模态进行情感分析,限制了从多模态数据中提取多样化特征的能力,限制了情感分析结果的准确度和鲁棒性。为此,提出了融合音频分析网络和文本分析网络的多模态情感分析方法。其中,利用预训练卷积神经网络(C... 在情感分析领域,仅依靠文本等单一模态进行情感分析,限制了从多模态数据中提取多样化特征的能力,限制了情感分析结果的准确度和鲁棒性。为此,提出了融合音频分析网络和文本分析网络的多模态情感分析方法。其中,利用预训练卷积神经网络(CNN)和迁移学习技术进行基于Mel频谱图的音频情感分类,通过改进的XLNet模型执行歌词文本的特征提取和情感分类任务。CNN和XLNet输出包含概率权重和不同情感值的情感预测矩阵,最后使用堆叠集成方法合并不同模态的输出结果,完成多模态情感分类。在自建民族音乐数据集的消融实验证明,多模态方法具有良好的互补性,在情感识别任务中的性能显著优于单模态方法。公开数据集结果表明,所提方法的分类准确度达到83.75%,优于其他先进方法。 展开更多
关键词 多模态数据 卷积神经网络 mel频谱图 堆叠集成法 音乐情感分析
下载PDF
一种新的艺术嗓音客观评价方法
19
作者 李延华 曹辉 +3 位作者 张若雨 陈文韬 曹娜 范翔 《电子设计工程》 2023年第2期156-159,165,共5页
针对目前艺术嗓音评价效率低、主观性强的问题,提出了一种基于卷积神经网络的嗓音质量客观评价方法。在该方法中,将音频信号转化为一定尺寸的梅尔声谱图,并构建了一种多层CNN网络架构的图像特征模型,使得艺术嗓音客观评价问题转化为图... 针对目前艺术嗓音评价效率低、主观性强的问题,提出了一种基于卷积神经网络的嗓音质量客观评价方法。在该方法中,将音频信号转化为一定尺寸的梅尔声谱图,并构建了一种多层CNN网络架构的图像特征模型,使得艺术嗓音客观评价问题转化为图像分类问题。实验表明,通过深度学习方法客观评价艺术嗓音质量,相比于已有提取声学参数和机器学习的评价方法,准确率有一定提高,为客观高效地评估艺术嗓音提供了一种新方法,具有较高的应用价值。 展开更多
关键词 艺术嗓音 梅尔声谱图 卷积神经网络 客观评价
下载PDF
基于CNN的平波电抗器声纹模式识别方法
20
作者 胡锦根 石明垒 +1 位作者 焦晨骅 沈正元 《浙江电力》 2023年第3期88-94,共7页
为实现对平波电抗器运行状态的准确识别,引入一种基于CNN(卷积神经网络)的深度学习方法,建立了使用Mel时频谱的电抗器绕组声纹模式识别模型。以干式平波电抗器作为实验对象采集声音信号,使用Mel滤波器方法将采集到的声音信号转化为时频... 为实现对平波电抗器运行状态的准确识别,引入一种基于CNN(卷积神经网络)的深度学习方法,建立了使用Mel时频谱的电抗器绕组声纹模式识别模型。以干式平波电抗器作为实验对象采集声音信号,使用Mel滤波器方法将采集到的声音信号转化为时频谱图,以不同的工况类型作为数据集的标签,基于CNN算法识别不同信号所对应的工况类型。结果表明,CNN可用于干式平波电抗器声纹模式的准确识别,优化后的神经网络对正弦激励、谐波激励和直流偏磁激励下的声纹信号识别准确率高达98.4%。研究结果为实现电网信号的智能化检测提供了潜在的技术方案。 展开更多
关键词 平波电抗器 运行状态 绕组 mel时频谱 卷积神经网络
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部