期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于频谱图转换器的音频场景分类 被引量:1
1
作者 袁双 杨立东 +2 位作者 郭勇 牛大伟 张丹丹 《信号处理》 CSCD 北大核心 2023年第4期730-736,共7页
音频场景分类是场景理解重要的一环,学习音频场景特征并精准分类能加强机器与环境的交互能力,在大数据时代其重要性不言而喻。鉴于分类任务表现依赖数据集规模,但实际任务中又面临数据集严重不足的情况,本文提出了数据增强和网络模型预... 音频场景分类是场景理解重要的一环,学习音频场景特征并精准分类能加强机器与环境的交互能力,在大数据时代其重要性不言而喻。鉴于分类任务表现依赖数据集规模,但实际任务中又面临数据集严重不足的情况,本文提出了数据增强和网络模型预训练策略,将频谱图转换器模型和音频场景分类任务相结合。首先,提取音频信号对数梅尔能量频谱图输入模型,然后通过模型动态交互能力,加强音频序列空间关系,最后由标记向量完成分类。将本文方法在DCASE2019task1和DCASE2020task1公开数据集上进行测试,分类准确率分别达到了96.489%和93.227%,与已有算法相比有明显的提升,说明本方法适用高精度音频场景分类任务,为高精度智能设备感知环境内容、检测环境动态打下了基础。 展开更多
关键词 音频场景分类 转换器 预训练 数据增强
下载PDF
改进卷积神经网络的音频场景分类研究 被引量:5
2
作者 杨立东 张壮壮 《现代电子技术》 2021年第3期91-94,共4页
音频场景分类作为声学场景理解的关键环节,对机器感知复杂环境并做出智能选择有着非常重要的意义。针对音频场景分类性能提升这一问题,提出改进的基于卷积神经网络模型的音频场景分类方法。首先对音频数据重新采样,预处理后得到对数梅... 音频场景分类作为声学场景理解的关键环节,对机器感知复杂环境并做出智能选择有着非常重要的意义。针对音频场景分类性能提升这一问题,提出改进的基于卷积神经网络模型的音频场景分类方法。首先对音频数据重新采样,预处理后得到对数梅尔谱图,随后输入到改进的卷积神经网络模型,进行卷积和池化处理提取谱图的特征,由Softmax分类器对音频场景标签进行分类。实验最后在城市音频数据集上进行十折交叉验证,实验结果表明,所提模型比传统的卷积神经网络模型的分类准确率更高,准确率达到了80%。 展开更多
关键词 音频场景分类 卷积神经网络 Softmax分类 特征提取 梅尔谱图 准确率
下载PDF
CNN-XGBoost混合模型在音频场景分类中的应用 被引量:2
3
作者 杨立东 胡江涛 张壮壮 《小型微型计算机系统》 CSCD 北大核心 2021年第1期213-217,共5页
在拥有海量数据和强大计算能力的人工智能时代,音频场景分类成为了场景理解的重要研究内容之一.针对音频场景分类建模困难和精确率不高的问题,本文提出一种基于卷积神经网络和极端梯度提升算法相结合的系统模型.首先,将预处理后的音频... 在拥有海量数据和强大计算能力的人工智能时代,音频场景分类成为了场景理解的重要研究内容之一.针对音频场景分类建模困难和精确率不高的问题,本文提出一种基于卷积神经网络和极端梯度提升算法相结合的系统模型.首先,将预处理后的音频信号转换成梅尔声谱图,然后输入到卷积神经网络中完成抽象特征提取,最后利用极端梯度提升算法进行分类.为了评估模型的有效性,在城市音频场景UrbanSound8K数据集上进行分类性能测试,结果表明,该混合算法模型对音频场景的分类精确率可以达到89%,优于传统的神经网络算法模型,说明该混合模型对音频场景分类问题的有效性. 展开更多
关键词 音频场景分类 卷积神经网络 极端梯度提升 梅尔声谱图
下载PDF
基于耳蜗图多示例分析的音频场景分类模型
4
作者 林巧颖 陈宁 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第1期99-104,共6页
音频场景分类(Acoustic Scene Classification,ASC)是计算听觉场景领域最具挑战的任务之一。传统的ASC模型大多采用基于线性频率分析的手工特征加基于深度学习的分类模型方法。然而,一方面,由于基于线性频率分析的特征提取方法无法模拟... 音频场景分类(Acoustic Scene Classification,ASC)是计算听觉场景领域最具挑战的任务之一。传统的ASC模型大多采用基于线性频率分析的手工特征加基于深度学习的分类模型方法。然而,一方面,由于基于线性频率分析的特征提取方法无法模拟人耳基底膜的非线性频率选择特性,从而造成特征分辨率低下的问题;另一方面,现有的分类模型无法解决由于音源复杂且音频事件高度重叠所造成的分类准确率低下的问题。为了解决以上问题,提出了基于耳蜗图多示例分析的音频场景分类模型,一方面采用中心频率按照等效带宽均匀分布的余弦滤波器组对信号频谱进行滤波以模拟人耳听觉感知特性;另一方面,通过引入多示例学习刻画整个数据结构的特点以提高分类准确率。此外,为了抵抗音频事件的频移影响,在多示例学习分类模型的分类预测整合器中采用平均池化方法。在DCASE 2018和DCASE 2019竞赛所提供的Task1a数据集上的实验结果表明,本文提出的模型比DCASE 2018竞赛所提供的基线系统以及传统的基于Log Mel特征提取和多示例学习的模型实现了更高的分类准确率,同时也验证了平均池化要优于最大池化。 展开更多
关键词 耳蜗图特征 深度学习 多示例分析 音频场景分类
下载PDF
基于Squeeze-Excitation的音频场景分类研究 被引量:1
5
作者 乔高杰 廖闻剑 《电子设计工程》 2021年第19期179-183,188,共6页
目前音频场景分类任务中主要使用对数梅尔谱图作为特征,大多数研究人员选择对每个通道的特征信息进行处理,鲜有研究考虑特征通道间信息的问题。文中将图像分类中有着较好效果的Squeeze-Excitation(SE)模块引入到音频场景分类任务中,以... 目前音频场景分类任务中主要使用对数梅尔谱图作为特征,大多数研究人员选择对每个通道的特征信息进行处理,鲜有研究考虑特征通道间信息的问题。文中将图像分类中有着较好效果的Squeeze-Excitation(SE)模块引入到音频场景分类任务中,以解决未考虑特征通道信息的问题。在基础的CNN网络结构中添加SE模块可以较好地考虑特征通道间的信息,进而提高网络的表达能力,同时还探究了SE模块添加的位置与数量对音频场景分类效果的影响。实验结果证明,添加SE模块能够提高场景分类的准确率,相比于基线系统分类准确率提高了1.1%;只有当SE模块添加在特征通道数比较多的卷积块之后才能够达到比较好的效果,而增加SE模块的数量相较于基线系统分类准确率提高不明显,为0.3%。 展开更多
关键词 音频场景分类 Squeeze-Excitation DCASE2019 卷积神经网络
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部