-
题名多声学特征融合的语音自动剪辑深度学习模型
- 1
-
-
作者
刘臣
倪仁倢
周立欣
侯昌佑
-
机构
上海理工大学管理学院
上海广播电视台
-
出处
《小型微型计算机系统》
CSCD
北大核心
2023年第8期1713-1719,共7页
-
基金
国家自然科学基金面上项目(71774111)资助
中国博士后科学基金第69批面上项目(2021M692135)资助。
-
文摘
剪辑是音视频制作中的重要环节,剪辑师需综合考虑剪辑节奏、关联性等要素,耗费大量人力和时间.从剪辑特性和实际应用出发,本文提出了一种多声学特征融合的语音自动剪辑深度学习模型(CNN-BiGRU),它可以识别媒体中的语音部分并进行艺术化的自动剪辑.模型提取了对数梅尔频谱、短时能量和短时过零率3种特征,通过多个卷积神经网络融合后输入双向门控循环神经网络.采用基于课程式学习的方式,使用先大后小的数据形式将模型训练至最佳.实验结果表明相较于传统机器学习剪辑模型,本模型能更有效地结合整体与局部的信息进行剪辑,且具有更强的鲁棒性.模型在CHiME-5测试集上的准确率高达98.36%,与人工剪辑结果十分接近且大幅缩短剪辑耗时.
-
关键词
语音剪辑
声学特征融合
课程式学习
双向门控循环神经网络
卷积神经网络
-
Keywords
voice editing
fusing acoustic features
curriculum learning
Bi-GRU
CNN
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名多任务实时声音事件检测卷积模型与复合数据扩增
- 2
-
-
作者
刘臣
倪仁倢
周立欣
-
机构
上海理工大学管理学院
-
出处
《计算机应用研究》
CSCD
北大核心
2023年第4期1080-1087,共8页
-
基金
国家自然科学基金资助项目(71774111)
中国博士后科学基金资助项目(2021M69235)
上海市哲学社会科学规划课题资助项目(2021BTQ003)。
-
文摘
现有的声音事件检测研究多为对离线音频进行分析,且模型参数量较多、计算效率低,不适用于实时检测。提出一种面向多任务实时声音事件检测的轻量化卷积神经网络模型,它将唤醒与检测任务整合成多任务学习框架,此外模型的卷积结构联合了稠密连接、Ghost模组与SE注意力机制;另外还提出了一种复合数据扩增方法,将音频变换、随机裁剪与频谱掩蔽相结合。实验结果显示,该模型在ESC-10和Urbansound8K数据集上的平均预测准确率高于当前新型的基线模型2%以上,同时模型的参数和内存更少。研究表明,多任务学习的方式节省了计算量,又因为卷积结构复用了中间层特征,模型可以快速地反馈检测结果。另外,复合数据方法相比传统方法使模型获得了更好的性能和鲁棒性。
-
关键词
实时声音事件检测
轻量化卷积神经网络
多任务学习
数据扩增
-
Keywords
real-time sound event detection
efficient CNN
multi-task learning
data augmentation
-
分类号
TP391.42
[自动化与计算机技术—计算机应用技术]
-