-
题名基于幅值滤波与分层特征融合策略的语音情感识别
- 1
-
-
作者
喻永振
刘大明
-
机构
上海电力大学计算机科学与技术学院
-
出处
《国外电子测量技术》
2024年第3期35-42,共8页
-
基金
上海市科技计划项目(23010501500)资助。
-
文摘
针对语音情感识别在多语言联合数据集上识别准确率低的问题,提出了一种基于幅值滤波与分层特征融合策略的语音情感识别方法。该方法首先对梅尔谱图内幅值分布规律进行幅值滤波,通过概率叠加扩大梅尔谱图内相近幅值之间的差异,实现谱图内的高频强增益、低频弱增益;同时,通过概率相乘缩小梅尔谱图内相远幅值之间的差异,以显示谱图内中频的细节部分。在此基础上,使用矩形卷积提取音频信号的时间动态特征,生成梅尔谱图动态特征图,并将其作为分层特征融合策略的输入。分层特征融合策略通过压缩特征图来提取不同尺度的时间动态特征,并提取不同深度中的时间动态特征。在多语言联合数据集CER上取得了84.44%的分类准确率。
-
关键词
语音情感识别
幅值滤波
分层特征融合策略
梅尔谱图动态特征图
-
Keywords
speech emotion recognition
amplitude filtering
hierarchical feature fusion strategy
dynamic feature map of Mel spectrogram
-
分类号
TN912.3
[电子电信—通信与信息系统]
-