Transformer-like model with linear attention for speech emotion recognition 被引量：3

基于线性注意力和类Transformer模型的语音情感识别

下载PDF

导出

摘要 Because of the excellent performance of Transformer in sequence learning tasks,such as natural language processing,an improved Transformer-like model is proposed that is suitable for speech emotion recognition tasks.To alleviate the prohibitive time consumption and memory footprint caused by softmax inside the multihead attention unit in Transformer,a new linear self-attention algorithm is proposed.The original exponential function is replaced by a Taylor series expansion formula.On the basis of the associative property of matrix products,the time and space complexity of softmax operation regarding the input's length is reduced from O(N2)to O(N),where N is the sequence length.Experimental results on the emotional corpora of two languages show that the proposed linear attention algorithm can achieve similar performance to the original scaled dot product attention,while the training time and memory cost are reduced by half.Furthermore,the improved model obtains more robust performance on speech emotion recognition compared with the original Transformer. 鉴于Transformer模型在自然语言处理等序列任务中的优异性能,提出了一种适用于语音情感识别任务的改进的类Transformer模型.为了减小Transformer模型中多头注意力单元内部由softmax运算引起的巨大时间消耗与内存开销,提出了一种新的线性自注意力计算方法,通过使用泰勒级数展开公式代替原来的指数函数,并根据矩阵乘积的关联性将softmax运算相对于输入序列长度的时间复杂度和空间复杂度从O(N2)降至O(N),其中N为序列长度.在2个不同语言的情感语料库上进行实验.结果表明:所提出的线性注意力算法可获得与原始缩放点积注意力相近的性能,而模型训练过程中的时间和内存开销大幅降低;与原始的Transformer模型相比,改进后的模型具有更鲁棒的语音情感识别性能.

作者 Du Jing Tang Manting Zhao Li 杜静;唐曼婷;赵力(东南大学信息科学与工程学院,南京210096;金陵科技学院计算机工程学院,南京211169)

机构地区 School of Information Science and Engineering School of Computational Engineering

出处《Journal of Southeast University(English Edition)》 EI CAS 2021年第2期164-170,共7页 东南大学学报（英文版）

基金 The National Key Research and Development Program of China(No.2020YFC2004002,2020YFC2004003) the National Natural Science Foundation of China(No.61871213,61673108,61571106).

关键词 TRANSFORMER attention mechanism speech emotion recognition fast softmax Transformer 注意力机制语音情感识别快速softmax

分类号 TN912.3 [电子电信—通信与信息系统] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献12

1秦海波,白延强,吴斌,王峻,刘学勇,景晓路.载人航天飞行中的情绪研究进展[J].航天医学与医学工程,2012,25(4):302-306. 被引量：12
2韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50. 被引量：168
3赵小蕾,毛启容,詹永照.融合功能性副语言的语音情感识别新方法[J].计算机科学与探索,2014,8(2):186-199. 被引量：5
4宋鹏,郑文明,赵力.基于特征迁移学习方法的跨库语音情感识别[J].清华大学学报（自然科学版）,2016,56(11):1179-1183. 被引量：13
5唐闺臣,冯月芹,梁瑞宇,包永强,赵力.面向语音情感识别的语谱特征提取算法研究[J].计算机工程与应用,2016,52(21):152-156. 被引量：7
6周奕隽,李冬冬,王喆,高大启.融合倒谱特征的脑电(EEG)情感分类[J].计算机工程与应用,2020,56(21):164-169. 被引量：7
7董寅冬,任福继,李春彬.基于线性核主成分分析和 XGBoost的脑电情感识别[J].光电工程,2021,48(2):12-20. 被引量：6
8徐华南,周晓彦,姜万,李大鹏.基于3D和1D多特征融合的语音情感识别算法[J].声学技术,2021,40(4):496-502. 被引量：9
9许越凡,肖文栋,曹征涛.基于一维卷积特征与手工特征融合的集成超限学习机心跳分类方法[J].工程科学学报,2021,43(9):1224-1232. 被引量：3
10王忠民,蔡兰兰,范琳.基于传递熵关键因果连接的情感识别方法[J].计算机应用研究,2021,38(9):2614-2618. 被引量：4

引证文献3

1万红丽.深度残差网络结合长短期记忆的脑电波情感识别[J].福建电脑,2022,38(2):33-36.
2罗德虎,冉启武,杨超,豆旺.语音情感识别研究综述[J].计算机工程与应用,2022,58(21):40-52. 被引量：5
3夏玉果,杜静,赵力.基于3D倒谱特征和注意力机制的CNN-BiLSTM语音情感识别[J].电子器件,2022,45(6):1434-1440. 被引量：2

二级引证文献7

1李紫荆,陈宁.基于图神经网络多模态融合的语音情感识别模型[J].计算机应用研究,2023,40(8):2286-2291. 被引量：3
2彭毛扎西,才智杰,才让卓玛.藏语情感语音数据库构建[J].北京大学学报（自然科学版）,2023,59(5):773-781. 被引量：1
3杜金丽,王志成,史武超.基于时频上下文信息提取的心理诊断机器人情感识别研究[J].自动化与仪器仪表,2024(1):146-149.
4李良琦,张雪英,段淑斐,肖仲喆,贾海蓉,梁慧芝.普通话多模态情感语音数据库构建与评测[J].复旦学报（自然科学版）,2024,63(1):18-31.
5张胜茂,李佳康,唐峰华,吴祖立,戴阳,樊伟.基于深度学习的鱼类养殖监测研究进展[J].农业工程学报,2024,40(5):1-13.
6董胡,彭高丰,李垣陵.中文儿童语音情感识别研究综述[J].特立研究,2024(2):16-21.
7申雁,李鸿燕,蒙志宏,张丽彩.融合双路CNN-LSTM与注意力机制的语音情感识别模型[J].电子设计工程,2024,32(18):6-11.

1赵佳欢,杨海明,邱令存.融合注意力机制的战术意图智能识别模型研究[J].航天控制,2021,39(3):56-62. 被引量：3
2时雪峰,康鑫,廖萍,任福继.一种构建情感标签均衡语料库的主动学习算法[J].计算机应用与软件,2021,38(7):265-270. 被引量：1
3赵辉,莫谨荣,王薇,孙振江,张天骐.OFDM系统中基于压缩感知的非线性失真恢复研究[J].电子与信息学报,2021,43(7):1907-1912. 被引量：5
4余罗曼,洪涛,张更新.高低轨频率共存卫星通信系统鲁棒波束成形算法研究[J].信号处理,2021,37(6):1093-1104. 被引量：2

Journal of Southeast University(English Edition)

2021年第2期

浏览历史

内容加载中请稍等...

Transformer-like model with linear attention for speech emotion recognition 被引量：3

同被引文献12

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史