针对当前音视频多模态情感分析中特征提取效率低、特征融合不充分、预测准确率低等问题,提出了一种基于特征融合与多任务学习的多模态情感分析模型。首先,分别使用预训练模型BERT(bidirectional encoder representations from transform...针对当前音视频多模态情感分析中特征提取效率低、特征融合不充分、预测准确率低等问题,提出了一种基于特征融合与多任务学习的多模态情感分析模型。首先,分别使用预训练模型BERT(bidirectional encoder representations from transformers)、Wav2Vec(waveform to vector)、CLIP(contrastive language-image pre-training)得到文本、音频、图像的低阶特征表示,并将得到的低阶特征表示分别输入到神经网络中,以提取含有局部特征和时序特征的高阶特征。然后,利用提出的注意力融合模块实现三模态的交互融合,最后结合多任务学习提升情感识别的准确率。在公开的中文多模态数据集CH-SIMS上的实验结果表明,情感分类的准确率得到有效提升。展开更多
文摘针对当前音视频多模态情感分析中特征提取效率低、特征融合不充分、预测准确率低等问题,提出了一种基于特征融合与多任务学习的多模态情感分析模型。首先,分别使用预训练模型BERT(bidirectional encoder representations from transformers)、Wav2Vec(waveform to vector)、CLIP(contrastive language-image pre-training)得到文本、音频、图像的低阶特征表示,并将得到的低阶特征表示分别输入到神经网络中,以提取含有局部特征和时序特征的高阶特征。然后,利用提出的注意力融合模块实现三模态的交互融合,最后结合多任务学习提升情感识别的准确率。在公开的中文多模态数据集CH-SIMS上的实验结果表明,情感分类的准确率得到有效提升。