-
题名基于知识蒸馏的跨模态语音情感分类
- 1
-
-
作者
尤佩雯
王晶晶
高晓雅
李寿山
-
机构
苏州大学自然语言处理实验室计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2024年第4期134-142,共9页
-
基金
国家自然科学基金(62006166,62076175,62076176)
中国博士后科学基金(2019M661930)
江苏高校优势学科建设工程资助项目。
-
文摘
针对语音情感分类任务面临的语音数据标注困难的挑战,该文提出了一种新的跨模态语音情感分类任务,其可以使用文本模态数据(源端)帮助语音模态数据(目标端)进行情感分类。在此基础上,提出了一种基于知识蒸馏的跨模态情感分类模型,旨在通过知识蒸馏方法将文本情感分类模型(教师模型)学习到的预训练先验知识蒸馏到语音情感分类模型(学生模型)中。该模型的特色在于无须在测试端依赖昂贵的语音识别技术,可对原始语音数据直接进行情感分类,有利于该模型在实际语音情感分类应用场景中大规模落地。实验结果表明,该文所提出的方法可以有效利用文本模态分类的经验来提升语音模态的分类效果。
-
关键词
跨模态
知识蒸馏
情感分类
-
Keywords
cross-modal
knowledge distillation
sentiment classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-