-
题名多特征融合的越英端到端语音翻译方法
- 1
-
-
作者
马候丽
董凌
王剑
王文君
高盛祥
余正涛
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2024年第10期35-45,共11页
-
基金
国家自然科学基金(61732005,U21B2027,61972186)
云南高新技术产业发展项目(201606)
+2 种基金
云南省重大科技专项计划(202103AA080015,202002AD080001-5)
云南省基础研究计划(202001AS070014)
云南省学术和技术带头人后备人才(202105AC160018)。
-
文摘
语音翻译的编码器需要同时编码语音中的声学信息和语义信息,单一的Fbank或Wav2vec2语音特征表征能力存在不足。通过分析人工的Fbank特征与自监督的Wav2vec2特征间的差异性,提出基于交叉注意力机制的声学特征融合方法,并探究了不同的自监督特征和融合方式,加强模型对语音中声学和语义信息的学习。结合越南语语音特点,以Fbank特征为主、Pitch特征为辅混合编码Fbank表征,构建多特征融合的越-英语音翻译模型。实验表明,使用多特征的语音翻译模型相比单特征翻译效果更优,与简单的特征拼接方法相比更有效,该文所提出的多特征融合方法在越-英语音翻译任务上提升了1.97个BLEU值。
-
关键词
语音翻译
越南语
特征融合
-
Keywords
speech translation
Vietnamese
feature fusion
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-