-
题名分层特征编解码驱动的视觉引导立体声生成方法
- 1
-
-
作者
王睿琦
程皓楠
叶龙
-
机构
媒介音视频教育部重点实验室(中国传媒大学)
媒体融合与传播国家重点实验室(中国传媒大学)
-
出处
《软件学报》
EI
CSCD
北大核心
2024年第5期2165-2175,共11页
-
基金
国家自然科学基金(61971383,62201524)
国家重点研发计划(2021YFF0900504)。
-
文摘
视觉引导的立体声生成是多模态学习中具有广泛应用价值的重要任务之一,其目标是在给定视觉模态信息及单声道音频模态信息的情况下,生成符合视听一致性的立体声音频.针对现有视觉引导的立体声生成方法因编码阶段视听信息利用率不足、解码阶段忽视浅层特征导致的立体声生成效果不理想的问题,提出一种基于分层特征编解码的视觉引导的立体声生成方法,有效提升立体声生成的质量.其中,为了有效地缩小阻碍视听觉模态数据间关联融合的异构鸿沟,提出一种视听觉特征分层编码融合的编码器结构,提高视听模态数据在编码阶段的综合利用效率;为了实现解码过程中浅层结构特征信息的有效利用,构建一种由深到浅不同深度特征层间跳跃连接的解码器结构,实现了对视听觉模态信息的浅层细节特征与深度特征的充分利用.得益于对视听觉信息的高效利用以及对深层浅层结构特征的分层结合,所提方法可有效处理复杂视觉场景中的立体声合成,相较于现有方法,所提方法生成效果在真实感等方面性能提升超过6%.
-
关键词
立体声
视觉引导的声音生成
分层特征编解码
多模态学习
跳跃连接
-
Keywords
binaural audio
visually guided audio generation
hierarchical feature encoding and decoding
multimodal learning
skip connection
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-