期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
合成监督增强的自动音频字幕框架
1
作者 肖飞扬 朱乔茜 +5 位作者 关键 刘徐博 刘濠赫 张可佳 贺广均 王文武 《声学学报》 EI CAS 2024年第6期1315-1323,共9页
基于数据驱动的自动音频字幕方法受限于音频–文本数据对的数量和质量,导致其跨模态表示能力不足,制约了整体性能。为此,提出了一种合成监督增强的自动音频字幕框架(SynthAC),该框架利用广泛可用的高质量图像字幕文本语料及文本到音频... 基于数据驱动的自动音频字幕方法受限于音频–文本数据对的数量和质量,导致其跨模态表示能力不足,制约了整体性能。为此,提出了一种合成监督增强的自动音频字幕框架(SynthAC),该框架利用广泛可用的高质量图像字幕文本语料及文本到音频生成模型生成音频信号,有效扩充音频–文本数据对,并通过学习合成音频–文本数据对中的对应关系,增强音频文本跨模态表示能力。实验表明,所提SynthAC框架通过利用图像字幕中的高质量文本语料库,显著提升了音频字幕模型性能,该框架为应对音频–文本数据稀缺挑战提供了有效的解决方案。此外,该框架可适用于各种主流方法,在不改变音频字幕模型结构的情况下显著提升音频字幕性能。 展开更多
关键词 多模态学习 文本–音频表示 自动音频字幕 文本到音频生成
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部