期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
合成监督增强的自动音频字幕框架
1
作者
肖飞扬
朱乔茜
+5 位作者
关键
刘徐博
刘濠赫
张可佳
贺广均
王文武
《声学学报》
EI
CAS
2024年第6期1315-1323,共9页
基于数据驱动的自动音频字幕方法受限于音频–文本数据对的数量和质量,导致其跨模态表示能力不足,制约了整体性能。为此,提出了一种合成监督增强的自动音频字幕框架(SynthAC),该框架利用广泛可用的高质量图像字幕文本语料及文本到音频...
基于数据驱动的自动音频字幕方法受限于音频–文本数据对的数量和质量,导致其跨模态表示能力不足,制约了整体性能。为此,提出了一种合成监督增强的自动音频字幕框架(SynthAC),该框架利用广泛可用的高质量图像字幕文本语料及文本到音频生成模型生成音频信号,有效扩充音频–文本数据对,并通过学习合成音频–文本数据对中的对应关系,增强音频文本跨模态表示能力。实验表明,所提SynthAC框架通过利用图像字幕中的高质量文本语料库,显著提升了音频字幕模型性能,该框架为应对音频–文本数据稀缺挑战提供了有效的解决方案。此外,该框架可适用于各种主流方法,在不改变音频字幕模型结构的情况下显著提升音频字幕性能。
展开更多
关键词
多模态学习
文本–
音频
表示
自动音频字幕
文本到
音频
生成
下载PDF
职称材料
题名
合成监督增强的自动音频字幕框架
1
作者
肖飞扬
朱乔茜
关键
刘徐博
刘濠赫
张可佳
贺广均
王文武
机构
哈尔滨工程大学计算机科学与技术学院
出处
《声学学报》
EI
CAS
2024年第6期1315-1323,共9页
基金
国家工业和信息化部项目(CBZ3N21-2)资助。
文摘
基于数据驱动的自动音频字幕方法受限于音频–文本数据对的数量和质量,导致其跨模态表示能力不足,制约了整体性能。为此,提出了一种合成监督增强的自动音频字幕框架(SynthAC),该框架利用广泛可用的高质量图像字幕文本语料及文本到音频生成模型生成音频信号,有效扩充音频–文本数据对,并通过学习合成音频–文本数据对中的对应关系,增强音频文本跨模态表示能力。实验表明,所提SynthAC框架通过利用图像字幕中的高质量文本语料库,显著提升了音频字幕模型性能,该框架为应对音频–文本数据稀缺挑战提供了有效的解决方案。此外,该框架可适用于各种主流方法,在不改变音频字幕模型结构的情况下显著提升音频字幕性能。
关键词
多模态学习
文本–
音频
表示
自动音频字幕
文本到
音频
生成
Keywords
Multimodal learning
Text-audio representation
Automated audio captioning
Text-to-audio generation
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
合成监督增强的自动音频字幕框架
肖飞扬
朱乔茜
关键
刘徐博
刘濠赫
张可佳
贺广均
王文武
《声学学报》
EI
CAS
2024
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部