期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
一种基于多模态感知的双声道音频生成方法 被引量:1
1
作者 官丽 尹康 +2 位作者 樊梦佳 薛昆 解凯 《计算技术与自动化》 2022年第4期157-165,共9页
现有多数视频只包含单声道音频,缺乏双声道音频所带来的立体感。针对这一问题,本文提出了一种基于多模态感知的双声道音频生成方法,其在分析视频中视觉信息的基础上,将视频的空间信息与音频内容融合,自动为原始单声道音频添加空间化特征... 现有多数视频只包含单声道音频,缺乏双声道音频所带来的立体感。针对这一问题,本文提出了一种基于多模态感知的双声道音频生成方法,其在分析视频中视觉信息的基础上,将视频的空间信息与音频内容融合,自动为原始单声道音频添加空间化特征,生成更接近真实听觉体验的双声道音频。我们首先采用一种改进的音频视频融合分析网络,以编码器-解码器的结构,对单声道视频进行编码,接着对视频特征和音频特征进行多尺度融合,并对视频及音频信息进行协同分析,使得双声道音频拥有了原始单声道音频所没有的空间信息,最终生成得到视频对应的双声道音频。在公开数据集上的实验结果表明,本方法取得了优于现有模型的双声道音频生成效果,在STFT距离以及ENV距离两项指标上均取得提升。 展开更多
关键词 音频生成 卷积神经网络 多模态
下载PDF
基于还音转换规则的胶片音频生成方法 被引量:2
2
作者 王睿琦 程皓楠 +1 位作者 叶龙 齐秋棠 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2022年第10期1524-1532,共9页
还音作为一种将电影音轨胶片记录的声波信号图转换为音频的过程,是老电影重映中的重要环节.为解决当前还音方法中音频生成失真的问题,提出了一种基于还音转换规则的胶片音频生成方法,可实现音轨胶片图像到音频信号的高精度自动化生成.... 还音作为一种将电影音轨胶片记录的声波信号图转换为音频的过程,是老电影重映中的重要环节.为解决当前还音方法中音频生成失真的问题,提出了一种基于还音转换规则的胶片音频生成方法,可实现音轨胶片图像到音频信号的高精度自动化生成.该方法包含2部分:一是在基于光电转换规则的包络线修正中,基于光度积分的包络线提取,并基于光学规则进行局部与全局校正,解决了光电转换过程中的信号误差问题;二是在基于频率调制规则的音频生成中,设计直流偏量调节方法,并基于电影音频录制还音标准进行信号频域调制,提升了合成音频质量.通过对MovieAD数据集中6类不同类别胶片进行音频生成并测试主观及客观音频评价,结果显示,相比目前较新的还音方法,文中方法生成的音频质量平均提高8.00%以上,且音频采样率可提高到行业标准的162.08%. 展开更多
关键词 音轨胶片 图像处理 跨模态音频生成
下载PDF
基于生成对抗网络与特征融合的多尺度音频序列生成方法
3
作者 许华杰 张勃 《计算机应用研究》 CSCD 北大核心 2023年第9期2770-2774,共5页
音频数据规模不足是语音识别过程中的一个常见问题,通过较少的训练数据训练得到的语音识别模型效果难以得到保证。因此,提出一种基于生成对抗网络与特征融合的多尺度音频序列生成方法(multi-scale audio sequence GAN,MAS-GAN),包含多... 音频数据规模不足是语音识别过程中的一个常见问题,通过较少的训练数据训练得到的语音识别模型效果难以得到保证。因此,提出一种基于生成对抗网络与特征融合的多尺度音频序列生成方法(multi-scale audio sequence GAN,MAS-GAN),包含多尺度音频序列生成器和真伪—类别判别器。生成器通过3个上采样子网络学习音频序列不同时域和频域的特征,再将不同尺度的特征融合成伪音频序列;判别器通过辅助分类器将生成的伪数据和真实数据区分开,同时指导生成器生成各类别的数据。实验表明,与目前主流的音频序列生成方法相比,所提方法的IS和FID分数分别提高了6.78%和3.75%,可以生成更高质量的音频序列;同时通过在SC09数据集上进行分类实验来评估生成音频序列的质量,所提方法的分类准确率比其他方法高2.3%。 展开更多
关键词 音频序列生成 生成对抗网络 半监督学习 特征融合
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部