一种基于多模态感知的双声道音频生成方法被引量：1

A Dual-Channel Audio Generation Method Based on Multimodal Perception

下载PDF

导出

摘要现有多数视频只包含单声道音频,缺乏双声道音频所带来的立体感。针对这一问题,本文提出了一种基于多模态感知的双声道音频生成方法,其在分析视频中视觉信息的基础上,将视频的空间信息与音频内容融合,自动为原始单声道音频添加空间化特征,生成更接近真实听觉体验的双声道音频。我们首先采用一种改进的音频视频融合分析网络,以编码器-解码器的结构,对单声道视频进行编码,接着对视频特征和音频特征进行多尺度融合,并对视频及音频信息进行协同分析,使得双声道音频拥有了原始单声道音频所没有的空间信息,最终生成得到视频对应的双声道音频。在公开数据集上的实验结果表明,本方法取得了优于现有模型的双声道音频生成效果,在STFT距离以及ENV距离两项指标上均取得提升。 Most existing videos only contain mono audio and lack the stereoscopic sense by dual-channel audio.To address this issue,this paper proposes a method for generating dual-channel audio based on multimodal perception.Based on the analysis of visual information in the video,it fuses the spatial information and the audio content of the video,and generates dual-channel audio that is closer to the real auditory experience.We first encode the mono video via an improved audio-video fusion analysis network with an encoder-decoder structure.Then we fuse the video features and audio features in multiple perspectives.Subsequently,we co-analyze the video and audio information,so that the dual-channel audio has spatial information that the original mono audio does not have.Finally,the corresponding dual-channel audio is generated by the audio-video fusion analysis network.Experimental results demonstrate that our method achieves better performance than existing models in the generation of two-channel audio,with improvements in both STFT distance and ENV distance.

作者官丽尹康樊梦佳薛昆解凯 GUAN Li;YIN Kang;FAN Meng-jia;XUE Kun;XIE Kai(Beijing Electric Power Corporation,Beijing 100031,China;NR Electric Co.,Ltd.,Nanjing,Jiangsu 211102,China)

机构地区国网北京市电力公司南京南瑞继保电气有限公司

出处《计算技术与自动化》 2022年第4期157-165,共9页 Computing Technology and Automation

关键词音频生成卷积神经网络多模态 audio generation CNN multimodal

分类号 TP393.03 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献12

1王会峰,何柱材,李云梦,李晋赓,王鹏雁,郝婷,黄鹤.散斑干涉条纹Kaiser-Hamming窗口傅里叶快速滤波方法[J].电子测量与仪器学报,2022,36(3):166-174. 被引量：4
2倪璐.基于音频与歌词双重模态的音乐情感分类方法设计[J].自动化技术与应用,2020,39(5):166-169. 被引量：6
3陈锐志,郭光毅,叶锋,钱隆,徐诗豪,李正.智能手机音频信号与MEMS传感器的紧耦合室内定位方法[J].测绘学报,2021,50(2):143-152. 被引量：24
4卢佳玥,孙巧玲,董宁,刘聪聪,曾裕,胡燕燕,顾丹霞,张嵘.采用傅里叶红外光谱技术快速分析碳青霉烯耐药大肠埃希菌同源性[J].中华检验医学杂志,2021,44(6):503-508. 被引量：1
5蔡子丽.基于音频增强现实的博物馆交互式引导模型[J].电讯技术,2021,61(7):907-912. 被引量：3
6吴礼福,吕长明,陈晶晶,吴佳伟.一种多通道低时延同步音频信号采集分析系统[J].现代电子技术,2021,44(19):43-48. 被引量：5
7李敬轩,胡润文,阮观奇,项世军.基于手工特征提取与结果融合的CNN音频隐写分析算法[J].计算机学报,2021,44(10):2061-2075. 被引量：5
8韦达,冯亭,延凤平,马泽原,姚晓天.傅里叶域锁模扫频光纤激光器研究方法:以掺铒光纤激光器为例[J].中国激光,2021,48(16):22-34. 被引量：4
9范妍洁,卢玉斌,陈少波,张玉,王明涛.基于微波法与电阻率法的智能冬笋探测器[J].林产工业,2022,59(7):38-42. 被引量：2
10古湘龙,汤龙,张勇.贴片蜂鸣器功能可靠性研究[J].电子产品世界,2022,29(8):72-76. 被引量：3

引证文献1

1孙钰.基于快速傅里叶变换算法的蜂鸣器音频分析技术[J].自动化与仪器仪表,2024(5):16-20. 被引量：2

二级引证文献2

1武新娟,卫程,薛建德,刘静.基于大数据通信技术的电能计量仪表异常并行检测方法[J].通信电源技术,2024,41(19):228-230.
2钱秋荣.信息技术在计算机虚拟立体声像软件设计中的应用[J].电声技术,2024,48(9):44-46.

1王猛,张鹏远.融合多尺度特征的短时音频场景识别方法[J].声学学报,2022,47(6):717-726. 被引量：1
2毛显谊,崔骊水,谢代梁.基于收缩流动的气体超声流量计声道稀疏化及测量方法[J].计量学报,2022,43(10):1291-1297. 被引量：3
3阎莉.区域幼小协同衔接路径与策略研究[J].河南教育（基教版）（上）,2022(11):75-76.
4潘云磊.传统媒体与新兴媒体融合发展的困境及创新路径[J].中国传媒科技,2022(11):94-97. 被引量：15
5孟庆东,阎国华,何湾.从协同到融合:高职院校辅导员与思政课教师队伍一体化建设探析[J].教育与职业,2022(23):92-97. 被引量：4
6朱姝.媒体融合视域下游戏传播的启示--以《羊了个羊》为例[J].新闻研究导刊,2022,13(22):23-25.
7杨晖.扬琴的演奏技巧与表现手法分析[J].戏剧之家,2022(35):72-74. 被引量：2
8冯艺.新媒体环境下新闻短视频的融合传播及发展策略研究[J].互联网周刊,2022(24):68-70. 被引量：16
9Sam.细腻优雅的质感让人难以忘怀 Accustic Arts参考级MONO IV单声道后级功率放大器[J].家庭影院技术,2022(11):63-65.
10郭帅超.互联网时代网络综艺节目主持的创新发展[J].卫星电视与宽带多媒体,2022(22):140-142.

计算技术与自动化

2022年第4期

浏览历史

内容加载中请稍等...

一种基于多模态感知的双声道音频生成方法被引量：1

同被引文献12

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于多模态感知的双声道音频生成方法 被引量：1

同被引文献12

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于多模态感知的双声道音频生成方法被引量：1