结合年龄监督和人脸先验的语音-人脸图像重建

Face reconstruction from voice based on age-supervised learning and face prior information

下载PDF

导出

摘要针对语音-人脸图像重建方法缺乏来自不同维度的监督约束及未利用人脸先验信息,导致生成图像和真实图像相似度不高的问题,提出结合年龄监督和人脸先验信息的语音-人脸图像重建方法.通过预训练的年龄评估模型为当前数据集扩充年龄数据,弥补来自年龄监督信息的缺乏.通过语音-人脸图像跨模态身份匹配方法,为给定语音检索接近真实人脸的面部图像,将得到的图像作为人脸先验信息使用.该方法通过定义结合交叉熵损失和对抗损失的联合损失函数,从年龄感、低频内容和局部纹理等方面均衡提升重建图像质量.基于数据集Voxceleb 1,通过人脸检索实验的方式进行测试,与当前主流方法进行比较和分析.结果表明,该方法能有效提升生成图像与真实图像的相似度,所生成的图像具有更好的主客观评价结果. Previous voice-face image reconstruction methods lack effective supervised constraints from different dimensions and face prior information,which may lead to a low similarity between reconstructed and real images.Thus,a face reconstruction method based on age-supervised learning and face prior information was proposed.Age related data were provided for the present dataset through a pre-trained age estimation model,which strengthened age supervision.For given voice samples,voice-face cross-modal identity matching was applied to retrieve images similar to real speakers,where the retrieved results were considered as face prior information.A joint loss function that consists of the cross entropy loss and the adversarial loss was defined to improve age coincidence,lowfrequency content and high-frequency textures of the reconstructed images.Results of face retrieval experiments conducted with dataset Voxceleb 1 showed that the proposed method can improve the similarity between generated and ground truth images.The images generated by the proposed method have better subjective and objective evaluation results than that of the compared methods.

作者何立庞善民 HE Li;PANG Shan-min(School of Software Engineering,Xi’an Jiaotong University,Xi’an 710049,China)

机构地区西安交通大学软件学院

出处《浙江大学学报（工学版）》 EI CAS CSCD 北大核心 2022年第5期1006-1016,共11页 Journal of Zhejiang University：Engineering Science

基金国家自然科学基金资助项目(61972312) 陕西省重点研发计划一般工业资助项目(2020GY-002)。

关键词深度学习图像重建卷积神经网络生成对抗网络人脸先验信息 deep learning image reconstruction convolutional neural network generative adversarial network face prior information

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1孙颖,胡艳香,张雪英,段淑斐.面向情感语音识别的情感维度PAD预测[J].浙江大学学报（工学版）,2019,53(10):2041-2048. 被引量：6
2李江,赵雅琼,包晔华.基于混沌和替代数据法的中风病人声音分析[J].浙江大学学报（工学版）,2015,49(1):36-41. 被引量：3
3王凯,岳泊暄,傅骏伟,梁军.基于生成对抗网络的图像恢复与SLAM容错研究[J].浙江大学学报（工学版）,2019,53(1):115-125. 被引量：6
4段然,周登文,赵丽娟,柴晓亮.基于多尺度特征映射网络的图像超分辨率重建[J].浙江大学学报（工学版）,2019,53(7):1331-1339. 被引量：9
5张晓冰,龚海刚,杨帆,戴锡笠.基于端到端句子级别的中文唇语识别研究[J].软件学报,2020,31(6):1747-1760. 被引量：6
6唐郅,侯进.基于深度神经网络的语音驱动发音器官的运动合成[J].自动化学报,2016,42(6):923-930. 被引量：6

二级参考文献53

1王立媛,刘玉萍,肖青,祁金刚.胎儿心率信号的替代数据分析[J].长春理工大学学报（自然科学版）,2007,30(1):72-75. 被引量：2
2KRZESIMOWSKI D, CIOTA Z. Voice signal process- ing for patients with stroke hospitalization [C]ff Mixed Design of Integrated Circuits and Systems, 2009. MIX- DES ' 09. MIXDES-16th International Conference. Poland: IEEE, 2009: 693- 696.
3SHIOMI K. Voice processing technique for human cere- bral activity measurement [C]// IEEE International Con- ference on Systems, Man and Cybernetics. Singapore: IEEE, 2008:3343-3347.
4SHIOMI K, HIROSE S. Fatigue and drowsiness predic- tor for pilots and air traffic controllers [C]// Proceed- ings of 45th Annual ATCA Conference. Atlantic City: Air Traffic Control Association, 2000 : 95 - 98.
5DIBAZAR A A, PARK H O,BERGER T W. Nonlinear dynamic modeling of impaired voice [C] //32nd Annual International Conference of the IEEE EMBS. Buenos: IEEE, 2010.
6OROZCO J R, VARGAS J F, ALONSO J B. Voice pathology detection in continuous speech using nonlin- ear dynamics [C]/2012 llth International Conference on Information Science, Signal Processing and their Applications ( ISSPA ). Montreal: IEEE, 2012:1030 -1033.
7FLORIS T. Detecting strange attractors in turbulence [M]. New York: Springer, 1981: 366-381.
8CAO L. Practical method for determining the minimum embedding dimension of a scalar time series [J]. Pbysi- ca D:Nonlinear Phenomena, 1997, 1(10) : 43 - 50.
9FRASER A M, SWINNEY H L. Independent coordi- nates for strange attractors from mutual information [J]. American Physical Society, 1986, 33 ( 2 ) : 1134 - 1140.
10GRASSBERGER P, PROCACCIA I. Measuring the strangeness of strange attractors [J]. Physica D: Non- linear Phenomena, 1983,9 (1/2):189 - 208.

共引文献30

1钟元权.基于混合随机深度学习的页岩地层图像增强[J].合肥学院学报（综合版）,2020,37(5):75-80.
2姚建新.不同黄芪剂量的补阳还五汤治疗缺血性中风的临床观察[J].陕西中医,2015,36(9):1110-1112. 被引量：14
3王兴刚.英文发音中错误语音自动识别系统设计[J].现代电子技术,2018,41(10):179-182. 被引量：2
4翟晓雪,张皓.非线性动力学分析方法在神经康复领域中的应用进展[J].中国康复医学杂志,2019,34(4):483-486. 被引量：8
5刘庆华,马焕.基于优化栈式降噪自动编码器的路面不平度检测[J].计算机与数字工程,2019,47(9):2306-2309.
6张瑞华.英文语音纠错自动识别系统设计与实现[J].自动化技术与应用,2019,38(10):170-172. 被引量：2
7尹旺,李惠媛.深度学习在脑电情感识别方面的应用研究进展[J].计算机时代,2020(8):14-17. 被引量：1
8窦旭霞.基于深层神经网络的英语口语发音错误捕捉方法研究[J].黑龙江工业学院学报（综合版）,2020,20(8):124-128. 被引量：3
9程玉,郑华,陈晓文,林烁烁,张明伟.基于密集残差注意力网络的图像超分辨率算法[J].计算机系统应用,2021,30(1):135-140. 被引量：3
10陆焱,胡玉荣,郭竞.基于稀疏表示的对抗网络图像聚焦形貌修复[J].计算机仿真,2021,38(3):126-130.

1田宇尧.基于支持向量机的H.265帧内CU快速划分算法[J].信息技术与信息化,2022(4):81-83.
2劳子良.互联网金融对商业银行盈利能力的影响[J].金融科技时代,2022,30(6):30-34. 被引量：2
3曹艳娟,石继飞,史晓霞,刘燕茹,刘明芳.基于模拟仿真的单相全波整流实验教学探究[J].现代信息科技,2022,6(3):192-195.
4戎瑜,王明月,吕岱竹,宋佳,马晨.基于主成分分析法评价不同产地香牙蕉的营养品质[J].热带作物学报,2022,43(5):1045-1054. 被引量：3
5南洋,董辉,王志刚,刘树民.肝纤维化动物实验模型的研究进展[J].中国医药导报,2022,19(12):34-37. 被引量：8
6罗聪,王志波.彩超诊断乳腺肿块良恶性的临床价值及影像学特征分析[J].影像技术,2022,34(3):46-50.
7丁静.企业收入舞弊手法及其传导路径分析--基于十大企业收入舞弊案例[J].中国注册会计师,2022(5):112-117. 被引量：4
8张洋.中国与韩国幼儿园大班歌唱教学的比较分析[J].成长,2022(6):37-39.
9尹婷婷,李莉萍,孟岩,王玉祥,谷丽丽,张博.22份披碱草属种质资源的表型多样性分析[J].分子植物育种,2022,20(7):2409-2419. 被引量：7

浙江大学学报（工学版）

2022年第5期

浏览历史

内容加载中请稍等...

结合年龄监督和人脸先验的语音-人脸图像重建

参考文献6

二级参考文献53

共引文献30

相关作者

相关机构

相关主题

浏览历史