基于结构化潜码引导NeRF的语音驱动人脸重演

Speech-Driven Facial Reenactment Based on Implicit Neural Representations with Structured Latent Codes

下载PDF

导出

摘要语音驱动的人脸重演的目标是生成与输入语音内容相匹配的高保真人脸面部动画.然而,由于音频与视频模态之间存在鸿沟,当前方法难以实现高质量的面部重演.针对现有方法保真度低、唇音同步效果差等问题,提出一种基于结构化潜码引导隐式神经表示的语音驱动人脸重演方法,以人脸点云序列作为中间表示,将语音驱动人脸重演分解为跨模态映射和神经辐射场渲染两大任务分别解决.首先,通过跨模态映射从音频预测人脸表情系数,利用人脸三维重建技术获得人脸身份系数;然后,基于3DMM模型合成人脸点云动画序列;接着,使用顶点位置信息构建结构化隐式神经表示,回归场景中每个采样点的密度和颜色值;最后,通过体绘制技术渲染人脸RGB帧,并装配到原图像中.在多个时长为3~5 min的单人演讲视频上的可视化比较、量化评估、主观评估等实验结果表明,文中所提方法在唇音同步效果与图像生成精度上优于AD-NeRF等方法,能够实现高保真语音驱动人脸重演. The goal of speech-driven facial reenactment aims to generate high-fidelity facial animation matching with the input speech content.However,existing methods can hardly achieve high-quality facial reenactment because of the gap between audio and video modals.In order to address the problems of existing methods such as low fidelity and poor lip sync effect,we propose a speech-driven facial reenactment method based on implicit neural representations with structured latent codes,which takes the point cloud sequence of human face as the intermediate representation,decomposing the speech-driven facial reenactment into two tasks:cross-modal mapping and neural radiance fields rendering.Firstly,we predict the facial expression coefficients through cross-modal mapping and get the facial identity coefficients by 3D face reconstruction;then,we synthesize face point cloud sequence based on 3DMM;next,we use the position of vertices constructing the structured implicit neural representations and regress density and color for each sampling points;finally,we render RGB frames of human face through volume rendering techniques and assemble them into original image.Experiments results on multiple 3—5 min individual speech videos,including visual comparison,quantitative evaluation,and subjective assessment demonstrate that our method achieves better results than state-of-the-art methods such as AD-NeRF in terms of lip-sync accuracy and image generation precision,which can achieve high-fidelity speech-driven facial reenactment.

作者谢志峰郑迦恒王吉梁佳佳马利庄 Xie Zhifeng;Zheng Jiaheng;Wang Ji;Liang Jiajia;Ma Lizhuang(Shanghai Film Academy,Shanghai University,Shanghai 200072;Shanghai Engineering Research Center of Motion Picture Special Effects,Shanghai 200072;Department of Computer Science and Engineering,Shanghai Jiao Tong University,Shanghai 200240)

机构地区上海大学上海电影学院上海电影特效工程技术研究中心上海交通大学计算机科学与工程系

出处《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2024年第10期1616-1624,共9页 Journal of Computer-Aided Design & Computer Graphics

基金上海市自然科学基金(19ZR1419100) 上海市级科技重大专项(2021SHZDZX0102) 上海市科技创新行动计划人工智能科技支撑项目(21511101200) 上海市青年科技英才扬帆计划(22YF1420300).

关键词音频驱动人脸重演隐式神经表示神经辐射场跨模态 audio-driven facial reenactment implicit neural representations neural radiance field(NeRF) cross-modal

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1王涵,夏时洪.单张图片自动重建带几何细节的人脸形状[J].计算机辅助设计与图形学学报,2017,29(7):1256-1266. 被引量：4
2毛爱华,司徒亨哥.图像驱动的三维人脸自动生成与编辑算法[J].计算机辅助设计与图形学学报,2019,31(1):17-25. 被引量：7
3费建伟,夏志华,余佩鹏,戴昀书.人脸合成技术综述[J].计算机科学与探索,2021,15(11):2025-2047. 被引量：6

二级参考文献14

1尹宝才,孙艳丰,王成章,盖赟.BJUT-3D三维人脸数据库及其处理技术[J].计算机研究与发展,2009,46(6):1009-1018. 被引量：22
2王涵,夏时洪.视频驱动的语义表情基动画方法[J].计算机辅助设计与图形学学报,2015,27(5):873-882. 被引量：5
3王坤峰,苟超,段艳杰,林懿伦,郑心湖,王飞跃.生成式对抗网络GAN的研究进展与展望[J].自动化学报,2017,43(3):321-332. 被引量：327
4呼延康,樊鑫,余乐天,罗钟铉.图神经网络回归的人脸超分辨率重建[J].软件学报,2018,29(4):914-925. 被引量：16
5蒋斌,刘虹雨,杨超,涂文轩,赵子龙.一种基于局部属性生成对抗网络的人脸修复算法[J].计算机研究与发展,2019,56(11):2485-2493. 被引量：3
6闫衍芙,吕科,薛健,王聪,甘玮.基于深度学习和表情AU参数的人脸动画方法[J].计算机辅助设计与图形学学报,2019,31(11):1973-1980. 被引量：14
7蔡麟,郭玉东,张举勇.基于多视角的高精度三维人脸重建[J].计算机辅助设计与图形学学报,2020,32(2):305-314. 被引量：14
8许若波,卢涛,王宇,张彦铎.基于组合学习的人脸超分辨率算法[J].计算机应用,2020,40(3):710-716. 被引量：5
9梁瑞刚,吕培卓,赵月,陈鹏,邢豪,张颖君,韩冀中,赫然,赵险峰,李明,陈恺.视听觉深度伪造检测技术研究综述[J].信息安全学报,2020,5(2):1-17. 被引量：31
10李泽文,李子铭,费天禄,王瑞琳,谢在鹏.基于残差生成对抗网络的人脸图像复原[J].计算机科学,2020,47(S01):230-236. 被引量：5

共引文献14

1张释如,朱萌,穆本麒.一种基于三视图像的三维人脸建模方法[J].中国体视学与图像分析,2021,26(3):292-300. 被引量：3
2查道安,江志君.基于神经网络的三维人脸重建[J].安徽工程大学学报,2019,34(2):19-25.
3王志勇,王从艺,张子豪,袁铭择,夏时洪.一种无标记的身体与面部运动同步捕获方法[J].软件学报,2019,30(10):3026-3036. 被引量：2
4高翔,黄法秀,刘春平,陈虎.3DMM与GAN结合的实时人脸表情迁移方法[J].计算机应用与软件,2020,37(4):119-126. 被引量：1
5李琼.基于光谱匹配滤波的线结构光扫描人脸轮廓三维成像系统[J].武汉职业技术学院学报,2020,19(5):112-115.
6黄有达,周大可,杨欣.结合多尺度融合特征和残差注意力机制的联合三维人脸重建及密集对齐算法[J].计算机应用研究,2021,38(7):2175-2178. 被引量：4
7李俊瑶,黎智辉,谢兰迟,侯欣雨,叶东.基于老化模型的跨年龄人脸识别研究进展[J].计算机工程与应用,2021,57(24):27-38. 被引量：3
8于松,王丰科,韩扬,王光霖,于斌,丁旸.面向政务用图编辑的图层要素叠盖关系智能处理方法[J].计算技术与自动化,2022,41(2):131-135.
9任婧,生奇志.智能、虚拟、沉浸:“深度合成”赋能新媒体[J].科技传播,2022,14(6):126-129. 被引量：5
10焦瑾瑾.光谱匹配技术在人脸轮廓三维图像成像中的应用[J].激光杂志,2022,43(7):85-89. 被引量：2

1杜宇慧,邢颖,何星宇,牛菊.面向精神疾病的脑影像分析方法[J].中国科技成果,2024,25(21):4-6.
2田丰林,程亚强,刘巍,马颖,陈戈.基于传输函数标准形态模式的海洋涡旋温盐和压力异常三维结构交互可视化[J].海洋通报,2023,42(6):617-630.
3唐嘉薇.“彷徨的父亲”与历史连续性——以《罗慕拉》和《丹尼尔·德龙达》为中心[J].外国文学,2024(6):49-61.
4马育顺.关于高层居住建筑救援的探索与实践[J].劳动保护,2024(12):60-62.
5杨珺婷.2024年10月锌市场评述及后市展望[J].中国铅锌,2024(11):18-29.
6路春艳,祖岳.地缘政治创伤的影像书写——近年来动画纪录片创作的一种趋势[J].当代动画,2024(4):76-82.
7周晶.布地奈德联合微创手术治疗慢性鼻-鼻窦炎并发支气管哮喘的疗效[J].吉林医学,2024,45(12):3045-3049.

计算机辅助设计与图形学学报

2024年第10期

浏览历史

内容加载中请稍等...

基于结构化潜码引导NeRF的语音驱动人脸重演

参考文献3

二级参考文献14

共引文献14

相关作者

相关机构

相关主题

浏览历史