期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于结构化潜码引导NeRF的语音驱动人脸重演
1
作者 谢志峰 郑迦恒 +2 位作者 王吉 梁佳佳 马利庄 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2024年第10期1616-1624,共9页
语音驱动的人脸重演的目标是生成与输入语音内容相匹配的高保真人脸面部动画.然而,由于音频与视频模态之间存在鸿沟,当前方法难以实现高质量的面部重演.针对现有方法保真度低、唇音同步效果差等问题,提出一种基于结构化潜码引导隐式神... 语音驱动的人脸重演的目标是生成与输入语音内容相匹配的高保真人脸面部动画.然而,由于音频与视频模态之间存在鸿沟,当前方法难以实现高质量的面部重演.针对现有方法保真度低、唇音同步效果差等问题,提出一种基于结构化潜码引导隐式神经表示的语音驱动人脸重演方法,以人脸点云序列作为中间表示,将语音驱动人脸重演分解为跨模态映射和神经辐射场渲染两大任务分别解决.首先,通过跨模态映射从音频预测人脸表情系数,利用人脸三维重建技术获得人脸身份系数;然后,基于3DMM模型合成人脸点云动画序列;接着,使用顶点位置信息构建结构化隐式神经表示,回归场景中每个采样点的密度和颜色值;最后,通过体绘制技术渲染人脸RGB帧,并装配到原图像中.在多个时长为3~5 min的单人演讲视频上的可视化比较、量化评估、主观评估等实验结果表明,文中所提方法在唇音同步效果与图像生成精度上优于AD-NeRF等方法,能够实现高保真语音驱动人脸重演. 展开更多
关键词 音频驱动人脸重演 隐式神经表示 神经辐射场 跨模态
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部