带有先验的语音驱动三维人脸动画生成方法

Speech Driven 3D Facial Animation Generation Method with Prior Knowledge

下载PDF

导出

摘要语音驱动的三维人脸生成是计算机视觉和图形学中一个非常有吸引力的研究课题。除了有趣之外,它还有广泛的应用,例如游戏动画、3D视频通话和AR/MR的3D化身。由于人脸运动的复杂性和不确定性,以往方法生成的结果有唇形不准确、面部动态性不佳的缺点。不同于以往一阶段的方法,我们使用一种新的两阶段的方法,在模型训练的第一阶段我们使用变分自动编码器将高维的复杂的面部映射进低维的空间,充分学习人脸运动先验。在第二阶段,Transformer根据输入的语音信号在学习到的人脸先验的基础上进行潜在代码查询,以回归的方式生成面部运动序列。这样可以降低生成面部动画的难度,减少了映射的模糊,可以在任意指定音频上得到生动的人脸说话动画,经验证我们的方法与先进的方法相比在唇形和脸部动态性上取得优势。 Speech-driven 3D facial animation is a very attractive research topic in computer vision and graphics. In addition to being interesting, it has a wide range of applications, such as game anima-tion, 3D video calls, and 3D avatars of AR/MR. Due to the complexity and uncertainty of facial movements, previous methods have drawbacks such as inaccurate lip shape and poor facial dynamics. Unlike previous methods, we use a new two-stage approach. In the first stage of model training, we use a variational autoencoder to map high-dimensional complex faces into low-dimensional space, fully learning facial motion priors. In the second stage, the Transformer performs latent code queries based on the learned facial prior based on the input speech signal, and generates facial motion sequences through regression. This can reduce the difficulty of generating facial animation, reduce mapping blur, and obtain vivid facial speech animations on any specified audio. It has been verified that our method has advantages in lip shape and facial dynamics compared to advanced methods.

作者吕镇宇夏方方刘芳丽郭润甲郭子俊

机构地区北京信息科技大学计算机学院

出处《计算机科学与应用》 2023年第11期2072-2079,共8页 Computer Science and Application

关键词语音驱动3D面部动画 3D说话人脸生成 3D动画人

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献1

1宋昕洋,阎志远,孙沐毅,戴琳琳,李琦,孙哲南.说话人生成研究现状与发展趋势[J].计算机科学,2023,50(8):68-78. 被引量：2

共引文献1

1夏方方,郭润甲,吕镇宇,刘芳丽,郭子俊.基于Unity的智能交互虚拟文物展览馆[J].计算机科学与应用,2023,13(11):2080-2088.

1浩然.3D图形大揭秘:计算机3D动画[J].少年电脑世界,2023(12):32-35.
2崔曌.系列动画电影《青蛙王国》配音中的角色塑造分析[J].新闻研究导刊,2023,14(20):244-246.
3人生能得几知己——《长安三万里》推介[J].读写月报,2023(26):46-47.
4张敏.笔墨情趣与影像呈现:中国水墨动画的发展历程、困境及蜕变之策[J].电影评介,2023(19):14-19. 被引量：1
5梅皓琛,李高磊,杨潇.基于隐私推断Non-IID联邦学习模型的后门攻击研究[J].现代信息科技,2023,7(19):167-171. 被引量：1
6王琳,刘霞.典型农业城市的生态安全格局构建——以莱西市为例[J].中国海洋大学学报（自然科学版）,2023,53(S01):94-104.
7李选臣.计算机图形图像处理技术的应用探讨[J].石河子科技,2023(6):41-42. 被引量：5
8张沛全,许威威.哈希编码优化的IRON逆渲染模型:重建几何与材质[J].浙江大学学报（理学版）,2023,50(6):754-760. 被引量：1
9钟康,高贤君,杨元维,谭美淋,潘美美.建筑物轮廓双向驱动自适应分割重构的规则化方法[J].激光与光电子学进展,2023,60(20):192-201.
10《软件》杂志征稿启事[J].软件,2023,44(10).

计算机科学与应用

2023年第11期

浏览历史

内容加载中请稍等...

带有先验的语音驱动三维人脸动画生成方法

参考文献1

共引文献1

相关作者

相关机构

相关主题

浏览历史