-
题名改进Wav2Lip的文本音频驱动人脸动画生成
- 1
-
-
作者
孙瑜
朱欣娟
-
机构
西安工程大学计算机科学学院
-
出处
《计算机系统应用》
2024年第2期276-283,共8页
-
基金
国家重点研发计划(2019YFC1521400)。
-
文摘
为了提高中文唇音同步人脸动画视频的真实性,本文提出一种基于改进Wav2Lip模型的文本音频驱动人脸动画生成技术.首先,构建了一个中文唇音同步数据集,使用该数据集来预训练唇部判别器,使其判别中文唇音同步人脸动画更加准确.然后,在Wav2Lip模型中,引入文本特征,提升唇音时间同步性从而提高人脸动画视频的真实性.本文模型综合提取到的文本信息、音频信息和说话人面部信息,在预训练的唇部判别器和视频质量判别器的监督下,生成高真实感的唇音同步人脸动画视频.与ATVGnet模型和Wav2Lip模型的对比实验表明,本文模型生成的唇音同步人脸动画视频提升了唇形和音频之间的同步性,提高了人脸动画视频整体的真实感.本文成果为当前人脸动画生成需求提供一种解决方案.
-
关键词
文本音频驱动
人脸动画
wav2lip模型
动画生成
-
Keywords
text audio drive
facial animation
wav2lip model
animation generation
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-