改进Wav2Lip的文本音频驱动人脸动画生成

Text Audio Driven Facial Animation Generation Based on Improved Wav2Lip

下载PDF

导出

摘要为了提高中文唇音同步人脸动画视频的真实性,本文提出一种基于改进Wav2Lip模型的文本音频驱动人脸动画生成技术.首先,构建了一个中文唇音同步数据集,使用该数据集来预训练唇部判别器,使其判别中文唇音同步人脸动画更加准确.然后,在Wav2Lip模型中,引入文本特征,提升唇音时间同步性从而提高人脸动画视频的真实性.本文模型综合提取到的文本信息、音频信息和说话人面部信息,在预训练的唇部判别器和视频质量判别器的监督下,生成高真实感的唇音同步人脸动画视频.与ATVGnet模型和Wav2Lip模型的对比实验表明,本文模型生成的唇音同步人脸动画视频提升了唇形和音频之间的同步性,提高了人脸动画视频整体的真实感.本文成果为当前人脸动画生成需求提供一种解决方案. In order to improve the authenticity of Chinese lip synchronized facial animation videos,this study proposes a text audio-driven facial animation generation technology based on the improved Wav2Lip model.Firstly,a Chinese lip synchronized dataset is constructed,which is used to pre-train the lip discriminator to make it more accurate in discriminating Chinese lip synchronized facial animations.Then,in the Wav2Lip model,text features are introduced to improve lip time synchronization and thus improve the authenticity of facial animation videos.The model in this study synthesizes the extracted text information,audio information,and speaker facial information and generates a highly realistic lip synchronized facial animation video under the supervision of a pre-trained lip discriminator and video quality discriminator.The comparative experiments with the ATVGnet model and Wav2Lip model show that the lip synchronized facial animation video generated by the proposed model improves the synchronization between lip shape and audio and enhances the overall realism of the facial animation video.The paper provides a solution for the current facial animation generation.

作者孙瑜朱欣娟 SUN Yu;ZHU Xin-Juan(School of Computer Science,Xi’an Polytechnic University,Xi’an 710600,China)

机构地区西安工程大学计算机科学学院

出处《计算机系统应用》 2024年第2期276-283,共8页 Computer Systems & Applications

基金国家重点研发计划(2019YFC1521400)。

关键词文本音频驱动人脸动画 Wav2Lip模型动画生成 text audio drive facial animation Wav2Lip model animation generation

分类号 TP391.41 [自动化与计算机技术—计算机应用技术] TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献5

1谢天,于灵云,罗常伟,谢洪涛,张勇东.深度人脸伪造与检测技术综述[J].清华大学学报（自然科学版）,2023,63(9):1350-1365. 被引量：8
2李欣怡,张志超.语音驱动的人脸动画研究现状综述[J].计算机工程与应用,2017,53(22):21-28. 被引量：4
3孔英会,秦胤峰,张珂.深度学习二维人体姿态估计方法综述[J].中国图象图形学报,2023,28(7):1965-1989. 被引量：5
4闫衍芙,吕科,薛健,王聪,甘玮.基于深度学习和表情AU参数的人脸动画方法[J].计算机辅助设计与图形学学报,2019,31(11):1973-1980. 被引量：13
5刘贤梅,刘露,贾迪,赵娅,田枫.基于语音驱动的三维人脸动画技术综述[J].计算机系统应用,2022,31(10):44-50. 被引量：2

二级参考文献16

1赵沁平.虚拟现实综述[J].中国科学（F辑:信息科学）,2009,39(1):2-46. 被引量：667
2施家栋,王建中,王红茹.基于光流的人体运动实时检测方法[J].北京理工大学学报,2008,28(9):794-797. 被引量：29
3章国宝,宋清华,费树岷,赵艳.语音情感识别研究[J].计算机技术与发展,2009,19(1):92-96. 被引量：7
4赵晖,顾亚强,唐朝京.基于乘积HMM的双模态语音识别方法[J].计算机工程,2010,36(8):7-9. 被引量：8
5刘培桢,蒋冬梅,RAVYSE Ilse,SAHLI Hichem.基于发音特征DBN模型的嘴部动画合成[J].科学技术与工程,2010,10(14):3335-3339. 被引量：2
6李敏,韩丰.虚拟现实技术综述[J].软件导刊,2010,9(6):142-144. 被引量：139
7陈浩磊,邹湘军,陈燕,陈燕（2）,刘天湖.虚拟现实技术的最新发展与展望[J].中国科技论文在线,2011,6(1):1-5. 被引量：183
8尹宝才,王恺,王立春.基于MPEG-4的融合多元素的三维人脸动画合成方法[J].北京工业大学学报,2011,37(2):266-271. 被引量：7
9吴鹏,蒋冬梅,王风娜,Hichem SAHLI,Werner VERHELST.基于发音特征的音视频融合语音识别模型[J].计算机工程,2011,37(22):268-269. 被引量：2
10李嘉,黄程韦,余华.语音情感的维度特征提取与识别[J].数据采集与处理,2012,27(3):389-393. 被引量：8

共引文献27

1王继军.基于虚拟现实的计算机实验室管理模式研究[J].电子测试,2018,29(19):70-70. 被引量：3
2黄晓瑜.基于改进Morphing算法的人脸动画生成算法[J].现代电子技术,2020,43(22):82-85. 被引量：1
3刘奕,金小峰.基于Bi-LSTM的面部特征与语音特征的映射模型[J].延边大学学报（自然科学版）,2020,46(3):215-220.
4孙广梅.三维人物微表情制作对动画设计的影响分析[J].绵阳师范学院学报,2020,39(11):82-87.
5周泓智.基于多媒体数据库的三维动漫人脸高真实感建模方法研究[J].兰州文理学院学报（自然科学版）,2021,35(5):52-56. 被引量：1
6费建伟,夏志华,余佩鹏,戴昀书.人脸合成技术综述[J].计算机科学与探索,2021,15(11):2025-2047. 被引量：5
7崔婷婷,于海霞.基于改进深度学习的动画人物面部表情生成方法的研究[J].九江学院学报（自然科学版）,2021,36(4):68-72. 被引量：1
8张帅.基于数字媒体技术的交互式三维脸部表情动画合成方法研究[J].黑龙江工业学院学报（综合版）,2021,21(11):74-78. 被引量：2
9何源,李芳丽,王自卫.基于MNF的人脸局部变形量激光识别方法[J].激光杂志,2022,43(7):194-199.
10李芳媛,蔡庆昱,钟睿,郑世珏.基于视频数据驱动的人脸3D模型智能生成方法[J].自动化与仪器仪表,2022(7):15-18.

1刘夕容.信息技术与初中道德与法治课程教学的有机融合[J].学园,2024,17(4):87-89. 被引量：3
2夏梓方.北约全域化认知战战略分析[J].中国信息安全,2023(11):58-61. 被引量：2
3蒋沅芮.核心素养下深度融合信息技术的初中生物学教学——以“生物进化的原因”为例[J].实验教学与仪器,2024,41(1):44-46.
4项倩,李华晨,刘朋.生成式人工智能嵌入经济犯罪侦查的展望与思考[J].江西警察学院学报,2024(1):57-64. 被引量：2
5程祉元,张博良,蔡雨晨,马雨生,邵泽国,刘巧红.融合随机森林与SHAP的心脏病预测及其特征分析研究[J].智能计算机与应用,2023,13(11):172-179.
6郭鹏睿,文庭孝.大语言模型对信息检索系统与用户检索行为影响研究[J].农业图书情报学报,2023,35(11):13-22. 被引量：3
7王红,杨亮,杨延宁.基于团簇微观结构分析的离子电活性聚合物驱动特性[J].中南大学学报（自然科学版）,2024,55(1):106-115.
8刘威,马磊,李凯,李蓉.基于多粒度字形增强的中文医学命名实体识别[J].计算机工程,2024,50(2):337-344. 被引量：1
9桑宇红,李甜甜.再论汉语方言“支微入鱼”演变的阶段性[J].语文研究,2024(1):53-60.
10赵杰,汪洪法,吴凯.基于特征增强及多层次融合的火灾火焰检测[J].中国安全生产科学技术,2024,20(1):93-99.

计算机系统应用

2024年第2期

浏览历史

内容加载中请稍等...

改进Wav2Lip的文本音频驱动人脸动画生成

参考文献5

二级参考文献16

共引文献27

相关作者

相关机构

相关主题

浏览历史