-
题名数字说话人脸生成技术综述
- 1
-
-
作者
张冰源
张旭龙
王健宗
程宁
肖京
-
机构
平安科技(深圳)有限公司
中国科学技术大学先进技术研究院
-
出处
《大数据》
2024年第5期74-95,共22页
-
基金
广东省重点领域研发计划“新一代人工智能”重大专项(No.2021B0101400003)。
-
文摘
在现代计算机视觉和自然语言处理的交叉领域,数字说话人脸生成技术已经成为一个越来越重要的研究主题。数字说话人脸生成技术专注于依据预定的文本或音频序列生成逼真的人脸图像。近年来,深度学习方法,如卷积神经网络、生成对抗性网络以及神经渲染场在此领域已经表现出了显著的应用价值。这些方法不仅引起了学术界的广泛关注,而且在工业界得以实际应用,用于解决图像处理和计算机视觉方面的具体问题。尽管已经取得了一定的进展,实际应用这些方法仍然面临诸多挑战。综合分析和评估深度学习方法在数字说话人脸生成方面的具体实现,以识别现存方法的优缺点,探讨尚待解决的普遍问题,并突出仍需进一步研究的开放性问题。此外,从统计学角度列出了目前可用的数据集,并对其进行评估和比较,以便研究人员能更容易地选择满足他们需求的数据集。
-
关键词
数字说话人脸生成
虚拟人
语音驱动
-
Keywords
digital talking face generation
virtual human
audio-driven
-
分类号
TP37
[自动化与计算机技术—计算机系统结构]
-
-
题名基于语音驱动的说话人脸视频生成综述
- 2
-
-
作者
韩家伟
游锦
-
机构
长春大学
-
出处
《电脑知识与技术》
2024年第24期123-126,共4页
-
文摘
随着人工智能的快速发展,语音驱动的说话人脸生成技术因其在公共安全、医疗、电影娱乐、虚拟数字人等领域的广泛应用而受到越来越多的关注。该技术旨在根据给定的目标人脸和音频,生成自然的说话人脸视频。在过去五年中,研究人员提出了许多创新方法,以解决该领域中的不同问题,推动了这一领域的发展。本文对当前说话人脸生成领域的发展进行了系统梳理和总结,以期为学术界提供有价值的资源。此外,详细介绍了常用的数据集及多项用于评估模型性能的评价指标,为该领域的研究提供了更全面的理解和认识。最后,我们总结了该领域未来的发展趋势,并鼓励更多研究者在这一领域进行持续创新,为技术进步贡献力量。
-
关键词
计算机视觉
深度学习
说话人脸生成
音频驱动
数字人
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名音频与动作两种驱动说话人脸视频生成综述
- 3
-
-
作者
苏红旗
黄玉
李璐
-
机构
中国矿业大学(北京)机电与工程学院
-
出处
《电子技术与软件工程》
2022年第21期174-179,共6页
-
文摘
本文研究的说话人脸视频生成由于在虚拟代理、视频会议、艺术/电影制作中的广泛应用而引起了广泛的研究关注。针对说话人脸视频生成,在驱动方面,主要分为音频驱动和动作驱动,在技术方面,主要分为基于2D和基于3D的方法。在本次调查中,我们首先分别总结了人脸视频生成的音频和动作这两种驱动基于2D和3D两种方法的国内外最新进展和技术趋势,并对关键技术原理进行了详细的解释与分析。其次总结了该领域使用的基准数据集和评估指标。最后我们希望这项调查能够为深度人的生成的未来前景提供一些启示,并为数字人的全面应用提供有益的基础。
-
关键词
说话人脸生成
音频驱动
动作驱动
2D
3D
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名带有先验的语音驱动三维人脸动画生成方法
- 4
-
-
作者
吕镇宇
夏方方
刘芳丽
郭润甲
郭子俊
-
机构
北京信息科技大学计算机学院
-
出处
《计算机科学与应用》
2023年第11期2072-2079,共8页
-
文摘
语音驱动的三维人脸生成是计算机视觉和图形学中一个非常有吸引力的研究课题。除了有趣之外,它还有广泛的应用,例如游戏动画、3D视频通话和AR/MR的3D化身。由于人脸运动的复杂性和不确定性,以往方法生成的结果有唇形不准确、面部动态性不佳的缺点。不同于以往一阶段的方法,我们使用一种新的两阶段的方法,在模型训练的第一阶段我们使用变分自动编码器将高维的复杂的面部映射进低维的空间,充分学习人脸运动先验。在第二阶段,Transformer根据输入的语音信号在学习到的人脸先验的基础上进行潜在代码查询,以回归的方式生成面部运动序列。这样可以降低生成面部动画的难度,减少了映射的模糊,可以在任意指定音频上得到生动的人脸说话动画,经验证我们的方法与先进的方法相比在唇形和脸部动态性上取得优势。
-
关键词
语音驱动3D面部动画
3D说话人脸生成
3D动画人
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-