-
题名基于草图引导的少样本说话人视频生成算法研究
- 1
-
-
作者
魏清杨
徐树公
-
机构
上海大学通信与信息工程学院
-
出处
《计算机测量与控制》
2024年第10期236-242,249,共8页
-
基金
国家自然科学基金(61871262)。
-
文摘
说话人视频生成需要对面部纹理和驱动语音进行精准联合建模;为实现该目标,对语义引导的纹理特征形变进行了研究,提出一种基于草图引导的少样本说话人视频生成框架,采用双阶段生成技术进行模态对齐;在第一阶段使用真实先验关键点信息进行语音到目标关键点的生成,第二阶段将关键点转化为草图作为中间表征与参考图片进行语义对齐;草图的引入有效地解决了语音与图像的模态不匹配问题;通过实验测试,算法在公开数据集HDTF和MEAD上的FID指标达到了15.676和8.618;经上述结果验证,提出的算法可通过中间表征有效建模目标音频驱动下的面部纹理,达到与最先进算法相当的生成效果。
-
关键词
高保真生成
说话人视频生成
关键点生成
多模态学习
音唇同步
-
Keywords
high-fidelity generation
talking face generation
landmark generation
multi modal learning
lip synchronization
-
分类号
TP37
[自动化与计算机技术—计算机系统结构]
-
-
题名远程视频会议的通信
被引量:1
- 2
-
-
作者
李国琦
-
机构
北京天讯达电信技术有限责任公司
-
出处
《通讯世界》
2003年第7期68-68,共1页
-
-
关键词
远程视频会议
T510双向视频编解码器
音唇同步
高级视频摄像机
-
分类号
TN948.63
[电子电信—信号与信息处理]
-