-
题名融入变分自编码网络的文本生成三维运动人体
- 1
-
-
作者
李健
杨钧
王丽燕
王永归
-
机构
陕西科技大学电子信息与人工智能学院
陕西科技大学文理学院
-
出处
《中国图象图形学报》
CSCD
北大核心
2024年第5期1434-1446,共13页
-
基金
陕西科技大学2021年教育信息化教学改革项目(JXJG2021-09)。
-
文摘
目的针对现有动态三维数字人体模型生成时不能改变体型、运动固定单一等问题,提出一种融合变分自编码器(variational auto-encoder,VAE)网络、对比语言—图像预训练(contrastive language-image pretraining,CLIP)网络与门控循环单元(gate recurrent unit,GRU)网络生成运动三维人体模型的方法。该方法可根据文本描述生成相应体型和动作的三维人体模型。方法首先,使用VAE编码网络生成潜在编码,结合CLIP网络零样本生成体型与文本表述相符的人体模型,以解决蒙皮多人线性(skinned multi-person linear,SMPL)模型参数不合理而生成不符合正常体型特征的人体模型问题;其次,采用VAE网络与GRU网络生成与文本表述相符的变长时间三维人体姿势序列,以解决现有运动生成方法仅生成事先指定的姿势序列、无法生成运动时间不同的姿势序列问题;最后,将体型特征与运动特征结合,得到三维运动人体模型。结果在HumanML3D数据集上进行人体生成实验,并与其他3种方法进行比较,相比于现有最好方法,R精度的Top1、Top2和Top3分别提高了0.031、0.034和0.028,弗雷歇初始距离(Fréchet inception distance,FID)提高了0.094,多样性提高了0.065。消融实验验证了模型的有效性,结果表明本文方法对人体模型生成效果有提升。结论本文方法可通过文本描述生成运动三维人体模型,模型的体型和动作更符合输入文本的描述。
-
关键词
人体动作合成
自然语言处理(NLP)
深度学习
蒙皮多人线性模型
变分自编码器网络
-
Keywords
human motion synthesis
natural language processing(NLP)
deep learning
skinned multi-person linear model
variational auto-encoder network
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-