基于状态异步DBN的语音驱动面部动画合成被引量：1

Speech Driven Facial Animation Synthesis Based on State Asynchronous DBN

下载PDF

导出

摘要提出一种基于状态异步动态贝叶斯网络模型(SA-DBN)的语音驱动面部动画合成方法。提取音视频语音数据库中音频的感知线性预测特征和面部图像的主动外观模型(AAM)特征来训练模型参数,对于给定的输入语音,基于极大似然估计原理学习得到对应的最优AAM特征序列,并由此合成面部图像序列和面部动画。对合成面部动画的主观评测结果表明,与听视觉状态同步的DBN模型相比,通过限制听觉语音状态和视觉语音状态间的最大异步程度,SA-DBN可以得到清晰自然并且嘴部运动与输入语音高度一致的面部动画。 An audio visual Dynamic Bayesian Network model with State Asynchrony（SA-DBN） transforming acoustic speech to photo realistic facial animation is proposed. Perceptual Linear Prediction（PLP） features from audio speech, as well as Active Appearance ModeI（AAM） features from face images of an audio visual speech database, are adopted to train the model parameters of the proposed SA-DBN. Based on the SADBN model, an input audio stream is given, the optimal A.AM visual features are learned by the Maximum Likelihood Estimation（MLE） criterion, which are used to construct facial images for the animation. Subjective evaluation is presented to compare the proposed constrained state asynchrony DBN with a state synchronous audio visual DBN model. Experimental results show that with the SA-DBN model, high quality facial animations can be obtained with mouth movements matching the input speech.

作者赵勇蒋冬梅 Sahli Hichem

机构地区西北工业大学计算机学院布鲁塞尔自由大学电子与信息工程系

出处《计算机工程》 CAS CSCD 2014年第2期180-183,188,共5页 Computer Engineering

基金国家自然科学基金资助项目(61273265) 陕西省国际科技合作基金资助重点项目(2011KW-04)

关键词面部动画合成状态异步动态贝叶斯网络模型异步约束主动外观模型感知线性预测极大似然估计 facial animation synthesis Dynamic Bayesian Network model with State Asynchrony（SA-DBN） asynchrony constraint Active Appearance Model（A_AM） Perceptual Linear Prediction（PLP） Maximum Likelihood Estimation（MLE）

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1李冰锋,谢磊,周祥增,付中华,张艳宁.实时语音驱动的虚拟说话人[J].清华大学学报（自然科学版）,2011,51(9):1180-1186. 被引量：2
2王志明,蔡莲红,艾海舟.基于数据驱动方法的汉语文本-可视语音合成(英文)[J].软件学报,2005,16(6):1054-1063. 被引量：16

二级参考文献16

1杨丹宁,郭峰,文成义.由文本至口形的媒体变换技术的研究[J].电子学报,1996,24(1):122-125. 被引量：1
2Cosatto E, Ostermann J, Graf H P, et al. Lifelike talking faces for interactive services [J].Proceedings of the IEEE, 2003, 91(9) : 1406 - 1429.
3TANG Hao, FU Yun, TU Jilin, et al. Humanoid audio-visual avatar with emotive text-to-speech synthesis [J]. IEEE Transactions on Multimedia, 2008, 10(6) : 969 -981.
4WU Zhiyong, ZHANG Shen, CAI Lianhong, et al. Real-time Synthesis of Chinese Visual Speech and Facial Expressions using MPEG-4 FAP Features in a Three-dimensional Avatar [C]//The International Conference on Spoken Language Processing, Pittsburgh, 2006 : 1802-1805.
5Pandzic I S, Forehheimer R. MPEG-4 Facial Animation [M]. New York: Wiley, 2002.
6HUANG Fujie, Cosatto E, Graf H. Triphone based units election for concatenative visual speech synthesis [C]// IEEE international conference on acoustics, speech, and signal processing. NJ: IEEE Press, 2002: 2037- 2040.
7Brand M. Voice puppetry [C]// Proceedings of the SIGGRAPH'99. NY: ACMPress, 1999:21-28.
8XIE Lei, LIU Zhiqiang. Realistic mouth synching for speech-driven talking face using articulatory modeling [J]. IEEE Transactions on Multimedia, 2007, 9(3) : 500 - 510.
9Young S, Evermann G, Kershaw D, et al. The HTK Book [M]. Cambridge University Engineering Department, 2009.
10王理嘉,林焘.语音学教程[M].北京大学出版社,1992.

共引文献16

1吕令保,司光亚,孙林.虚拟Web信息生成系统的设计与实现[J].系统仿真学报,2009,21(S2):188-192.
2冯哲,孙吉贵,张长胜,王岩.汉语语音合成的研究进展[J].吉林大学学报（信息科学版）,2007,25(2):198-206. 被引量：7
3柳春,于洪志.语音合成技术研究[J].卫生职业教育,2008,26(11):64-66. 被引量：3
4孙晓鹏,安丹丹,刘小丹.拼音文本驱动的任意嘴唇曲线的动画生成[J].计算机辅助设计与图形学学报,2008,20(12):1603-1608. 被引量：2
5吕国云,蒋冬梅,樊养余,赵荣椿,H．Sahli,W．Vlerhelst.基于多流三音素DBN模型的音视频语音识别和音素切分[J].电子与信息学报,2009,31(2):297-301.
6周维,汪增福.与语速相关的人脸语音动画合成及其评估[J].中国图象图形学报,2009,14(7):1399-1405.
7杨志晓,隋菲,张德贤.基于可视语音合成的3D通信技术研究[J].计算机应用研究,2009,26(11):4209-4211. 被引量：3
8葛美玲,姚莉秀,李鹃,杨杰.基于优化CANDIDE模型的人脸动画[J].上海交通大学学报,2010,44(11):1491-1495. 被引量：2
9赵新海,曹斌..NET平台下智能语音提示系统的开发[J].天津农学院学报,2010,17(4):54-56. 被引量：1
10周密,穆凯辉,陶建华.基于动态基元选取的真实感可视语音合成系统[J].系统仿真学报,2008,20(S1):420-422.

同被引文献10

1赵沁平.虚拟现实综述[J].中国科学（F辑:信息科学）,2009,39(1):2-46. 被引量：665
2章国宝,宋清华,费树岷,赵艳.语音情感识别研究[J].计算机技术与发展,2009,19(1):92-96. 被引量：7
3赵晖,顾亚强,唐朝京.基于乘积HMM的双模态语音识别方法[J].计算机工程,2010,36(8):7-9. 被引量：8
4刘培桢,蒋冬梅,RAVYSE Ilse,SAHLI Hichem.基于发音特征DBN模型的嘴部动画合成[J].科学技术与工程,2010,10(14):3335-3339. 被引量：2
5李敏,韩丰.虚拟现实技术综述[J].软件导刊,2010,9(6):142-144. 被引量：139
6陈浩磊,邹湘军,陈燕,陈燕（2）,刘天湖.虚拟现实技术的最新发展与展望[J].中国科技论文在线,2011,6(1):1-5. 被引量：181
7尹宝才,王恺,王立春.基于MPEG-4的融合多元素的三维人脸动画合成方法[J].北京工业大学学报,2011,37(2):266-271. 被引量：7
8吴鹏,蒋冬梅,王风娜,Hichem SAHLI,Werner VERHELST.基于发音特征的音视频融合语音识别模型[J].计算机工程,2011,37(22):268-269. 被引量：2
9李嘉,黄程韦,余华.语音情感的维度特征提取与识别[J].数据采集与处理,2012,27(3):389-393. 被引量：8
10王慧慧,赵晖.语音驱动人脸动画研究综述[J].现代计算机（中旬刊）,2015(5):54-59. 被引量：2

引证文献1

1李欣怡,张志超.语音驱动的人脸动画研究现状综述[J].计算机工程与应用,2017,53(22):21-28. 被引量：4

二级引证文献4

1王继军.基于虚拟现实的计算机实验室管理模式研究[J].电子测试,2018,29(19):70-70. 被引量：3
2刘奕,金小峰.基于Bi-LSTM的面部特征与语音特征的映射模型[J].延边大学学报（自然科学版）,2020,46(3):215-220.
3孙瑜,朱欣娟.改进Wav2Lip的文本音频驱动人脸动画生成[J].计算机系统应用,2024,33(2):276-283.
4杨静.基于不同语音情绪的三维人脸动画控制参数预测[J].南京工程学院学报（自然科学版）,2023,21(4):23-29.

1李婷婷,刘世裕.存在时延和数据丢包的网络控制系统稳定性分析[J].河南科技,2014,33(11):17-18. 被引量：2
2成伟明,赵春光,黎培诚.具有长时延和丢包的网络控制系统的故障检测[J].计算机仿真,2011,28(9):190-194. 被引量：6
3何强,石惠.MATLAB在时域分析中的应用[J].安徽水利水电职业技术学院学报,2005,5(1):71-73. 被引量：5
4尹逊和,樊雪丽,张红.基于异步动态的多机器人系统的一致性[J].系统工程与电子技术,2014,36(12):2426-2434. 被引量：1
5张晓静,蒋冬梅,FAN Ping,SAHLI Hichem.基于改进异步DBN模型的听视觉融合情感识别[J].计算机工程与应用,2014,50(21):162-165.
6蒋莲莲,杨光红,但雨芳,王海浪.具有长时延和丢包的网络控制系统稳定性分析[J].计算机应用研究,2010,27(6):2283-2286. 被引量：6
7陈丹淇,蒋冬梅,Ilse Ravyse,Hichem Sahli.基于动态贝叶斯网络的听视觉融合情感识别[J].计算机仿真,2011,28(3):389-392. 被引量：1
8党向东,张庆灵.多包传输动态输出反馈网络控制系统指数稳定性[J].沈阳理工大学学报,2008,27(4):1-5.
9邢伟,王加房,王国良.具有丢包的长时延NCS的稳定性分析[J].东北大学学报（自然科学版）,2008,29(10):1393-1397. 被引量：1
10党向东,张庆灵.多包传输网络控制系统的稳定性[J].渤海大学学报（自然科学版）,2008,29(4):380-384.

计算机工程

2014年第2期

浏览历史

内容加载中请稍等...

基于状态异步DBN的语音驱动面部动画合成被引量：1

参考文献2

二级参考文献16

共引文献16

同被引文献10

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于状态异步DBN的语音驱动面部动画合成 被引量：1

参考文献2

二级参考文献16

共引文献16

同被引文献10

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于状态异步DBN的语音驱动面部动画合成被引量：1