基于汉语视频三音素的可视语音合成

Visual Speech Synthesis Algorithm Based on Chinese Visual Triphone

下载PDF

导出

摘要为了合成具有真实感的视频序列,该文提出一种基于汉语视频三音素的可视语音合成方法。根据汉语的发音规律和音素与视素的对应关系,该文提出"视频三音素"的概念。在此基础上,建立隐马尔可夫(HMM)训练与合成模型,在训练过程中使用了视频音频联合特征,并加入了动态特征。在合成过程中,连接视频三音素HMM模型形成句子HMM,并从中提取特征参数,合成可视语音。从主观和客观评估结果来看,合成视频的真实感强,满意度较高。 In order to synthesize real video sequence, a visual speech synthesis algorithm based on Chinese visual triphone is proposed. According to Chinese pronunciation principle and the relationship between phoneme and viseme, conception of ‘visual triphone’ is presented. Hidden Markov Model（HMM） is established based on visual triphones. In the training stage, combined features including visual features and audio features are used. In the synthesis stage, sentence HMM is constructed by concatenating triphone HMMs, from which the feature parameters are extracted. From the result of subjective and objective evaluation, the synthesized video is real and satisfied.

作者赵晖唐朝京

机构地区国防科技大学电子科学与工程学院

出处《电子与信息学报》 EI CSCD 北大核心 2009年第12期3010-3014,共5页 Journal of Electronics & Information Technology

基金国家部委基金(51329060101)资助课题

关键词可视语音合成视频三音素隐马尔可夫模型联合特征 Visual speech synthesis Visual triphone Hidden Markov Model（HMM） Combined features

分类号 TP391.42 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1Summerfield Q. Use of visual information in phonetic perception[J]. Phonetic, 1979, 36(4/5): 314-331.
2McGurk H and Macdonald J. Hearing lips and seeing voices[J]. Nature, 1976, 264(5588): 746-748.
3Perng Woei-luen, Wu Yung-kang, and Ming Ouh-young. Image talk: a real time synthetic talking head using one single image with Chinese text-to-speech capability[C]. Sixth Pacific Conference on Computer Graphics and Applications, Singapore, 1998: 140-148.
4王志明,蔡莲红,吴志勇,陶建华.汉语文本-可视语音转换的研究[J].小型微型计算机系统,2002,23(4):474-477. 被引量：9
5Masuko T, Kobayashi T, and Tamura M, et al.. Text-to-visual speech synthesis based on parameter generation from HMM[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, Seattle, USA, 1998, 6: 3745-3748.
6Jiang Jin-tao, Aronoff J M, and Bernstein L E. Development of a visual speech synthesizer via second-order isomorphism[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, Las Vegas USA, 2008: 4677-4680.
7Zhou Wei and Wang Zeng-fu. Speech Chinese mandarin triphone model animation based on International Conference on Computer Science, Melbourne, Australia, July 2007: 6th IEEE/ACIS and Information 924-929.
8吴华,徐波,黄泰翼.基于三音子模型的语料自动选择算法[J].软件学报,2000,11(2):271-276. 被引量：12
9Zhao Hui and Tang Chao-jing. Visual speech synthesis based on Chinese dynamic visemes[C]. IEEE International Conference on Information and Automation, Zhangjiajie, China, June, 2008: 139-143.

二级参考文献5

1王志明蔡莲红.汉语音节与口形关系的研究.第九届全国多媒体技术学术会议（NCMT'2000）[M].北京,2000..
2Gao Sheng，Proceedings of the ’98 International Symposium on Chinese Spoken Language Proce，1998年，44页
3曲菲，第 4届全国人机语音通讯学术会议论文集，1996年，337页
4孙甲松，’95智能计算机接口与应用进展，1995年，116页
5林焘，语音学教程，1991年

共引文献19

1李荪,曹峰,刘姿杉.面向算法模型的语音数据集质量评估方法研究[J].计算机科学,2022,49(S02):519-524. 被引量：2
2宁振江,杜利民.面向语音识别声学模型的汉语语料抽选方法[J].声学技术,2003,22(z2):356-358. 被引量：1
3宁振江,杜利民.一种改进后的递增式语音语料抽选算法[J].中国科学院研究生院学报,2005,22(2):140-146.
4王志明,蔡莲红,艾海舟.基于数据驱动方法的汉语文本-可视语音合成(英文)[J].软件学报,2005,16(6):1054-1063. 被引量：16
5刘刚,张洪刚,郭军.不同训练样本对识别系统的影响[J].计算机学报,2005,28(11):1923-1928. 被引量：15
6张欣,杜利民,陈柯,赵向阳.汉语语音视觉合成研究数据库CVSS1.0[J].微计算机应用,2007,28(3):260-265. 被引量：3
7涂欢,周经野,刘军发,崔国勤,谢晨.一种语音和文本联合驱动的卡通人脸动画方法[J].小型微型计算机系统,2007,28(12):2238-2241. 被引量：1
8杨阳蕊,李永宏,于洪志.藏语安多方言的音联结构及统计分析[J].西北民族大学学报（自然科学版）,2008,29(2):11-16. 被引量：2
9孙晓鹏,安丹丹,刘小丹.拼音文本驱动的任意嘴唇曲线的动画生成[J].计算机辅助设计与图形学学报,2008,20(12):1603-1608. 被引量：2
10赵晖,林成龙,唐朝京.基于视频三音子的双模态语料自动选取算法[J].计算机工程,2009,35(17):1-3. 被引量：2

1刘学杰,赵晖.改进参数控制的可视语音合成方法[J].计算机工程与设计,2017,38(4):989-995.
2陶京京,王丽荣.三维可视语音合成系统中唇部特征点的采集与处理[J].长春大学学报,2014,24(6):715-718.
3曹亮,赵晖.具有情感表现力的可视语音合成研究综述[J].计算机工程与科学,2015,37(4):813-818. 被引量：3
4贾熹滨,尹宝才,李敬华.语音同步的可视语音合成技术研究[J].北京工业大学学报,2005,31(6):656-661. 被引量：5
5马娥娥,王成儒.可视语音合成中口形特征点定位研究[J].计算机工程与应用,2010,46(8):190-192.
6尹宝才,李敬华,贾熹滨,孙艳丰.基于两层隐马尔可夫模型的可视语音合成[J].北京工业大学学报,2006,32(5):416-418. 被引量：4
7尹宝才,王恺,王立春.基于MPEG-4的融合多元素的三维人脸动画合成方法[J].北京工业大学学报,2011,37(2):266-271. 被引量：7
8李明,杨志晓.Web环境下的三维虚拟人模型研究[J].微计算机信息,2009,25(17):150-152. 被引量：1
9王志明,蔡莲红,艾海舟.基于数据驱动方法的汉语文本-可视语音合成(英文)[J].软件学报,2005,16(6):1054-1063. 被引量：16
10王洵,张道义,董兰芳,万寿红.三维语音动画聊天室的设计与实现[J].计算机工程与应用,2004,40(1):106-108. 被引量：1

电子与信息学报

2009年第12期

浏览历史

内容加载中请稍等...

基于汉语视频三音素的可视语音合成

参考文献9

二级参考文献5

共引文献19

相关作者

相关机构

相关主题

浏览历史