基于数据驱动方法的汉语文本-可视语音合成(英文) 被引量：16

Text-To-Visual Speech in Chinese Based on Data-Driven Approach

下载PDF

导出

摘要计算机文本-可视语音合成系统(TTVS)可以增强语音的可懂度,并使人机交互界面变得更为友好.给出一个基于数据驱动方法(基于样本方法)的汉语文本-可视语音合成系统,通过将小段视频拼接生成新的可视语音.给出一种构造汉语声韵母视觉混淆树的有效方法,并提出了一个基于视觉混淆树和硬度因子的协同发音模型,模型可用于分析阶段的语料库选取和合成阶段的基元选取.对于拼接边界处两帧图像的明显差别,采用图像变形技术进行平滑并.结合已有的文本-语音合成系统(TTS),实现了一个中文文本-视觉语音合成系统. Text-To-Visual speech (TTVS) synthesis by computer can increase the speech intelligibility and make the human-computer interaction interfaces more friendly. This paper describes a Chinese text-to-visual speech synthesis system based on data-driven (sample based) approach, which is realized by short video segments concatenation. An effective method to construct two visual confusion trees for Chinese initials and finals is developed. A co-articulation model based on visual distance and hardness factor is proposed, which can be used in the recording corpus sentence selection in analysis phase and the unit selection in synthesis phase. The obvious difference between boundary images of the concatenation video segments is smoothed by image morphing technique. By combining with the acoustic Text-To-Speech (TTS) synthesis, a Chinese text-to-visual speech synthesis system is realized.

作者王志明蔡莲红艾海舟

机构地区北京科技大学计算机科学与技术系清华大学计算机科学与技术系

出处《软件学报》 EI CSCD 北大核心 2005年第6期1054-1063,共10页 Journal of Software

基金国家教育部博士点基金北京科技大学校内科研基金~~

关键词文-语转换系统(TTS) 文本-可视语音合成系统(TTVS) 视位协同发音 Human computer interaction Image processing Pattern recognition Speech

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1王志明,蔡莲红,吴志勇,陶建华.汉语文本-可视语音转换的研究[J].小型微型计算机系统,2002,23(4):474-477. 被引量：9
2王志明,蔡莲红.汉语语音视位的研究[J].应用声学,2002,21(3):29-34. 被引量：10
3晏洁.文本驱动的唇动合成系统[J].计算机工程与设计,1998,19(1):31-34. 被引量：16
4董兰芳,王洵,陈意云.真实感虚拟人脸的实现和应用[J].小型微型计算机系统,2002,23(1):90-92. 被引量：3
5杨丹宁,郭峰,文成义.由文本至口形的媒体变换技术的研究[J].电子学报,1996,24(1):122-125. 被引量：1
6高文,陈熙霖,晏洁,宋益波,尹宝才.虚拟人面部行为的合成[J].计算机学报,1998,21(8):694-703. 被引量：26

二级参考文献12

1北京希望电脑公司.Microsoft Basic6.0组件工具指南[M].北京希望电子出版社,1999..
2王志明蔡莲红.汉语音节与口形关系的研究.第九届全国多媒体技术学术会议（NCMT'2000）[M].北京,2000..
3Li Haibo，IEEE Trans PAMI，1993年，15卷，6期，545页
4高文，第二届智能接口与智能应用学术会议论文集，1995年，1页
5Wu Y，J Visualizat Comput Animat，1995年，6期，195页
6团体著者，语言与幼儿文学（第10版），1988年
7团体著者，现代汉语语音知识，1974年
8尹宝才，计算机学报
9华中师范学院中文系现代汉语教研室.现代汉语语音知识[M]湖北人民出版社,1974.
10高文,金辉.面部表情图像的分析与识别[J].计算机学报,1997,20(9):782-789. 被引量：42

共引文献47

1刘箴.虚拟人情绪向量和表情向量的合成[J].系统仿真学报,2006,18(z1):404-406. 被引量：4
2潘志庚,许威威,张明敏.智能虚拟环境[J].系统仿真学报,2001,13(S2):152-155. 被引量：21
3张巍.利用Kriging方法生成特定人脸的三维网格体[J].信息技术,2004,28(7):14-16.
4滕越,王志良.基于OpenGL技术的人脸表情动画合成的研究[J].微计算机信息,2004,20(5):100-102. 被引量：7
5张巍.利用径向基函数生成特定人脸的三维网格体[J].微计算机信息,2004,20(7):120-121. 被引量：1
6范辉,华臻,李晋江,原达.智能虚拟环境的研究[J].微电子学与计算机,2004,21(6):100-103. 被引量：5
7张立臣,毛庆,冯德民,王映辉.基于多摄像机的人脸三维建模[J].电脑开发与应用,2005,18(4):2-3.
8张立臣,毛庆.基于多幅照片的人脸三维建模[J].和田师范专科学校学报,2005,25(3):173-173.
9周洁萍,龚建华,陈铮,杜蔚.协同虚拟地理环境中多用户交流交互模式及实现[J].地理与地理信息科学,2005,21(5):33-37. 被引量：8
10高法金.浅谈基于人工智能的虚拟环境研究[J].和田师范专科学校学报,2006,26(1):168-169.

同被引文献153

1杨莹.汉语语音合成的算法研究[J].大众科技,2004,6(8):55-56. 被引量：1
2曹剑芬.普通话双音子和三音子结构系统代表语料集[J].语言文字应用,1997(1):62-70. 被引量：7
3曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
4徐向华,朱杰,郭强.汉语连续语音识别中的分级聚类算法的研究和应用[J].信号处理,2004,20(5):497-500. 被引量：2
5韩民,田岚.基于时频分步处理的PSOLA韵律合成方法[J].山东大学学报（工学版）,2004,34(6):35-37. 被引量：7
6黄南川,邓振杰,王嵬嵬,张皓健.语音合成技术的研究与发展[J].华北航天工业学院学报,2002,12(3):37-39. 被引量：16
7栗学丽,丁慧,徐柏龄.基于熵函数的耳语音声韵分割法[J].声学学报,2005,30(1):69-75. 被引量：34
8赵小杰,谢咏圭.Klatt共振峰合成器的实时化研究[J].北京师范大学学报（自然科学版）,1994,30(2):212-216. 被引量：2
9蔡莲红.波形编辑语音合成技术及在汉语TTS中的应用[J].小型微型计算机系统,1994,15(10):11-16. 被引量：7
10蔡莲红,魏华武.汉语文-语转换系统的研究与实现[J].应用声学,1994,13(6):1-5. 被引量：5

引证文献16

1吕令保,司光亚,孙林.虚拟Web信息生成系统的设计与实现[J].系统仿真学报,2009,21(S2):188-192.
2冯哲,孙吉贵,张长胜,王岩.汉语语音合成的研究进展[J].吉林大学学报（信息科学版）,2007,25(2):198-206. 被引量：7
3柳春,于洪志.语音合成技术研究[J].卫生职业教育,2008,26(11):64-66. 被引量：3
4孙晓鹏,安丹丹,刘小丹.拼音文本驱动的任意嘴唇曲线的动画生成[J].计算机辅助设计与图形学学报,2008,20(12):1603-1608. 被引量：2
5吕国云,蒋冬梅,樊养余,赵荣椿,H．Sahli,W．Vlerhelst.基于多流三音素DBN模型的音视频语音识别和音素切分[J].电子与信息学报,2009,31(2):297-301.
6周维,汪增福.与语速相关的人脸语音动画合成及其评估[J].中国图象图形学报,2009,14(7):1399-1405.
7杨志晓,隋菲,张德贤.基于可视语音合成的3D通信技术研究[J].计算机应用研究,2009,26(11):4209-4211. 被引量：3
8葛美玲,姚莉秀,李鹃,杨杰.基于优化CANDIDE模型的人脸动画[J].上海交通大学学报,2010,44(11):1491-1495. 被引量：2
9赵新海,曹斌..NET平台下智能语音提示系统的开发[J].天津农学院学报,2010,17(4):54-56. 被引量：1
10周密,穆凯辉,陶建华.基于动态基元选取的真实感可视语音合成系统[J].系统仿真学报,2008,20(S1):420-422.

二级引证文献28

1赵建洋,胡泽雄.动态文本-语音编程系统的研究与应用[J].淮阴工学院学报,2007,16(3):36-39. 被引量：2
2柳春,于洪志.语音合成技术研究[J].卫生职业教育,2008,26(11):64-66. 被引量：3
3蒲晓,杨勇.一个基于语音识别的盲人上网辅助系统的设计[J].微计算机信息,2010,26(4):171-173. 被引量：4
4杨志晓,范艳峰.基于云模型的虚拟人摇头动作不确定性控制[J].计算机应用研究,2011,28(5):1718-1720. 被引量：2
5杨志晓,范艳峰,孙福艳.基于正态云模型的虚拟人点头动作不确定性控制[J].吉林大学学报（工学版）,2012,42(2):476-482.
6范艳峰,杨志晓.基于云模型的人—虚拟角色思想交互模型[J].计算机应用研究,2012,29(7):2475-2478. 被引量：1
7彭展.三种不同类型语音对话系统的分析与研究[J].现代计算机,2013,19(10):58-61.
8曾洪鑫,胡东波,胡志刚.文本与朗读语音共同驱动的汉语语音与口型匹配方案[J].计算机与现代化,2013(10):135-137. 被引量：1
9曾洪鑫,胡东波,胡志刚.浅析汉语语音与口型匹配的基本机理[J].电声技术,2013,37(10):44-48.
10陈拥权,张羽,胡翀豪,楚瑾.计算机语音合成技术研究及发展方向[J].科技与企业,2014(1):125-125. 被引量：1

1刘学杰,赵晖.改进参数控制的可视语音合成方法[J].计算机工程与设计,2017,38(4):989-995.
2周密,穆凯辉,陶建华.基于动态基元选取的真实感可视语音合成系统[J].系统仿真学报,2008,20(S1):420-422.
3吴翠娟,赵晖.可视化协同发音合成研究综述[J].现代计算机,2014,20(9):9-14.
4蔡莲红,魏华武.汉语文-语转换系统的研究与实现[J].应用声学,1994,13(6):1-5. 被引量：5
5陈启钊.语声(VOICE)输入/输出系统——一种不用手输入数据的系统[J].仪表工业,1991(5):23-24.
6陶京京,王丽荣.三维可视语音合成系统中唇部特征点的采集与处理[J].长春大学学报,2014,24(6):715-718.
7赵晖,唐朝京.基于汉语视频三音素的可视语音合成[J].电子与信息学报,2009,31(12):3010-3014.
8王志明,蔡莲红,吴志勇,陶建华.汉语文本-可视语音转换的研究[J].小型微型计算机系统,2002,23(4):474-477. 被引量：9
9曹亮,赵晖.具有情感表现力的可视语音合成研究综述[J].计算机工程与科学,2015,37(4):813-818. 被引量：3
10马娥娥,王成儒.可视语音合成中口形特征点定位研究[J].计算机工程与应用,2010,46(8):190-192.

软件学报

2005年第6期

浏览历史

内容加载中请稍等...