汉语语音视觉合成研究数据库CVSS1.0 被引量：3

CVSS1.0:A Nen Audio-Visual Database For Chinese Visual Speech Synthesis

下载PDF

导出

摘要目前现有的双模态语音数据库多为外文,且绝大部分都是为语音识别或身份认证服务的。鉴于此,我们根据汉语语音的特点,建立了国内第一个较为完备的汉语语音视觉合成数据库CVSS1.0。它具有如下特点:包含136个单音节和265个连续发音语句的视频和音频数据,其语料规模超出目前同类数据库;语料是在汉语发音方式归类的基础上,依据汉字出现频度的高低选取,其中的独白语句涵盖了大部分的韵律结构,因此其反映的规律具有代表性;记录了脸部发音动作的三维运动信息;用绿点标出了部分MPEG4定义的脸部特征点,方便跟踪;可服务于多种视觉语音合成研究,有很高的通用性。 Audiovisual bimodal speech processing has been one of the international research focuses. Chinese visual speech synthesis research has also started. The building of bimodal speech database is very important to it. Now there are some audiovisual speech databases, but most of them are in foreign languages and for audiovisual speech recognition or person authentication. So we designed and created the Chinese visual speech synthesis database CVSS1.0. It has following advantages： It comprises two parts： 136 Chinese characters and 265 phonetically balanced sentences; its utterance material selection is based on the classification of Chinese pronunciation features; it records 3D motion of pronunciation; some facial features defined by MPEG4 are signed by green spots; it can fit the requirement of most visual speech synthesis researches.

作者张欣杜利民陈柯赵向阳

机构地区中国科学院声学研究所

出处《微计算机应用》 2007年第3期260-265,共6页 Microcomputer Applications

关键词视觉语音合成数据库语料 MPEG4 visual speech synthesis, database, corpus, MPEG4

分类号 TP392 [自动化与计算机技术—计算机应用技术] TN912.33 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献6

1Philippe Dauhias and Paul Deleglise. The LIUM-AVS Database: a corpus to test li Psegmentation and speechreading systems in natural conditions.Proceedings of EUROSPEECH'2003, 2, 1569- 1572
2EK Patterson, S. Gurbuz, Z. Tufekci, and JN Gowdy. CUAVE: A New. Audio-Visual Database for Multimodal Human-Computer Interface. Research. ICASSP, Orlando, May 2002.
3徐彦君,杜利民,李国强,张欣,周治.汉语听觉视觉双模态数据库CAVSR1.0[J].声学学报,2000,25(1):42-49. 被引量：16
4K. Messer, J. Matas, J. Kittler, J. Luettin, and G. Maytre. XM2VTSDB: The extended MwVTS database, in Proc. 2nd AVBPA,Washington,DC, USA, Mar. 22 - 23 1999, 72 - 77
5王志明,蔡莲红,吴志勇,陶建华.汉语文本-可视语音转换的研究[J].小型微型计算机系统,2002,23(4):474-477. 被引量：9
6陈益强,高文,王兆其,姜大龙,左力.基于数据挖掘的语音驱动三维人脸动画合成[J].系统仿真学报,2002,14(4):496-500. 被引量：1

二级参考文献19

1齐士钤吕士楠等.汉语综合资料库的设计[J].应用声学,1994,13(3):1-5.
2朱维彬.汉语言语数据库自动标注系统的研究.中国科学院声学研究所博士论文[M].,1998..
3林茂灿.北京话声调分布域的感知实验研究.语音研究报告[M].中国社会科学院语言研究所语音研究室,1992..
4王志明蔡莲红.汉语音节与口形关系的研究.第九届全国多媒体技术学术会议（NCMT'2000）[M].北京,2000..
5朱维彬，博士学位论文，1998年
6Chiou G I，IEEE Trans Image Processing，1997年，6卷，8期，1192页
7张家，应用声学，1994年，13卷，3期，1页
8林茂灿，语音研究报告，1992年
9Beskow J. Rule-based visual speech synthesis [A]. ESCA-EURO- SPEECH'95. 4th European Conference on Speech Communication and Technology [C]. Madrid, September 1995.
10Hani Yehia, Takaaki Kuratate, Eric Vatikiotis-Bateson. Using speech acoustics to drive facial motion [A]. Proc 14th international congress of phonetic sciences (ICPhS'99) [C], 1999, (1): 631-634.

共引文献23

1洪晓鹏,姚鸿勋,徐铭辉.基于句子级的唇读语料库及其切分算法[J].计算机工程与应用,2005,41(3):174-177. 被引量：7
2王志明,蔡莲红,艾海舟.基于数据驱动方法的汉语文本-可视语音合成(英文)[J].软件学报,2005,16(6):1054-1063. 被引量：16
3李刚,王蒙军,林凌.面向残疾人的汉语可视语音数据库[J].中国生物医学工程学报,2007,26(3):355-360. 被引量：3
4涂欢,周经野,刘军发,崔国勤,谢晨.一种语音和文本联合驱动的卡通人脸动画方法[J].小型微型计算机系统,2007,28(12):2238-2241. 被引量：1
5张军,韦岗,余华.基于特征分量输出概率加权的多数据流鲁棒语音识别方法[J].声学学报,2008,33(2):102-108. 被引量：2
6孙晓鹏,安丹丹,刘小丹.拼音文本驱动的任意嘴唇曲线的动画生成[J].计算机辅助设计与图形学学报,2008,20(12):1603-1608. 被引量：2
7奉小慧.基于改进的level set嘴唇轮廓定位方法[J].计算机应用,2009,29(1):92-94. 被引量：2
8ZHANG Jun WEI Gang YU Hua NING Genxin.Robust multi-stream speech recognition based on weighting the output probabilities of feature components[J].Chinese Journal of Acoustics,2009,28(3):269-279. 被引量：4
9赵晖,林成龙,唐朝京.基于视频三音子的双模态语料自动选取算法[J].计算机工程,2009,35(17):1-3. 被引量：2
10赵晖,林成龙,唐朝京.基于视频三音子的汉语双模态语料库的建立[J].中文信息学报,2009,23(5):98-103. 被引量：6

同被引文献26

1徐露,徐明星,杨大利.面向情感变化检测的汉语情感语音数据库[J].清华大学学报（自然科学版）,2009(S1):1413-1418. 被引量：6
2洪晓鹏,姚鸿勋,徐铭辉.基于句子级的唇读语料库及其切分算法[J].计算机工程与应用,2005,41(3):174-177. 被引量：7
3王志明,蔡莲红,艾海舟.基于数据驱动方法的汉语文本-可视语音合成(英文)[J].软件学报,2005,16(6):1054-1063. 被引量：16
4姜仕仁,陈水华.同一生境中强脚树莺鸣声的个体差异及多样性[J].Zoological Research,2006,27(5):473-480. 被引量：5
5李刚,王蒙军,林凌.面向残疾人的汉语可视语音数据库[J].中国生物医学工程学报,2007,26(3):355-360. 被引量：3
6Bondy M D, Petriu E M, Cordea M D, et al. Model-based face and lip animation for interactive virtual reality applications [C] // Proceedings of the 9th ACM International Conference on Multimedia, Ottawa, 2001:559-563.
7Deng Z G, Bulut M, Neumann U, et al. Automatic dynamic expression synthesis for speech animation [C] //Proceedings of IEEE Computer Animation and Social Agents (CASA), Geneva, 2004:267-274.
8Busso C, Deng Z G, Neumann U, etal. Natural head motion synthesis driven by acoustic prosody features [J]. Computer Animation and Virtual Worlds, 2005, 16(3/4):283-290.
9Costa M, Chen T, Lavagetto F. Visual prosody analysis for realistic motion synthesis of 3D head models [C] // Proceedings of International Conference on Augmented Virtual Environments and 3D Imaging, Mykonos, 2001 :343- 346.
10Zhang S, Wu Z Y, Meng H M, et al. Head movement synthesis based on semantic and prosodic features for a Chinese expressive avatar [C] //Proceedings of the International Conference on Acoustics, Speech and Signal Processing, Honolulu, 2007:837-840.

引证文献3

1孙晓鹏,安丹丹,刘小丹.拼音文本驱动的任意嘴唇曲线的动画生成[J].计算机辅助设计与图形学学报,2008,20(12):1603-1608. 被引量：2
2肖庆阳,张金,左闯,范娟婷,梁碧玮,邸硕临.基于语义约束的口型序列识别方法[J].计算机应用与软件,2012,29(9):226-229.
3余礼根,滕光辉,李保明,劳凤丹,邢永正.蛋鸡发声音频数据库的构建与应用[J].农业工程学报,2012,28(24):150-156. 被引量：20

二级引证文献22

1曹晏飞,滕光辉,余礼根,李乔伟.含风机噪声的蛋鸡声音信号去噪方法比较[J].农业工程学报,2014,30(2):212-218. 被引量：26
2沈明霞,刘龙申,闫丽,陆明洲,姚文,杨晓静.畜禽养殖个体信息监测技术研究进展[J].农业机械学报,2014,45(10):245-251. 被引量：44
3曹晏飞,余礼根,滕光辉,赵淑梅,刘旭明.蛋鸡发声与机械噪声特征提取及分类识别[J].农业工程学报,2014,30(18):190-197. 被引量：15
4曹晏飞,陈红茜,滕光辉,赵淑梅,李乔伟.基于功率谱密度的蛋鸡声音检测方法[J].农业机械学报,2015,46(2):276-280. 被引量：17
5许金普,诸叶平.农贸市场环境下语音信号增强方法比较[J].广东农业科学,2015,42(10):166-172. 被引量：3
6荣传振,岳振军,王渊,杨宇.模糊语言模型在唇读系统中的应用[J].信号处理,2015,31(10):1301-1306. 被引量：1
7刘世娟.蛋鸡场传染病的防控策略[J].现代畜牧科技,2016,35(2):134-134. 被引量：3
8李保明,王朝元,杨柳.从欧洲精准畜牧业研讨会看蛋鸡精准养殖技术的研究进展[J].中国家禽,2016,38(3):1-4. 被引量：9
9宣传忠,马彦华,武佩,张丽娜,郝敏,张曦宇.基于声信号特征加权的设施养殖羊行为分类识别[J].农业工程学报,2016,32(19):195-202. 被引量：19
10刘艳秋,武佩,宣传忠,马彦华,张丽娜,王晶.母羊3种应激行为下叫声信号的对比分析[J].中国农业大学学报,2016,21(11):57-63. 被引量：2

1赖伟,孙岭,王仁华.一种基于三维模型和照片的合成“说话头”[J].中国图象图形学报（A辑）,2004,9(7):886-892. 被引量：3
2李忠.录像机控制系统CPU引脚功能的部分外文标记[J].影视播放技术,1998(5):25-25.
3外文勘误表[J].杭州电子科技大学学报（自然科学版）,1998,23(2):20-34.
4编辑部.那些年,我们感动过的电影[J].家庭影院技术,2013(2):110-111.
5张延平,陈锡先,蔡长年.一种新的全汉语单音节语音识别算法[J].信号处理,1992,8(3):143-151.
6曹洪.一种新型汉语单音节识别方法[J].清华大学学报（自然科学版）,1990,30(4):87-92.
7眉飞色舞的鱼.去除RM电影中的外文声道[J].大众软件,2005(18):66-67.
8林宇威.点阵式中外文通用可变字形显示盒[J].中文信息,1989(2):21-24.
9王振东,黄鹤鸣.藏语单音节的语音端点检测[J].山东工业技术,2015(10):260-261. 被引量：1
10地面数字电视接收机通用规范和测量方法两项国家标准英文版正式发布[J].信息技术与标准化,2016,0(3):13-13.

微计算机应用

2007年第3期

浏览历史

内容加载中请稍等...