视觉驱动的语音合成系统中唇形轮廓的傅里叶描述被引量：1

Lip contour description based on Fourier descriptors in speech synthesis system driven by visual-speech

下载PDF

导出

摘要为了能够自动、快速地表示唇读系统中所必须的唇形轮廓特征,将傅里叶描述子用于唇形轮廓的描述和识别过程中,采用边界傅里叶变换的方法,得到非对称唇形模型中唇形轮廓的傅里叶描述子,用来刻画唇动过程中唇形轮廓的形状信息,并将傅里叶描述子φ作为唇形轮廓的特征向量,应用于基于隐马尔可夫模型(HMM)的视觉驱动语音合成系统。基于独立汉字发音的实验表明,单纯采用前15或20个傅里叶描述子就能够有效地刻画唇形轮廓描述,达到唇形识别的目的。 In order to describe the lip contours in a lipreading system automatically and quickly, Fourier descriptors are applied to describe and recognize the lip contours. After movement detection and morphological processing, boundary Fourier transform is used to get the Fourier descriptors of lip contours in unsymmetrical lip contour model, which is used to extract mouth region and parameters of lip contours from the image sequence. The Fourier descriptor ~p is used as the feature vector in speech synthesis system driven by visual-speech based on hidden Markov model. Experiments based on isolated Chinese words show that the lip contours can be reconstructed effectively only by using the first 15 or 20 Fourier descriptors, which reaches the goal of lip movement recognition.

作者李刚王蒙军林凌

机构地区天津大学精密仪器与光电子工程学院

出处《仪器仪表学报》 EI CAS CSCD 北大核心 2007年第8期1464-1468,共5页 Chinese Journal of Scientific Instrument

关键词非对称唇形轮廓模型运动检测数学形态学傅里叶描述子隐马尔可夫模型 unsymmetrical lip contour model movement detection morphological processing Fourier descriptor hidden Markov model （HMM）

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1CHEN T,RAO R.Joint audio-video processing for multimedia[C].Proceedings of 22nd International Conference on Industrial Electronics,Control,and Instrumentation,1996,1:548-553.
2WANG R,YAO H X,GAO W.Recognition of sequence lip images and its application[C].Proceedings of 4th International Conference on Signal Processing,1998,1:849-854.
3ZHANG X,MERSEREAU R M,CLEMENTS M,et al.Visual speech feature extraction for improved speech recognition[C].Proceedings of International Conference on Acoustics,Speech,and Signal Processing,2002,2:1993-1996.
4KAYNAK M N,QI Z,Cheok A D,et al.Audio-visual modeling for bimodal speech recognition[C].Proceedings of International Conference on Systems,Man,and Cybernetics,2001,1:181-186.
5SCANLON P,REILLY R.Feature analysis for automatic speechreading[C].Proceedings of 4th Workshop on Multimedia Signal Processing,2001:625-630.
6MATTHEWS I,COOTES T F,BANGHAM J A,et al.Extraction of visual features for lipreading[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24 (2):198-213.
7SEGUIER R,CLADEL N.Multiobjectives genetic snakes:application on audio-visual speech recognition[C].Proceedings of 4th EURASIP Conference focused on Video/Image Processing and Multimedia Communications,2003,2:625-630.
8CHANDRAMOHAN D,SILSBEE PL.A multiple deformable template approach for visual speech recognition[C].Proceedings of 4th International Conference on Spoken Language,1996,1:50-53.
9LIE W N,HSIEH H C.Lips detection by morphological image processing[C].Proceedings of 4th International Conference on Signal Processing,1998,2:1084-1087.
10GRAF H P,COSATTO E,POTAMIANOS M.Robust recognition of faces and facial features with a multi-modal system[C].Proceedings of International Conference on Systems,Man,and Cybernetics,1997,3:2034-2039.

二级参考文献16

1梁毅雄,龚卫国,潘英俊,李伟红,刘嘉敏,张红梅.基于奇异值分解的人脸识别方法[J].光学精密工程,2004,12(5):543-549. 被引量：40
2巴雷特H H 张万里（译）.放射成像、图像形成、检测和处理的理论[M].北京:科学出版社,1988..
3WANG R,YAO H X,GAO W, Recognition of sequence lip images and its application[C]. IEEE Fourth International Conference on Signal Processing, 1998,(Ⅰ):849-854
4MATTHEWS I, COOTES T F, BANGHAM J A, et al. Extraction of visual features for lip reading[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24 (2):198-213.
5SCANLON P,REILLY R. Feature analysis for automatic speech reading[C]. IEEE Fourth Workshop on Multimedia Signal Processing, 2001, Page(s):625-630.
6ZHANG X, MERSEREAU R M,CLEMENTS M,et al. Visual speech feature extraction for improved speech recognition[C]. Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, 2002,2:1993-1996.
7SEGUIER R, CLADEL N. Multiobjectives genetic snakes: application on audio-visual speech recognition[C].Fourth EURAS IP Conference focused on Video/Image Processin g and Multimedia Communications, 2003:625-630.
8CHANDRAMOHAN D, SILSBEE P L. A multiple deformable template approach for visual speech recognition[C].Fourth International Conference on Spoken Language, 1996, 1:50-53.
9晏洁.文本驱动的唇动合成系统[J].计算机工程与设计,1998,19(1):31-34. 被引量：16
10王磊,莫玉龙,戚飞虎.基于弹性模板的嘴巴轮廓提取[J].上海大学学报（自然科学版）,1998,4(5):579-585. 被引量：6

共引文献8

1龙兴明,周静,马燕.基于复数小波的图像恢复算法研究[J].信息与控制,2004,33(4):408-412. 被引量：3
2龙兴明,周静.基于EM算法的图像小波系数统计研究[J].计算机仿真,2005,22(6):71-74. 被引量：2
3李刚,王蒙军,林凌.采用非对称唇形轮廓模型提高汉语唇形识别效果[J].光学精密工程,2006,14(3):473-477. 被引量：5
4黄玮.柱面系统无畸变指纹采集仪的光学设计[J].光学精密工程,2007,15(5):646-650. 被引量：6
5李刚,王蒙军,林凌.面向残疾人的汉语可视语音数据库[J].中国生物医学工程学报,2007,26(3):355-360. 被引量：3
6吴涛,王蒙军,杨珉,李刚.基于数据融合的唇形特征识别[J].河北工业大学学报,2009,38(3):68-71.
7赵剑,王丽荣.基于三维可视语音库的发音康复方法[J].长春大学学报,2010,20(2):75-77.
8段隆焱,田文,徐漫涛,陈亚珠.基于非局部信息的医学图像降噪技术综述[J].计算机应用研究,2013,30(3):667-671. 被引量：4

同被引文献4

1蓝杨,王紫霏,吴杨,等.一种基于等高线的三维人脸识别方法[P].中国,G06K9/00,2010-10-24.
2李茜,龚勋,王国胤.基于曲率和纹理信息的三维人脸特征提取[J].重庆邮电大学学报（自然科学版）,2008,20(6):729-732. 被引量：2
3叶长明,蒋建国,詹曙,S.Ando.不同姿态人脸深度图识别的研究[J].电子测量与仪器学报,2011,25(10):870-878. 被引量：19
4叶长明,蒋建国,詹曙,ANDO Shigem.基于曲面等高线特征的不同姿态三维人脸深度图识别[J].模式识别与人工智能,2013,26(2):219-224. 被引量：4

引证文献1

1张玉明,高杰,张海燕.基于矩-傅里叶描述子的不同姿态三维人脸识别[J].安徽科技学院学报,2016,30(3):55-59. 被引量：2

二级引证文献2

1李小丽.基于梯度图及Hausdorff距离的人脸识别算法[J].安徽科技学院学报,2016,30(5):55-61. 被引量：1
2孔凡梅,刘璞,赖昌生.傅里叶描述子在AIDS患者智能化舌诊中的应用[J].医学信息,2023,36(4):38-43.

1李刚,王蒙军,林凌.采用非对称唇形轮廓模型提高汉语唇形识别效果[J].光学精密工程,2006,14(3):473-477. 被引量：5
2王蒙军,李刚,林凌,曾锐利.唇动图像序列的加权组合特征分析[J].光学精密工程,2008,16(3):511-517. 被引量：2
3吴涛,王蒙军,杨珉,李刚.基于数据融合的唇形特征识别[J].河北工业大学学报,2009,38(3):68-71.
4李刚,王蒙军,林凌.面向残疾人的汉语可视语音数据库[J].中国生物医学工程学报,2007,26(3):355-360. 被引量：3
5汪辰,袁祺,黄红.均匀分布B样条在轮廓描述技术的应用[J].青岛大学学报（工程技术版）,1998,13(4):40-43.
6吴桂英.用P型傅里叶描述符号识别人脸的轮廓[J].光机电世界,1993,10(7):17-19.
7祁友杰,朱恩.一种非闭合曲线的傅里叶描述新算法[J].东南大学学报（自然科学版）,2014,44(5):886-890. 被引量：2
8权龙哲,祝荣欣,马小愚.基于傅里叶描述的小麦籽粒三维粒形研究[J].东北农业大学学报,2008,39(6):120-123. 被引量：1
9菠萝王.汉字发音，谷歌翻译如今也行[J].电脑知识与技术（经验技巧）,2010(7):94-94.
10黄文龙,杨卫民,聂秋海,宋铮.基于Windows平台的子午线轮胎CAD系统[J].北京化工大学学报（自然科学版）,2000,27(4):99-102. 被引量：11

仪器仪表学报

2007年第8期

浏览历史

内容加载中请稍等...

视觉驱动的语音合成系统中唇形轮廓的傅里叶描述被引量：1

参考文献16

二级参考文献16

共引文献8

同被引文献4

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

视觉驱动的语音合成系统中唇形轮廓的傅里叶描述 被引量：1

参考文献16

二级参考文献16

共引文献8

同被引文献4

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

视觉驱动的语音合成系统中唇形轮廓的傅里叶描述被引量：1