一种噪音环境下的基于特征口形的音频视频混合连续语音识别系统被引量：1

An Eigen Mouth Based Audio Visual Continuous Speech Recognition System in Noisy Environments

下载PDF

导出

摘要文章抓住人类语音感知多模型的特点,尝试建立一个在噪音环境下的基于音频和视频复合特征的连续语音识别系统。在视频特征提取方面,引入了一种基于特征口形的提取方法。识别实验证明,这种视频特征提取方法比传统DCT、DWT方法能够带来更高的识别率;基于特征口形的音频-视频混合连续语音识别系统具有很好的抗噪性。 Considering that human speech perception is inherently a multi-modal process,the paper tries to develop a continuous speech recognition system based on audio-visual fusion,which is used in noisy environments.In the visual feature extraction,an eigen mouth based method is introduced.Experimental results show that the feature extraction method presented in this paper outperforms the traditional methods,such as DCT and DWT.The experiments also show that the audio-visual continuous speech recognition system is robust in noisy environments.

作者谢磊 I.Cravyse 蒋冬梅赵荣椿 H.Sahli Werner Verhelst J Cornelis Ignace Lemahieu

机构地区西北工业大学计算机科学与工程系 ETRO UniversityofGent(RUG)

出处《计算机工程与应用》 CSCD 北大核心 2003年第16期3-5,35,共4页 Computer Engineering and Applications

基金中国科技部与比利时弗拉芒大区的国际科技合作项目"现实世界的机器视觉与语音技术"的支持(编号:国科外字19990209号)

关键词音频-视频混合连续语音识别主分量分析特征口形多数据流 HMM Audio-Visual Speech Recognition,Principal Components Analysis,Eigen Mouth,Multi-Stream,HMM

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1K R Castleman.朱志刚林学闫石定机等译.数字图像处理[M].Prentice Hall出版公司,电子工业出版社,1998.253-254.
2H McGurk,J MacDonald.Hearing lips and seeing voices[J].Nature, 1976; 264 : 746-748.
3D W Massaro,D G Stork.Speech recognition and sensory integration [J].American Scientist, 1998 ; 86 (3) : 236-244.
4I Ravyse, M Reinders,J Cornelis et al.Eye gesture estimation[C].In : IEEE Benelux Signal Processing Chapter,Signal Processing Symposium, SPS2000, The Netherlands, 2000:4.
5H Bourlard ,S Dupone,C Riss.Muhi-stream speech recognition[R]. Technical Report IDIAP-RR 96-07 ,IDIAP, 1996.
6I Ravyse,M Reinders,J Comelis et a1.Eye gesture estimation[C].In: IEEE Benelux Signal Processing Chapter,Signal Processing Symposium,SPS2000,The Netherlands,2000.

共引文献1

1郭圣文.Visual J++ 6.0中读取图像的灰度与进行灰度变换[J].电脑编程技巧与维护,2001(9):73-74.

同被引文献3

1NAKAMURA S. Statistical Multimodal Integration for Audio-Visual Speech[J]. Processing of IEEE Transactions on Neural Networks, 2002,13(4):854-866.
2MarquesdesaJP 吴逸飞译.模式识别-原理、方法及应用[M].北京:清华大学出版社,2002.28-41.
3刘青山,卢汉清,马颂德.综述人脸识别中的子空间方法[J].自动化学报,2003,29(6):900-911. 被引量：117

引证文献1

1王琢玉,贺前华.基于主元分析的人脸特征点定位算法的研究[J].计算机应用,2005,25(11):2581-2583. 被引量：9

二级引证文献9

1宋怀波,齐关锋,钱程.基于YUV颜色空间的脸部区域特征点定位方法[J].吉林大学学报（工学版）,2013,43(S1):39-42. 被引量：3
2吴德会,朱程辉.基于主元分析的车牌图像倾斜校正新方法[J].公路交通科技,2006,23(8):143-146. 被引量：7
3李玉鑑,王利娟.基于PCA的眉毛识别方法研究[J].计算机工程与科学,2008,30(11):28-30. 被引量：14
4奉小慧.基于改进的level set嘴唇轮廓定位方法[J].计算机应用,2009,29(1):92-94. 被引量：2
5奉小慧,王伟凝,吴绪镇,潘爵雨.基于多色彩空间的自适应嘴唇区域定位算法[J].计算机应用,2009,29(7):1924-1926. 被引量：8
6李丽,万年红,白陈祥,张金玉,吕晓依.主元分析法在木材缺陷轮廓特征提取中的应用研究[J].林业机械与木工设备,2010,38(11):19-21. 被引量：2
7杨冬涛.基于惩罚感知器的唇部定位方法[J].嘉应学院学报,2011,29(8):20-24.
8王晓峰,张丽君.基于拓扑知觉理论的人脸表情识别方法[J].计算机工程,2012,38(6):193-195.
9吴莉霞.基于改进纹理表示的主动形状模型[J].西南师范大学学报（自然科学版）,2013,38(9):80-85. 被引量：1

1吕茂成,刘群芳.关于噪声环境下遗传算法的改进[J].通讯世界（下半月）,2016,0(1):148-148.
2曹辉,曹礼刚,简兴祥.基于神经网络融合的语音人脸身份识别方法[J].计算机工程,2007,33(11):184-186. 被引量：4
3宋庆恒,王晓鹏.IXP425和DM642的会议电视多点控制单元硬件设计[J].单片机与嵌入式系统应用,2013,13(4):49-52. 被引量：1
4付跃文,杜利民.语音识别错误的分类分析[J].计算机应用,2005,25(2):291-293. 被引量：1
5峰生水起.EDIUS5.1在EDIUS中使用黑白遮罩[J].DV@时代,2009(12):100-101.
6凯新创达助力浙江省省委省政府[J].中国多媒体通信,2015,0(3):50-51.
7王佳毅,张丽清.基于稀疏约束判别分析的说话人识别算法[J].计算机工程,2010,36(10):206-208. 被引量：1
8杨兴江.视频中人体行为识别与理解综述[J].成都职业技术学院职教研究,2016,10(3):28-32.
9王丽晖,孟宏涛,左敏.基于Directshow的流媒体视频混合及网络传输系统[J].微计算机信息,2007(18):139-141. 被引量：4
10杨大利,徐明星,吴文虎.噪音环境下的语音识别研究[J].计算机工程与应用,2003,39(20):1-4. 被引量：8

计算机工程与应用

2003年第16期

浏览历史

内容加载中请稍等...

一种噪音环境下的基于特征口形的音频视频混合连续语音识别系统被引量：1

参考文献6

共引文献1

同被引文献3

引证文献1

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种噪音环境下的基于特征口形的音频视频混合连续语音识别系统 被引量：1

参考文献6

共引文献1

同被引文献3

引证文献1

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种噪音环境下的基于特征口形的音频视频混合连续语音识别系统被引量：1