基于多流多状态动态贝叶斯网络的音视频连续语音识别被引量：1

DBN Based Multi-stream Multi-states Model for Continue Audio-Visual Speech Recognition

下载PDF

导出

摘要语音和唇部运动的异步性是多模态融合语音识别的关键问题,该文首先引入一个多流异步动态贝叶斯网络(MS-ADBN)模型,在词的级别上描述了音频流和视频流的异步性,音视频流都采用了词-音素的层次结构。而多流多状态异步DBN(MM-ADBN)模型是MS-ADBN模型的扩展,音视频流都采用了词-音素-状态的层次结构。本质上,MS-ADBN是一个整词模型,而MM-ADBN模型是一个音素模型,适用于大词汇量连续语音识别。实验结果表明:基于连续音视频数据库,在纯净语音环境下,MM-ADBN比MS-ADBN模型和多流HMM识别率分别提高35.91%和9.97%。 Asynchrony of speech and lip motion is a key issue of multi-model fusion Audio-Visual Speech Recognition （AVSR）. In this paper, a Multi-Stream Asynchrony Dynamic Bayesian Network （MS-ADBN） model is introduced, which looses the asynchrony of audio and visual streams to the word level, and both in audio stream and in visual stream, word-phone topology structure is used. However, Multi-stream Multi-states Asynchrony DBN （MM-ADBN） model is an augmentation of Multi-Stream DBN （MS-ADBN） model, is proposed for large vocabulary AVSR, which adopts word-phone-state topology structure in both audio stream and visual stream. In essential, MS-ADBN model is a word model, and while MM-ADBN model is a phone model whose recognition basic units are phones. The experiments are done on small vocabulary and large vocabulary audio-visual database, the results show that： for large vocabulary audio-visual database, comparing with MS-ADBN model and MSHMM, in clean speech environment, the improvements of 35.91 and 9.97% are obtained for MM-ADBN model respectively, which show the asynchrony description is important for AVSR systems.

作者吕国云蒋冬梅张艳宁赵荣椿 H Sahli Ilse Ravyse W Verhelst

机构地区西北工业大学计算机学院布鲁塞尔自由大学电子与信息处理系

出处《电子与信息学报》 EI CSCD 北大核心 2008年第12期2906-2911,共6页 Journal of Electronics & Information Technology

基金中国科技部与比利时弗拉芒大区科技合作项目([2004]487) 西北工业大学英才培养计划项目(04XD0102)资助课题

关键词语音识别动态贝叶斯网络音视频多流异步 Speech recognition Dynamic Bayesian Network （DBN） Audio-visual Multi-stream asynchrony

分类号 TP391.42 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Dupont S and Luettin J. Audio-visual speech modeling for continuous speech recognition. IEEE Trans. on Multimedia, 2000, 2(3): 141-151.
2Potamianos G, and Neti C, et al.. Recent advances in the automatic recognition of audiovisual speech. Proc. IEEE, 2003, 91(9): 1306-1326.
3Nefian A, Liang L, and Pi X, et al.. Dynamic Bayesian networks for audio-visual speech recognition. EURASIP, Journal on Applied Signal Processing, 2002, 2002(11): 1274-1288.
4Bilmes J and Zweig G. The graphical models toolkit: An open source software system for speech and time-series processing. In Proc. IEEE Intl. Conf. Acoustics, Speech, and Signal Processing, Orlando, USA, 2002, 4: 3916-3919.
5Gowdy J N, Subramanya A, and Bartels C, et al.. DBN-based multistream models for audio-visual speech recognition. In Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing, Philadelphia, USA, May 2004, 1: 993-996.
6Bilmes J and Bartels C. Graphical model architectures for speech recognition. IEEE Signal Processing Magazine, 2005, 22(5): 89-100.
7Ravyse Ilse, Jiang D M, and Jiang X Y, et al.. DBN based models for andio-visual speech analysis and recognition. 2006 Pacific-Rim Conference on Multimedia (PCM 2006), Hangzhou, China, Nov 2-4, 2006: 19-30.
8Lu Guoyun, Jiang Dongmei, and Sahli H, et al.. A novel DBN model for large vocabulary continuous speech recognition and phone segmentation. International Conference on Artificial Intelligence and Pattern Recognition (AIPR-07), Orlando, Florida, USA, July 2007: 397-402.

同被引文献8

1王双成,苑森淼.具有丢失数据的贝叶斯网络结构学习研究[J].软件学报,2004,15(7):1042-1048. 被引量：62
2Friedman N, Murphy K, Russell S. Learning the structure of dynamic probabilistic networks[C]. Proc of the 14th Int Conf on Uncertainty in Artificial Intelligence. Madison, 1998: 139-147.
3Laurence L S, Marc S. Recognition of degraded characters using dynamic Bayesian networks[J]. Pattern Recognition, 2008, 41(10): 3092,3103.
4Penaa J M, Bjorkegrenb J, Tegner J. Learning dynamic Bayesian network models via cross-validation[J]. Pattern Recognition Letters, 2005, 26(14): 2295-2308.
5Lahdesmaki H, Shmulevich I. Learning the structure of dynamic Bayesian networks from time series and steady state measurements[J]. Machine Learning, 2008, 71(2/3): 185-217.
6Geman S, Geman D. Stochastic relaxation, Gibbs distributions and the Bayesian restoration of images[J].IEEE Trans on Pattern Analysis and Machine Intelligence, 1984, 6(6): 721-742.
7Lam W, Bacchus E Learning Bayesian belief networks: An approach based on the MDL principle[J]. Computational Intelligence, 1994, 10(4): 269-293.
8杜友田,陈峰,徐文立.基于多层动态贝叶斯网络的人的行为多尺度分析及识别方法[J].自动化学报,2009,35(3):225-232. 被引量：23

引证文献1

1王双成,王辉,许广林.具有传递变量的动态贝叶斯网络结构学习[J].控制与决策,2010,25(11):1737-1741. 被引量：3

二级引证文献3

1邸若海,高晓光.基于限制型粒子群优化的贝叶斯网络结构学习[J].系统工程与电子技术,2011,33(11):2423-2427. 被引量：13
2刘扬.贝叶斯网络结构粒子群优化学习算法[J].厦门理工学院学报,2014,22(5):46-50. 被引量：3
3吴胜昔,陈诚,徐金梦,顾幸生.一种显著误差检测方法在动态数据校正中的应用[J].华东理工大学学报（自然科学版）,2018,44(1):82-89. 被引量：2

1吕国云,赵荣椿,蒋冬梅,H．Sahli,樊养余,W．Verhelst.基于BTSM-LDA的口形动态特征及多流异步音视频语音识别[J].数据采集与处理,2008,23(4):397-403.
2吕国云,赵荣椿,张艳宁,樊养余,Sahli Hichem.基于三音素动态贝叶斯网络模型的大词汇量连续语音识别[J].数据采集与处理,2009,24(1):1-6. 被引量：3
3孙磊,杨星,马自堂.云环境下基于BN模型的虚拟机安全部署模型[J].计算机科学,2013,40(3):210-214. 被引量：2
4吕国云,蒋冬梅,赵荣椿,张艳宁,H Sahli,蒋晓悦.基于多流动态贝叶斯网络的音视频连续语音识别[J].西北工业大学学报,2008,26(4):518-523.
5班阳阳,张劲东,陈家瑞,邱晓燕.后向投影成像算法的GPU优化方法研究[J].雷达科学与技术,2014,12(6):659-665. 被引量：9
6杨凤芹,孙吉贵,张长胜,张长海.大词汇量连续语音识别中搜索空间的表示及相关搜索方法的研究进展[J].计算机科学,2008,35(2):191-195. 被引量：2
7姑丽加玛丽.麦麦提艾力,艾斯卡尔.肉孜,艾斯卡尔.艾木都拉.三音素模型的维吾尔语最佳文本选取算法[J].计算机工程与应用,2009,45(18):242-244. 被引量：5
8张卫强,宋贝利,蔡猛,刘加.基于音素后验概率的样例语音关键词检测方法[J].天津大学学报（自然科学与工程技术版）,2015,48(9):757-760. 被引量：3
9吕国云,蒋冬梅,樊养余,赵荣椿,H．Sahli,W．Vlerhelst.基于多流三音素DBN模型的音视频语音识别和音素切分[J].电子与信息学报,2009,31(2):297-301.
10吕国云,蒋冬梅,张艳宁,赵荣椿,Hichem Sahli.基于动态贝叶斯网络的大词汇量连续语音识别和音素切分研究[J].西北工业大学学报,2008,26(2):173-178. 被引量：1

电子与信息学报

2008年第12期

浏览历史

内容加载中请稍等...

基于多流多状态动态贝叶斯网络的音视频连续语音识别被引量：1

参考文献8

同被引文献8

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于多流多状态动态贝叶斯网络的音视频连续语音识别 被引量：1

参考文献8

同被引文献8

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于多流多状态动态贝叶斯网络的音视频连续语音识别被引量：1