基于特征分量输出概率加权的多数据流鲁棒语音识别方法被引量：2

Robust multi-stream speech recognition based on weighting the output probabilities of feature components

导出

摘要针对传统多数据流语音识别方法不考虑数据流内各特征分量受噪声影响差异的缺点,提出了一种基于特征分量输出概率加权的数据流结合新方法,分析了特征分量输出概率加权对识别的影响,并结合丢失数据技术中的边缘化(Marginalisation)模型和软判决(Soft decision)模型给出了两种具体的数据流结合方案。将所提数据流结合方案应用到复合子带语音识别系统中,实验结果表明,所提识别方法可以根据噪声环境的不同自适应地调整数据流对识别影响的大小,其性能显著优于传统的多数据流识别方法。 Traditional multi-stream fusion methods in speech recognition try to control the stream influences on the decision by weighting the stream outputs. This paper proposes a new stream fusion method which weights not only the stream outputs, but also the output probabilities of feature components. The effect of the new fusion method on stream influences on the decision is discussed and two stream fusion schemes based on the mariginalisation and soft decision models in missing data techniques are also proposed. Experimental results on hybrid sub-band speech recognizer show that the proposed approaches can adjust the stream influences adaptively and outperform the traditional multi-stream methods in various noisy environments.

作者张军韦岗余华

机构地区华南理工大学电子与信息学院

出处《声学学报》 EI CSCD 北大核心 2008年第2期102-108,共7页 Acta Acustica

基金国家自然科学青年基金(60502041) 广东省自然科学博士启动基金(05300146)资助项目

关键词语音识别系统多数据流识别方法特征分量加权概率输出鲁棒 Data flow analysis Feature extraction Hidden Markov models Probability

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献15

1Lim W, Kim N S. Feature compensation incorporating modeling error statistics. IEEE Signal Processing Letters, 2007; 14(7): 492-495
2赵蕤,王作英.语音识别中信道和噪音的联合补偿[J].声学学报,2006,31(5):466-470. 被引量：11
3Hazen T J. Visual model structures and synchrony constraints for audio-visual speech recognition. IEEE Transactions on Audio, speech and Language Processing, 2006; 14(3): 1082-1089
4谢磊,付中华,蒋冬梅,赵荣椿,Werner Verhelst,Hichem Sahli,Jan Conlenis.一种稳健的基于VisemicLDA的口形动态特征及听视觉语音识别[J].电子与信息学报,2005,27(1):64-68. 被引量：4
5徐彦君,杜利民,李国强,张欣,周治.汉语听觉视觉双模态数据库CAVSR1.0[J].声学学报,2000,25(1):42-49. 被引量：16
6Poh N, Bengio S. Why do multi-stream, multi-band and multi-modal approaches work on biometric user authentication tasks. IEEE International Conference on Acoustics, Speech, and Signal Processing, 2004; 5:893-896
7Hetherington I L, Han Shu, Glass J R. Flexible Multi-Stream Framework for Speech Recognition using Multi-Tape Finite-State Transducers. IEEE International Conference on Acoustics, Speech, and Signal Processing, 2006; 1:417-420
8Cooke M, Green P, Josifovski L, Vizinho A. Robust automatic speech recognition with missing and unreliable acoustic data. Speech Communication, 2001; 34: 267-285
9Zhang J, Kwong S, Wei G, Hong Q Y. Using Mel-frequency cepstral coefficients in missing data technique. EURASIP Journal on Applied Signal Processing, 2004; 8(1): 340-346
10Barker J P, Josifovski L, Cooke M P, Green P. Soft decisions in missing data techniques for robust automatic speech recognition. Proc.ICSLP'00, 2000; 1:373-376

二级参考文献37

1齐士钤吕士楠等.汉语综合资料库的设计[J].应用声学,1994,13(3):1-5.
2朱维彬.汉语言语数据库自动标注系统的研究.中国科学院声学研究所博士论文[M].,1998..
3林茂灿.北京话声调分布域的感知实验研究.语音研究报告[M].中国社会科学院语言研究所语音研究室,1992..
4Potamianos G, Neti C, et al.. Recent advances in the automatic recognition of audiovisual speech. Proc. IEEE, 2003, 91(9):1306- 1326.
5Cootes T F, Taylor C J, et al., Active shape models-their training and application, Computer Vision and linage Understanding,1995, 12(1): 38 - 59.
6Neti C, Potamianos G, Luettin J, et al.. Audio visual speech recognition. Final Workshop 2000 Report, Baltimore, USA, 2000:40- 41.
7Rao C R, Linear Statistical Inference and Its Applications. New York, John Wiley and Sons, 1965:122 - 128.
8Young S J, Kershaw D, Odell J, Woodland P. The HTK Book.http://htk.eng,cam.ac.uk/docs/docs.shtml, 2002.
9Dupont S, Luettin J. Audio-visual speech modeling for continuous speech recognition. IEEE Trans. on Multimedia, 2000,2(3): 141 - 151.
10朱维彬，博士学位论文，1998年

共引文献29

1洪晓鹏,姚鸿勋,徐铭辉.基于句子级的唇读语料库及其切分算法[J].计算机工程与应用,2005,41(3):174-177. 被引量：7
2张军,韦岗.噪声自适应的多数据流复合子带语音识别方法[J].电子与信息学报,2006,28(7):1183-1187. 被引量：3
3张欣,杜利民,陈柯,赵向阳.汉语语音视觉合成研究数据库CVSS1.0[J].微计算机应用,2007,28(3):260-265. 被引量：3
4李刚,王蒙军,林凌.面向残疾人的汉语可视语音数据库[J].中国生物医学工程学报,2007,26(3):355-360. 被引量：3
5王欢良,钱瑶,F.K.Soong,韩纪庆.基于声调建模的带噪汉语数字串语音识别[J].声学学报,2007,32(5):454-460. 被引量：2
6秦伟,韦岗.多数据流隐马尔可夫模型的流权值优化方法[J].计算机应用研究,2007,24(11):100-102.
7马会丽,唐红,赵国锋.电话外呼系统的研究与实现[J].计算机应用,2007,27(9):2343-2345. 被引量：5
8王智国,吴及,戴礼荣,王仁华.一种对加性噪声和信道函数联合补偿的模型估计方法[J].声学学报,2008,33(3):238-243. 被引量：5
9吕国云,赵荣椿,蒋冬梅,H．Sahli,樊养余,W．Verhelst.基于BTSM-LDA的口形动态特征及多流异步音视频语音识别[J].数据采集与处理,2008,23(4):397-403.
10奉小慧.基于改进的level set嘴唇轮廓定位方法[J].计算机应用,2009,29(1):92-94. 被引量：2

同被引文献27

1陈锴,卢晶,徐柏龄.基于话者状态检测的自适应语音分离方法的研究[J].声学学报,2006,31(3):211-216. 被引量：3
2王欢良,韩纪庆,李海峰.基于特征似然度加权和维数缩减的Robust语音端点检测[J].声学学报,2007,32(1):62-68. 被引量：7
3GUO Yanmeng FU Qiang YAN Yonghong.Speech endpoint detection in real noise environments[J].Chinese Journal of Acoustics,2007,26(1):39-48. 被引量：5
4严斌峰,朱小燕,张智江,张范.基于邻接空间的鲁棒语音识别方法[J].软件学报,2007,18(4):878-883. 被引量：5
5Elif B, Erzin E, Eroglu E C et al. Improving automatic emotion recognition from speech signals. 10th Annum Con- ference of the International Speech Communication Asso- ciation (Brighton, United kingdom, September 6-10, 2009), 2009:324- 327.
6Yang B, Lugger M. Emotion recognition from speech sig- nals using new harmony features. Signal Processing, 2010; 90(5): 1415-1423.
7Kim E H, Hyun K H, Kim S H et al. Improved emo- tion recognition with a novel speaker-independent feature. IEEE Trans. on Mechatronics, 2009; 14(3): 317-325.
8Park J S, Kim J H, Oh Y H. Feature vector classification based speech emotion recognition for service robots. IEEE Trans. on Consumer Electronics, 2009; 55(3): 1590-1596.
9Bitouk D, Verma R, Nenkova A. Class-level spectral fea- tures for emotion recognition. Speech Communication, 2010; 52(7-8): 613-625.
10Suryannarayana C, Amitava C, Sugata M. Support vector machines employing cross-correlation for emotional speech recognition. Journal of the International Measurement Confederation, 2009; 42(4): 611-618.

引证文献2

1黄永明,章国宝,董飞,李悦.层叠式“产生/判别”混合模型的语音情感识别[J].声学学报,2013,38(2):231-240. 被引量：3
2侯雷静,郭婷婷,孙燕,齐英杰,应冬文,唐闽,颜永红.面向心音分割的个性化高斯混合建模方法[J].声学学报,2019,44(1):20-27. 被引量：7

二级引证文献10

1金赟,宋鹏,郑文明,赵力.半监督判别分析的跨库语音情感识别[J].声学学报,2015,40(1):20-27. 被引量：6
2孙凌云,何博伟,刘征,杨智渊.基于语义细胞的语音情感识别[J].浙江大学学报（工学版）,2015,49(6):1001-1008. 被引量：2
3梁瑞宇,赵力,陶华伟,王青云,邹采荣.仿选择性注意机制的语音情感识别算法[J].声学学报,2016,41(4):537-544. 被引量：7
4许春冬,周静,应冬文,龙清华.基于非平稳系统辨识的心音包络自适应分割[J].计算机工程,2020,46(8):290-296.
5徐玮泽,俞凯,徐佳俊,叶菁菁,李昊旻,舒强.先天性心脏病心音听诊筛查的人工智能技术应用现状[J].浙江大学学报（医学版）,2020,49(5):548-555. 被引量：10
6申玉静,王寻,唐闽,梁金福.使用二分支卷积神经网络识别第一心音与第二心音[J].生物医学工程学杂志,2021,38(1):138-144. 被引量：3
7许春冬,辛鹏丽,周静,应冬文.基于功率谱密度与卷积神经网络的心音分类[J].计算机工程与应用,2021,57(10):125-132. 被引量：2
8柴合丹,林新然,邓慧敏,张中军.深度学习在碱基识别中的应用研究[J].周口师范学院学报,2021,38(5):55-61.
9沈伊,孙静,杨宏波,王威廉.基于突变点检测与峰值搜索的心音分割算法[J].计算机仿真,2023,40(6):268-273.
10冯正伟,全海燕.基于两级神经网络的心音分割[J].数据采集与处理,2023,38(4):849-859.

1张军,韦岗.噪声自适应的多数据流复合子带语音识别方法[J].电子与信息学报,2006,28(7):1183-1187. 被引量：3
2邓春伟,史焕卿.Lucene的最小风险概率加权朴素贝叶斯算法[J].哈尔滨理工大学学报,2012,17(1):63-67. 被引量：1
3李思奇,陈怀新.基于联合概率加权的高分辨雷达目标点迹处理[J].电讯技术,2014,54(6):780-784. 被引量：3
4王缓缓,宫娜娜.基于距离区间概率加权的RSSI测距方法[J].电子科技大学学报,2013,42(6):862-868. 被引量：12
5李海华.BGP/MPLS VPN组播链路恢复方案[J].计算机工程,2012,38(17):73-76.
6魏延,石磊,陈琳琳.基于后验概率加权的模糊支持向量机[J].重庆工学院学报（自然科学版）,2009,23(8):80-84. 被引量：3
7程伟,刘玉军,卢泽新.最佳比较序字符串匹配算法研究和应用[J].计算机工程与设计,2004,25(9):1430-1432. 被引量：5
8赵兴录.雷达数据的概率加权综合法—分布式雷达网数据综合问题研究[J].航天电子对抗,1989(4):37-41.
9徐昌庆,徐建良,楼财义.WSN中一种基于概率加权定位的目标跟踪算法[J].军事通信技术,2009,30(4):6-9. 被引量：1
10王帆.恢复计算机丢失数据技术的探讨[J].数字技术与应用,2010,28(8):153-153.

声学学报

2008年第2期

浏览历史

内容加载中请稍等...

基于特征分量输出概率加权的多数据流鲁棒语音识别方法被引量：2

参考文献15

二级参考文献37

共引文献29

同被引文献27

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于特征分量输出概率加权的多数据流鲁棒语音识别方法 被引量：2

参考文献15

二级参考文献37

共引文献29

同被引文献27

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于特征分量输出概率加权的多数据流鲁棒语音识别方法被引量：2