基于图像可听化的视听信息融合方法研究

RESEARCH ON IMAGE SONIFICATION-BASED AUDIO-VIDEO INFORMATION FUSION

下载PDF

导出

摘要在传统的视听双模态语音识别系统的研究中,经图像处理后的视觉特征往往具有数据量大、重要特征丢失等问题。针对这些问题,拟采用图像可听化技术对视频图像进行特征提取。以遗传算法优化的BP神经网络为融合模型,对视频、音频特征进行特征级融合。实验结果表明,经过图像可听化处理后视觉特征包含了一定的语音信息,在噪声环境下的识别效果比较稳定,神经网络的融合模型提高了系统的鲁棒性。 While studying the traditional speech recognition system with audio-video dual mode, we found that the visual characteristics ＂after image processing have the problems of large amount of data and important characteristics lost. Aiming at these problems, we plan to apply image sonification technology to extracting the characteristics of video image. By using BP neural network in genetic algorithm optimisation as the fusion model, we fuse the characteristics of audio and video at feature level. Experimental results show that, after being processed by the image sonification, the visual characteristics contain certain speech information, its recognition effect is stable in noise environment as well. The fusion model of neural network improves the robustness of the system.

作者彭玉青高洁梁春娟李铁军

机构地区河北工业大学计算机科学与软件学院河北工业大学机械工程学院

出处《计算机应用与软件》 CSCD 北大核心 2013年第11期76-79,共4页 Computer Applications and Software

基金国家自然科学基金项目(51175145)

关键词图像可听化视觉特征特征级融合遗传算法 BP神经网络 Image sonification, Visual characteristics, Feature-level fusion, Genetic algorithm, BP neural network

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1徐彦君,杜利民,侯自强.面向未来的交互信息技术——听觉视觉双模态语音识别(AVSR)(下)[J].电子科技导报,1999(2):11-13. 被引量：2
2田亚男,王旭.基于提升小波变换的图像可听化方法[J].东北大学学报（自然科学版）,2011,32(2):223-226. 被引量：4
3Michael S Beauchamp. See me , hear me, touch me : multisensory inte- gration in lateral occipital-temporal cortex[ J]. Science ,2005,15 : 145 - 153.
4田亚男,雷红玮,王旭.基于SVM图像分割方法的自动导盲系统[J].东北大学学报（自然科学版）,2010,31(12):1681-1684. 被引量：3
5刘鹏,王作英.多模式汉语连续语音识别中视觉特征的提取和应用[J].中文信息学报,2004,18(4):79-84. 被引量：6
6朱红斌.基于Bagging算法和遗传神经网络的交通事件检测[J].计算机应用与软件,2010,27(1):234-236. 被引量：6
7郭超,周丹晨.基于遗传神经网络的工时定额系统[J].计算机应用与软件,2010,27(8):205-208. 被引量：12
8李书全,孙雪,孙德辉,边伟朋.遗传算法中的交叉算子的述评[J].计算机工程与应用,2012,48(1):36-39. 被引量：58
9俞黎平,王晓艳,李相尧,张季平,孙心德.大鼠皮层听-视多感觉神经元和听-视信息整合[J].生物化学与生物物理进展,2006,33(7):677-684. 被引量：2

二级参考文献88

1唐晓光,徐洪江,蔡启明.工业企业劳动定额的分析与制定[J].商业研究,2004(16):72-74. 被引量：10
2徐宗本,李国.解全局优化问题的仿生类算法(I)—模拟进化算法[J].运筹学杂志,1995,14(2):1-13. 被引量：39
3王增强,曾碧.遗传算法中交叉算子的配对策略研究[J].汕头大学学报（自然科学版）,2005,20(4):55-58. 被引量：8
4姚望舒,陈兆乾,陈世福.CRGA——一种基于保留全局公共模式和约束交叉位置的遗传算法[J].计算机研究与发展,2006,43(1):81-88. 被引量：6
5梁新荣,刘智勇,孙德山,毛宗源.基于支持向量机的高速公路事件检测[J].计算机工程与应用,2006,42(14):212-213. 被引量：10
6李勇,曹广益,朱新坚.一种基于复合交叉的实数编码遗传算法[J].计算机仿真,2006,23(6):166-170. 被引量：14
7蔡良伟,李霞.遗传算法交叉操作的改进[J].系统工程与电子技术,2006,28(6):925-928. 被引量：45
8何鸣,李国正,袁捷,吴耿锋.基于主成份分析的Bagging集成学习方法[J].上海大学学报（自然科学版）,2006,12(4):415-418. 被引量：8
9刘淑红,陈进.应用神经网络辅助计算工时定额的方法研究[J].机床与液压,2007,35(1):81-83. 被引量：9
10闻珺,方国华,方正杰,丁国川.BP神经网络在洪水灾害灾情等级评价中的应用[J].水利科技与经济,2007,13(1):43-45. 被引量：10

共引文献85

1李相尧,李玲,张季平,孙心德.大鼠听-视整合的行为学表征[J].第二军医大学学报,2007,28(5):480-483.
2秦伟,韦岗.多数据流隐马尔可夫模型的流权值优化方法[J].计算机应用研究,2007,24(11):100-102.
3陈思宝,胡郁,王仁华.一种结构受限的异方差线性判别分析[J].中文信息学报,2008,22(4):94-99.
4赵晖,林成龙,唐朝京.基于视频三音子的汉语双模态语料库的建立[J].中文信息学报,2009,23(5):98-103. 被引量：6
5赵晖,顾亚强,唐朝京.双模态语音识别中乘积HMM权重系数与瞬时SNR的关系研究[J].计算机应用,2009,29(B12):279-281.
6丁华福,柴琳.基于Bagging算法和遗传BP神经网络的负荷预测[J].计算机技术与发展,2011,21(5):107-110. 被引量：5
7艾浩军,张敏,朱荣.词袋模型在盲人家居视觉辅助系统中的应用[J].武汉理工大学学报（信息与管理工程版）,2011,33(6):892-896.
8曲倩倩.混合遗传算法求解航班延误恢复调度[J].科技创新与应用,2013,3(16):28-29. 被引量：1
9戴健伟,吉华,杨岗,樊刚,王彬.基于GA_BP算法的化工设备设计人工时预测[J].计算机集成制造系统,2013,19(7):1665-1675. 被引量：12
10张志波,童中翔,王超哲,李建勋,李彬.基于Matcom动态链接库的快速数值计算方法[J].计算机工程与设计,2013,34(9):3119-3123. 被引量：1

1张靓,李铁军,宗银雪.融合视听信息的机电设备状态监测系统设计[J].仪表技术与传感器,2015(9):56-59. 被引量：5
2张丽红,方志刚,徐义东.可听化技术研究与发展趋势[J].人类工效学,2005,11(1):59-62. 被引量：6
3鲍福良,张齐叶,方志刚.股票数据的可听化研究与实现[J].计算机系统应用,2007,16(4):28-30. 被引量：1
4张建荣,张银南,方志刚.可听化技术在CAD中的应用研究[J].机电工程,2007,24(2):31-34.
5田亚男,王旭.基于提升小波变换的图像可听化方法[J].东北大学学报（自然科学版）,2011,32(2):223-226. 被引量：4
6张银南,张建荣,方志刚.CAD可听化数据映射算法及其应用研究[J].计算机工程,2007,33(9):231-234.
7方志刚,徐洁,鲍福良,张丽红.AudioMan:环境信息映射方案的设计与实现[J].人类工效学,2007,13(2):1-3. 被引量：1
8曾洪鑫,胡东波,胡志刚.文本与朗读语音共同驱动的汉语语音与口型匹配方案[J].计算机与现代化,2013(10):135-137. 被引量：1
9项定祥,王跃钢,韩心中.基于ANSYS与Pro/E间连接方法的应用研究[J].机电产品开发与创新,2006,19(6):81-83. 被引量：2
10田亚男,雷红玮,王旭.基于SVM图像分割方法的自动导盲系统[J].东北大学学报（自然科学版）,2010,31(12):1681-1684. 被引量：3

计算机应用与软件

2013年第11期

浏览历史

内容加载中请稍等...

基于图像可听化的视听信息融合方法研究

参考文献9

二级参考文献88

共引文献85

相关作者

相关机构

相关主题

浏览历史