基于动态贝叶斯网络的音视频联合说话人跟踪被引量：7

Audio-visual Speaker Tracking Based on Dynamic Bayesian Network

下载PDF

导出

摘要将多传感器信息融合技术用于说话人跟踪问题,提出了一种基于动态贝叶斯网络的音视频联合说话人跟踪方法.在动态贝叶斯网络中,该方法分别采用麦克风阵列声源定位、人脸肤色检测以及音视频互信息最大化三种感知方式获取与说话人位置相关的量测信息;然后采用粒子滤波对这些信息进行融合,通过贝叶斯推理实现说话人的有效跟踪;并运用信息熵理论对三种感知方式进行动态管理,以提高跟踪系统的整体性能.实验结果验证了本文方法的有效性. Multi-sensor data fusion technique is applied to speaker tracking problem, and a novel audio-visual speaker tracking approach based on dynamic Bayesian network is proposed. Based on the complementarity and redundancy between speech and image of a speaker, three kinds of perception methods, including sound source localization based on microphone array, face detection based on skin color information, and maximization mutual information based on audio-visual synchronization, are proposed to acquire the tracking information. In the framework of dynamic Bayesian network, particle filtering is used to fuse the tracking information, and perception management is achieved to improve the tracking efficiency by information entropy theory. Experiments using real-world data demonstrate that the proposed method can robustly track the speaker even in the presence of perturbing factors such as high room reverberation and video occlusions.

作者金乃高殷福亮陈喆

机构地区大连理工大学电子与信息工程学院

出处《自动化学报》 EI CSCD 北大核心 2008年第9期1083-1089,共7页 Acta Automatica Sinica

基金国家自然科学基金(60772161 60372082)资助~~

关键词说话人跟踪动态贝叶斯网络粒子滤波麦克风阵列 Speaker tracking, dynamic Bayesian network, particle filter, microphone array

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1Cheng C, Ansari R. Kernel particle filter for visual tracking. IEEE Signal Processing Letters, 2005, 12(3): 242-245.
2Smaragdis P, Boufounos P. Position and trajectory learning for microphone arrays. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(1): 358-368.
3Wang C, Griebel S, Brandstein M, Hsu B. Real-time automated video and audio capture with multiple cameras and microphones. Journal of VL SI Signal Processing Systems, 2001, 29(1-2): 81-99.
4Wilson K, Rangarajan V, Checka N, Darrell T. Audiovisual arrays for untethered spoken interfaces. In: Proceedings of the 4th IEEE International Conference on Multimodal Interfaces. Pittsburg, USA: IEEE, 2002. 389-394.
5Wrigley S N, Brown G J. Physiologically motivated audiovisual localization and tracking. In: Proceedings of the 9th European Conference on Speech Communication and Technology. Lisbon, Portugal: Interspeech, 2005. 773-776.
6Vermaak J, Gangnet M, Blake A, Perez P. Sequential Monte Carlo fusion of sound and vision for speaker tracking. In: Proceedings of the 8th IEEE International Conference on Computer Vision. Vancouver, Canada: IEEE, 2001. 741-746.
7Lo D, Goubran R A, Dansereau R M. Robust joint audiovideo talker localization in video conferencing using reliability information-Ⅱ: Bayesian network fusion. IEEE Transactions on Instrumentation and Measurement, 2005, 54(4): 1541-1547.
8Huang J, Ohnishi N, Sugie N. Sound localization in reverberant environment based on the model of the precedence effect. IEEE Transactions on Instrumentation and Measurement, 1997, 46(4): 842-846.
9Chen J D, Benesty J, Huang Y T. Time delay estimation in room acoustic environments: an overview. EURASIP Journal on Applied Signed Processing, 2006, 2006(12): 1-19.
10Fashing M, Tomasi C. Mean shift is a bound optimization. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(3): 471-474.

二级参考文献5

1丁晓青,吴佑寿.模式识别统一熵理论[J].电子学报,1993,21(8):1-8. 被引量：12
2Liu Xianxing，Chin J Aeronaut，2000年，13卷，1期
3David A，IEEE Trans S M C，1995年，25卷，7期，1130页
4聂伟,王祁,孙圣和.分布式多传感器检测系统时间序列数据融合算法研究[J].控制理论与应用,1999,16(2):262-264. 被引量：4
5王宏强,孙即祥,王晓华.基于小波变换和数据融合的多导联ECG信号QRS波群精确检测算法[J].国防科技大学学报,1999,21(4):87-90. 被引量：15

共引文献50

1韩晓明,杜长龙,张永忠,翟继涛.基于信息融合的机械故障诊断技术研究[J].煤炭科学技术,2007,35(3):86-89. 被引量：2
2徐小琴.多传感器数据融合目标识别算法综述[J].红外与激光工程,2006,35(z4):321-328. 被引量：13
3胡文华,宋小全.干扰条件下防空情报雷达组网管控模型研究[J].飞行器测控学报,2010,29(2):91-94.
4周林,刘先省.基于新定义信息熵的目标检测算法[J].信息与控制,2005,34(1):119-122. 被引量：8
5余吉生.以改革为动力促进职业教育的机制创新[J].中国农村教育,2005(6):20-21.
6赵春阳,逄玉俊.基于信息熵的多传感器信息融合[J].计算机与数字工程,2005,33(8):77-79. 被引量：2
7刘先省,周林,杜晓玉.基于目标权重和信息增量的传感器管理方法[J].电子学报,2005,33(9):1683-1687. 被引量：32
8曲阳,徐林,王建辉,顾树生.基于信息博弈的多源信息融合方法[J].东南大学学报（自然科学版）,2005,35(A02):10-14. 被引量：6
9段晓君.试验鉴定中信息的量化评估模型[J].飞行器测控学报,2005,24(6):54-58.
10卢晓莉,罗键.信息融合熵在机械故障诊断中的应用[J].厦门大学学报（自然科学版）,2006,45(1):39-43. 被引量：2

同被引文献105

1胡士强,敬忠良.粒子滤波算法综述[J].控制与决策,2005,20(4):361-365. 被引量：293
2史建国,高晓光.离散动态贝叶斯网络的直接计算推理算法[J].系统工程与电子技术,2005,27(9):1626-1630. 被引量：36
3郝志成,朱明.智能目标检测与跟踪系统的设计与实现[J].光电工程,2007,34(1):27-31. 被引量：16
4高晓光,史建国.变结构离散动态贝叶斯网络及其推理算法[J].系统工程学报,2007,22(1):9-14. 被引量：22
5马加庆,韩崇昭.一类基于信息融合的粒子滤波跟踪算法[J].光电工程,2007,34(4):22-25. 被引量：15
6刘晓辉,陈小平.基于扩展卡尔曼滤波的主动视觉跟踪技术[J].计算机辅助工程,2007,16(2):32-37. 被引量：10
7VERMAAK J, BLAKE A. Nonlinear filtering for speaker tracking in noisy and reverberant environments[C]. Salt Lake City: IEEE International Conference On Acoustics speech and signal processing (ICASSP), 2001: 3021-3024.
8KUHNE M, TOGNERI R, NORDHOLM S.Robust source localization in reverberant environment based on weighted fuzzy clustering[J]. IEEE signal processing letters, 2009, 16(2): 85-88.
9VALIN J M, MICHADD F, ROUAT J R.Localization and tracking of simultaneous moving sound sources using beam forming and particle filtering [J].Robotics and Autonomous Systems, 2007, 55: 216-228.
10SKI B G. Computer visions face tracking as a component of a perceptual user interface[C]. In Proc. Workshop Applications Computer Vision, 1998: 214-219.

引证文献7

1曹洁,李延林.基于信息融合的运动目标跟踪算法[J].电子测量与仪器学报,2011,25(3):211-217. 被引量：14
2高晓光,陈海洋,史建国.变结构动态贝叶斯网络的机制研究[J].自动化学报,2011,37(12):1435-1444. 被引量：20
3曹洁,郑景润.音视频信息融合的说话人跟踪算法研究[J].计算机工程与应用,2012,48(13):118-124. 被引量：1
4曹洁,何裔玺.基于DSP的说话人定位跟踪系统的设计[J].计算机工程与应用,2013,49(1):163-166. 被引量：1
5李白燕,李平.目标跟踪中目标匹配的特征融合算法研究[J].电子设计工程,2013,21(12):102-104. 被引量：1
6郭志高,高晓光,邸若海.小数据集条件下基于双重约束的BN参数学习[J].自动化学报,2014,40(7):1509-1516. 被引量：7
7杨宇,高晓光,郭志高.小数据集条件下基于数据再利用的BN参数学习[J].自动化学报,2015,41(12):2058-2071. 被引量：7

二级引证文献50

1陈海洋,高晓光,段晓稳.改进的前向信息修补算法及其应用[J].火力与指挥控制,2012,37(2):199-203.
2董蓉,李勃,陈启美.基于局部不变特征点数据集的目标跟踪算法[J].仪器仪表学报,2012,33(9):2053-2060. 被引量：10
3康泰钟,钟麦英,李建利.基于时间双向解算融合的POS事后处理算法[J].仪器仪表学报,2012,33(9):2067-2072. 被引量：5
4万琴,王耀南,余洪山,林国汉.基于属性关系图优化匹配的多运动目标跟踪[J].仪器仪表学报,2013,34(3):608-613. 被引量：9
5张旭东,李文龙,胡良梅,叶子瑞.基于PMD相机的特征跟踪位姿测量方法[J].电子测量与仪器学报,2013,27(7):640-646. 被引量：20
6朱珺.一种基于信息融合的空间目标高精度定轨方法[J].电子测量技术,2013,36(9):41-44. 被引量：6
7张宇,曹建峰,谢剑锋,陈明,段建锋.基于地基无线电测量的月面目标精确定位技术研究[J].电子测量与仪器学报,2013,27(10):907-915. 被引量：14
8葛顺,夏学知.用于战术意图识别的动态序列贝叶斯网络[J].系统工程与电子技术,2014,36(1):76-83. 被引量：29
9张宇,谢剑锋,王健,陈明,段成林.先验模型在载人飞船轨道返回泄压中的应用[J].载人航天,2014,20(1):37-42.
10张利,秦海春,王文彬,金爱民,王锦波,张帅,李飞.超声波与航迹推算融合的智能轮椅定位方法[J].电子测量与仪器学报,2014,28(1):62-68. 被引量：20

1田广利,程洁,马颖,胡明,刘磊.联合音视频中的跟踪技术研究[J].网络安全技术与应用,2015(4):80-80.
2曹洁,李军,李伟,吴迪.基于自适应有限差分粒子滤波的说话人跟踪[J].兰州理工大学学报,2012,38(5):93-97. 被引量：3
3李军,曹洁,李伟.噪声相关情况下说话人跟踪方法[J].计算机辅助设计与图形学学报,2014,26(12):2251-2257. 被引量：1
4金乃高,殷福亮.量子进化粒子滤波算法及其在说话人跟踪中的应用[J].信号处理,2008,24(6):982-987. 被引量：4
5蒋浩然,陈军,王虎,雷王利,袁池.移动机器人自动导航技术研究进展[J].西北农林科技大学学报（自然科学版）,2011,39(12):207-213. 被引量：25
6魏莎莎,陆慧娟,安春霖,郑恩辉,金伟.一种基于互信息最大化的模型无关基因选择方法[J].计算机科学,2014,41(9):243-247. 被引量：7
7侯代文,殷福亮,陈喆.基于sigma点H∞滤波的说话人跟踪方法[J].信号处理,2009,25(3):374-378. 被引量：9
8曹洁,李伟,李军,王进花.强噪声背景下鲁棒的说话人跟踪[J].华中科技大学学报（自然科学版）,2015,43(S1):363-366. 被引量：4
9姚建,赵勋杰.结合肤色模型和Adaboost算法的人脸检测[J].苏州大学学报（自然科学版）,2009,25(3):63-67. 被引量：4
10曹洁,李伟.一种改进的粒子滤波算法及其在说话人跟踪中的应用[J].小型微型计算机系统,2012,33(3):664-668. 被引量：3

自动化学报

2008年第9期

浏览历史

内容加载中请稍等...

基于动态贝叶斯网络的音视频联合说话人跟踪被引量：7

参考文献15

二级参考文献5

共引文献50

同被引文献105

引证文献7

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

基于动态贝叶斯网络的音视频联合说话人跟踪 被引量：7

参考文献15

二级参考文献5

共引文献50

同被引文献105

引证文献7

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

基于动态贝叶斯网络的音视频联合说话人跟踪被引量：7