基于隐马尔可夫链的音频语义检索被引量：10

HIDDEN MARKOVIA MODEL BASED AUDIO SEMANTIC RETRIEVAL

导出

摘要作为多媒体媒质之一的音频信号蕴涵了丰富的视觉听觉语义,但是目前多媒体检索主要利用的是视觉信息,音频信息被忽略。为了弥补这一不足,本文介绍了一个音频语义检索原型系统,在这个系统中,音频信号被分层次处理:首先分析音频信息中的短时能量、过零率和基本频率能量比等特征,音频信息流被接层次粗分为静音、和谐音乐、对话和环境背景音四类;由于环境背景音蕴涵了大量语义,环境背景音被继续细分,井用训练好的隐马尔可夫链表示每类环境背景音以进行语义检索。实验数据表明,这样的音频查询处理方式取得了良好效果。 As one component in multimedia, audio contains rich audiovisual semantic information. However, current multimedia retrieval mostly uses visual information without audio information. In this paper an audio semantic retrieval prototype system is presented, in which audio stream is hierarchically handled. First, depending on audio characteristics such as short-time energy, zero-crossing rate and fundamental frequency energy ratio, audio stream is coarsely segmented into four basic classes: silence, harmonic music, dialog and environmental sounds. Then, hidden Markov model (HMM) is used to perform fine-level segmentation for environmental sounds which have mary implied semantics. At the same time, the trained HMM is used to denote each type of environmental sound for semantic retrieval. Experimental data show this audio retrieval method works well.

作者吴飞庄越挺张引潘云鹤

机构地区浙江大学

出处《模式识别与人工智能》 EI CSCD 北大核心 2001年第1期104-108,共5页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基金教育部优秀年轻教师基金高等学校骨干教师资助计划资助项目

关键词隐马尔可夫链音频语义检索音频信号处理多媒体 Hierarchical Segmentation, Hidden Markov Model, Audio Retrieval

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献1

1庄越挺,吴翌,潘云鹤.视频目录—视频结构化的一种新方法[J].模式识别与人工智能,1999,12(4):408-415. 被引量：6

二级参考文献3

1Yong Rui，Proc IEEE Conf on Multinedia Computing and Systems，1998年，54页
2Zhuang Yueting，Proc IEEE Int Conf on Image Proc，1998年，76页
3Zhang Hongjiang，Pattern Recognition，1997年，30卷，4期，643页

共引文献5

1练益群,李金龙,汪彦龙.媒体资产管理系统中镜头切换检测方法的实现[J].广播与电视技术,2005,32(6):55-57.
2詹国华,庄越挺,吴翌.基于全局与局部特征的视频索引模型[J].计算机辅助设计与图形学学报,2000,12(12):911-916. 被引量：7
3吴翌,庄越挺,潘云鹤.视频相似度的衡量[J].计算机辅助设计与图形学学报,2001,13(3):284-288. 被引量：9
4叶朝阳,吴飞,庄越挺,陈家实.鲁棒的镜头边缘检测融合算法[J].计算机辅助设计与图形学学报,2003,15(11):1386-1392. 被引量：8
5朱爱红,李连.基于内容的视频检索关键技术研究[J].情报杂志,2004,23(1):45-47. 被引量：7

同被引文献89

1刘彦伟,刘明举,武刚生.鹤煤十矿突出前瓦斯涌出特征及预测指标的选择与应用[J].煤矿安全,2005,36(11):18-21. 被引量：6
2LUF, ZHUANG Y T, WU F, et al. 3D Motion retrieval with motion index tree [J]. Computer Vision and Image Understanding, 2003, 92(2) :265 - 284.
3XIAO J, ZHUANG Y T, WU F. Getting distinct movements from motion capture data [C]// Proceedings of CASA 2006. Geneva: Wiley, 2006:33 - 42.
4WANG Y, LIU Z Q, ZHOU L Z. Key-styling: learning motion style for real-time synthesis of 3D animation [J]. Computer Animation and Virtual Worlds, 2006, 17 ( 3 ) : 229 - 237.
5SHAPIRO A, CAO Y, FALOUTSOS P. Style components [C]//Proceedings of GI 2006. Quebec City: ACM, 2006.. 33-39.
6BRAND M, HERTZMANN A. Style machine[C]// Proceedings of SIGGRAPH 2000. New Orleans: ACM, 2000:183 - 192.
7ROSE C, BODENHEIMER R, COHEN M F. Verbs and adverbs: multidimensional motion interpolation using radial basis functions [J]. IEEE Computer Graphics and Applications, 1998, 18(5) :32 - 48.
8MARIMONT D, WANDELL B. Linear models of surface and illumination spectra [J]. Journal of Optical Society of America, 1992, 9 : 1905 - 1913,
9VASILESCU M A O, TERZOPOULOS D. Multilinear analysis of image ensembles: Tensorfaees [C] //Proceedings of ECCV 2002. Copenhagen: Springer, 2002: 447 -460.
10XIAO J, ZHUANG Y T, CHEN C, et al. Automatic synthesis and editing of motion styles [C]//Proceedings of CIDE 2006. Jinan: Shandong University, 2006: 311- 315.

引证文献10

1史迎春,王韬,周献中.基于语义的新闻视频检索研究[J].计算机工程,2004,30(16):155-157. 被引量：7
2史迎春,方鹏飞,周献中.综合利用声视特征的新闻视频结构化模型[J].计算机工程与应用,2004,40(32):99-101. 被引量：6
3向坚,吴飞,庄越挺,俞坚.非线性子空间中的运动数据编辑和风格生成[J].浙江大学学报（工学版）,2008,42(12):2049-2054.
4吴飞,庄越挺,郑科,刘骏伟,潘云鹤.基于压缩域特征话者识别的电视节目分类检索[J].模式识别与人工智能,2002,15(1):21-27. 被引量：2
5朱帅,李长龙,吴世跃.基于HMM的煤与瓦斯运动状态预测[J].西南民族大学学报（自然科学版）,2015,41(4):507-511.
6潘红,吴飞.基于双模态特征融合的多媒体场景识别[J].模式识别与人工智能,2002,15(4):424-428. 被引量：1
7吴飞,庄永真,潘红.基于分形布朗运动和Ada Boosting的多类音频例子识别[J].计算机研究与发展,2003,40(7):941-949. 被引量：8
8肖俊,吴飞,庄越挺,张引.基于支持向量机与细节层次的三维地形识别与检索[J].计算机辅助设计与图形学学报,2003,15(4):410-415. 被引量：5
9肖俊,庄越挺,吴飞.基于细节层次与最小生成树的三维地形识别与检索[J].软件学报,2003,14(11):1955-1963. 被引量：10
10刘春丽,陈树中,韩安奇.隐马尔科夫模型及其在面像识别中的应用[J].计算机应用与软件,2004,21(4):68-70. 被引量：5

二级引证文献42

1祁亨年.支持向量机及其应用研究综述[J].计算机工程,2004,30(10):6-9. 被引量：186
2陈忠克,郭振江,刘骏伟,吴飞,庄越挺.足球比赛精彩场景的自动分析与提取[J].计算机辅助设计与图形学学报,2004,16(6):856-860.
3郑伯川,彭维,张引,叶修梓,张三元.3D模型检索技术综述[J].计算机辅助设计与图形学学报,2004,16(7):873-881. 被引量：66
4潘翔,张引,张三元,叶修梓.基于子块的三维网格模型检索[J].浙江大学学报（工学版）,2004,38(12):1575-1578. 被引量：4
5毛祎,潘红,吴飞,庄越挺.基于深度加权法向映射的三维模型检索[J].计算机辅助设计与图形学学报,2005,17(2):247-252. 被引量：5
6史迎春,周献中,方鹏飞.综合利用形状和颜色特征的台标识别[J].模式识别与人工智能,2005,18(2):216-222. 被引量：13
7周献中,史迎春,王韬.基于HSV颜色空间加权Hu不变矩的台标识别[J].南京理工大学学报,2005,29(3):363-367. 被引量：11
8王若恩,陈锦昌.一类分形曲线的构造算法及维数[J].工程图学学报,2005,26(5):105-109. 被引量：2
9董乐红,耿国华,高原.Boosting算法综述[J].计算机应用与软件,2006,23(8):27-29. 被引量：26
10刘小明,尹建伟,冯志林,董金祥.基于适应加权非对称AdaBoost HMM的三维模型分类算法[J].浙江大学学报（工学版）,2006,40(8):1300-1305. 被引量：4

1王文宏.跳频源的研究[J].通信与计算技术,2000(2):6-11.
2HU ShuLan.Transportation inequalities for hidden Markov chains and applications[J].Science China Mathematics,2011,54(5):1027-1042.
3网络、滤波、滤波器[J].电子科技文摘,2001,0(1):36-36.
4吴飞,庄越挺,郑科,刘骏伟,潘云鹤.基于压缩域特征话者识别的电视节目分类检索[J].模式识别与人工智能,2002,15(1):21-27. 被引量：2
5庄越挺,毛祎,吴飞,潘云鹤.基于隐马尔可夫链的广播新闻分割分类[J].计算机研究与发展,2002,39(9):1057-1063. 被引量：7
6孙再吉.三菱电机工程师在高频电路设计中力推X参数[J].半导体信息,2010,0(1):8-8.
7徐洪丽,钱旭,刘绍翰.一种基于隐马尔可夫链的网络入侵检测研究[J].山东农业大学学报（自然科学版）,2008,39(4):648-652.
8凌波微步.视觉听觉双重震撼——Marantz AV7701 AV前级放大器[J].视听前线,2013(5):48-51.
9刘晓晖,范勋,李少谦.超高速跳频频率合成器的设计[J].电子科技大学学报,2003,32(5):541-545. 被引量：2
10庾晋,白木,周洁.多媒体通信技术的重要应用[J].电力系统通信,2001,22(12):17-21. 被引量：8

模式识别与人工智能

2001年第1期

浏览历史

内容加载中请稍等...

基于隐马尔可夫链的音频语义检索被引量：10

参考文献1

二级参考文献3

共引文献5

同被引文献89

引证文献10

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于隐马尔可夫链的音频语义检索 被引量：10

参考文献1

二级参考文献3

共引文献5

同被引文献89

引证文献10

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于隐马尔可夫链的音频语义检索被引量：10