基于压缩域特征话者识别的电视节目分类检索被引量：2

COMPRESSED FEATURE BASED TV PROGRAM CLASSIFICATION AND RETRIEVAL USING SPEAKER IDENTIFICATION

导出

摘要本文提出在压缩域上直接对MPEG音频信号进行分析,达到电视节目实时分析检索目的.算法分为三步:首先利用压缩域特征对音频信号进行分割,然后应用分层方法把分割出来的音频片段粗分成音乐、语音和其它三个基本类别;由于话者身份是语音信号中的重要检索线索,最后利用隐马尔可夫链实现了与文本无关的话者识别,并用识别出来的话者身份对语音信号和其相应的视频进行标注. In order to perform real-time TV program analysis and retrieval, this paper presents to directly deal with MPEG multimedia stream using compressed features. The algorithm consists of three steps: first the MPEG audio stream is segmented using compressed features; then the segmented clips are hierarchically coarse-grained classified into three basic classes, i.e. music, speech and others; since speaker identity is an important cue for multimedia retrieval, HMM is used to implement recognition of text-independent speaker, the identified speaker identity is used to label audio speech and corresponding video.

作者吴飞庄越挺郑科刘骏伟潘云鹤

机构地区浙江大学人工智能研究所

出处《模式识别与人工智能》 EI CSCD 北大核心 2002年第1期21-27,共7页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基金(69803009 69733030) 教育部优秀年轻教师基金高等学校骨干教师资助计划

关键词压缩域隐马尔可夫链话者识别电视节目分类检索语音信号处理计算机 Compressed Domain, Hidden Markov Model, Speaker Identification, TV Program Retrieval

分类号 TN943 [电子电信—信号与信息处理]

引文网络
相关文献

参考文献1

1吴飞,庄越挺,张引,潘云鹤.基于隐马尔可夫链的音频语义检索[J].模式识别与人工智能,2001,14(1):104-108. 被引量：10

二级参考文献1

1庄越挺,吴翌,潘云鹤.视频目录—视频结构化的一种新方法[J].模式识别与人工智能,1999,12(4):408-415. 被引量：6

共引文献9

1史迎春,王韬,周献中.基于语义的新闻视频检索研究[J].计算机工程,2004,30(16):155-157. 被引量：7
2史迎春,方鹏飞,周献中.综合利用声视特征的新闻视频结构化模型[J].计算机工程与应用,2004,40(32):99-101. 被引量：6
3向坚,吴飞,庄越挺,俞坚.非线性子空间中的运动数据编辑和风格生成[J].浙江大学学报（工学版）,2008,42(12):2049-2054.
4朱帅,李长龙,吴世跃.基于HMM的煤与瓦斯运动状态预测[J].西南民族大学学报（自然科学版）,2015,41(4):507-511.
5潘红,吴飞.基于双模态特征融合的多媒体场景识别[J].模式识别与人工智能,2002,15(4):424-428. 被引量：1
6吴飞,庄永真,潘红.基于分形布朗运动和Ada Boosting的多类音频例子识别[J].计算机研究与发展,2003,40(7):941-949. 被引量：8
7肖俊,吴飞,庄越挺,张引.基于支持向量机与细节层次的三维地形识别与检索[J].计算机辅助设计与图形学学报,2003,15(4):410-415. 被引量：5
8肖俊,庄越挺,吴飞.基于细节层次与最小生成树的三维地形识别与检索[J].软件学报,2003,14(11):1955-1963. 被引量：10
9刘春丽,陈树中,韩安奇.隐马尔科夫模型及其在面像识别中的应用[J].计算机应用与软件,2004,21(4):68-70. 被引量：5

同被引文献24

1章毓晋.图像处理和分析[M].清华大学出版社,1999,3..
2Yeo B L, et al. Retrieving and Visualizing Video. ACM Communication, 1997, 40(12): 47-52.
3Chang S F, et al. VideoQ: An Automated Content Based Video Search System Using Visual Cues. In: Proc of ACM Multimedia.Los Angeles, USA, 1997, 313-324.
4Wactlar H D, et al. Intelligent Access to Digital Video: Informedia Project. IEEE Computer, 1999, 29(6) : 46-52.
5Shermann S M, et al. Accommodation Hybrid Retrieval in a Comprehensive Video Database Management System. IEEE Trans on Multimedia, 2002, 4(2) : 146-159.
6Jing H, Zhang H J, etal. Video Segmentation with the Support of Audio Segmentation and Classifieation. In: Proe of the IEEE International Conferenee on Multimedia and Expo. New York,USA, 2000, Ⅲ : 1507-1510.
7Jain A K, et al. Shape-Based Retrieval: A Case Study with Trademark Image Databases. Pattern Recognition, 1998, 31(9):1360-1390.
8Miyahara M, et al. Mathematical Transform of (R,G,B) Color Data to Munsell (H,V,C) Color Data. In: Proc of the SPIE Conference on Visual Communications and Image Processing.San Jose, USA, 1988, 650-657.
9Gargi U, etal. Evaluation of Video Sequence Indexing and Hierarchical Video Indexing. In: Proc of the SPIE Conference on Storage and Retrival in Image and Video Databased. San Jose, USA, 1995, 1522-1530.
10VapnikV 著张学工译.统计学习的本质[M].北京:清华大学出版社,2000..

引证文献2

1史迎春,周献中,方鹏飞.综合利用形状和颜色特征的台标识别[J].模式识别与人工智能,2005,18(2):216-222. 被引量：13
2周献中,史迎春,王韬.基于HSV颜色空间加权Hu不变矩的台标识别[J].南京理工大学学报,2005,29(3):363-367. 被引量：11

二级引证文献20

1张博洋,曾向荣,刘振中.基于神经网络的静态台标识别系统设计与实现[J].计算机仿真,2009,26(1):212-215. 被引量：6
2杨强,程玉昆,马森.基于小波特征的台标识别[J].计算机应用与软件,2009,26(3):63-64. 被引量：3
3李忠海,李南南.基于自然地貌图像的无人机着陆点识别[J].计算机应用,2010,30(4):971-973. 被引量：1
4刘淑香.台标检测技术在数字电视监测中的应用[J].广播与电视技术,2012,39(7):147-148. 被引量：1
5金阳,程江华,任通,库锡树.一种基于二值图角点匹配的台标识别方法[J].电视技术,2012,36(17):15-19. 被引量：1
6于静,高飞,王沙沙,温英新.基于统计分类的台标识别相关技术研究[J].微型机与应用,2012,31(20):36-38.
7胡星火,姚剑敏,林志贤,郭太良.基于改进Chamfer匹配的台标识别[J].计算机工程,2013,39(1):195-199. 被引量：4
8侯胜伟,滕奇志,高明亮,何小海.台标的自动检测与识别[J].四川大学学报（自然科学版）,2013,50(3):522-528. 被引量：3
9李敏,高珏,吴佳家,许华虎.基于本体的多模式融合语义提取模型[J].计算机技术与发展,2013,23(9):28-31.
10李炎,杜秀华,曹俊.基于SURF算法的视频贴片广告图标的检测方法[J].实验室研究与探索,2013,32(6):77-80.

1康峰.无人机数据线—分层方法[J].国际电子研究与发展,1995(1):23-28.
2HU ShuLan.Transportation inequalities for hidden Markov chains and applications[J].Science China Mathematics,2011,54(5):1027-1042.
3胡海清,张歆奕.应用于说话人识别的AdaBoost GMM算法[J].五邑大学学报（自然科学版）,2006,20(3):36-40.
4网络、滤波、滤波器[J].电子科技文摘,2001,0(1):36-36.
5吴飞,庄越挺,张引,潘云鹤.基于隐马尔可夫链的音频语义检索[J].模式识别与人工智能,2001,14(1):104-108. 被引量：10
6庄越挺,毛祎,吴飞,潘云鹤.基于隐马尔可夫链的广播新闻分割分类[J].计算机研究与发展,2002,39(9):1057-1063. 被引量：7
7徐洪丽,钱旭,刘绍翰.一种基于隐马尔可夫链的网络入侵检测研究[J].山东农业大学学报（自然科学版）,2008,39(4):648-652.
8李伟章.交换技术演进新说第一讲交换技术综述[J].电信技术,2003(1):70-72.
9光纤端接方法比较[J].计算机网络世界,2005,14(8):10-14.
1090nm FPGA集成嵌入式SERDES[J].电子设计技术 EDN CHINA,2006,13(11):26-26.

模式识别与人工智能

2002年第1期

浏览历史

内容加载中请稍等...

基于压缩域特征话者识别的电视节目分类检索被引量：2

参考文献1

二级参考文献1

共引文献9

同被引文献24

引证文献2

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于压缩域特征话者识别的电视节目分类检索 被引量：2

参考文献1

二级参考文献1

共引文献9

同被引文献24

引证文献2

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于压缩域特征话者识别的电视节目分类检索被引量：2