一种基于内容的音频流二级分割方法被引量：7

A Two-Stage Content-Based Audio Segmentation Algorithm

下载PDF

导出

摘要基于内容的音频流分割是多媒体数据分析领域中的一个十分重要和困难的问题.目前大多数传统的音频流分割方法是基于小尺度音频分类的,但是这类分割方法普遍存在虚假分割点过多的缺点,严重影响了实际应用的效果.作者的研究表明,大尺度音频片段的分类正确率要明显高于小尺度音频片段的分类正确率,并且这个趋势与分类器选择无关.基于这个事实和减少虚假分割点的目的,作者提出了一种新的音频流分割方法.首先,采用基于大尺度音频分类的分割方法对音频流进行粗分割,以减少虚假分割点;然后定义了分割点评价函数,并利用它在边界区域中进一步精确定位分割点.实验结果表明这种音频流分割方法可以比较精确地获取分割点位置,同时将虚假分割点减少到传统方法的四分之一. Content-based audio segmentation plays an important role in multimedia applications.In order to segm audio classificat ent accurately and on-line, most conventional algorithms are based on small scale and always result in a high false segmentation rate. The authors＇experimental results show that large-scale audio can be more easily classified than small ones, and this trend is irrespective of classifiers. According to this fact, this paper presents a novel framework for audio segmentation to reduce the false segmentations. First, a rough segmentation step based on largescale audio classification is taken to ensure the integrality of the content of audio segments, which can avoid the consecutive audio belonging to the same kind being segmented into different pieces.Then a subtle segmentation step based on segmentation point evaluation function is taken to further locate the segmentation points for the boundary areas computed by the rough segmentation step. Experimental results show that nearly 3/4 false segmentation points can be reduced comparing to the conventional audio segmentation method based on small-scale audio classification, while preserving a low missing rate.

作者张一彬周杰边肇祺张大鹏

机构地区清华大学自动化系香港理工大学计算学系

出处《计算机学报》 EI CSCD 北大核心 2006年第3期457-465,共9页 Chinese Journal of Computers

基金国家自然科学基金(60573060 60205002 60332010 60372020) 北京市自然科学基金(4042020)资助.

关键词音频分类音频流分割分割点评价函数虚假分割神经网络 audio classification audio segmentation segmentation point evaluation function false segmentation neural network

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1Chou W.,Gu L..Robust singing detection in speech/music discriminator design.In:Proceedings of the IEEE ICASSP,Salt Lake City,USA,2001,2:865～868
2Ajmera J.,Mccowan I.A.,Bourlard H..Robust HMM-based speech/music segmentation.In:Proceedings of the IEEE ICASSP,Orlando,USA,2002,1:297～300
3Sundaram H.,Chang S.F..Audio scene segmentation using multiple features,models and time scales.In:Proceedings of the IEEE ICASSP,Istanbul,Turkey,2000,4:2441～2444
4Foote J..Automatic audio segmentation using a measure of audio novelty.In:Proceedings of the IEEE Multimedia and Expo,New York,USA,2000,1:452～455
5Kemp T.,Schmidt M.,Waibel A..Strategies for automatic segmentation of audio data.In:Proceedings of the IEEE ICASSP,Istanbul,Turkey,2000,3:1423～1426
6Zhang T.,Kuo C.J..Audio content analysis for online audiovisual data segmentation and classification.IEEE Transactions on Speech and Audio Processing,2000,9(4):441～457
7Lu L.,Zhang H.J.,Jiang H..Content analysis for audio classification and segmentation.IEEE Transactions on Speech and Audio Processing,2002,10(7):504～516
8Bobrek M.,Koch D.B..Music signal segmentation using tree-structured filter banks.Journal of the Audio Engineering Society,1998,46(5):412～427
9Zhang Y.B.,Zhou J..A study on content-based music classification.In:Proceedings of the 7th IEEE International Symposium on Signal Processing and Its Applications,Paris,France,2003,2:113～116
10Li D.G.,Sethi I.K.,Dimitrova N.,Mcgee T..Classification of general audio data for content-based retrieval.Pattern Recognition Letters,2001,22(5):533～544

同被引文献68

1王清亮,常青,薛向阳.音频信息检索综述[J].计算机科学,2004,31(6):59-63. 被引量：3
2柳群英.基于内容的音频信息检索技术[J].现代情报,2005,25(6):91-93. 被引量：7
3白亮,老松杨,陈剑赟,吴玲达.音频自动分类中的特征分析和抽取[J].小型微型计算机系统,2005,26(11):2029-2034. 被引量：13
4朱志宇,张冰,刘维亭.基于模糊支持向量机的语音识别方法[J].计算机工程,2006,32(2):180-182. 被引量：12
5李宏松,苏健民,黄英来,于慧伶.基于声音信号的特征提取方法的研究[J].信息技术,2006,30(1):91-94. 被引量：25
6杨艺,李建勋,柯熙政.小波方差在信号特征提取中的应用[J].传感器世界,2006,12(1):33-35. 被引量：11
7罗骏,欧智坚.一种高效的语音关键词检索系统[J].通信学报,2006,27(2):113-118. 被引量：9
8叶振兴,蔡莲红.一种基于决策树模型的音库构建和基元选取方法[J].计算机工程,2006,32(10):189-190. 被引量：3
9张世磊,张树武,徐波.一种两层次无监督的音频分割算法[J].中文信息学报,2007,21(2):106-111. 被引量：5
10Cheng S S, Wang H M. A sequential metric-based audio segmentation method via the Bayesian information eriterion [C] //Proceedings of Eurospeech, Geneva, 2003: 945-948.

引证文献7

1万旺根,常辽豫,余小清,崔滨,刘晗.音频信息检索研究现状与发展趋势[J].上海大学学报（自然科学版）,2007,13(4):363-370. 被引量：3
2朱映映,明仲,周景洲.一种面向基于内容视频检索的音频场景分割方法[J].小型微型计算机系统,2008,29(3):557-562.
3王天江,陈刚,刘芳.一种按节拍动态分帧的歌曲有歌唱部分检测新方法[J].小型微型计算机系统,2009,30(8):1561-1564. 被引量：2
4于俊清,胡小强,孙凯.改进的音频混合分割方法[J].计算机辅助设计与图形学学报,2010,22(7):1174-1181. 被引量：4
5郑继明,张萍.改进的BIC说话人分割算法[J].计算机工程,2010,36(17):240-242. 被引量：7
6刘毅志,唐胜,王向东,林守勋,张勇东.融合音频单词与视觉特征的成人视频检测[J].中国图象图形学报,2012,17(7):791-797.
7赵小蕾,赵慧青.说话人功能性副语音自动检测算法[J].智能计算机与应用,2015,5(1):73-76. 被引量：1

二级引证文献15

1曹月芹.动态文本流中的话题线索检测算法[J].计算机工程,2011,37(24):45-49.
2陈雪芳,杨继臣.一种三层判决的说话人索引算法[J].计算机工程,2012,38(2):184-185. 被引量：1
3张建华,汪鑫.基于内容音频检索综述[J].商情,2012(2):215-217. 被引量：2
4陈珊.国内多媒体信息检索研究进展[J].清远职业技术学院学报,2013,6(1):69-73. 被引量：2
5马勇,鲍长春.说话人分割聚类研究进展[J].信号处理,2013,29(9):1190-1199. 被引量：7
6赵小蕾,毛启容,詹永照.融合功能性副语言的语音情感识别新方法[J].计算机科学与探索,2014,8(2):186-199. 被引量：5
7赵小蕾,赵慧青.说话人功能性副语音自动检测算法[J].智能计算机与应用,2015,5(1):73-76. 被引量：1
8冷娇娇,赵彤洲,方晖,李翔,李碧.基于方差稳定性度量的乐器音频分割算法[J].计算机工程与设计,2016,37(3):768-772. 被引量：4
9陈国艳,张颖,梁德群.基于BIC准则的图像分割算法[J].辽宁工程技术大学学报（自然科学版）,2016,35(11):1359-1362. 被引量：1
10吕兰兰.基于MFCC特征聚类变换的歌曲中歌声的识别[J].电脑知识与技术,2016,0(11):170-171.

1沈乐君,程小平.音频流分割和多模式控制的设计与实现[J].西南师范大学学报（自然科学版）,2004,29(6):942-944.
2张一彬,周杰,边肇祺,张大鹏.一种新的基于分类的音频流分割方法[J].电子学报,2006,34(4):612-617. 被引量：10
3刘洪涛,沈乐君.实时音频流分割与控制系统[J].重庆教育学院学报,2004,17(3):26-29.
4杨洪余.基于稀疏编码器与集成学习的文本分类[J].科技创新与应用,2017,7(6):104-105. 被引量：1
5郝红卫,陈志强.一种新的启发式分类器选择方法[J].计算机工程,2008,34(2):206-208. 被引量：1
6陈念,沈佐民,王汝传.分类器选择的IDS系统入侵检测方法[J].计算机工程与设计,2011,32(4):1280-1283.
7胡钟山,刘宁钟,韩宏,杨静宁.基于分类器性能的分类器选择算法[J].模式识别与人工智能,1999,12(4):455-460. 被引量：2
8李勇.一种基于投票的不平衡数据分类集成算法[J].科学技术与工程,2014,22(21):275-279. 被引量：3
9郭红玲,程显毅.多分类器选择集成方法[J].计算机工程与应用,2009,45(13):186-187. 被引量：7
10吕萍,颜永红.广播新闻语料识别中的自动分段和分类算法[J].电子与信息学报,2006,28(12):2292-2295. 被引量：2

计算机学报

2006年第3期

浏览历史

内容加载中请稍等...

一种基于内容的音频流二级分割方法被引量：7

参考文献13

同被引文献68

引证文献7

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

一种基于内容的音频流二级分割方法 被引量：7

参考文献13

同被引文献68

引证文献7

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

一种基于内容的音频流二级分割方法被引量：7