有效的基于内容的音频特征提取方法被引量：6

New effective method on content based audio feature extraction

下载PDF

导出

摘要音频特征提取是音频分类的基础,好的特征将会有效提高分类精度。在提取频域特征Mel频率倒谱系数(MFCC)的同时,对每一帧信号做离散小波变换,提取小波域特征,把频域和小波域特征相结合计算其统计特征。通过SVM模型建立音频模板,对纯语音、音乐及带背景音乐的语音进行分类识别,取得了较高的识别精度。 Feature extraction is the foundation of the audio classification,and good features will enhance the classification accuracy effectively.In this paper,Mel-frequency cepstrum coefficients are extracted from frequency domain of audio.At the same time, features are extracted from wavelet domain after discrete wavelet transform is done for each frame of the audio.Then the features from the frequency domain and wavelet domain are combined to calculate the statistical features.Finally,audio template is established according to the Support Vector Machine （SVM）,and it is classified and identified into speech,music and speech with music.Tests show that the method gets comparatively high identification accuracy.

作者郑继明魏国华吴渝

机构地区重庆邮电大学应用数学研究所重庆邮电大学计算机科学与技术学院

出处《计算机工程与应用》 CSCD 北大核心 2009年第12期131-133,137,共4页 Computer Engineering and Applications

基金重庆市教委科学技术项目No.KJ080524~~

关键词特征提取小波变换 MEL频率倒谱系数支持向量机 feature extraction wavelet transform Mel-Frequency Cepstrum Coefficients（MFCC ） Support Vector Machine（SVM ）

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1Saunders J.Real-time discrimination of broadcast speech/music[C]// IEEE International Conference on Acoustics,Speech,and Signal Processing, 1996,2 ( 7 ) : 993-996.
2Seheirer E,Slaney M.Construetion and evaluation of a robust multifeature music/speech discriminator[C]//IEEE Conference on Acoustics, Speech,and Signal Processing, 1997,10(21 ): 1331-1334.
3Zhang T, Kuo J.Audio content analysis for online audiovisual data segmentation and classification[J].IEEE Transactions on Speech and Audio Processing, 2001,3 (4) : 441-457.
4Lu Lie,Zhang Hong-jiang.Content-based audio classification and segmentation by using support vector machines[J].ACM Multimedia Systems Journal,2003,8(6) :482-492.
5宋博,须德.音频信息检索的研究及实现[J].计算机应用,2003,23(12):52-54. 被引量：11
6Guo Guo-dong,Li S Z.Content-based audio classification and retrieval by support vector machines[J].IEEE Transactions on Neural Networks, 2003,14( 1 ) : 209-215.
7Lu Lie,Li S Z,Zhang Hong-jiang.Content-based audio segmentation using support vector machines[C]//IEEE International Conference on Multimedia and Expo, 2001,22(25 ) : 749-752.
8Cortes C,Vapnik V.Support vector networks[J].Machine Learning, 1995,20(3 ) :273-297.
9Li Guo-hui,Khokhar A A.Content-based indexing and retrieval of audio data using wavelets[C]//IEEE International Conference on Multimedia and Expo,2000,2(30):885-888.
10吴飞,庄越挺,潘云鹤.基于增量学习支持向量机的音频例子识别与检索[J].计算机研究与发展,2003,40(7):950-955. 被引量：7

二级参考文献16

1周洞汝胡宏斌等.视频数据库管理系统导论[M].北京：科学出版社,2002..
2John Saunders. Real-time discrimination of broadcast speech/music Int'l Conf Acoustic, Speech, and Signal Processing(ICASSP'96), Atlanta, 1996.
3E Scheirer, M Slaney. Construction and evaluation of a robust multifeature music/speech discriminator. Int' l Conf Acoustic,Speech, and Signal Processing (ICASSP' 97), Munich: IEEE Press, 1997. 1331--1334.
4M Spina, V Zue. Automatic transcription of general audio data:Preliminary analyses. Int'l Conf on Spoken Language Processing,Philadelphia, 1996.
5J T Foote. A similarity measure for automatic audio classification.AAAI 1997 Spring Symposium on Intelligent Integration and Use of Text, Image, Video, and Audio Corpora, Palo Alto, 1997.
6Savitha Srinivasan, Dragutin Petkovic, Dulce Ponce.leon. Towards robust features for classifying audio in the cuevideo system. ACM Int'l Multimedia Conf 99, San Diego, 1999.
7Stan Z Li, GuoDong Guo. Content-based audio classification and retrieval using SVM leaming. The 1st IERE Pacific-Rim Conf on Multimedia, University of Sydney, Australia, 2000.
8V Vapnik. The Nature of Statistical Learning Theory. New York: Springer, 1995.
9T M Cover. Geometrical and statistical properties of systems and linear inequalities with applications in pattern recognition. IEEE Trans on Electronic Computers, 1965, EC-14: 326--334.
10C J C Burges. A tutorial on support vector machines for pattern recognition. Knowledge Discovery and Data Mining, 1998, 2(2) :121 -- 167.

共引文献16

1续鸿飞,肖明.音频检索综述[J].晋图学刊,2005(6):15-19. 被引量：8
2闫丽颖,王欢,杨颖.模糊c均值聚类在wav格式音频检索中的研究[J].中国科技信息,2006(02A):15-15. 被引量：1
3李东晖,杜树新,吴铁军.基于壳向量的线性支持向量机快速增量学习算法[J].浙江大学学报（工学版）,2006,40(2):202-206. 被引量：15
4陈箫枫,潘保昌.新安全:防患须“安内”[J].软件世界,2006(16):87-88.
5李珂,周明全.基于音频检索的点歌系统[J].北京师范大学学报（自然科学版）,2006,42(4):383-386.
6万旺根,常辽豫,余小清,崔滨,刘晗.音频信息检索研究现状与发展趋势[J].上海大学学报（自然科学版）,2007,13(4):363-370. 被引量：3
7王植青.高校网络音频资源库的设计与应用[J].科技信息,2007(35):69-70. 被引量：2
8高晗,裴玉龙.基于车辆噪音时域特征的交通量统计方法[J].公路交通科技,2008,25(4):113-116. 被引量：4
9向坚,吴飞,庄越挺,俞坚.非线性子空间中的运动数据编辑和风格生成[J].浙江大学学报（工学版）,2008,42(12):2049-2054.
10文益民,王耀南,吕宝粮,陈义明.支持向量机处理大规模问题算法综述[J].计算机科学,2009,36(7):20-25. 被引量：12

同被引文献49

1徐向华,朱杰,郭强.决策树结构对说话人自适应影响的研究[J].声学学报,2006,31(1):42-47. 被引量：3
2刘荣华,徐学洲.基于模糊模式和BP算法的手写数字识别[J].电子科技,2006,19(3):60-63. 被引量：3
3刘怡,郝云飞.一种新的高效大型音乐数据库查询算法[J].湖南科技大学学报（自然科学版）,2006,21(1):68-72. 被引量：6
4鲁守银,钱庆林,张斌,王明瑞,李向东,王宏.变电站设备巡检机器人的研制[J].电力系统自动化,2006,30(13):94-98. 被引量：137
5白云晖.基于内容的音频检索[J].广播与电视技术,2007,34(6):30-30. 被引量：3
6Lu Lie, You Hong, Zhang Hong-Jiang.A new approach to query by humming in music retrial[C]//IEEE International Conference on Multimedia and Expo (ICME2001), Waseda University, To- kyo, Japan, Auguest 22-25,2001.
7Ghias A,Logan J L,Chamberlin D,et al.Query by humming-mu- sical information retrieval in an audio database[C]//ACM Multi- media'95 San Francisco,1995.
8McNab R J.Towards the digital music library: tune retrieval from acoustic input[C]//Proc of Digital Libraries, 1996: 11-18.
9] Brondsted T.A system for recogition of hummed tunes[C]//Pro- ceedings of the COST G-6 Conference on Digital Audio Rf- fects(DAFX-01),Lomerick,lreland,December 6-8 2001.
10Xiaodan Z, Xi Z, Huang T Set al. Feature analysis and selection for acoustic event detection. Proceedings of ICASSP, 2008:17-20.

引证文献6

1于琪,蒋永平,徐杜,卢传泽.一种分层聚类方法在音乐检索中的应用[J].计算机工程与应用,2011,47(30):113-115. 被引量：1
2裴鹏真.互联网视听节目监管系统的应用与实践[J].计算机光盘软件与应用,2014,17(4):88-89. 被引量：3
3L Ying,LUO Senlin,GAO Xiaofang,XIE Erman,PAN Limin.A rapid audio event detection method by adopting 2D-Haar acoustic super feature vector[J].Chinese Journal of Acoustics,2015,34(2):186-202. 被引量：1
4吕英,罗森林,高晓芳,谢尔曼,潘丽敏.采用2D-Haar声学特征超向量的快速特定音频识别方法[J].声学学报,2015,40(5):739-750. 被引量：2
5赵殿全,李金龙,谢蓓敏.基于阀厅智能巡检机器人的设备声音故障识别算法[J].电子设计工程,2016,24(21):63-65. 被引量：4
6王天锐,鲍骞月,秦品乐.基于梅尔倒谱系数、深层卷积和Bagging的环境音分类方法[J].计算机应用,2019,39(12):3515-3521. 被引量：2

二级引证文献13

1周皓东,刘炜.基于隐含语义分析的音乐检索[J].计算机工程与设计,2013,34(6):2071-2074.
2裴鹏真.微信微博视听节目传播监管难点分析[J].通讯世界,2017,23(13):51-52. 被引量：1
3魏建军,王振愿,白乐乐,苏智祥,付饶.单电源宽范围音频放大器设计与实现[J].电子技术与软件工程,2018(1):89-90. 被引量：2
4梁雍,陈克安.冲击声的稀疏特征提取及声源类型识别[J].声学学报,2018,43(4):708-718. 被引量：1
5郑广宁,车四四,魏永静,刘鸿雁,何子亨.基于人工智能的电视会议自主控制系统[J].电力信息与通信技术,2018,16(8):72-76. 被引量：3
6陈寒非.互联网视听节目监管系统发展思考[J].电脑知识与技术,2015,11(12X):104-105.
7李伟,李硕.理解数字声音——基于一般音频/环境声的计算机听觉综述[J].复旦学报（自然科学版）,2019,58(3):269-313. 被引量：28
8刘育玮,张航,张振臻,杨述明,程玉强.基于声信号的故障检测方法在运载火箭上的应用[J].火箭推进,2021,47(3):1-7. 被引量：2
9赵扬青,彭智才,蒋雨涵,陈佳瑜,陈子怡,赵舒悦.音频的梅尔频率倒谱系数特征抽取过程[J].信息技术与信息化,2023(1):104-111. 被引量：2
10张宇辰,刘昌利,郑庆竹,刘思佳,周春丰,侯丹.大型国有企业云视频会议系统的应用与实践[J].电力信息与通信技术,2023,21(12):88-94.

1王静,刘正辉,周新建,祁传达.一种精确篡改定位的数字语音取证算法[J].信阳师范学院学报（自然科学版）,2016,29(2):289-293. 被引量：2
2郑怡文.典型的音频分类算法[J].计算机与现代化,2007(8):59-63. 被引量：3
3郑继明,俞佳.基于小波变换和支持向量机的音频分类[J].计算机工程与应用,2009,45(11):158-161. 被引量：5
4宗银雪,张靓,李铁军,丁元浩.基于EMD-ICA音频特征提取的故障诊断系统设计[J].机械设计与制造,2016(9):98-101. 被引量：5
5王彪.一种改进的语音信号特征参数提取算法研究[J].电子设计工程,2011,19(21):59-61. 被引量：1
6张大宝,彭天强.基于音视频模板匹配的新闻视频识别方法[J].电视技术,2013,37(23):238-240. 被引量：1
7郑继明,邢峰,吴渝,李婧.基于小波变换和支持向量机的音频分类[J].重庆邮电大学学报（自然科学版）,2008,20(2):212-216. 被引量：4
8王钟斐,王彪.基于短时能量—LPCC的语音特征提取方法研究[J].计算机与数字工程,2012,40(11):79-80. 被引量：5
9王池社,张燕.基于内容的音频数据库的构建与应用[J].微计算机信息,2010,26(33):12-13.
10郭振兴,罗中明,王黎黎,许伟平.一种基于改进能零法的连续语音端点检测方法[J].哈尔滨理工大学学报,2009,14(A01):86-88. 被引量：3

计算机工程与应用

2009年第12期

浏览历史

内容加载中请稍等...

有效的基于内容的音频特征提取方法被引量：6

参考文献10

二级参考文献16

共引文献16

同被引文献49

引证文献6

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

有效的基于内容的音频特征提取方法 被引量：6

参考文献10

二级参考文献16

共引文献16

同被引文献49

引证文献6

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

有效的基于内容的音频特征提取方法被引量：6