基于最小平均复杂度的矢量量化音频分类方法被引量：1

Audio Classification Based on Minimum Average Complexity Vector Quantization

下载PDF

导出

摘要首先提出了“平均复杂度”的概念,然后由信息熵公式给出了最小平均复杂度的计算方法,并以此为准则构造音频数据的矢量量化树,从而得到音频数据在特征空间的分布情况.根据不同种类的音频数据有不同分布这一事实,比较未知音频与已知音频种类的数据在特征空间中的分布情况的近似程度,就可完成音频分类.实验表明,该方法具有适应性强、计算效率高的特点. The Concept of MAC(Minimum Average Complexity) is proposed first, and the calculation method is given according to the entropy formula. A VQ(Vector Quantization) tree is constructed via the MAC criterion, by which the distribution of audio feature vectors in the feature space can be obtained. In the fact that different kind of audio has different distribution, audio classification can be achieved by the degree of distribution similarity in the feature space between the unknown audio and the audio trained before. The algorithm is proven to be generalized and effective by the result of experiments.

作者陈莘萌陈刚姚昱

机构地区武汉大学计算机学院

出处《武汉大学学报（理学版）》 CAS CSCD 北大核心 2005年第1期69-73,共5页 Journal of Wuhan University:Natural Science Edition

基金国家自然科学基金资助项目(10371033) 国家211工程重大项目资助

关键词平均复杂度分裂矢量量化树特征空间分布距离 average complexity split vector quantization tree feature space distribution distance

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1卢坚,毛兵,孙正兴,张福炎.一种改进的基于说话者的语音分割算法[J].软件学报,2002,13(2):274-279. 被引量：17
2Foote J. An Overview of Audio Information Retrieval [J]. ACM Multimedia System, 1999,7:2-10.
3Feiten B, Frank R, Ungvary T. Organization of Sounds with Neural Nets [A]. Proceedings of the1991 International Computer Music Conference [ C].San Francisco, 1991, 441-444.
4Feiten B, Gtinzel S. Automatic Indexing of a Sound Database Using Self-Organizing Neural Nets[J]. Computer Music Journal, 1994,18 (3) : 53-65.
5Wold E,Blum T,Keislar D,et al. Content-Based Classification, Search and Retrieval of Audio[J]. IEEE Multimedia Magazine, 1996,3(3): 27-36.
6Breiman L,Friedman J H,Olshen R A,et al. Classification and Regression Trees[M]. Belmont, CA: Wadsworth, 1984.
7Steven Roman. Coding and Information Theory[M].New York: Springer-Verlag, 1992.
8Linde Y,Buzo A,Gray R M. An Algorithm for Vector Quantizer Design[J]. IEEE Transactions on Communications, 1980,28( 1 ) :84-95.
9Vergin R, O' Shaughnessay D. Generalized Mel-Frequency Cepstral Coefficients for Large-Vocabulary Speaker-Independent Continuous Speech Recognition[J]. IEEE Transactions on Speech and Audio Processing,1999,7(5) :525-53.
10Tzanetakis G. Manipulation, Analysis and Retrieval Systems for Audio Signals[D]. Princeton University:Department of Computer Science, 2002.

二级参考文献11

1Delacourt, P., Wellekens, C.J. DISTBIC: a speaker-based segmentation for audio data indexing. Speech Communication, 2000,32(1～2):111～126.
2Guo, Xue-feng, Zhu, Wei-bin, Shi, Qiu. The IBM LVCSR system used for 1998 Mandarin broadcast news transcription evaluation. In: Proceedings of the 1999 DARPA Broadcast News Workshop. 1999. http://www.nist.gov/.
3Bakis, R., Chen, S., Gopalakrishnan, P.S., et al. Transcription of broadcast news shows with the IBM large vocabulary speech recognition system. In: Proceedings of the DARPA Speech Recognition Workshop. Chantilly, 1997. 67～72.
4Wegmann, S., Zhan, P., Gillick, L. Progress in broadcast news transcription at Dragon systems. In: Proceedings of the ICASSP'99, Vol. 1. Phoenix, Arizona: IEEE. 1999. 33～36.
5Siegler, M.A., Jain U., Raj, B., et al. Automatic segmentation, classification, and clustering of broadcast news audio. In: Proceedings of the DARPA Speech Recognition Workshop. Chantilly, 1997. 97～99.
6Cover, T.M., Tomas, J.A. Elements of Information Theory. New York: John Wiley & Sons, 1991. 1197-1208.
7Gish, H., Schmidt, N. Text-Independent speaker identification. IEEE Signal Processing Magazine, 1994,11(4):18～32.
8Chen, S.S., Gopalakrishnan, P.S. Clustering via the bayesian information criterion with applications in speech recognition. In: Proceedings of the ICASSP'98, Vol. 2, Seattle, Washington: IEEE, 1998. 645～648.
9Schwarz, G. Estimating the dimension of a model. The Annuals of Statistics, 1978,6:461～464.
10Delacourt, P., Wellejkens, C.J. Audio data indexing: use of second-order statistics for speaker-based segmentation. In: Proceedings of the IEEE International Conference on Multimedia Computing and Systems (ICMCS'1999), Vol.2. Florence, Italy: IEEE, 1999. 959～963.

共引文献16

1杨新旭,王长山,王东琦,郑丽娜.基于隐马尔可夫模型的入侵检测系统[J].计算机工程与应用,2005,41(12):149-151. 被引量：8
2李超,熊璋,薛玲,刘云.一种阈值自适应调整的实时音频分割方法[J].北京航空航天大学学报,2005,31(12):1317-1321. 被引量：2
3张世磊,张树武,徐波.一种两层次无监督的音频分割算法[J].中文信息学报,2007,21(2):106-111. 被引量：5
4付中华,张艳宁.在线无监督说话人检索中稳健的模型自举算法[J].软件学报,2007,18(3):608-616. 被引量：3
5王志明,周序生.基于定长窗分层检测的音频分割算法[J].中小企业管理与科技,2009(21):296-297.
6郑继明,俞佳.基于GLR距离和BIC的混合音频分割算法[J].计算机工程与设计,2009,30(13):3120-3123. 被引量：3
7王志明,张瑞杰,李弼程.基于分层熵检测的音频分割算法[J].科学技术与工程,2009,9(17):5012-5016. 被引量：1
8王志明,周序生.基于定长窗分层检测的音频分割算法[J].计算机仿真,2009,26(9):350-354. 被引量：1
9王志明.一种有效的音频分割算法[J].湖南理工学院学报（自然科学版）,2009,22(3):37-40. 被引量：3
10于俊清,胡小强,孙凯.改进的音频混合分割方法[J].计算机辅助设计与图形学学报,2010,22(7):1174-1181. 被引量：4

同被引文献8

1白亮,老松杨,陈剑赟,吴玲达.基于支持向量机的音频分类与分割[J].计算机科学,2005,32(4):87-90. 被引量：13
2马志欣,付少锋,周利华.哼唱检索中一种新的旋律模糊匹配方法[J].西安电子科技大学学报,2006,33(1):85-88. 被引量：8
3张静,朱悦心.采用人声输入的网络音乐检索系统[J].微电子学与计算机,2006,23(5):173-178. 被引量：4
4马志欣,周利华.哼唱检索中一种新颖有效的哼唱信息处理方法[J].计算机科学,2006,33(5):169-172. 被引量：5
5李应.音频数据检索技术的研究[J].集美大学学报（自然科学版）,2006,11(2):102-105. 被引量：1
6薛锋,杨宗英,郑巧英,黄敏.基于内容的音乐检索[J].大学图书馆学报,1999,17(4):28-30. 被引量：15
7吴飞,庄永真,潘红.基于分形布朗运动和Ada Boosting的多类音频例子识别[J].计算机研究与发展,2003,40(7):941-949. 被引量：8
8冯雅中,庄越挺,潘云鹤.一种启发式的用哼唱检索音乐的层次化方法[J].计算机研究与发展,2004,41(2):333-339. 被引量：14

引证文献1

1张燕,唐振民,李燕萍,钱博.基于内容的音乐检索综述[J].金陵科技学院学报,2007,23(2):25-29. 被引量：7

二级引证文献7

1兰帆,黄明和.一种改进旋律匹配算法在MIDI演奏系统中的应用[J].计算机与现代化,2009(6):151-154.
2陈正宇,张燕,郑玮.基于内容的音频检索系统的前端抗噪技术[J].电子设计工程,2009,17(12):60-61.
3张建华,汪鑫.基于内容音频检索综述[J].商情,2012(2):215-217. 被引量：2
4刘铬,刘红丽.基于内容的音乐检索方法比较研究[J].山西科技,2012,27(4):117-118. 被引量：2
5卢冠成.一种基于Python的音乐检索方法的研究[J].电子制作,2019,27(14):82-83. 被引量：1
6陈晓,杨海燕,汤文武,方根显,王彦国,张华.地质类专业的物探课程的教学实践和反馈——以东华理工大学《地球物理勘探》为例[J].内蒙古师范大学学报（教育科学版）,2019,32(3):119-124. 被引量：2
7朱志慧,田婧,林捷.大数据环境下基于用户位置的个性化音乐推荐系统设计[J].无线互联科技,2019,16(2):79-80. 被引量：2

1武继刚,庞淑萍.堆上的数据分布与堆选择算法[J].计算技术与自动化,1995,14(4):13-15.
2侯显玲,冯凯平.有序数据序列数据查询时间复杂度分析[J].信息系统工程,2015,28(9):132-134.
3沈小雪,郭嗣琮.新的直觉模糊熵公式及其应用[J].计算机工程与应用,2013,49(24):28-31. 被引量：3
4李佳骏,宋旭东,李艳红.Vague软集的新模糊熵及其应用[J].计算机工程与应用,2015,51(13):221-224. 被引量：2
5王昌.Vague软集的模糊熵和它的一些性质[J].小型微型计算机系统,2012,33(7):1564-1567. 被引量：5
6武继刚.一个多元选择算法[J].微机发展,1995,5(3):11-13.
7吴涛,白礼虎,刘二宝,孙小慧.直觉模糊集新的熵公式及应用[J].计算机工程与应用,2013,49(23):48-51. 被引量：12
8张伟,洪声贵.学习式搜索:一种新的搜索策略[J].辽宁大学学报（自然科学版）,1992,19(4):82-88.
9魏翠萍,高志海,郭婷婷.一个基于三角函数的直觉模糊熵公式[J].控制与决策,2012,27(4):571-574. 被引量：30
10蓝兴,张颖光,魏急波.标准球形译码算法在发射相关MIMO信道下的平均复杂度分析[J].信号处理,2008,24(5):876-880.

武汉大学学报（理学版）

2005年第1期

浏览历史

内容加载中请稍等...

基于最小平均复杂度的矢量量化音频分类方法被引量：1

参考文献10

二级参考文献11

共引文献16

同被引文献8

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于最小平均复杂度的矢量量化音频分类方法 被引量：1

参考文献10

二级参考文献11

共引文献16

同被引文献8

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于最小平均复杂度的矢量量化音频分类方法被引量：1