双哈希索引的高精度大规模音频样例检索被引量：1

Retrieval method of large scale audio samples based on Double hashing index

导出

摘要实时音频流中对大规模音频样例进行检索时,在保证准确率的条件下,检索速度直接影响音频流实时处理能力。提出一种基于双哈希索引的大规模音频样例检索方法。该方法通过对大规模音频样例的音频特征进行自相似量化后,分别根据自相似序列的分段向量均值和模值建立线性双哈希索引,然后在音频流中进行搜索,最后对搜索结果利用音频的时序和空间信息进行判断得到检索结果。实验结果表明,本方法实现了大规模音频样例的一次检索,且当采用12维MFCC音频特征,音频样例时长为16 s、音频样例规模小于3100时,音频样例的检索准确率在90%以上,检索速度大于12000倍速,最高达到16000倍速。该方法在有效提高检索精度的基础上,保证较高的检索速度。 The capacity of processing audio stream in real time is affected directly by the detection speed with detection accuracy guaranteed. A method based on double hashing index to test large-scale audio samples is proposed. The method first does weighted self-similarity to the audio feature, secondly establishes double linear hashing indexes to the mean and modulus of self-similarity sequence, then searches in the audio stream and judge the search results by temporal and spatial information to get the detection results. The results of experiments show that the method implements the one detection of large scale audio samples. The real time detection speed is above 12000 xRT, the largest detection speed is 16000 xRT, and the detection accuracy is above 90% when the duration of audio samples is 16 s and the number of audio samples is 3100. The method improves detection speed with higher detection accuracy guaranteed.

作者高晓芳罗森林吕英罗志军潘丽敏

机构地区北京理工大学信息系统及安全对抗实验中心

出处《声学学报》 EI CSCD 北大核心 2015年第6期886-893,共8页 Acta Acustica

关键词检索速度音频流高精度索引哈希实时处理音频特征检索方法 Acoustic waves

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1Yu Y,Joe K,Downie J.S.Efficient query-by-content audio retrieval by locality sensitive hashing and partial sequence comparison.Transactions on Information and Systems,2008;E91D(6):1730-1739.
2Ryynanen M,Klapuri A.Query by humming of midi and audio using locality sensitive hashing.TEEE International Conference on Acoustics,Speech and Signal Processing,ICASSP,Las Vegas:IEEE,2008:2249-2252.
3Baluja S,Covell M,Ioffe S.Permutation grouping:Intelligent hash function design for audio image retrieval.IEEE International Conference on Acoustics,Speech and Signal Processing,ICASSP,Las Vegas:IEEE,2008:2137-2140.
4Zheng G,Li M.A fast audio retrieval method based on negativity judgment.2009 Fifth International Conference on Intelligent Information Hiding and Multimedia Signal Processing,Piscataway:IH-MSP,2009:1156-1159.
5Yu Y,Crucianu M.Local summarization and multi-level LSH for retrieving multi-variant audio tracks.17th ACM International Conference on Multimedia,MM'09,with Colocated Workshops and Symposiums,Beijing:ACM,2009:341-350.
6Cotton C,Ellis D P W.Finding similar acoustic events using matching pursuit and locality-sensitive hashing.2009IEEE Workshop on Applications of Signal Processing to Audio and Acoustics.New Paltz:IEEE,2009:125-128.
7唐杰.基于内容的音频检索技术研究.北京邮电大学,2010.
8Guo Zhiyuan,Wang Qiang,Yin Liang et al.Query by humming via hierarchical filters.Tsukuba,2012:3021-3024.
9Pedraza C,Vitola J,Sepulveda J et al.Fast content-based audio retrieval algorithm.Bogota,2013:1-5.
10McFee B,Barrington L,Lanckriet G.Learning Content Similarity for Music Recommendation.Audio,Speech,and Language Processing,2012;8(20):2207-2218.

二级参考文献24

1吕成国,韩纪庆,王承发.动态时间规正与差别子空间相结合的变异语音识别方法[J].声学学报,2005,30(3):229-234. 被引量：2
2王成友,汤叔祺,梁甸农,陈辉煌,唐朝京.语音识别中多种特征信息综合利用的方法[J].声学学报,1997,22(2):111-115. 被引量：6
3Hanesn J H L, Huang Rongqing. Speech Find: Advances in Spoken Document Retrieval for a National Gallery of the Spoken Word[J]. IEEE Transactions on Speech and Audio Processing, 2005, 13(5): 712-730.
4Chechil G, Le E, Rehn M, et al. Large Scale Content Based Audio Retrieval from Text Queries[C]//Proceedings of the 1st ACM International Conference on Multimedia Information Retrieval. New York, USA: ACM Press, 2008: 105-112.
5Smith G, Murase H, Kashino K. Quick Audio Retrieval Using Active Search[C]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. New York, USA: IEEE Press, 1998: 3777-3780.
6Kashino K, Kurozumi T, Murase H. A Quick Search Method for Audio and Video Signals Based on Histogram Pruning[J]. IEEE Transactions on Multimedia, 2003, 5(3): 384-357.
7Kedem B. Spectral Analysis and Discrimination by Zero- crossings[J]. Proceedings of the IEEE, 1986, 74(11): 1477-1493.
8Saunders J. Real-time Discrimination of Broadcast Speech Music[C]//Proceedings of IEEE ICASSP’96. [S. 1.]: IEEE Press, 1996: 993-996.
9Li S Z. Content-based Classification and Retrieval of Audio Using the Nearest Feature Line Method[J]. IEEE Trans. on Speech Audio Processing, 2000, 8(5): 619-625.
10Jonathan Foote, An overview of audio information retrieval. Multimedia Systems, 1999; 7(1): 2-11.

共引文献9

1杨继臣,王伟凝.一种基于随机段的固定音频检索方法[J].计算机应用,2010,30(1):230-232. 被引量：4
2于志华,张兴明,杨镇西,张丽.一种高性能固定语音识别并行处理架构[J].计算机应用研究,2013,30(8):2419-2421. 被引量：1
3金国平,余宗桥,郭延文,蒋和.基于GPU加速的音频检索技术[J].计算机工程,2014,40(5):266-269.
4华斌,张丽超,赵富强.基于加权MFCC的音频检索[J].计算机工程与应用,2015,51(8):200-204. 被引量：7
5乔立能,夏秀渝,叶于林.基于音频指纹的两步固定音频检索[J].计算机系统应用,2017,26(5):266-271. 被引量：1
6张学帅,邹学强,胡琪,张鹏远.基于指纹权重的音频模板检索方法[J].中国科技论文,2018,13(20):2295-2300. 被引量：3
7赵文兵,贾懋珅,王琪.基于压缩感知和音频指纹的固定音频检索方法[J].计算机系统应用,2020,29(8):165-172. 被引量：2
8陈树丽,张学帅,张鹏远,刘建.静音掩蔽和频域分段的音频指纹检索算法[J].声学学报,2022,47(4):531-540.
9王天逸,章宗标,王敏.一种音频样例重复检测方法的研究[J].浙江树人大学学报（自然科学版）,2013,13(1):1-5.

同被引文献11

1郑贵滨,韩纪庆,李海峰,郑铁然.基于分段的实时声频检索方法[J].声学学报,2006,31(2):101-108. 被引量：5
2张卫强,刘加.网络音频数据检索技术[J].通信学报,2007,28(12):152-155. 被引量：10
3刘亚多,李伟,李晓强,汪竹蓉,冯瑞.压缩域鲁棒音乐指纹算法研究[J].电子学报,2010,38(5):1172-1176. 被引量：9
4齐晓倩,陈鸿昶,黄海.基于K-L距离的两步固定音频检索方法[J].计算机工程,2011,37(19):160-162. 被引量：7
5周强,张晓俊,顾济华,赵鹤鸣,朱俊杰,陶智.嗓音多频带非线性分析的声带病变识别[J].声学学报,2014,39(1):111-118. 被引量：11
6张兴忠,王运生,曾智,牛保宁.一种高效过滤提纯音频大数据检索方法[J].计算机研究与发展,2015,52(9):2025-2032. 被引量：8
7孙甲松,张菁芸,杨毅.基于子带频谱质心特征的高效音频指纹检索[J].清华大学学报（自然科学版）,2017,57(4):382-387. 被引量：5
8孙宁,赵维平,陈美,李超.一种改进的Philips音频指纹检索算法[J].计算机工程,2018,44(1):280-284. 被引量：4
9樊晓鹤,赵鹤鸣,陈雪勤,周燕.倒谱参数稀疏分解下的汉语音谎言检测[J].声学学报,2018,43(1):121-128. 被引量：4
10胡俊,李胥,陈毅.一种音频指纹检索算法的改进方法[J].工业控制计算机,2018,31(2):92-93. 被引量：2

引证文献1

1陈树丽,张学帅,张鹏远,刘建.静音掩蔽和频域分段的音频指纹检索算法[J].声学学报,2022,47(4):531-540.

1刘强强,余黎青,赵鹏,刘慧婷.基于移动平台的图像检索系统[J].计算机技术与发展,2016,26(11):10-13. 被引量：1
2柴玉梅,刘向东.基于NS2的自相似业务流的生成[J].鞍山科技大学学报,2005,28(3):235-238.
3唐伟,朱成荣,冯国富.基于内存数据库的VLR用户数据处理方法[J].微计算机信息,2008,24(27):146-148. 被引量：2
4杨燕明,鲁志军,陈煜,孙权,杨宏斌.一种基于哈希索引的内存表模型[J].计算机应用与软件,2012,29(1):215-216. 被引量：8
5徐骏,何星.Native XML数据库哈希路径索引技术[J].计算机应用,2006,26(B06):95-97.
6于淼,朱琼,王国宇.基于特征点匹配和哈希法的图像检索方法[J].微计算机应用,2006,27(4):397-400.
7陈磊,封朝永.HBase下时态信息索引策略研究[J].广东工业大学学报,2014,31(3):102-108. 被引量：3
8欧阳遄飞,张寅,张啸,邵健,吴飞.结构化稀疏谱哈希索引[J].计算机辅助设计与图形学学报,2012,24(1):60-67. 被引量：3
9尹祥龙,王伟,陈煜,周继恩,任明,徐景良,万鑫明.面向大规模金融对账文件的近似比对模型及系统[J].计算机系统应用,2016,25(4):86-90.
10黄金,吴晓东,武红斌.哈希索引在交警专用移动执法终端数据检索中的应用研究[J].中国公共安全（学术版）,2010(3):83-86. 被引量：1

声学学报

2015年第6期

浏览历史

内容加载中请稍等...

双哈希索引的高精度大规模音频样例检索被引量：1

参考文献16

二级参考文献24

共引文献9

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

双哈希索引的高精度大规模音频样例检索 被引量：1

参考文献16

二级参考文献24

共引文献9

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

双哈希索引的高精度大规模音频样例检索被引量：1