面向音频检索的音频分割和标注研究被引量：5

Research on audio segmentation and annotation for audio retrieval

下载PDF

导出

摘要解决大规模音频数据库快速检索的有效手段之一是建立合适的音频索引,其中音频分割和标注是建立音频索引的基础。文中采用了一种基于短时能量和改进度量距离的两步音频分割算法,使得分割后的音频片段具有段间特征差异大、段内特征方差小的特点。在音频分割的基础上进行了音频数据库中音频流的标注;分别基于BP神经网络算法和Philips音频指纹算法对音频进行了音频类别和音频内容的标注,为后续建立音频索引表做准备。实验结果表明,两步分割算法能较好地分割任意音频流,音频标注算法能有效进行基于音频类别和音频内容的标注,算法同时具有良好的鲁棒性。 One of the effective means to solve the large-scale audio database fast retrieval is to establish an appropriate audio index,in which the audio segmentation and labeling are the basis for establishing the audio index. In this paper,a two-step audio segmentation algorithm based on short-time energy and improved metric distance is proposed,which makes the segmented audio segment have the characteristics of big difference between segments and small characteristic variance. Based on the audio segmentation,the audio stream in the audio database is annotated. Based on the BP neural network algorithm and the Philips audio fingerprint algorithm,the audio category and audio content are labeled respectively,and the audio index table is established. The experimental results show that the two-step segmentation algorithm can segment arbitrary audio stream efficiently. The audio annotation algorithm can effectively annotate audio category and audio content. The algorithm has good robustness at the same time.

作者孙卫国夏秀渝乔立能叶于林 Sun Weiguo Xia Xiuyul Qiao Lineng Ye Yulin(College of Electronics and Information,Sichuan University, Chengdu 610064 ,China 78438 Troops of the Chinese People＇s Liberation Army, Chengdu 610066, China)

机构地区四川大学电子信息学院中国人民解放军

出处《微型机与应用》 2017年第5期38-41,共4页 Microcomputer & Its Applications

关键词音频分割短时能量度量距离音频标注 BP神经网络音频指纹 audio segmentation short-term energy measurement of the distance audio annotation BP neural network audio fingerprint

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献7

1张卫强,刘加.网络音频数据检索技术[J].通信学报,2007,28(12):152-155. 被引量：10
2张雪源,贺前华,李艳雄,叶婉玲.一种基于倒排索引的音频检索方法[J].电子与信息学报,2012,34(11):2561-2567. 被引量：8
3吴宇,钱旭,周剑鸣.基于相对熵和贝叶斯信息判据的在线分割算法[J].电声技术,2013,37(3):49-53. 被引量：1
4陈仁林,郭中华,朱兆伟.基于BP神经网络的说话人识别技术的实现[J].智能计算机与应用,2012,2(2):47-49. 被引量：7
5杨景花,王双喜,周思方.基于神经网络的智能语音识别研究[J].微型机与应用,2016,35(17):52-54. 被引量：3
6周亦敏,牟同鑫.采用复倒谱和子串匹配的音频指纹算法研究[J].上海理工大学学报,2010,32(3):277-280. 被引量：3
7鲁明明,张晖,沈庆宏.基于功率谱特征的音频指纹实现[J].电子测量技术,2016,39(9):69-72. 被引量：3

二级参考文献68

1刘维华,崔涛.基于内容的音频检索算法研究[J].计算机工程与设计,2006,27(16):3003-3006. 被引量：7
2王让定,徐达文.基于提升小波的多重数字音频水印[J].电子与信息学报,2006,28(10):1820-1826. 被引量：16
3WANG Y, LIU Z, HUANG J C. Multimedia content analysis-using both audio and visual clues[J]. IEEE Signal Processing Magazine, 2000, 17(6): 12-36.
4FOOTE J. An overview of audio information retrieval[J]. Multimedia Systems, 1999, 7(1): 2-10.
5HANSEN J H L, HUANG R, ZHOU B, et al. Speechfind: advances in spoken document retrieval for a national gallery of the spoken word[J]. IEEE Transactions on Speech and Audio Processing, 2005, 13(5): 712-730.
6KASHINO K, KUROZUMI T, MURASE H. A quick search method for audio and video signals based on histogram pruning[J]. IEEE Transactions on Multimedia, 2003, 5(3): 348-357.
7KIM K M, KIM S Y, JEON J K, et al. Quick audio retrieval using multiple feature vectors[J]. IEEE Transactions on Consumer Electronics, 2006, 52(1): 200-205.
8ZHANG W Q, LIU J. Two-stage method for specific audio retrieval[A]. IEEE International Conference on Acoustics, Speech, and Signal Processing[C]. Hawaii, 2007.
9MCNAMES J. A fast nearest-neighbor algorithm based on a principal axis search tree[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2001,23(9): 964-976.
10CHENG D Y, GERSHO A, RAMAMURTHI B, et al. Fast search algorithms for vector quantization and pattern matching[A]. IEEE International Conference on Acoustics, Speech, and Signal Processing[C]. San Diego,1984.

共引文献26

1杨继臣,王伟凝.一种基于随机段的固定音频检索方法[J].计算机应用,2010,30(1):230-232. 被引量：4
2齐晓倩,陈鸿昶,黄海.基于K-L距离的两步固定音频检索方法[J].计算机工程,2011,37(19):160-162. 被引量：7
3谈会星,陈福才,李邵梅.基于模板子空间的快速固定音频检索方法[J].计算机工程,2012,38(20):260-263. 被引量：3
4于志华,张兴明,杨镇西,张丽.一种高性能固定语音识别并行处理架构[J].计算机应用研究,2013,30(8):2419-2421. 被引量：1
5章宗标.一种基于PCA-BP 神经网络的示例优选方法[J].计算机工程与应用,2013,49(19):108-111. 被引量：4
6何少岩,陈蕉容,陈舜儿.基于录制环境检测的数字音频取证研究[J].计算机工程与设计,2013,34(12):4142-4145. 被引量：2
7李峰,卫乃兴.基于大数据倒排索引技术的外语写作教学辅助系统研究与实现[J].外语电化教学,2015(3):31-37. 被引量：2
8王淑娇,宋艳芳,李琳琳.液压系统使用状态质量评估系统的实现[J].价值工程,2015,34(27):136-138.
9叶于林,莫建华,刘夏.多说话人环境下目标说话人语音提取方案[J].计算机系统应用,2016,25(4):8-15. 被引量：1
10鲁明明,张晖,沈庆宏.基于功率谱特征的音频指纹实现[J].电子测量技术,2016,39(9):69-72. 被引量：3

同被引文献18

1郑继明,俞佳.基于GLR距离和BIC的混合音频分割算法[J].计算机工程与设计,2009,30(13):3120-3123. 被引量：3
2黄程韦,赵艳,金赟,于寅骅,赵力.实用语音情感的特征分析与识别的研究[J].电子与信息学报,2011,33(1):112-116. 被引量：33
3胡峰松,曹孝玉.基于Gammatone滤波器组的听觉特征提取[J].计算机工程,2012,38(21):168-170. 被引量：28
4张欣,夏秀渝,王雪君.一种听觉显著图提取模型[J].四川大学学报（自然科学版）,2014,51(2):292-298. 被引量：5
5茅正冲,王正创,王丹.基于Gammatone滤波器组的说话人识别算法研究[J].计算机工程与应用,2015,51(1):200-203. 被引量：9
6王勇,赵俭辉,章登义,叶威.基于稀疏自编码深度神经网络的林火图像分类[J].计算机工程与应用,2014,50(24):173-177. 被引量：34
7张昕然,查诚,徐新洲,宋鹏,赵力.基于LDA+kernel-KNNFLC的语音情感识别方法[J].东南大学学报（自然科学版）,2015,45(1):5-11. 被引量：8
8李庆先,卞昕,刘良江,朱宪宇,周鑫.基于Gammatone滤波器组的客观语音质量评估[J].计算技术与自动化,2016,35(3):76-80. 被引量：5
9朱啸天,张艳珠,王凡迪.一种基于稀疏自编码网络的数据降维方法研究[J].沈阳理工大学学报,2016,35(5):39-43. 被引量：8
10侯靖勇,谢磊,杨鹏,肖雄,梁祥智,徐海华,王磊,吕航,马斌,CHNG EngSiong,李海洲.基于DTW的语音关键词检出[J].清华大学学报（自然科学版）,2017,57(1):18-23. 被引量：11

引证文献5

1孙彦楠,夏秀渝.基于深度神经网络的关键词识别系统[J].计算机系统应用,2018,27(5):41-48. 被引量：7
2陆雄,夏秀渝,蔡良,孙文慧.声乐主旋律的自动提取[J].太赫兹科学与电子信息学报,2019,17(3):482-488. 被引量：1
3刘景天,姜囡.基于混合特征的说话人语音分割聚类研究[J].光电技术应用,2019,34(5):37-41. 被引量：3
4孙文慧,夏秀渝,陆―雄.基于稀疏自编码神经网络的声乐主旋律提取[J].成都信息工程大学学报,2020,35(4):373-377.
5李兆悦.面向管制员语音疲劳判别任务的语音特征提取研究[J].航空计算技术,2020,50(5):56-60. 被引量：3

二级引证文献14

1蔡良,夏秀渝,陆雄,孙文慧.基于基音跟踪的语音增强研究[J].成都信息工程大学学报,2019,34(1):1-6.
2米婧.英语语音优化识别建模仿真分析[J].信息技术,2019,43(6):91-95. 被引量：6
3陈太波,张翠芳.多特征和SVM改进的语音关键词识别系统[J].小型微型计算机系统,2019,40(11):2291-2296. 被引量：6
4余琳,姜囡.基于Gammatone滤波器的混合特征语音情感识别[J].光电技术应用,2020,35(3):50-54. 被引量：7
5陈太波,张翠芳.后验概率图与补白模型二次融合的关键词识别[J].浙江大学学报（工学版）,2020,54(6):1170-1176. 被引量：2
6孙文慧,夏秀渝,陆―雄.基于稀疏自编码神经网络的声乐主旋律提取[J].成都信息工程大学学报,2020,35(4):373-377.
7陈柏言,王磊,朱漫华,祖健.基于深度学习的装备作战试验音频数据处理方法研究[J].兵器装备工程学报,2021,42(S01):62-66.
8何蕊伽,夏秀渝.基于LSTM的关键词识别系统设计[J].计算机与网络,2022,48(2):64-69. 被引量：2
9任瑞.基于音频技术的乐曲节拍识别系统[J].微型电脑应用,2022,38(3):58-61. 被引量：1
10王晶晶,李艳军,曹愈远,吕少岚.基于卷积神经网络的疲劳驾驶识别[J].航空计算技术,2022,52(5):60-63.

1糜增元.基于内容的数字音频快速检索技术综述[J].中国新通信,2016,18(4):120-120.
2巨小澎.浅谈建立电台音频数据库[J].世界广播电视,2000,14(3):27-30.
3宣丽萍.音频跳变点的分割熵检测算法[J].黑龙江科技学院学报,2008,18(3):199-201.
4李稀敏,洪青阳,黄晓丹.基于说话人的音频分割与聚类[J].心智与计算,2010,0(2):139-147. 被引量：5
5杨东沿,赵伟,孔明明.基于端点检测的广播音频分割与分类[J].现代计算机（中旬刊）,2016(4):46-49. 被引量：3
6张春林,杨玉红,胡瑞敏.音频内容分割与聚类的研究[J].计算机工程,2002,28(7):173-174. 被引量：4
7朱爱红,李连.基于内容的音频检索关键技术研究[J].现代计算机,2003,9(11):37-40. 被引量：7
8刘恺,张仕斌.基于IBeacon的室内定位技术发展综述[J].科技风,2017(2):2-3. 被引量：7
9王志明,周序生.基于定长窗分层检测的音频分割算法[J].中小企业管理与科技,2009(21):296-297.
10贾磊,穆向禺,徐波.广播语音的音频分割[J].中文信息学报,2002,16(1):37-42. 被引量：11

微型机与应用

2017年第5期

浏览历史

内容加载中请稍等...

面向音频检索的音频分割和标注研究被引量：5

参考文献7

二级参考文献68

共引文献26

同被引文献18

引证文献5

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

面向音频检索的音频分割和标注研究 被引量：5

参考文献7

二级参考文献68

共引文献26

同被引文献18

引证文献5

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

面向音频检索的音频分割和标注研究被引量：5