语音激活检测方法的分析和比较

下载PDF

导出

摘要语音激活检测(voice activity detection,VAD)是语音信号处理中的一个重要任务,旨在识别出语音信号中的语音段和非语音段。本文将通过实验分析和比较几种目前主流的VAD算法,包括基于多特征流(multiple feature streams,MFS),基于长短时记忆网络(longshort-termmemory,LSTM),基于集成深度神经网络(deep nueral network,DNN),基于自适应上下文注意力机制(adaptive context attention model,ACAM)的方法。综合来看,MFS模型简单、易于部署。当检测目标为含噪声时应尽可能采用深度模型,计算资源充足时可以采用DNN模型,反之则可以采用ACAM模型,它在损失了很少的精度下,将参数数目大幅压缩。

作者尹文昊李晓松齐彦西任泓宇

机构地区陆军工程大学指挥控制工程学院陆军工程大学通信工程学院

出处《信息记录材料》 2023年第4期240-242,248,共4页 Information Recording Materials

关键词语音激活检测长短时记忆网络集成深度神经网络注意力机制

分类号 TP279 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献8

1黄洋,赵风海,卢景.语音信号处理中双门限端点检测算法的改进[J].南开大学学报（自然科学版）,2021,54(2):58-62. 被引量：8
2李强,陈丁当,舒勤军.一种基于幅度谱偏度的语音激活检测算法[J].重庆邮电大学学报（自然科学版）,2015,27(6):728-734. 被引量：4
3郭莉,殷南,王炳锡.语音业务中鲁棒性VAD算法分析[J].电声技术,2005,29(9):41-45. 被引量：9
4罗海涛.基于时域特征的语音信号端点检测[J].电脑知识与技术,2022,18(13):96-98. 被引量：4
5孔德廷.一种改进的基于高阶统计分析的语音激活检测算法[J].通信技术,2020,53(7):1699-1703. 被引量：1
6徐筱麟,张兴国.一种基于马可夫过程统计模型的语音激活检测方法[J].解放军理工大学学报（自然科学版）,2003,4(1):7-10. 被引量：5
7李强,陈浩,陈丁当.基于隐马尔可夫模型的语音激活检测算法[J].计算机应用,2016,36(11):3212-3216. 被引量：4
8杜晗,张维维,张巧灵,闫凌宇.基于常Q变换与深度神经网络的VDR语音端点检测[J].大连海事大学学报,2022,48(2):128-135. 被引量：2

二级参考文献39

1吴启辉王金龙.基于模糊逻辑二元谱特征的语音检测[A]..解放军理工大学通信工程学院第一届科学报告会论文集[C].,2000.343-347.
2KoJoe Agyei-Kodie. Development of Voiced Activity Detection (VAD) Algorithm that is Robust at Low Signal-to-Noise Ratios, A thesis Proposal Submitted to the Temple University ECE Thesis Committee, 2003-12.
3Beritelli F,Casale S,Rugeri G, et al. Performance Evaluation and Comparison of G.729/AMR/Fuzzy Voice Activity Detector. IEEE Signal Processing Letters, 2002,9(3) :85-88.
4Jongseo Sohn, Wongyong Sung. A Statistical Model-Based Voice Activity Detection, IEEE Signal Processing Letters, 1999-( 1 ) : 1-3.
5Jongseo Sohn, Wongyong Sung. A Voice Activity Detector Employing Soft Decision Based Noise Spectrum Adaptation, IEEE International conference on Acoustics,Speech and Signal Processing, 1998-01:365-368.
6Philippe Renevey, Andrzej Drygajlo, Entropy Based Voice Activity Detection in Very Noisy Conditions, Proceedings of 7th European Conference on Speech Communication and Technology, EUROSPEECH' 2001,Aalborg, Denmark, 2001-09:1 887-1 890.
7WIBOWO S A, USMAN K. Voice activity detection G729B imptx~vemenl technique using K-Nearesl Neighbor method [ C ]//Distributed Framework and Applications (DFmA), 2010 International Conterence on. Yogyakar- ta:IEEE Press, 2010: 1-5.
8SHAIIBAZI A, REZAEI A H, SAYADIYAN A, et al. Data 'Ft'ansmission over GSM Adaptive Mtdti Rate Voice Channel Using Speech-Like Symbols [ C ]//Signal Acqui- sition and Processing, 2010. ICSAP 10. International Conference on. Bangalore: IEEE Press, 2010: 63-67.
9European Telecommunications Standards Institute. 3GPP TS 26. 093 verslonl 1. O. O, Adaptive Multi-Rate (AMR) speech eodee ; Source controlled rate operation ( Releasel I ) [ S]. European : ETS1,2012.
10DIMITRAKOPOUI,OS R, MUSTAPHA H, GLOAGUEN E. High-order statistics of spatial random fields: explo- ring spatial eumulanls tor modeling complex non-Gaussian and non-linear phenomena[J ]. Mathematical Geosci- enees, 2010, 42( 1 ) : 65-99.

共引文献29

1祝延波.现代移动数字通信中的VAD算法研究[J].青海大学学报（自然科学版）,2009,27(2):29-33.
2陈功,张雄伟,李耀波,朱流泉.一种基于灰关联分析法的语音激活检测算法[J].解放军理工大学学报（自然科学版）,2007,8(1):10-14. 被引量：1
3陈明义,黎华.基于Teager能量算子的语音激活检测[J].重庆工学院学报,2007,21(19):112-114. 被引量：3
4陈明义,李微,黎华.基于离散小波变换的语音激活检测[J].电子技术应用,2008,34(4):99-101.
5王雯霞,马华红.基于频域和复杂信号检测的语音活动检测方法[J].计算机时代,2008(5):62-63. 被引量：2
6刘华平,李昕,徐柏龄,姜宁.语音信号端点检测方法综述及展望[J].计算机应用研究,2008,25(8):2278-2283. 被引量：40
7陈明义,孙冬梅,黎华.基于改进型离散小波变换的语音激活检测[J].计算机仿真,2009,26(11):324-326. 被引量：1
8杨浩,陈明义.基于谱减法和短时能量的语音端点检测方法[J].岳阳职业技术学院学报,2009,24(6):85-87.
9李菁菁,黄孝建,李敬.Speex算法中AGC算法的分析与仿真[J].通信技术,2010,43(4):164-166.
10刘福星,何选森.三阶累积量的语音激活检测方法[J].计算机工程与应用,2011,47(17):137-139. 被引量：2

1兰泽波,宋子明,姜琨,闫国利.听障大学生汉语阅读中的绕口令效应:口语经验和阅读能力的影响[J].心理与行为研究,2023,21(1):20-27.
2吴敌,李明辉,马文凯,李睿童,李艳.基于改进YOLOv5的钢材表面缺陷检测[J].陕西科技大学学报,2023,41(2):162-169. 被引量：8
3乔欢欢,权恒友,邱文利,闫润禾.改进YOLOv5s的交通标志识别算法[J].计算机系统应用,2022,31(12):273-279. 被引量：6
4刘程程,宋鹏,秦磊.矩阵时间序列的减秩自回归模型及其应用[J].系统工程理论与实践,2023,43(2):524-536.
5Nada Ali Hakami,Hanan Ahmed Hosni Mahmoud.A Dual Attention Encoder-Decoder Text Summarization Model[J].Computers, Materials & Continua,2023(2):3697-3710.
6Yang Li,Fei Yin,Xianghui Hui.Recommendation Algorithm Integrating CNN and Attention System in Data Extraction[J].Computers, Materials & Continua,2023(5):4047-4063. 被引量：1
7高佳鑫,金童林,乌云特娜.干扰任务对智力障碍儿童信息加工的影响[J].心理学进展,2023,13(3):947-954.
8何丽,张家铭,徐丽闪,王昊,李欣.基于问题分类和深度模型的答案选择算法[J].计算机工程与设计,2023,44(5):1412-1418.
9王锐,文国兴,刘士虎.具有非严格反馈结构的非线性时滞系统的模糊自适应控制[J].系统科学与数学,2022,42(11):2902-2913. 被引量：1
10杨华,宋卓著,吴杰宏,高利军.基于SE-ResNet的机器人最优抓取姿态检测方法[J].传感器与微系统,2023,42(5):112-116. 被引量：1

信息记录材料

2023年第4期

浏览历史

内容加载中请稍等...

语音激活检测方法的分析和比较

参考文献8

二级参考文献39

共引文献29

相关作者

相关机构

相关主题

浏览历史