基于常Q变换与深度神经网络的VDR语音端点检测被引量：2

Voice activity detection of VDR audio based on constant-Q transform and deep neural network

导出

摘要基于采集的真实船舶航行数据记录仪音频数据,提出一种基于常Q变换(Constant-Q Transform, CQT)幅度谱与深度神经网络(DNN)的语音端点检测方法。为获得适合不同频段的变频率分辨率,采用CQT对VDR音频信号进行谱分析,并利用DNN自动学习基于CQT幅度谱的复杂特征表示,实现端到端的VDR音频数据语音端点检测,真实VDR音频数据验证了本文方法的有效性。实验结果表明,该方法具有较高的正确率和鲁棒性。 Based on the real-world audio data recored by voyage data recorder(VDR), a voice activity detection(VAD) method based on constant-Q transform(CQT) and deep neural network(DNN) was proposed. In order to obtain the frequency conversion rate resolution suitable for different frequency bands, CQT was used to analyze the spectrum of VDR audio signal, and DNN was used to automatically learn the complex feature representation based on CQT amplitude spectrum to realize end-to-end voice endpoint detection of VDR audio data. The effectiveness of the proposed method was verified by real VDR audio data. Experimental results show that this method has high accuracy and robustness.

作者杜晗张维维张巧灵闫凌宇 DU Han;ZHANG Wei-wei;ZHANG Qiao-ling;YAN Ling-yu(School of Information Science and Technology,Dalian Maritime University,Dalian 116026,China;School of Informatics and Electronics,Zhejiang Sci-Tech University,Hangzhou 310018,China)

机构地区大连海事大学信息科学技术学院浙江理工大学信息学院

出处《大连海事大学学报》 CAS CSCD 北大核心 2022年第2期128-135,共8页 Journal of Dalian Maritime University

基金国家自然科学基金资助项目(61806178 61972068) 中国博士后科学基金资助项目(2020M680932) 浙江省自然科学基金资助项目(LY21F010015) 中央高校基本科研业务费专项资金资助项目(3132021226)。

关键词船舶航行数据记录仪(VDR) 语音端点检测(VAD) 常Q变换(CQT) 深度神经网络(DNN) voyage data recorder(VDR) voice activity detection(VAD) constant-Q transform(CQT) deep neural network(DNN)

分类号 TN91 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献2

1柏顺,颜夕宏,张生平,陈建飞,张胜.基于梅尔频率倒谱系数与短时能量的低信噪比语音端点检测[J].南京师大学报（自然科学版）,2021,44(2):117-120. 被引量：10
2张宇波,邢立钊.基于小波分析与PSO-ELM的语音端点检测算法研究[J].中北大学学报（自然科学版）,2016,37(1):33-38. 被引量：4

二级参考文献24

1朴春俊,马静霞,徐鹏.带噪语音端点检测方法研究[J].计算机应用,2006,26(11):2685-2686. 被引量：10
2Chung H, Lee S J, Lee Y K. Weighed-finite state transduer-based endpoint detection using probabilistic decision logic[J]. ETRI Journal, 2014, 36(5): 714- 720.
3Wang Yongqi, Zhang Hui. The research of speech recognition in low SNR based on GA-SVM[J]. Ap- plied Mechanics and Materials, 2014, 590.. 727-731.
4Ouzounov A. Noisy speech endpoint detection using robust feature [C]. Biometric Authentication. NewYork= Springer International Publishing, 2014= 105- 117.
5Ouzounov A. Telephone speech endpoint detection u- sing mean-delta feature[J]. Cybernetics and Informa- tion Technologies, 2014, 14(2)= 127-139.
6Park J, Kim W, Han D K. Voice activity detection in noisy environments based on double-combined fourier transform and line fitting[J]. Scientific World Joural, 2014, 22(4): 216-228.
7Cao Yali, La Dongsheng, Jia Shuo, et al. A speech endpoint detection algorithm based on wavelet trans- forms[C]. The 26th Control and Decision Conference. New York.- IEEE, 2014.- 3010-3012.
8Liu Baisen, Zhang Ye, Zhang Wulin. Speech endpoint detection with low SNR based on HHTSM[C]. ICE- MI 2013 IEEE llth International Conference. New York: IEEE, 2013: 116-119.
9Huang Guangbin , Zhu Qinyu, Siew C K. Extreme learn machine., theory and applications [J]. Neuro- computing, 2006, 70(1/2/3).- 489-501.
10Men Changqian, Wang Wenjian. A randomized ELM speedup algorithm[J]. Neurocomputing, 2015, 159(2) : 78-83.

共引文献12

1姜囡,谢俊仪.低信噪比下语音端点检测算法改进设计[J].中国刑警学院学报,2018(1):123-128. 被引量：2
2陈爱华,张石清.基于深度神经网络和多特征融合的语音端点检测[J].台州学院学报,2021,43(3):1-6. 被引量：3
3邬友朋,赵金龙,贾中营.一种基于KNN/CNN的供热客服音频分类方法[J].电力大数据,2021,24(7):56-66. 被引量：1
4查进道,李春彪,雷腾飞.微弱复合信号的随机共振[J].南京师大学报（自然科学版）,2022,45(4):26-34.
5赵扬青,彭智才,蒋雨涵,陈佳瑜,陈子怡,赵舒悦.音频的梅尔频率倒谱系数特征抽取过程[J].信息技术与信息化,2023(1):104-111. 被引量：6
6文丽萍.噪声环境下基于小波变换的普通话智能测试系统设计[J].自动化与仪器仪表,2023(5):153-157.
7肖思,龚杰,李宝清.低信噪比环境下的多通道语音端点检测算法[J].中国科学院大学学报（中英文）,2023,40(5):687-693. 被引量：2
8赵志宇,贺学剑.融合LPC和MFCC特征的前馈神经网络短语音识别[J].长江信息通信,2023,36(11):171-174. 被引量：2
9马成龙,焦俊清,焦富清,王杰,陈巧特,谢武俊,李军.基于梅尔频率倒谱系数的语音清晰度DRT识别[J].信息化研究,2024,50(2):63-68. 被引量：1
10范凯燕,胡彦红.基于LSTM模型的音乐推荐系统研究[J].电声技术,2024,48(9):136-138.

同被引文献21

1郭莉,殷南,王炳锡.语音业务中鲁棒性VAD算法分析[J].电声技术,2005,29(9):41-45. 被引量：9
2李强,陈丁当,舒勤军.一种基于幅度谱偏度的语音激活检测算法[J].重庆邮电大学学报（自然科学版）,2015,27(6):728-734. 被引量：4
3李强,陈浩,陈丁当.基于隐马尔可夫模型的语音激活检测算法[J].计算机应用,2016,36(11):3212-3216. 被引量：4
4孔德廷.一种改进的基于高阶统计分析的语音激活检测算法[J].通信技术,2020,53(7):1699-1703. 被引量：1
5黄洋,赵风海,卢景.语音信号处理中双门限端点检测算法的改进[J].南开大学学报（自然科学版）,2021,54(2):58-62. 被引量：9
6陈爱华,张石清.基于深度神经网络和多特征融合的语音端点检测[J].台州学院学报,2021,43(3):1-6. 被引量：3
7罗思洋,龙华,邵玉斌,杜庆治.噪声环境下多特征融合的语音端点检测方法[J].云南大学学报（自然科学版）,2021,43(4):671-680. 被引量：12
8张开生,赵小芬.复杂环境下基于自适应深度神经网络的鲁棒语音识别[J].计算机工程与科学,2022,44(6):1105-1113. 被引量：13
9罗海涛.基于时域特征的语音信号端点检测[J].电脑知识与技术,2022,18(13):96-98. 被引量：4
10许鸿奎,卢江坤,张子枫,周俊杰,胡文烨,姜彤彤,郭文涛,李振业.结合Conformer与N-gram的中文语音识别[J].计算机系统应用,2022,31(7):194-202. 被引量：5

引证文献2

1尹文昊,李晓松,齐彦西,任泓宇.语音激活检测方法的分析和比较[J].信息记录材料,2023,24(4):240-242.
2王雨佳.基于语音合成的机器翻译机器人设计[J].自动化与仪器仪表,2023(4):185-190. 被引量：1

二级引证文献1

1于爱莲.基于D-H模型的翻译机器人自动控制系统设计研究[J].自动化与仪器仪表,2024(5):163-167.

1隋波,孙宏光,宋祎轩.航行数据记录仪加固存储体的热防护技术研究[J].船电技术,2022,42(6):32-36.

大连海事大学学报

2022年第2期

浏览历史

内容加载中请稍等...

基于常Q变换与深度神经网络的VDR语音端点检测被引量：2

参考文献2

二级参考文献24

共引文献12

同被引文献21

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于常Q变换与深度神经网络的VDR语音端点检测 被引量：2

参考文献2

二级参考文献24

共引文献12

同被引文献21

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于常Q变换与深度神经网络的VDR语音端点检测被引量：2