基于DNN-LSTM的VAD算法被引量：8

DNN-LSTM based VAD algorithm

导出

摘要基于深度神经网络（deep neural network,DNN）的语音活动性检测（voice activity detection,VAD）忽略了声学特征在时间上的相关性,在带噪环境下性能会明显下降。该文提出了一种基于深度神经网络和长短时记忆单元（long-short term memory,LSTM）的混合网络结构应用于VAD问题。进一步对语音帧的动态信息加以分析利用,同时结合DNN-LSTM结构使用一种基于上下文信息的代价函数用于网络训练。实验语料基于TIDIGITS语音库,使用Noisex-92噪声库加噪。实验结果表明：在不同噪声环境下基于DNN-LSTM的VAD方法比基于DNN的VAD方法性能更好,新的代价函数比传统的代价函数更适用于该文提出的算法。 Voice activity detection（VAD）algorithms based on deep neural networks（DNN）ignore the temporal correlation of the acoustic features between speech frames which significantly reduces the performance in noisy environments.This paper presents a hybrid deep neural network with long-short term memory（LSTM）for VAD analyses which utilizes dynamic information from the speech frames.A context information based cost function is used to train the DNN-LSTM network.The noisy speech corpus used here was based on TIDIGITS and Noisex-92.The results show that the DNN-LSTM based VAD algorithm has better recognition accuracy than DNN-based VAD algorithms in noisy environment which shows that this cost function is more suitable than the traditional cost function.

作者张雪英牛溥华高帆 ZHANG Xueying;NIU Puhua;GAO Fan(College of Information Engineering, Taiyuan University of Technology, Taiynan 030024, Chin)

机构地区太原理工大学信息工程学院

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2018年第5期509-515,共7页 Journal of Tsinghua University(Science and Technology)

基金国家自然科学基金资助项目(61371193) 国家级大学生创新创业训练项目(201610112007)

关键词语音活动性检测(VAD) 深度神经网络(DNN) 长短时记忆单元(LSTM) voice activity detectionl deep neural network long-shortterm memory

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

同被引文献44

1范思遐,周奇才,熊肖磊,赵炯.基于多核模式的隧道沉降预测[J].岩土力学,2013,34(S2):291-298. 被引量：12
2杨胜跃,周宴宇,黄深喜.语音信号端点检测方法与展望[J].信息技术,2005,29(7):5-8. 被引量：4
3胡友健,梁新美,许成功.论GPS变形监测技术的现状与发展趋势[J].测绘科学,2006,31(5):155-157. 被引量：77
4刘华平,李昕,徐柏龄,姜宁.语音信号端点检测方法综述及展望[J].计算机应用研究,2008,25(8):2278-2283. 被引量：40
5刘娜,栾元重,黄晓阳,王建波.基于时间序列分析的桥梁变形监测预报研究[J].测绘科学,2011,36(6):46-48. 被引量：40
6李德仁,姚远,邵振峰.智慧城市的概念、支撑技术及应用[J].工程研究（跨学科视野中的工程）,2012,4(4):313-323. 被引量：108
7龙熙华,贾宁娟,万军.基于ANP-BP模型地铁隧道沉降预测研究[J].现代隧道技术,2013,50(5):105-111. 被引量：12
8文鸿雁,周吕,韩亚坤,陈冠宇,胡纪元.基于卡尔曼滤波的GM(1,1)模型在高铁隧道沉降变形分析中的应用[J].大地测量与地球动力学,2014,34(1):88-91. 被引量：30
9刘绍堂,刘文锴,周跃寅.一种隧道整体变形监测方法及其应用[J].武汉大学学报（信息科学版）,2014,39(8):981-986. 被引量：27
10孟红霞,白学军,闫国利,姚海娟.词边界信息对读者阅读歧义短语时眼跳策略的影响[J].心理科学,2015,38(4):770-776. 被引量：2

引证文献8

1王丹丹,陈刚,杨青.基于ELSTM的集合型故障诊断方法研究[J].沈阳理工大学学报,2020(4):70-75. 被引量：4
2李霞,孙茂军,黄永生.LSTM神经网络模型在GPS变形监测中的应用研究[J].甘肃科学学报,2019,31(3):24-27. 被引量：11
3曾学宏,赵义花.LSTM网络在地铁隧道沉降预测中的应用研究[J].甘肃科学学报,2019,31(6):117-122. 被引量：10
4王晓华,要鹏超,马丽萍,王文杰,张蕾.车间环境下机器人语音控制的特征提取算法[J].西安电子科技大学学报,2020,47(2):16-22. 被引量：2
5杨国林,孙学先,锁旭宏,刘涛,曹辰.桥梁形变监测中LSTM预测方法研究[J].兰州交通大学学报,2022,41(5):1-5. 被引量：4
6单蒙,米吉提·阿不里米提,艾斯卡尔·艾木都拉.基于小样本学习的语音端点检测[J].现代电子技术,2022,45(24):145-150.
7胡跃辉,钟纪权,易小斌,张涛.基于LSTM神经网络的手势分割[J].科技创新导报,2022,19(24):85-89.
8王晓明,赵歆波.基于深度神经网络的个体阅读眼动预测[J].清华大学学报（自然科学版）,2019,59(6):468-475. 被引量：6

二级引证文献36

1张杰,蔡楠,张哲.基于改进RBF神经网络的建筑物变形监测方法[J].测绘地理信息,2022,47(4):46-50. 被引量：3
2胡振东.基于GMF-CLEAN的变形监测数据噪声抑制方法[J].测绘地理信息,2021,46(S01):313-318. 被引量：2
3王晓明,赵歆波.阅读眼动追踪语料库的构建与应用研究综述[J].计算机科学,2020,47(3):174-181. 被引量：5
4郑茜元,郑虹,侯秀萍.基于神经网络的学习状态检测[J].软件工程,2020,23(5):6-8. 被引量：3
5杨涛.数字化时代文本阅读眼动控制模型研究[J].科技传播,2020,12(9):29-31.
6张可,崔乐.基于PCA-LSTM模型的多元时间序列分类算法研究[J].统计与决策,2020(15):44-49. 被引量：20
7邵潮京.PSO优化RBF神经网络在变形监测中的应用[J].北京测绘,2020,34(9):1283-1288.
8张巨林.基于模拟退火优化BP神经网络的变形监测数据预测方法[J].测控技术,2020,39(11):57-62. 被引量：6
9章亦然,蒋吉清,魏纲.交通结构病害监测中的智能算法研究[J].现代隧道技术,2020,57(S01):139-146.
10李威,鲁铁定,贺小星,钱文龙.基于Prophet-RF模型的GNSS高程坐标时间序列预测分析[J].大地测量与地球动力学,2021,41(2):116-121. 被引量：7

1袁文浩,孙文珠,夏斌,欧世峰.利用深度卷积神经网络提高未知噪声下的语音增强性能[J].自动化学报,2018,44(4):751-759. 被引量：36
2刘斐莹.挑战AI极限：用深度网络融合来加速消费电子设备和系统中边缘化的人工智能[J].家电科技,2018,0(4):6-6.
3杨绪魁,屈丹,张文林,闫红刚.基于长时信息的自适应话音激活检测[J].电子学报,2018,46(4):878-885. 被引量：2
4李文洁,张晴晴,张鹏远,颜永红,摆亮.基于维特比算法的深度神经网络语音端点检测[J].重庆邮电大学学报（自然科学版）,2018,30(2):210-215. 被引量：7

清华大学学报（自然科学版）

2018年第5期

浏览历史

内容加载中请稍等...

基于DNN-LSTM的VAD算法被引量：8

同被引文献44

引证文献8

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于DNN-LSTM的VAD算法 被引量：8

同被引文献44

引证文献8

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于DNN-LSTM的VAD算法被引量：8