基于多尺度特征融合的语音频带扩展

Speech bandwidth extension based on multi-scale feature fusion

导出

摘要针对现有的深度学习模型在语音频带扩展领域数据特征利用不充分、训练周期长以及生成语音质量不高等问题,提出了一种新型的端到端神经网络模型,该模型通过融合不同数据维度特征促使网络模型利用更少的数据特征量,获取更多的低高频映射关系解,从而减少模型的整体训练周期.为了提高长时序数据中关键特征的权重占比,设计了一种残差多头自注意力机制,从而达到数据特征利用率的最大化.此外,提出了一种基于时频域和Mel频谱的混合损失函数对模型进行优化.实验结果表明:该方法重构的宽带语音在主客观的评价中均优于传统方法和近年来的一些基于神经网络的语音频带扩展方法. A new type of end-to-end neural network model was proposed by us,with the aim of addressing the issues of insufficient utilization of data features,long training periods,and low quality of generated speech by existing deep learning models.The integration of features from different data dimensions within the network model was encouraged,thereby reducing the utilization of data features and obtaining more low-and high-frequency mapping relationship solutions,resulting in a shortened overall training cycle of the model.To maximize the utilization of data features and enhance the weight ratio of key features in long time series data,a residual multi-head self-attention mechanism was designed.Additionally,a hybrid loss function based on the time-frequency domain and Mel spectrum was proposed to optimize the model.The wideband speech reconstructed by this method was evaluated subjectively and objectively,and the experimental results indicate that it is superior to traditional methods and some recent neural network-based speech bandwidth extension methods.

作者许春冬朱诚应冬文董桂官 XU Chundong;ZHU Cheng;YING Dongwen;DONG Guiguan(School of Information Engineering,Jiangxi University of Science and Technology,Ganzhou 341000,Jiangxi China;School of Electronic,Electronical,and Communication Engineering,University of Chinese Academy of Sciences,Beijing 100049,China;China Electronic Technology Standardization Institute,Beijing 100007,China)

机构地区江西理工大学信息工程学院中国科学院大学电子电气与通信工程学院中国电子技术标准化研究院

出处《华中科技大学学报（自然科学版）》 EI CAS CSCD 北大核心 2023年第9期132-139,共8页 Journal of Huazhong University of Science and Technology(Natural Science Edition)

基金国家自然科学基金资助项目(11864016) 江西省科技厅重点研发计划资助项目(20202BBEL53006).

关键词语音频带扩展深度学习自注意力机制时频感知损失函数 speech bandwidth extension deep learning self-attentional mechanism time-frequency perception loss function

分类号 TP912.3 [自动化与计算机技术]

引文网络
相关文献

参考文献5

1李凡,吴军,黄刚.基于BPNN/HMM神经网络的声学模型研究[J].华中科技大学学报（自然科学版）,2004,32(9):9-11. 被引量：2
2刘勇,袁立飞,袁丽峰.基于小波分解的鼾音信号功率谱估计方法研究[J].计算机与数字工程,2022,50(3):650-655. 被引量：2
3廖广锐,刘云,刘萍,薛永辉.基于统合高维对角协方差的CHMM语音识别[J].华中科技大学学报（自然科学版）,2009,37(12):16-19. 被引量：1
4曹洁,周尧风,于泓,李晓旭.基于SI-SDR优化的生成对抗网络语音增强方法[J].华中科技大学学报（自然科学版）,2020,48(11):17-23. 被引量：5
5张晓华,袁肖赟,杨红英,杨延栋,赛峰.基于GNN的电网动态特性评估及其知识图谱应用[J].华中科技大学学报（自然科学版）,2023,51(3):47-51. 被引量：2

二级参考文献38

1李明节,陶洪铸,许洪强,刘金波,张强,张伟.电网调控领域人工智能技术框架与应用展望[J].电网技术,2020,44(2):393-400. 被引量：73
2杜利民,谢凌云,刘斌.HMM非特定人连续语音识别的嵌入式实现[J].电子与信息学报,2005,27(1):60-63. 被引量：6
3吴红卫,吴镇扬,赵力.基于多窗谱的心理声学语音增强[J].声学学报,2007,32(3):275-281. 被引量：12
4姚天任.数字语音处理[M].武汉:华中科技大学出版社.2003.
5Rabiner L, Juang B H. Fundamentals of speech recognition[M]. Washington: Prentice Hall, 1993.
6Huang X, Acero A, Hon H. Spoken language processing: a guide to theory, algorithm and system development[M]. 1st Edition. Washington:Prentiee Hall, 2001.
7Bocchieri E. Vector quantization for the efficient computation of continuous density likelihoods[C] // Proceedings of International Conference on Acoustics, Speech and Signal Processing (JCASSP). Minneapolis: [s.n.], 1993, 2: 692-695.
8Pellom B L, Sarikaya R, Hansen J H L. Fast likelihood computation techniques in nearest-neighbor based search for continuous speech recognition[J]. Signal Preessing Letters, 2001, 8(8): 221-224.
9Lee A, Kawahara T, Shikano K. Gaussian mixture selection using context-independent HMM[C] // Proceedings of International Conference on Acoustics,Speech and Signal Processing (ICASSP). Salt Lake City:[s.n.], 2001, 1: 69-72.
10Fritsch J, Rogina I. The bucket box intersection (BBI) algorithm for fast approximative evaluation of diagonal mixture gaussians[C]// Proceedings of International Conference on Acoustics, Speech and Signal Processing(ICASSP). [s. n. ], 1996: 837-840.

共引文献7

1石锐,郑晓平,何庆华.基于HMM-ANN的咳嗽音识别[J].世界科技研究与发展,2012,34(5):751-753. 被引量：1
2郭保收.基于GAN的广播通讯过程多链路信息融合方法[J].信息技术,2023,47(3):70-74.
3陈海霞.基于大数据挖掘的立式击弦机磁力自复位水平测试研究[J].自动化与仪器仪表,2023(7):244-248.
4李如玮,李秋艳,赵丰年,刘尚枫.基于注意力和深度学习的双耳语音增强算法[J].华中科技大学学报（自然科学版）,2023,51(9):125-131.
5曲珍.基于频带分解的中波发射机播出信号失真故障检测方法[J].中国科技纵横,2023(24):84-86.
6许雯婷,龚晓峰.基于深度全卷积神经弹性网络WCGAN-GP模型的语音增强研究[J].计算机应用与软件,2024,41(2):130-137.
7朱轶伦,俞一峰,虞明智,杜晟炜,姚高,许杰.基于多数据源融合的电网故障判别与告警技术研究[J].电气自动化,2024,46(2):32-35.

1李大鹏,周晓彦,王基豪,王丽丽,叶如.基于Mel频谱值和深度学习网络的鸟声识别算法[J].应用声学,2023,42(4):825-832.
2赵东明,岳斌.基于智能语音情感分析的天津移动家庭宽带语音质检系统[J].天津科技,2023,50(4):105-107.
3李婷.5G VoNR关键技术的应用与研究[J].通讯世界,2023,30(8):55-57.
4郑齐清,陈佳鑫,杨何伍.基于PCA分析法的船舶主机能效评价[J].广州航海学院学报,2023,31(2):41-46. 被引量：1
5孙永强.基于PLC控制的电气火灾预警系统设计[J].工业加热,2023,52(3):44-47. 被引量：2
6马学条.改进AOD-Net的端到端图像去雾实验研究[J].实验室研究与探索,2023,42(7):38-43. 被引量：1
7温宁瑞,邹国庆.CEO变革型领导对企业提升创新绩效的作用[J].企业改革与管理,2023(14):31-33.
8夏宝平.基站PCI规划与优化综述[J].电脑知识与技术,2023,19(26):102-104.
9赵永,焦诗卉,赵乾百.基于Mel频谱和LSTM-DCNN的矿山微震信号混合识别模型[J].东北大学学报（自然科学版）,2023,44(10):1481-1489.
10钟淑燕,罗家宏.“三思”而“行”——“平均数”教学思考[J].云南教育（小学教师）,2023(7):48-49.

华中科技大学学报（自然科学版）

2023年第9期

浏览历史

内容加载中请稍等...

基于多尺度特征融合的语音频带扩展

参考文献5

二级参考文献38

共引文献7

相关作者

相关机构

相关主题

浏览历史