面向鲁棒自动语音识别的一致性自监督学习方法被引量：1

Consistency self-supervised learning method for robust automatic speech recognition

导出

摘要提出了一种基于一致性自监督学习的鲁棒自动语音识别方法。该方法通过使用语音信号仿真技术,模拟一条语音在不同声学场景下的副本;在通过自监督学习方式学习语音表征的同时,极大化一条语音在不同声学环境下对应语音表征的相似性,从而获取到与环境干扰无关的语音表征方式,提高下游语音识别模型的性能。在远讲数据集CHiME-4和会议数据集AMI上的实验表明,所提的一致性自监督学习算法能够取得相比已有的wav2vec2.0自监督学习基线算法30%以上的识别词错误率下降。这表明,所提方法是一种获取噪声无关语音表征、提升鲁棒语音识别性能的有效方法。 A robust automatic speech recognition(ASR)method using consistency self-supervised learning(CSSL)is proposed.This method uses speech simulation to generate the speech with different acoustic environments,then uses the self-supervised learning to extract the speech representations and maximize the similarity between the representations of the simulated speech.So invariant speech representations can be extracted in different acoustic environments and the ASR performance can be improved.The proposed method is evaluated on the far-field dataset,CHiME-4,and the meeting dataset,AMI.With the help of the CSSL and appropriate pre-training pipeline,up to 30%relative word error rate can be achieved compared to the wav2vec2.0.This proves the CSSL can extract noise-invariant speech feathers and improve the ASR performance effectively.

作者高长丰程高峰张鹏远 GAO Changfeng;CHENG Gaofeng;ZHANG Pengyuan(Key Laboratory of Speech Acoustics and Content Understanding,Institute of Acoustics,Chinese Academy of Sciences,Beijing 100190;University of Chinese Academy of Sciences,Beijing 100049)

机构地区中国科学院声学研究所语言声学与内容理解重点实验室中国科学院大学

出处《声学学报》 EI CAS CSCD 北大核心 2023年第3期578-587,共10页 Acta Acustica

基金国家重点研发计划项目(2020AAA0108002)资助。

关键词语音信号处理语音识别鲁棒语音识别自监督学习 Speech processing Automatic speech recognition Robust speech recognition Self-supervised learning

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献7

1张开生,赵小芬.复杂环境下基于自适应深度神经网络的鲁棒语音识别[J].计算机工程与科学,2022,44(6):1105-1113. 被引量：5
2柏财通,崔翛龙,郑会吉,李爱.基于自监督知识迁移的鲁棒性语音识别技术[J].计算机应用,2022,42(10):3217-3223. 被引量：2
3高飞,黄哲莹,王子腾,李军锋,颜永红.早晚期混响划分对理想比值掩蔽在语音识别性能上的影响[J].声学学报,2019,44(4):788-795. 被引量：5
4柯雨璇,厉剑,彭任华,郑成诗,李晓东.用于自适应波束形成语音增强的球谐域掩蔽函数估计方法[J].声学学报,2021,46(1):67-80. 被引量：3
5石倩,陈航艇,张鹏远.波达方向初始化空间混合概率模型的语音增强[J].声学学报,2022,47(1):139-150. 被引量：2
6王子腾,孙兴伟,李军锋,颜永红.近似窄带假设下的最小方差无失真响应波束形成[J].声学学报,2020,45(2):161-168. 被引量：3
7陈明建,胡振彪,陈林.一种基于加权TOPS的宽带DOA估计新方法[J].数据采集与处理,2019,34(3):453-461. 被引量：3

二级参考文献37

1鄢社锋,马晓川.宽带波束形成器的设计与实现[J].声学学报,2008,33(4):316-326. 被引量：45
2郑成诗,胡笑浒,周翊,李晓东.基于噪声谱结构特性的谱减法[J].声学学报,2010,35(2):215-222. 被引量：19
3鄢社锋,侯朝焕,马晓川.从阵元域到模态域阵列信号处理[J].声学学报,2011,36(5):461-468. 被引量：18
4张文林,牛铜,张连海,李弼程.基于最大似然可变子空间的快速说话人自适应方法[J].电子与信息学报,2012,34(3):571-575. 被引量：3
5尤国红,邱天爽,兰天.脉冲噪声环境下宽带循环平稳信号DOA估计算法[J].数据采集与处理,2012,27(4):399-403. 被引量：5
6黄建军,张雄伟,张亚非,邹霞.时频字典学习的单通道语音增强算法[J].声学学报,2012,37(5):539-547. 被引量：13
7赵红,李双田.改进的多级线性预测晚期混响抑制算法[J].信号处理,2014,30(6):674-682. 被引量：5
8屈丹,张文林.基于本征音子说话人子空间的说话人自适应算法[J].电子与信息学报,2015,37(6):1350-1356. 被引量：4
9徐华兴,夏日升,李军锋,颜永红.一种基于物理特性和感知特性的混响模拟方法[J].中国科学：信息科学,2015,45(6):817-826. 被引量：4
10屈丹,杨绪魁,张文林.特征空间本征音说话人自适应[J].自动化学报,2015,41(7):1244-1252. 被引量：4

共引文献13

1肖鑫鑫.复杂噪声环境下的普通话测试系统设计[J].信息技术,2020,44(11):78-82. 被引量：1
2张进锋,李立春,蒲敏刚,江横.基于解相干TOFS改进算法研究[J].信息工程大学学报,2021,22(3):283-287.
3曾庆宁,王师琦.扩散噪声下协方差矩阵重构的语音分离与降噪[J].声学学报,2021,46(5):775-784. 被引量：3
4孙兴伟,李军锋,颜永红.结合卷积神经网络与混响时间注意力机制的混响抑制[J].声学学报,2021,46(6):1234-1241.
5景亚鹏,苏海涛,王绍,桂文华,郭庆,王明杰.汽车内驾驶员语音增强评价研究[J].声学技术,2021,40(6):832-838. 被引量：1
6石倩,陈航艇,张鹏远.波达方向初始化空间混合概率模型的语音增强[J].声学学报,2022,47(1):139-150. 被引量：2
7王雨佳.基于语音合成的机器翻译机器人设计[J].自动化与仪器仪表,2023(4):185-190.
8张静宇,高志刚,仝瑶瑶,张玉凤,张勇.具有语音控制功能的举高类消防车控制系统设计[J].工程设计学报,2023,30(3):281-287.
9倪海燕,王文博,任群言,鹿力成,马力.多波束声呐海底底质半监督学习分类方法[J].声学技术,2023,42(4):524-532.
10金童,牟唯嫣.地铁环线路径选择的统计分析与应用[J].北京建筑大学学报,2023,39(5):100-107.

同被引文献4

1徐睿,李志华,韩灿灿.基于特征融合和改进卷积神经网络的环境音识别[J].计算机与现代化,2021(2):62-67. 被引量：5
2韦娟,杨皇卫,宁方立.基于NMF与CNN联合优化的声学场景分类[J].系统工程与电子技术,2022,44(5):1433-1438. 被引量：3
3陈志博,王思雨,刘远泽,王国栋,耿卫东.一种基于改进多带谱减法的低信噪比语音识别方法[J].南开大学学报（自然科学版）,2022,55(6):58-61. 被引量：2
4吴兰,杨攀,李斌全,王涵.大词汇量环境噪声下的多模态视听语音识别方法[J].广西科学,2023,30(1):52-60. 被引量：3

引证文献1

1高适,金宇,黄宇.基于改进卷积神经网络的汉语连续语音识别方法[J].信息与电脑,2023,35(18):114-116.

1高建清,屠彦辉,马峰,付中华.基于渐进比率掩蔽目标的自适应噪声估计方法[J].计算机应用,2023,43(4):1303-1308.
2兰泽波,郭梅华,姜琨,吴俊杰,闫国利.听障大学生词汇识别过程的特异性:语言经验和阅读能力的影响[J].心理学报,2023,55(6):954-967. 被引量：1
3Zi-Han Wang,Yu Sang,Xue Zhang.Power-law Distribution and Scale-invariant Structure from the First CHIME/FRB Fast Radio Burst Catalog[J].Research in Astronomy and Astrophysics,2023,23(2):42-46.
4马晓亮,刘英,杜德泉,安玲玲.运营商智能客服的关键技术和发展趋势[J].电信科学,2023,39(5):76-89.
5Radiology科学论著摘要(2023年3月、4月杂志)[J].国际医学放射学杂志,2023,46(3):351-362.

声学学报

2023年第3期

浏览历史

内容加载中请稍等...

面向鲁棒自动语音识别的一致性自监督学习方法被引量：1

参考文献7

二级参考文献37

共引文献13

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

面向鲁棒自动语音识别的一致性自监督学习方法 被引量：1

参考文献7

二级参考文献37

共引文献13

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

面向鲁棒自动语音识别的一致性自监督学习方法被引量：1