多声学场景下端到端语音识别声学编码器的自适应被引量：1

The self-adaptation of acoustic encoder in end-to-end automatic speech recognition under diverse acoustic scenes

导出

摘要提出了一种面向多样化声学场景自适应设计声学编码器的方法(SAE)。该方法通过学习不同声学场景下语音中包含的声学特征的差异,适应性地为端到端语音识别任务设计出合适的声学编码器。通过引入神经网络结构搜索技术,提高了编码器设计的有效性,从而改善了下游识别任务的性能。在Aishell-1、HKUST和SWBD三个常用的中英文数据集上的实验表明,通过所提场景自适应设计方法得到的声学编码器相比已有的声学编码器可以获得平均5%以上的错误率改善。所提方法是一种深入分析特定场景下语音特征、针对性设计高性能声学编码器的有效方法。 In this paper,a scene-adaptive acoustic encoder(SAE)is proposed for different speech scenes.This method adaptively designs an appropriate acoustic encoder for end-to-end speech recognition tasks by learning the differences of acoustic features in different acoustic scenes.By the application of the neural architecture search method,the effectiveness of encoder design and the performance of downstream recognition tasks are improved.Experiments on three commonly used Chinese and English dataset,Aishell-1,HKUST and SWBD,show that the proposed SAE can achieve average 5%relative character error rate reductions than the best human-designed encoders.The results show that the proposed method is an effective method for analysis of acoustic features in specific scenes and targeted design of high-performance acoustic encoders.

作者刘育坤郑霖黎塔张鹏远 LIU Yukun;ZHENG Lin;LI Ta;ZHANG Pengyuan(Key Laboratory of Speech Acoustics and Content Understanding,Institute of Acoustics,Chinese Academy of Sciences,Beijing 100190;University of Chinese Academy of Sciences,Beijing 100049)

机构地区中国科学院声学研究所语言声学与内容理解重点实验室中国科学院大学

出处《声学学报》 EI CAS CSCD 北大核心 2023年第6期1260-1268,共9页 Acta Acustica

基金国家重点研发计划项目(2020AAA0108002) 中国科学院声学研究所自主部署“目标导向”类项目(MBDX202106)资助。

关键词自动语音识别声学编码器自适应神经网络结构搜索 Automatic speech recognition Acoustic encoder Self-adaptation Neural architecture search

分类号 TN912.34 [电子电信—通信与信息系统] TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献14

1刘加,陈谐,单煜翔,史永哲.大规模词表连续语音识别引擎紧致动态网络的构建[J].清华大学学报（自然科学版）,2012,52(11):1530-1534. 被引量：1
2刘加.汉语大词汇量连续语音识别系统研究进展[J].电子学报,2000,28(1):85-91. 被引量：50
3倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报,2009,23(1):112-123. 被引量：38
4刘娟宏,胡彧,黄鹤宇.端到端的深度卷积神经网络语音识别[J].计算机应用与软件,2020,37(4):192-196. 被引量：30
5王子龙,李俊峰,张劭韡,王宏岩,王思杰.基于递归神经网络的端到端语音识别[J].计算机与数字工程,2019,47(12):3099-3106. 被引量：4
6唐海桃,薛嘉宾,韩纪庆.一种多尺度前向注意力模型的语音识别方法[J].电子学报,2020,48(7):1255-1260. 被引量：17
7郭家兴,韩纪庆.一种RNN-T与BERT相结合的端到端语音识别模型[J].智能计算机与应用,2021,11(2):169-173. 被引量：2
8张开生,赵小芬.复杂环境下基于自适应深度神经网络的鲁棒语音识别[J].计算机工程与科学,2022,44(6):1105-1113. 被引量：5
9杨威,胡燕.混合CTC/attention架构端到端带口音普通话识别[J].计算机应用研究,2021,38(3):755-759. 被引量：10
10刘晓峰,宋文爱,陈小东,郇晋侠,李志媛.基于多核卷积融合网络的BLSTM-CTC语音识别[J].计算机应用与软件,2021,38(11):167-173. 被引量：10

二级参考文献158

1俞士汶,朱学锋,王惠,张芸芸.现代汉语语法信息词典规格说明书[J].中文信息学报,1996,10(2):1-22. 被引量：34
2钱跃良,林守勋,刘群,刘宏.2005年度863计划中文信息处理与智能人机接口技术评测回顾[J].中文信息学报,2006,20(B03):1-6. 被引量：4
3张建平.大词汇量自然连续语音识别中的语言模型和理解算法研究.博士论文[M].北京:清华大学,1999..
4徐波.汉语非特定人听写机系统研究和集成.博士论文[M].北京:中国科学院自动化研究所,1997..
5Zhang, B., S. Matsoukas and R. Schwartz. Discrimina tively trained region dependent teature transforms for speech recognition [C]// Proc. ICASSP, Vol. 1-13, 2006: 313-316.
6Beyerlein, P., et al., Large vocabulary continuous speech recognition of Broadcast News - The Philips/ RWTH approach[J]. Speech Communication, 2002, 37(1-2): 109- 131.
7Hain, T., et al., Automatic transcription of conversational telephone speech [C]// IEEE Transactions on Speech and Audio Processing, 2005, 13(6): 1173-1185.
8Zhang, B. and S. Matsoukas, Minimum phoneme error based heteroscedastic linear discriminant analy sis for speech recognition[C]// Proc. ICASSP, Vol. 1-5, 2005: 1925-1928.
9Hirsimaki, T., et al., Unlimited vocabulary speech recognition with morph language models applied to Finnish[J]. Computer Speech and Language, 2006, 20(4) : 515-541.
10Odell, J.J., The Use of Context in Large Vocabulary Speech Recognition[D]. 1995, University of Cambridge :Cambridge

共引文献165

1何成兵,王润泽,张霄翔.基于改进一维卷积神经网络的汽轮发电机组轴系扭振模态参数辨识[J].中国电机工程学报,2020,40(S01):195-203. 被引量：15
2蒋文建,韦岗.基于多时间尺度复合子带噪声语音识别新方法[J].电子学报,2001,29(z1):1829-1832.
3唐国.语音识别技术探讨[J].菏泽学院学报,2001,25(4):17-19.
4张宜.汉语语音识别技术的研究与发展[J].广西广播电视大学学报,2003,14(4):18-22. 被引量：3
5王青伟,马镯,崔琳,王立石,刘时雄,高霖.语音识别领域计算机程序或算法专利申请审查[J].电声技术,2012,36(S1):50-52. 被引量：1
6贺苏宁,虞厥邦.一种新型汉字音节整体向量模型的识别研究[J].系统工程与电子技术,2005,27(2):343-348.
7李萍,姚竞红.一个声音模块的C语言实现[J].浙江万里学院学报,2005,18(2):12-15.
8张涛,郜彦华.汉语数码语音识别中一种新的抗噪声特征参数[J].河南科技大学学报（自然科学版）,2005,26(3):46-48. 被引量：2
9王晓兰,周献中.格式正确的有限命令识别[J].计算机应用,2005,25(10):2230-2232.
10王守觉,潘晓霞,徐春燕,陈旭,安冬,曹文明.一种基于高维空间覆盖动态搜索方法的非特定人连续数字语音识别的研究[J].电子学报,2005,33(10):1790-1793. 被引量：7

同被引文献14

1赵军辉,匡镜明,谢湘.应用于军事指挥中的鲁棒性语音识别系统[J].兵工学报,2004,25(4):509-512. 被引量：5
2蔡静平.语音信号数字处理技术及其军事应用[J].国防科技,2007,28(9):27-33. 被引量：3
3邓福元,王建新,陈天赐.基于语音识别技术的军事标图系统设计与实现[J].企业技术开发,2008,27(11):10-12. 被引量：3
4齐季.军事上的声纹识别技术[J].百科知识,2011(4):63-64. 被引量：1
5王为颂,陈健.语音识别技术在舰载指控系统中的应用[J].舰船科学技术,2002,24(2):55-56. 被引量：3
6张凤,高航.自然语言处理技术在西方国家军事领域的应用现状[J].国防科技,2014,35(6):75-82. 被引量：2
7李雪林.基于人机互动的语音识别技术综述[J].电子世界,2018,0(21):105-105. 被引量：10
8柏财通,高志强,李爱,崔翛龙.基于门控网络的军事装备控制指令语音识别研究[J].计算机工程,2021,47(7):301-306. 被引量：4
9陈阿磊,刘振,周畅,李世飞,占蝉.国外典型智能化网电军事装备发展研究[J].舰船电子对抗,2023,46(1):14-21. 被引量：1
10鹿哲源,牛小明,康林,李文才,刘歆浏.人机交互语音识别发展及军事应用分析[J].兵工自动化,2023,42(4):21-25. 被引量：2

引证文献1

1王雪宝,汤永涛,王青波,唐文龙.人工智能语音识别技术在国外军事领域的应用分析[J].电脑知识与技术,2024,20(5):21-23.

1隋印,孙艳彬.基于反正切法细分的光栅编码器设计[J].光电技术应用,2023,38(4):30-32.
2刘飞,孙伟,王丽,贾斌.不同压力下CrB的晶体结构、电子结构及力学性质的第一性原理研究[J].稀有金属材料与工程,2023,52(10):3399-3409.
3王晓琴,李育华.学龄前儿童科普书籍插画的创意设计研究[J].工业设计研究,2022(1):325-333.

声学学报

2023年第6期

浏览历史

内容加载中请稍等...

多声学场景下端到端语音识别声学编码器的自适应被引量：1

参考文献14

二级参考文献158

共引文献165

同被引文献14

引证文献1

相关作者

相关机构

相关主题

浏览历史

多声学场景下端到端语音识别声学编码器的自适应 被引量：1

参考文献14

二级参考文献158

共引文献165

同被引文献14

引证文献1

相关作者

相关机构

相关主题

浏览历史

多声学场景下端到端语音识别声学编码器的自适应被引量：1