基于Transformer的普通话语声识别模型位置编码选择被引量：2

Transformer-based position coding selection of Mandarin speech recognition model

下载PDF

导出

摘要具有自注意机制的Transformer网络在语声识别研究领域渐渐得到广泛关注。该文围绕着将位置信息嵌入与语声特征相结合的方向,研究更加适合普通话语声识别模型的位置编码方法。实验结果得出,采用卷积编码的输入表示代替正弦位置编码,可以更好地融合语声特征上下文联系和相对位置信息,获得较好的识别效果。训练的语声识别系统是在Transformer模型基础上,比较4种不同的位置编码方法。结合3-gram语言模型,所提出的卷积位置编码方法,在中文语声数据集AISHELL-1上的误识率降低至8.16%。 The Transformer network with self-attention mechanism has gradually gained wide attention in the field of speech recognition research.This paper revolves around the direction of embedding location information and speech features,and studies the location coding method that is more suitable for Mandarin speech recognition model.The experimental results show that the input representation of convolutional coding instead of sinusoidal position coding can better integrate the contextual relationship of speech features and relative position information,and obtain better recognition results.The trained speech recognition system is based on the Transformer model and compares four different position coding methods.Combined with the 3-gram language model and the proposed convolutional position coding method,the word recognition error rate on the Chinese speech data set AISHELL-1 is reduced to 8.16%.

作者徐冬冬 XU Dongdong(Graduate School of the Secondary Institute of China Aerospace Science and Industry Corp,Beijing 100854,China)

机构地区中国航天科工集团第二研究院研究生院

出处《应用声学》 CSCD 北大核心 2021年第2期194-199,共6页 Journal of Applied Acoustics

关键词自注意力位置编码卷积 Self-attention Position coding Convolution

分类号 TP912.34 [自动化与计算机技术]

引文网络
相关文献

同被引文献6

1严明,刘茂福,胡慧君.基于多层注意力机制的中文文本蕴涵识别方法[J].计算机工程与设计,2020,41(8):2289-2295. 被引量：1
2高建清,万根顺,吴重亮.端到端语音识别的研究进展与挑战[J].中国安防,2020(11):38-45. 被引量：3
3蒋彤彤,尹魏昕,蔡冰,张琨.基于层次时空特征与多头注意力的恶意加密流量识别[J].计算机工程,2021,47(7):101-108. 被引量：23
4胡章芳,蹇芳,唐珊珊,明子平,姜博文.DFSMN-T:结合强语言模型Transformer的中文语音识别[J].计算机工程与应用,2022,58(9):187-194. 被引量：11
5孙国栋,李超,张航.融合自注意力机制的安全帽佩戴检测方法[J].计算机工程与应用,2022,58(20):300-304. 被引量：20
6Dong Yu,Jinyu Li.Recent Progresses in Deep Learning Based Acoustic Models[J].IEEE/CAA Journal of Automatica Sinica,2017,4(3):396-409. 被引量：9

引证文献2

1杨东,李丹.基于BoTNet的车辆分类实现[J].电子测试,2021,32(24):57-59.
2谢旭康,陈戈,孙俊,陈祺东.TCN-Transformer-CTC的端到端语音识别[J].计算机应用研究,2022,39(3):699-703. 被引量：12

二级引证文献12

1陈戈,谢旭康,孙俊,陈祺东.使用Conformer增强的混合CTC/Attention端到端中文语音识别[J].计算机工程与应用,2023,59(4):97-103. 被引量：5
2沈逸文,孙俊.结合Transformer的轻量化中文语音识别[J].计算机应用研究,2023,40(2):424-429. 被引量：6
3屈瑾.基于语音识别的智能交互系统设计[J].自动化与仪器仪表,2023(1):221-225. 被引量：10
4乔万俊,赵庆.基于端到端的英语翻译器语音自动纠正系统研究[J].自动化与仪器仪表,2023(3):240-244.
5邓丽君.基于语音识别技术的在线语言翻译交互学习系统的设计与实现[J].自动化与仪器仪表,2023(6):199-203. 被引量：2
6柳永利,张绍阳,王裕恒,解熠.基于多任务损失附加语言模型的语音识别方法[J].江苏大学学报（自然科学版）,2023,44(5):564-569. 被引量：2
7王景环,汪亚民,郑松岗,龙捷.基于TCN与SVM组合模型的建筑沉降预测[J].工程勘察,2024,52(2):64-67.
8李瑾辉,张国梁,苏杨,朱晓鸿,王鑫.基于深度卷积神经网络的端到端语音识别方法研究[J].自动化技术与应用,2024,43(6):55-59.
9胡从刚,申艺翔,孙永奇,赵思聪.基于Conformer的端到端语音识别方法[J].计算机应用研究,2024,41(7):2018-2024.
10黄荣雷.基于轻量型卷积神经网络的语音情感识别方法研究[J].电声技术,2024,48(5):43-45.

1齐园蕾,杨飞然,杨军.基于卡尔曼滤波的低复杂度去混响算法[J].应用声学,2018,37(4):559-566. 被引量：9
2杨梅.基于量子通信的电子有源干扰识别方法研究[J].环境技术,2020,38(6):128-133.
3王骏,虞歌.基于深度学习的多元信息嵌入推荐模型[J].计算机应用与软件,2021,38(3):196-201. 被引量：1
4曹阳,曹存根,王石.基于Transformer网络的中文单字词检错方法研究[J].中文信息学报,2021,35(1):135-142. 被引量：5
5王琦.借“集权”之力,行“简约”之道用行政审批制度改革激活农业农村发展内生新动力[J].农业开发与装备,2021(2):43-44.
6肖绍章,张正伟,李芬芬,左兴元.基于无损压缩和差值扩展的可逆图像水印算法[J].江苏海洋大学学报（自然科学版）,2020,29(4):32-38. 被引量：4
7Zhao Jing-Yi,Kingman Joshua,Jacobs Ida Joely,Uitto Jouni,Cao Yi,Li Qiao-Li.Atherogenic Diet Accelerates Ectopic Mineralization in a Mouse Model of Pseudoxanthoma Elasticum[J].International Journal of Dermatology and Venereology,2020,3(2):91-96.

应用声学

2021年第2期

浏览历史

内容加载中请稍等...

基于Transformer的普通话语声识别模型位置编码选择被引量：2

同被引文献6

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于Transformer的普通话语声识别模型位置编码选择 被引量：2

同被引文献6

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于Transformer的普通话语声识别模型位置编码选择被引量：2