混合CTC/Attention模型在普通话识别中的应用

Application of Hybrid CTC/Attention Model in Mandarin Recognition

下载PDF

导出

摘要基于链接时序分类(Connectionist Temporal Classification,CTC)的端到端语音识别模型具有结构简单且能自动对齐的优点,但识别准确率有待进一步提高。本文引入注意力机制(Attention)构成混合CTC/Attention端到端模型,采用多任务学习方式,充分发挥CTC的对齐优势和Attention机制的上下文建模优势。实验结果表明,当选取80维FBank特征和3维pitch特征作为声学特征,选择VGG-双向长短时记忆网络(VGG-Bidirectional long short-time memory,VGG-BiLSTM)作为编码器应用于中文普通话识别时,该模型与基于CTC的端到端模型相比,字错误率下降约6.1%,外接语言模型后,字错误率进一步下降0.3%;与传统基线模型相比,字错误率也有大幅度下降。 The end-to-end speech recognition model based on Connectionist Temporal Classification(CTC)has the advantages of simple structure and automatic alignment,but the recognition accuracy needs to be further improved.This paper introduces the attention mechanism to form a hybrid CTC/Attention end-to-end model.This method adopts the multi-task learning approach,combining the alignment advantage of CTC with the context modeling advantage of attention mechanism.The experimental results show that when the 80-dimensional FBank feature and the 3-dimensional pitch feature are selected as the acoustic features,and the VGG-Bidirectional long short-time memory network is selected as the encoder for Chinese Mandarin recognition,the character error rate of this hybrid model is reduced by about 6.1%compared with the end-to-end model based on CTC,after the external language model is connected,the character error rate is further reduced by 0.3%.Compared with the traditional baseline model,the character error rate also decreased significantly.

作者许鸿奎张子枫卢江坤周俊杰胡文烨姜彤彤 XU Hong-kui;ZHANG Zi-feng;LU Jiang-kun;ZHOU Jun-jie;HU Wen-ye;JIANG Tong-tong(School of Information and Electrical Engineering,Shandong Jianzhu University,Jinan 250101,China;Shandong Key Laboratory of Intelligent Buildings Technology,Jinan 250101,China)

机构地区山东建筑大学信息与电气工程学院山东省智能建筑技术重点实验室

出处《计算机与现代化》 2022年第8期1-6,共6页 Computer and Modernization

基金山东省重大科技创新工程项目(2019JZZY010120) 山东省重点研发计划项目(2019GSF111054)。

关键词语音识别链接时序分类注意力机制端到端 speech recognition connectionist temporal classification attention mechanism end-to-end

分类号 TP39 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1徐冬冬,蒋志翔.基于HOPE-CTC的端到端语音识别[J].计算机工程与设计,2021,42(2):462-467. 被引量：3
2刘晓峰,宋文爱,余本国,郇晋侠,陈小东,李志媛.基于注意力机制的大同方言语音翻译模型研究[J].中北大学学报（自然科学版）,2020,41(3):238-243. 被引量：9
3张宇,张鹏远,颜永红.基于注意力LSTM和多任务学习的远场语音识别[J].清华大学学报（自然科学版）,2018,58(3):249-253. 被引量：28
4张威,翟明浩,黄子龙,李巍,曹毅.SE-MCNN-CTC的中文语音识别声学模型[J].应用声学,2020,39(2):223-230. 被引量：10
5杨德举,马良荔,谭琳珊,裴晶晶.基于门控卷积网络与CTC的端到端语音识别[J].计算机工程与设计,2020,41(9):2650-2654. 被引量：13
6姚煜,RYAD Chellali.基于双向长短时记忆联结时序分类和加权有限状态转换器的端到端中文语音识别系统[J].计算机应用,2018,38(9):2495-2499. 被引量：16
7张瑞珍,韩跃平,张晓通.基于深度LSTM的端到端的语音识别[J].中北大学学报（自然科学版）,2020,41(3):244-248. 被引量：13
8刘加.汉语大词汇量连续语音识别系统研究进展[J].电子学报,2000,28(1):85-91. 被引量：50
9杨威,胡燕.混合CTC/attention架构端到端带口音普通话识别[J].计算机应用研究,2021,38(3):755-759. 被引量：11
10戴礼荣,张仕良,黄智颖.基于深度学习的语音识别技术现状与展望[J].数据采集与处理,2017,32(2):221-231. 被引量：70

二级参考文献33

1俞士汶,朱学锋,王惠,张芸芸.现代汉语语法信息词典规格说明书[J].中文信息学报,1996,10(2):1-22. 被引量：34
2张建平.大词汇量自然连续语音识别中的语言模型和理解算法研究.博士论文[M].北京:清华大学,1999..
3徐波.汉语非特定人听写机系统研究和集成.博士论文[M].北京:中国科学院自动化研究所,1997..
4张建平，博士学位论文，1999年
5Liu J，Chin J Electron，1998年，7卷，2期，135页
6Zheng R，Chin J Electron，1998年，7卷，2期，122页
7Juang B H，IEEE Signal Processing Magazine，1998年，24页
8智能机研究动态，1998年，4期
9计算机世界，1998年
10Lee L S，IEEE Signal Processing Magazine，1997年，63页

共引文献209

1刘强强,刘恒霞,严家兴.高校智慧教室功能改进思考[J].中国教育技术装备,2021(2):1-2.
2师庆科,郑涛.大型三甲医院患者智能随访语音平台设计与应用[J].中国数字医学,2021,16(8):22-27. 被引量：9
3范慧鹏,闪恒杰,房哲续,郭江川.用于故障诊断的深度学习分类模型及方法[J].河南电力,2023(S01):51-55. 被引量：1
4徐冬冬,蒋志翔.基于深度优化残差卷积神经网络的端到端语音识别[J].计算机应用研究,2020,37(S02):139-141. 被引量：6
5胡希颖,王大东,陈佳欣.基于NAO机器人的BLSTM-CTC的声学模型研究[J].智能计算机与应用,2021,11(3):76-79. 被引量：1
6杨灿.高职《深度学习》课程教学的实施[J].办公自动化,2021,26(16):37-38. 被引量：1
7蒋文建,韦岗.基于多时间尺度复合子带噪声语音识别新方法[J].电子学报,2001,29(z1):1829-1832.
8唐国.语音识别技术探讨[J].菏泽学院学报,2001,25(4):17-19.
9张宜.汉语语音识别技术的研究与发展[J].广西广播电视大学学报,2003,14(4):18-22. 被引量：3
10王青伟,马镯,崔琳,王立石,刘时雄,高霖.语音识别领域计算机程序或算法专利申请审查[J].电声技术,2012,36(S1):50-52. 被引量：1

1胡石,陈心怡,汪辉进,王雪娇.融入CTC-Attention机制的文本识别算法研究与应用[J].池州学院学报,2022,36(3):18-20.
2周杨,钱雪军.地铁运营岗位应急处置培训的语音识别研究[J].信息技术与网络安全,2022,41(6):73-76. 被引量：2
3Amany M.Sarhan,Nada M.Elshennawy,Dina M.Ibrahim.HLR-Net: A Hybrid Lip-Reading Model Based on Deep Convolutional Neural Networks[J].Computers, Materials & Continua,2021(8):1531-1549. 被引量：2
4王东,王丽媛,王大亮,齐红威.DTZH1505:大规模开源中文普通话语音库[J].计算机工程与应用,2022,58(11):295-301. 被引量：1
5帅春燕,王昱翔,许庚.混合模型在网约车出行预测研究中的应用[J].重庆理工大学学报（自然科学）,2022,36(7):162-169. 被引量：2
6谢雨茜,李路,朱明,谭鹤群,李家庆,宋均琦.基于EMD与K-means的ILSTM模型在池塘溶解氧预测中的应用[J].华中农业大学学报,2022,41(3):200-210. 被引量：3
7叶瀚,孙海春,李欣,焦凯楠.融合注意力机制与句向量压缩的长文本分类模型[J].数据分析与知识发现,2022,6(6):84-94. 被引量：4
8Hui Chen,P. Tang,R. B. Ou,J. W. Zeng,M. P. Huang,Q. L. Liu,Q. Q. Li,J. B. Huang,T. H. Huang,Chonghe Jiang,Keji Xie.Time-Opening Suprapubic Catheter versus Intermittent Catheter for Male Patients with Spinal Cord Injury (Spinal Level above Level C5)[J].Open Journal of Urology,2016,6(9):154-157.
9刘佳荣,陈平华,申建芳.融合情绪胶囊的对话情绪感知方法[J].信息技术与信息化,2022(7):5-9. 被引量：1
10Jingjing Tong,Mingjie Yao,Xiuying Mu,Leijie Wang,Xiajie Wen,Xingran Zhai,Xiang Xu,Yu Wang,Jing Chen,Xiangwei Zhai,Chongdan Guan,Fengmin Lu,Jinhua Hu.Relationship between the Level of Serum Golgi Protein 73 and the Risk of Short-term Death in Patients with ALD-ACLF[J].Journal of Clinical and Translational Hepatology,2022,10(3):449-457.

计算机与现代化

2022年第8期

浏览历史

内容加载中请稍等...

混合CTC/Attention模型在普通话识别中的应用

参考文献11

二级参考文献33

共引文献209

相关作者

相关机构

相关主题

浏览历史