结合Transformer的轻量化中文语音识别被引量：8

Lightweight Chinese speech recognition with Transformer

下载PDF

导出

摘要近年来,深度神经网络模型在语音识别领域成为热门研究对象。然而,深层神经网络的构建依赖庞大的参数和计算开销,过大的模型体积也增加了其在边缘设备上部署的难度。针对上述问题,提出了基于Transformer的轻量化语音识别模型。首先使用深度可分离卷积获得音频特征信息;其次构建了双半步剩余权重前馈神经网络,即Macaron-Net结构,并引入低秩矩阵分解,实现了模型压缩;最后使用稀疏注意力机制,提升了模型的训练速度和解码速度。为了验证模型,在Aishell-1和aidatatang_200zh数据集上进行了测试。实验结果显示,与Open-Transformer相比,所提模型在字错误率上相对下降了19.8%,在实时率上相对下降了32.1%。 Recently,deep neural network model has become a hot research object in the field of speech recognition.How-ever,the deep neural network relies on huge parameters and computational overhead,the excessively large model size also increases the difficulty of its deployment on edge devices.Aiming at the above problems,this paper proposed a lightweight speech recognition model based on Transformer.This method used depthwise separable convolution to obtain the feature information.Secondly,this method constructed a two half-step feed-forward layers,namely Macaron-Net,and introduced the low-rank matrix factorization to realize the model compression.Finally,it used a sparse attention mechanism to improve the trai-ning speed and decoding speed of the model.It tested on the Aishell-1 and aidatang_200zh datasets.The experimental results show that compared with Open-Transformer,the word error rate and real time factor of LM-Transformer decrease by 19.8%and 32.1%,respectively.

作者沈逸文孙俊 Shen Yiwen;Sun Jun(School of Artificial Intelligence&Computer Science,Jiangnan University,Wuxi Jiangsu 214122,China)

机构地区江南大学人工智能与计算机学院

出处《计算机应用研究》 CSCD 北大核心 2023年第2期424-429,共6页 Application Research of Computers

基金国家自然科学基金资助项目(61672263) 国家自然科学基金委员会联合基金资助项目(U1836218)。

关键词语音识别 TRANSFORMER 低秩矩阵分解轻量卷积模型压缩稀疏注意力 speech recognition Transformer low-rank matrix factorization lightweight convolution model compression sparse attention

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献7

1吕坤儒,吴春国,梁艳春,袁宇平,任智敏,周柚,时小虎.融合语言模型的端到端中文语音识别算法[J].电子学报,2021,49(11):2177-2185. 被引量：15
2陈晋音,叶林辉,郑海斌,杨奕涛,俞山青.面向语音识别系统的黑盒对抗攻击方法[J].小型微型计算机系统,2020,41(5):1019-1029. 被引量：10
3谢旭康,陈戈,孙俊,陈祺东.TCN-Transformer-CTC的端到端语音识别[J].计算机应用研究,2022,39(3):699-703. 被引量：15
4丁枫林,郭武,孙健.端到端维吾尔语语音识别研究[J].小型微型计算机系统,2020,41(1):19-23. 被引量：2
5史占堂,马玉鹏,赵凡,马博.基于CNN‐Head Transformer编码器的中文命名实体识别[J].计算机工程,2022,48(10):73-80. 被引量：6
6张晓旭,马志强,刘志强,朱方圆,王春喻.Transformer在语音识别任务中的研究现状与展望[J].计算机科学与探索,2021,15(9):1578-1594. 被引量：18
7胡章芳,蹇芳,唐珊珊,明子平,姜博文.DFSMN-T:结合强语言模型Transformer的中文语音识别[J].计算机工程与应用,2022,58(9):187-194. 被引量：13

二级参考文献11

1侯一民,周慧琼,王政一.深度学习在语音识别中的研究进展综述[J].计算机应用研究,2017,34(8):2241-2246. 被引量：82
2王海坤,潘嘉,刘聪.语音识别技术的研究进展与展望[J].电信科学,2018,34(2):1-11. 被引量：75
3唐美丽,胡琼,马廷淮.基于循环神经网络的语音识别研究[J].现代电子技术,2019,42(14):152-156. 被引量：19
4胡章芳,徐轩,付亚芹,夏志广,马苏东.基于ResNet-BLSTM的端到端语音识别[J].计算机工程与应用,2020,56(18):124-130. 被引量：11
5邓江云,李晟.基于GMM-HMM的语音识别垃圾分类系统[J].现代计算机,2020,26(26):27-32. 被引量：4
6高建清,万根顺,吴重亮.端到端语音识别的研究进展与挑战[J].中国安防,2020(11):38-45. 被引量：3
7张栋,王铭涛,陈文亮.结合五笔字形与上下文相关字向量的命名实体识别[J].计算机工程,2021,47(3):94-101. 被引量：7
8徐冬冬.基于Transformer的普通话语声识别模型位置编码选择[J].应用声学,2021,40(2):194-199. 被引量：3
9胡章芳,蹇芳,唐珊珊,明子平,姜博文.DFSMN-T:结合强语言模型Transformer的中文语音识别[J].计算机工程与应用,2022,58(9):187-194. 被引量：13
10司逸晨,管有庆.基于Transformer编码器的中文命名实体识别模型[J].计算机工程,2022,48(7):66-72. 被引量：11

共引文献62

1周俊,郑彭元,袁立存,戈为溪,梁静.基于改进CASREL的水稻施肥知识图谱信息抽取研究[J].农业机械学报,2022,53(11):314-322. 被引量：9
2王家,龙冬梅.深度学习在语音识别中的应用综述[J].电脑知识与技术,2020,16(34):191-192. 被引量：6
3宓林晖,袁骏毅,潘常青,沈晓冬.基于智能语音识别技术的医技报告交互系统的设计与应用[J].中国医疗设备,2021,36(2):92-95. 被引量：17
4郭怡.基于人工智能的语音识别系统及应用研究[J].信息与电脑,2021,33(13):153-155. 被引量：3
5谢旭康,陈戈,孙俊,陈祺东.TCN-Transformer-CTC的端到端语音识别[J].计算机应用研究,2022,39(3):699-703. 被引量：15
6朱学超,张飞,高鹭,任晓颖,郝斌.基于残差网络和门控卷积网络的语音识别研究[J].计算机工程与应用,2022,58(7):185-191. 被引量：9
7孙刘杰,赵进,王文举,张煜森.多尺度Transformer激光雷达点云3D物体检测[J].计算机工程与应用,2022,58(8):136-146. 被引量：2
8杨璐,郭文明,韩芳.基于DFCNN-CTC和Transformer的中文语音识别[J].火力与指挥控制,2022,47(3):16-21.
9袁天昊,吉顺慧,张鹏程,蔡涵博,戴启印,叶仕俊,任彬.针对黑盒智能语音软件的对抗样本生成方法[J].软件学报,2022,33(5):1569-1586. 被引量：2
10王秀秀.基于深度学习模型的对抗攻击方法分析[J].电脑编程技巧与维护,2022(6):120-122.

同被引文献54

1王俊杰.大数据背景下“暴力虚开”增值税发票的审计对策[J].审计观察,2022(3):19-23. 被引量：1
2李业良,张二华,唐振民.基于混合式注意力机制的语音识别研究[J].计算机应用研究,2020,37(1):131-134. 被引量：10
3倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报,2009,23(1):112-123. 被引量：39
4曹洁,余丽珍.改进的说话人聚类初始化和GMM的多说话人识别[J].计算机应用研究,2012,29(2):590-593. 被引量：6
5刘加.汉语大词汇量连续语音识别系统研究进展[J].电子学报,2000,28(1):85-91. 被引量：50
6刘加,陈谐,单煜翔,史永哲.大规模词表连续语音识别引擎紧致动态网络的构建[J].清华大学学报（自然科学版）,2012,52(11):1530-1534. 被引量：1
7陈洁,吴强.基于两阶段法的纳税遵从风险测算探析[J].税务研究,2013(11):65-68. 被引量：5
8张营周,辛洪涛,张现营.金税三期下增值税发票虚开虚抵税收风险识别指标体系构建[J].财会月刊,2018(9):73-78. 被引量：11
9吴志敏,刘珍,王若愚,陈洁桐.面向移动App流量的多特征集合集成聚类方法研究与应用[J].计算机应用研究,2019,36(10):3101-3106. 被引量：3
10王子龙,李俊峰,张劭韡,王宏岩,王思杰.基于递归神经网络的端到端语音识别[J].计算机与数字工程,2019,47(12):3099-3106. 被引量：5

引证文献8

1刘育坤,郑霖,黎塔,张鹏远.多声学场景下端到端语音识别声学编码器的自适应[J].声学学报,2023,48(6):1260-1268. 被引量：2
2杨慧,程建华.基于Transformer模型的“暴力”虚开发票风险识别[J].安徽工程大学学报,2024,39(1):76-85.
3于业新.基于LD3320的智能语音识别系统设计与实现[J].电声技术,2024,48(3):97-100.
4焦晓燕.基于改进型DTW的语音识别系统的设计与实现[J].电声技术,2024,48(4):60-62.
5朱必松,毛启容,高利剑,沈雅馨.基于时间分段和重组聚类的说话人日志方法[J].计算机应用研究,2024,41(9):2649-2654.
6刘晨宇,李志农,熊鹏伟,谷丰收.融合路径聚合网络的Swin Transformer的故障诊断方法研究[J].振动与冲击,2024,43(18):258-266.
7李志刚,宗利芳,李雪.基于边缘联邦学习的重放语音检测框架[J].微电子学与计算机,2024,41(11):1-12.
8张婷婷,邱泽鹏,赵腊生,毛嘉莹.基于双分支融合和时频压缩激励的鲁棒语音关键词识别[J].计算机应用研究,2024,41(12):3658-3663.

二级引证文献2

1王雪宝,汤永涛,王青波,唐文龙.人工智能语音识别技术在国外军事领域的应用分析[J].电脑知识与技术,2024,20(5):21-23. 被引量：3
2董胡,夏明霞,李垣陵.基于DCNN-CTC的中文儿童语音识别研究[J].自动化应用,2024,65(23):28-30.

1李昂,孙士杰,张朝阳,冯明涛,吴成中,李旺.改进YOLOv5s的轨道障碍物检测模型轻量化研究[J].计算机工程与应用,2023,59(4):197-207. 被引量：19
2王智,石章松,吴鹏飞,吴中红,祁江鑫.一种基于改进YOLOv4的舰炮弹着点水柱检测方法[J].海军工程大学学报,2022,34(6):35-40.
3季菁菁,奚峥皓,李忠峰.基于深度迁移学习的煤岩显微组分识别算法[J].智能计算机与应用,2023,13(2):92-97. 被引量：2
4谷雨,赵军.列车闸瓦钎及闸瓦故障图像检测算法研究[J].图学学报,2023,44(1):88-94.
5黄钟诚,贾更尕,张学珍,文培东,张顶.缓释型引发剂的制备及其水泥基复合材料抗渗性能研究[J].当代化工研究,2022(23):62-64.
6金维旭,南新元,李晓光,杨天伟,苏比努尔·艾依来提.基于改进Mask R-CNN强风沙环境绝缘子识别[J].电瓷避雷器,2022(6):204-210. 被引量：4
7陈戈,谢旭康,孙俊,陈祺东.使用Conformer增强的混合CTC/Attention端到端中文语音识别[J].计算机工程与应用,2023,59(4):97-103. 被引量：7
8李斌,刘东阳,时国龙,慕京生,徐浩然,辜丽川,焦俊.基于改进YOLOv4模型的群养生猪姿态检测[J].浙江农业学报,2023,35(1):215-225. 被引量：3
9方恩权,王耀东,李星言,马农杰.地铁盾构隧道渗漏水病害图像识别算法[J].隧道与地下工程灾害防治,2022,4(4):28-33. 被引量：2
10杜航,杨云,郑江蓉,王俊,张扬,宫杰.青海玛多M_(S)7.4地震前b值时空变化特征[J].震灾防御技术,2022,17(4):691-700.

计算机应用研究

2023年第2期

浏览历史

内容加载中请稍等...

结合Transformer的轻量化中文语音识别被引量：8

参考文献7

二级参考文献11

共引文献62

同被引文献54

引证文献8

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

结合Transformer的轻量化中文语音识别 被引量：8

参考文献7

二级参考文献11

共引文献62

同被引文献54

引证文献8

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

结合Transformer的轻量化中文语音识别被引量：8