端到端的深度卷积神经网络语音识别被引量：30

END-TO-END SPEECH RECOGNITION BASED ON DEEP CONVOLUTION NEURAL NETWORK

下载PDF

导出

摘要卷积神经网络(Convolutional Neural Networks,CNN)是目前流行的语音识别模型之一,其特有卷积结构保证了语音信号时域和频域的平移不变性。但是CNN存在着对语音信号建模能力有所不足的问题。为此,将链接时序准则(CTC)应用在CNN结构中,构建端到端卷积神经网络(CTC-CNN)模型。同时,引入残差块结构,提出一种新的端到端深度卷积神经网络(CTC-DCNN)模型,并利用maxout激活函数对其进行优化。通过TIMIT和Thchs-30语音库测试实验,结果表明在中英文识别中,采用该模型比现有卷积神经网络模型,准确率分别提高约4.7%和6.3%。 Convolutional Neural Networks(CNN)is one of the most popular speech recognition models.Its unique convolution structure guarantees the translation invariance of speech signals in time domain and frequency domain.However,CNN has the problem of insufficient ability of speech signal modeling.Therefore,the end-to-end convolutional neural network(CTC-CNN)model was constructed by applying the link timing criterion(CTC)to the structure of CNN.A new end-to-end deep convolution neural network(CTC-DCNN)model was proposed by introducing residual block structure.The maxout activation function was used to optimize it.Through the test of TIMIT and Thchs-30 speech database,the results show that the accuracy of our model in Chinese-English recognition is 4.7%and 6.3%higher than that of the existing CNN model.

作者刘娟宏胡彧黄鹤宇 Liu Juanhong;Hu Yu;Huang Heyu(College of Physics and Optoelectronics,Taiyuan University of Technology,Jinzhong 030600,Shanxi,China)

机构地区太原理工大学物理与光电工程学院

出处《计算机应用与软件》北大核心 2020年第4期192-196,共5页 Computer Applications and Software

关键词语音识别卷积神经网络 maxout激活函数端到端 Speech recognition Convolution neural network Maxout activation function End-to-end

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1刘长征,张磊.语音识别中卷积神经网络优化算法[J].哈尔滨理工大学学报,2016,21(3):34-38. 被引量：20
2金超,龚铖,李辉.语音识别中神经网络声学模型的说话人自适应研究[J].计算机应用与软件,2018,35(2):200-205. 被引量：12
3梁玉龙,屈丹,李真,张文林.基于卷积神经网络的维吾尔语语音识别[J].信息工程大学学报,2017,18(1):44-50. 被引量：11
4杨洋,汪毓铎.基于改进卷积神经网络算法的语音识别[J].应用声学,2018,37(6):940-946. 被引量：25
5高净植,刘祎,白旭,张权,桂志国.平稳小波域深度残差CNN用于低剂量CT图像估计[J].计算机应用,2018,38(12):3584-3590. 被引量：7
6Weiwei Jiang,Lin Zhang.Geospatial Data to Images: A Deep-Learning Framework for Traffic Forecasting[J].Tsinghua Science and Technology,2019,24(1):52-64. 被引量：11
7王庆楠,郭武,解传栋.基于端到端技术的藏语语音识别[J].模式识别与人工智能,2017,30(4):359-364. 被引量：8
8姚煜,RYAD Chellali.基于双向长短时记忆联结时序分类和加权有限状态转换器的端到端中文语音识别系统[J].计算机应用,2018,38(9):2495-2499. 被引量：16
9于重重,陈运兵,孙沁瑶,刘畅,徐世璇,尹蔚彬.基于动态BLSTM和CTC的濒危语言语音识别研究[J].计算机应用研究,2019,36(11):3334-3337. 被引量：8

二级参考文献40

1郭柏灵,蒲学科,黄凤辉.分数阶偏微分方程及其数值解[M].北京:科学出版社,2011.
2吴炜然.基于神经网络语音识别算法的研究[D].长沙:中南大学,2009.
3董龚.基于HMN的嵌人式特定人语音识别系统[D].哈尔滨:哈尔滨工业大学,2013.
4CHENG O,ABDULLA W,SALCIC Z. Hardware-software Codesign of Automatic Speech Recognition System [ J ]. Industial Electron- ies,2011,58(3) :850 -859.
5WEN Cheyen, CHIU Shihhsuan, HSU Weisheng. Defect Segmenta- tion of Texture Images with Wavelent Transform and a Co-occur- rence Matrix [ J ]. Textile Research Journal, 2001,71 ( 8 ) : 743 - 749.
6PEI S C, DING J J. Closed-form Discrete Fractional and Mfine Fourier Transforms [ J ]. IEEE Trans on Signal Process, 2000,48 (5) : 1338 - 1553.
7傅鹏.Caputo分数阶导数的稳定数值逼近[J].兰州大学学报（自然科学版）,2008,44(6):117-119. 被引量：3
8那斯尔江.吐尔逊,吾守尔.斯拉木.基于隐马尔可夫模型的维吾尔语连续语音识别系统[J].计算机应用,2009,29(7):2009-2011. 被引量：17
9陈存宝,赵力.嵌入时延神经网络的高斯混合模型说话人辨认[J].声学技术,2010,29(3):292-296. 被引量：4
10包亚萍,郑骏,武晓光.基于HMM和遗传神经网络的语音识别系统[J].计算机工程与科学,2011,33(4):139-144. 被引量：14

共引文献98

1徐冬冬,蒋志翔.基于深度优化残差卷积神经网络的端到端语音识别[J].计算机应用研究,2020,37(S02):139-141. 被引量：6
2胡希颖,王大东,陈佳欣.基于NAO机器人的BLSTM-CTC的声学模型研究[J].智能计算机与应用,2021,11(3):76-79. 被引量：1
3杨庚.生物化学分子数据库分析和设计研究[J].计算机工程与应用,2000,36(4):10-11. 被引量：2
4王鹏,张肖敏,白艳萍.基于CNN-ELM的SAR图像分类识别[J].数学的实践与认识,2018,48(23):75-80. 被引量：4
5靖固,张学松.FPGA语音识别的四旋翼飞行器控制系统设计[J].哈尔滨理工大学学报,2017,22(6):95-101. 被引量：4
6梁玉龙,屈丹,邱泽宇.基于改进i-vector的说话人感知训练方法研究[J].计算机工程,2018,44(5):262-267.
7高成吉.一种英语口语识别算法[J].信息技术,2018,42(8):148-151. 被引量：3
8阿依先木.卡得尔,邱自成.维吾尔语三音素决策树的欠拟合调优[J].塔里木大学学报,2018,30(2):98-108.
9李山.智能家具语音识别精准度优化仿真[J].计算机仿真,2018,35(11):281-284. 被引量：4
10杨洋,汪毓铎.深度学习在语音识别声学建模中的应用[J].电脑知识与技术,2018,14(6X):190-192. 被引量：9

同被引文献236

1汤勃,孔建益,王兴东,刘钊,刘怀广.钢板表面低对比度微小缺陷图像增强和分割[J].中国图象图形学报,2020,25(1):81-91. 被引量：20
2孙伟,宋如意,王宇航.视觉/惯性组合导航中的SWF与MSCKF对比研究[J].中国矿业大学学报,2020,49(1):198-204. 被引量：4
3何成兵,王润泽,张霄翔.基于改进一维卷积神经网络的汽轮发电机组轴系扭振模态参数辨识[J].中国电机工程学报,2020,40(S01):195-203. 被引量：15
4周坤,李小松.人工智能与计算智能在物联网方面的应用探索[J].计算机产品与流通,2020,9(11):152-152. 被引量：5
5周奇安,李舟军.基于BERT的任务导向对话系统自然语言理解的改进模型与调优方法[J].中文信息学报,2020(5):82-90. 被引量：12
6李业良,张二华,唐振民.基于混合式注意力机制的语音识别研究[J].计算机应用研究,2020,37(1):131-134. 被引量：9
7卢洵波,李昕.特征融合的VAD方法在语音识别系统中的应用[J].电子测量技术,2020(7):129-136. 被引量：2
8吴倩,应捷,黄影平,杨海马,胡文凯.融合多标签和双注意力机制的图像语义理解模型[J].智能计算机与应用,2020,0(1):12-21. 被引量：1
9曾理,高艳,毕碧.铁路货车铸件工件号倾斜DR图像的识别方法[J].中国铁道科学,2012,33(2):95-99. 被引量：3
10赵军辉,匡镜明,谢湘.应用于军事指挥中的鲁棒性语音识别系统[J].兵工学报,2004,25(4):509-512. 被引量：5

引证文献30

1何成兵,王润泽,张霄翔.基于改进一维卷积神经网络的汽轮发电机组轴系扭振模态参数辨识[J].中国电机工程学报,2020,40(S01):195-203. 被引量：15
2缪飞,神户忠,荻野浩雄,长谷一史.电子束CT检测冠状动脉钙化指数价值的评价[J].上海医学,2000,23(5):317-319.
3林麟,贾虹.达力士搽剂治疗头部银屑病35例疗效观察[J].临床皮肤科杂志,2000,29(2):105-106. 被引量：10
4戴晶.基于深度学习的不良信息治理新技术研究[J].电信工程技术与标准化,2020,33(11):75-81. 被引量：3
5李国友,王维江,李晨光,杭丙鹏,杨梦琪.基于Kinect多生物识别技术的智能视频播放器交互系统[J].高技术通讯,2021,31(2):129-140. 被引量：2
6赵彦,孙俊,时凯欣.N-pod多品牌智能家居语音控制设备的设计与实现[J].电气传动,2021,51(7):59-66. 被引量：5
7盛雪丰.基于TFLite实现个性化灯光控制系统[J].智能计算机与应用,2021,11(2):195-200. 被引量：1
8王涛,全海燕.低信噪比下联合训练生成对抗网络的语音分离[J].计算机工程与科学,2021,43(6):1088-1094.
9柏财通,高志强,李爱,崔翛龙.基于门控网络的军事装备控制指令语音识别研究[J].计算机工程,2021,47(7):301-306. 被引量：4
10刘基,赵志诚,王晓东.基于OCR技术的复杂背景下工件标识字符识别方法[J].铸造,2021,70(7):855-860. 被引量：3

二级引证文献66

1刘建平,姚守恩,杨云,余军.外用混合粉剂治疗肛门部传染性湿疹样皮炎40例临床观察[J].宁夏医学杂志,2005,27(3):208-208. 被引量：2
2曹冰青,张恒坡,郝伟丽.卡泊三醇擦剂联合哈西奈德溶液治疗头皮银屑病疗效观察[J].中国中西医结合皮肤性病学杂志,2011,10(5):298-299. 被引量：3
3姜功平,张禁,杨旭,杨明辉,余玲,何泽慧.卡泊三醇搽剂联合温泉浴、松馏油软膏封包治疗头部银屑病的疗效观察[J].临床皮肤科杂志,2012,41(2):121-122. 被引量：10
4邢飞,廖薇,江平.卡泊三醇搽剂治疗头皮脂溢性皮炎疗效观察[J].中国麻风皮肤病杂志,2012,28(12):895-895. 被引量：1
5罗国良,陈用军,石年,王建.卡泊三醇擦剂治疗头皮脂溢性皮炎临床疗效观察[J].医学信息,2013(6):307-307. 被引量：1
6霍秀琪.银屑病治疗的进展[J].医学文选,2000,19(5):780-781.
7廖薇,李云鹏,邢飞.卡泊三醇搽剂联合氟芬那酸丁酯软膏治疗头部慢性湿疹与神经性皮炎的疗效观察[J].中国药房,2014,25(26):2441-2443. 被引量：6
8王慧娟,顿耿,耿庆娜,王祖艳,付旭晖,王哲新.外用卡泊三醇倍他米松凝胶治疗头皮银屑病临床研究[J].中国中西医结合皮肤性病学杂志,2020,19(2):145-147. 被引量：7
9齐放.基于一维卷积神经网络的电力系统暂态稳定在线评估[J].四川电力技术,2021,44(4):38-42. 被引量：2
10宋晓雨,李延鹏.“互联网+”时代下工业博物馆的智能照明系统改造策略——以辽宁鞍钢博物馆为例[J].光源与照明,2021(3):22-23. 被引量：4

1肖萌萌,徐志京.有向无环图拓扑的DBN多口音分类方法[J].小型微型计算机系统,2019,40(12):2545-2549. 被引量：1
2叶硕,褚钰,王祎,李田港.语音识别中声学模型研究综述[J].计算机技术与发展,2020,30(3):181-186. 被引量：5
3顾晓勇,刘洪武,刘浩然,王青峰.回火温度对NHL10耐候高强度螺栓钢组织和力学性能的影响[J].上海金属,2020,42(2):44-49. 被引量：3
4王飞,胡川,罗浩,汪鹏.医疗场景智能语音识别技术的应用研究[J].中国数字医学,2019,14(12):19-21. 被引量：24
5崔晶,张锦涛,宋婷,楚中毅.三轴力解耦测量的高灵敏触觉传感器[J].光学精密工程,2019,27(11):2410-2419. 被引量：6
6赵蔓,马晓磊,斯泽坤.半自动小区双层停车位分析[J].科学大众（科技创新）,2020,0(1):15-17.
7乌婷婷.针对多种伪造操作的数字语音取证算法[J].无线通信技术,2019,28(3):37-40.
8林晓丹,邱应强.基于翻转梅尔频率倒谱系数的语音变调检测方法[J].计算机应用,2019,39(12):3510-3514. 被引量：2
9张少华,秦会斌.基于MFCC的频谱重构实现音高估计和发声分类[J].测控技术,2019,38(11):86-89.
10俞建强,颜雁,刘葳,孙一鸣.基于改进门控单元神经网络的语音识别声学模型研究[J].长春理工大学学报（自然科学版）,2020,43(1):104-111. 被引量：1

计算机应用与软件

2020年第4期

浏览历史

内容加载中请稍等...

端到端的深度卷积神经网络语音识别被引量：30

参考文献9

二级参考文献40

共引文献98

同被引文献236

引证文献30

二级引证文献66

相关作者

相关机构

相关主题

浏览历史

端到端的深度卷积神经网络语音识别 被引量：30

参考文献9

二级参考文献40

共引文献98

同被引文献236

引证文献30

二级引证文献66

相关作者

相关机构

相关主题

浏览历史

端到端的深度卷积神经网络语音识别被引量：30