一种基于CNN/CTC的端到端普通话语音识别方法被引量：3

An End-to-End Mandarin Speech Recognition Method Based on CNN/CTC

下载PDF

导出

摘要为了实现离线状态较高正确率的中文普通话语音识别,提出一种基于深度全卷积神经网络CNN表征的语音识别系统的声学模型,将频谱图作为输入,在模型结构上参考了VGG模型。在输出端,该模型可以与连接时序分类完美结合,从而实现整个模型的端到端训练,将声波信号转换成普通话拼音序列。语言模型则采用最大熵马尔可夫模型,将拼音序列转换为中文文本。实验表明,此算法在测试集上已经获得了80.82%的正确率。 In order to achieve Mandarin speech recognition with higher accuracy in offline state,we come up with an acoustic model of a speech recognition system based on deep full convolutional neural network(CNN).We choose the spectrogram of acoustic signals as input.As for the structure of the model,we refer the VGG model.At the output end,the model can be perfectly combined with the connectionist temporal classification(CTC).We realize the end-to-end training of the entire model using this method,and the acoustic signal is directly converted into a Mandarin Pinyin sequence.Our language model uses the Maximum Entropy Markov Model to convert Pinyin sequences into Chinese text.Our experiments show that this algorithm has achieved 80.82%accuracy on our test set.

作者潘粤成刘卓潘文豪蔡典仑韦政松 PAN Yuecheng;LIU Zhuo;PAN Wenhao;CAI Dianlun;WEI Zhengsong(School of Automation Science and Engineering,South China University of Technology,Guangzhou 510641,China;School of Mechanical and Automotive Engineering,South China University of Technology,Guangzhou 510641,China)

机构地区华南理工大学自动化科学与工程学院华南理工大学机械与汽车工程学院

出处《现代信息科技》 2020年第5期65-68,共4页 Modern Information Technology

基金国家级大学生创新创业训练计划项目(201910561167)。

关键词卷积神经网络中文语音识别连接时序分类端到端系统 convolutional neural network Chinese speech recognition connectionist temporal classification end-to-end system

分类号 TN912.34 [电子电信—通信与信息系统] TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1唐美丽,胡琼,马廷淮.基于循环神经网络的语音识别研究[J].现代电子技术,2019,42(14):152-156. 被引量：19
2王嘉伟.基于卷积神经网络的语音识别研究[J].科学技术创新,2019(31):71-73. 被引量：6
3杨洋,汪毓铎.基于改进卷积神经网络算法的语音识别[J].应用声学,2018,37(6):940-946. 被引量：25

二级参考文献13

1滕云,贺春林,岳淼.基于神经网络的语音识别研究[J].重庆师范大学学报（自然科学版）,2010,27(4):73-76. 被引量：10
2冯宏伟,薛蕾.基于HMM和新型前馈型神经网络的语音识别研究[J].计算机工程与设计,2010,31(24):5324-5327. 被引量：6
3张开旭,周昌乐.基于自动编码器的中文词汇特征无监督学习[J].中文信息学报,2013,27(5):1-7. 被引量：20
4朱小燕,王昱,徐伟.基于循环神经网络的语音识别模型[J].计算机学报,2001,24(2):213-218. 被引量：22
5胡政权,曾毓敏,宗原,李梦超.说话人识别中MFCC参数提取的改进[J].计算机工程与应用,2014,50(7):217-220. 被引量：28
6刘豫军,夏聪.深度学习神经网络在语音识别中的应用[J].网络安全技术与应用,2014(12):28-28. 被引量：5
7陈雷,杨俊安,王一,王龙.LVCSR系统中一种基于区分性和自适应瓶颈深度置信网络的特征提取方法[J].信号处理,2015,31(3):290-298. 被引量：9
8孙艳丰,齐光磊,胡永利,赵璐.基于改进Fisher准则的深度卷积神经网络识别算法[J].北京工业大学学报,2015,41(6):835-841. 被引量：24
9王山海,景新幸,杨海燕.基于深度学习神经网络的孤立词语音识别的研究[J].计算机应用研究,2015,32(8):2289-2291. 被引量：56
10汪海彬,余正涛,毛存礼,郭剑毅.SMFCC:一种新的语音信号特征提取方法[J].计算机应用,2016,36(6):1735-1740. 被引量：4

共引文献44

1郭怀钰.人工智能在智能交通中的应用[J].电子制作,2019,27(6):73-74. 被引量：2
2胡同,朱国华,黄力乾.智能规范执法系统的设计实现[J].电脑编程技巧与维护,2019(6):131-132.
3张荣葳.基于SimHash与神经网络的网络异常检测方法研究[J].电脑知识与技术,2019,15(6X):224-226. 被引量：1
4史雨璇.基于改进VGG-13卷积神经网络的单脉冲信号分选[J].哈尔滨商业大学学报（自然科学版）,2019,35(4):419-425. 被引量：1
5刘礼文,俞弦.循环神经网络（RNN）及应用研究[J].科技视界,2019,0(32):54-55. 被引量：16
6周钧锴,毕君郁.基于卷积神经网络的语音识别系统在养老软件中的实现[J].电脑知识与技术,2019,15(10):229-230. 被引量：3
7于镭,李涛涛.基于ROS的智能语音控制系统设计[J].电子测量技术,2019,42(23):35-39. 被引量：5
8谢将剑,杨俊,邢照亮,张卓,陈新.多特征融合的鸟类物种识别方法[J].应用声学,2020,39(2):199-206. 被引量：14
9张威,翟明浩,黄子龙,李巍,曹毅.SE-MCNN-CTC的中文语音识别声学模型[J].应用声学,2020,39(2):223-230. 被引量：10
10刘娟宏,胡彧,黄鹤宇.端到端的深度卷积神经网络语音识别[J].计算机应用与软件,2020,37(4):192-196. 被引量：30

同被引文献42

1范士雄,李立新,王松岩,刘幸蔚,於益军,郝博文.人工智能技术在电网调控中的应用研究[J].电网技术,2020,44(2):401-411. 被引量：103
2李明节,陶洪铸,许洪强,刘金波,张强,张伟.电网调控领域人工智能技术框架与应用展望[J].电网技术,2020,44(2):393-400. 被引量：76
3汪琳瑛,何胜伟.语音合成技术在电力调度自动化系统中的应用[J].广东电力,2006,19(12):61-62. 被引量：5
4张恩东,黄文浩.基于小波变换和Kalman滤波的语音增强方法[J].模式识别与人工智能,2009,22(1):28-31. 被引量：4
5钟巍,孔祥维,尤新刚,王波.基于分数倒谱变换的取证语音拼接特征提取与分析[J].数据采集与处理,2014,29(2):248-253. 被引量：6
6周念成,廖建权,王强钢,李春艳,李剑.深度学习在智能电网中的应用现状分析与展望[J].电力系统自动化,2019,43(4):180-191. 被引量：174
7何冰,王艳玲,李晓东.关于在卷烟经营管理中应用“识别码”的思考[J].中国商贸,2015,0(16):127-129. 被引量：1
8陈芳锐,尹志豇,何雪峰.浅谈卷烟二维码在卷烟防伪提质中的应用[J].数字技术与应用,2015,33(10):132-133. 被引量：4
9秦楚雄,张连海.低资源语音识别中融合多流特征的卷积神经网络声学建模方法[J].计算机应用,2016,36(9):2609-2615. 被引量：7
10田妍,刘宇舜,熊俊,李鹏飞,周文俊,钟少泉.基于时频分布图像纹理特征的局部放电特高频信号的特征参数提取方法[J].高压电器,2017,53(7):30-37. 被引量：13

引证文献3

1姚永波,焦小龙,王晓波.基于GAF和DRN的电力调度语音识别方法[J].信息技术,2022,46(9):169-173.
2闵秋洁,刘东.基于机器翻译的普通话发音标准度测试系统[J].自动化与仪器仪表,2022(9):115-119. 被引量：2
3徐琦,孙顺凯,钱杰,刘剑敏,方利梅.基于改进CRNN网络的卷烟件烟上行码识别方法研究[J].中国烟草学报,2024,30(3):125-131.

二级引证文献2

1文丽萍.噪声环境下基于小波变换的普通话智能测试系统设计[J].自动化与仪器仪表,2023(5):153-157.
2吴亚亚.基于传感器技术的三维发音可视化合成系统研究设计[J].自动化与仪器仪表,2024(4):102-105.

1张威,翟明浩,黄子龙,李巍,曹毅.SE-MCNN-CTC的中文语音识别声学模型[J].应用声学,2020,39(2):223-230. 被引量：10
2查兴兴,陈恳.基于改进CNN的中文语音识别研究[J].无线通信技术,2019,28(4):40-44. 被引量：2
3张泽浩,周卫星.基于全卷积回归网络的图像去雾算法[J].激光与光电子学进展,2019,56(20):244-253. 被引量：3
4晏小龙.eLTE-U承载城市轨道CBTC方案[J].信息通信,2020,0(2):17-19.
5邱实.FPGA在数字信号处理中的应用研究[J].电子世界,2020(7):155-156. 被引量：5
6潘宏刚,庞智元,肖增弘,李丽.多跨转子系统联轴器偏角不对中试验研究[J].动力工程学报,2020,40(4):305-310. 被引量：7
7孔锐,谢玮,雷泰.基于神经网络的图像描述方法研究[J].系统仿真学报,2020,32(4):601-611. 被引量：6
8杨玮祺,杜晔.基于预训练模型的文本分类网络TextCGA[J].现代计算机,2020,26(12):52-57. 被引量：2
9柳超杰,陈振雷,吕孝鲁,商晴.某工程机械驾驶室的减振优化研究[J].机械科学与技术,2020,39(5):682-687. 被引量：7
10王英洋,马卫国,陈婷,王刚,王程飞,叶青.汽车空调离心风机系统结构对噪声的影响[J].长江大学学报（自然科学版）,2020,17(3):114-120. 被引量：3

现代信息科技

2020年第5期

浏览历史

内容加载中请稍等...

一种基于CNN/CTC的端到端普通话语音识别方法被引量：3

参考文献3

二级参考文献13

共引文献44

同被引文献42

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于CNN/CTC的端到端普通话语音识别方法 被引量：3

参考文献3

二级参考文献13

共引文献44

同被引文献42

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于CNN/CTC的端到端普通话语音识别方法被引量：3