基于递归神经网络的语音识别快速解码算法被引量：17

Fast Decoding Algorithm for Automatic Speech Recognition Based on Recurrent Neural Networks

下载PDF

导出

摘要递归神经网络(Recurrent Neural Network,RNN)如今已经广泛用于自动语音识别(Automatic Speech Recognition,ASR)的声学建模。虽然其较传统的声学建模方法有很大优势,但相对较高的计算复杂度限制了这种神经网络的应用,特别是在实时应用场景中。由于递归神经网络采用的输入特征通常有较长的上下文,因此利用重叠信息来同时降低声学后验和令牌传递的时间复杂度成为可能。该文介绍了一种新的解码器结构,通过有规律抛弃存在重叠的帧来获得解码过程中的计算开销降低。特别地,这种方法可以直接用于原始的递归神经网络模型,只需对隐马尔可夫模型(Hidden Markov Model,HMM)结构做小的变动,这使得这种方法具有很高的灵活性。该文以时延神经网络为例验证了所提出的方法,证明该方法能够在精度损失相对较小的情况下取得2~4倍的加速比。 Recurrent Neural Networks （RNN） are widely used for acoustic modeling in Automatic Speech Recognition （ASR）. Although RNNs show many advantages over traditional acoustic modeling methods, the inherent higher computational cost limits its usage, especially in real-time applications. Noticing that the features used by RNNs usually have relatively long acoustic contexts, it is possible to lower the computational complexity of both posterior calculation and token passing process with overlapped information. This paper introduces a novel decoder structure that drops the overlapped acoustic frames regularly, which leads to a significant computational cost reduction in the decoding process. Especially, the new approach can directly use the original RNNs with minor modifications on the HMM topology, which makes it flexible. In experiments on conversation telephone speech datasets, this approach achieves 2 to 4 times speedup with little relative accuracy reduction.

作者张舸张鹏远潘接林颜永红

机构地区中国科学院声学研究所语言声学与内容理解重点实验室中国科学院大学中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室

出处《电子与信息学报》 EI CSCD 北大核心 2017年第4期930-937,共8页 Journal of Electronics & Information Technology

基金国家自然科学基金(U1536117 11590770-4) 国家重点研发计划重点专项(2016YFB0801200 2016YFB0801203) 新疆维吾尔自治区科技重大专项(2016A03007-1)~~

关键词语音识别递归神经网络解码器跳帧计算 Speech recognition Recurrent Neural Network （RNN） Decoder Frame skipping

分类号 TP391.42 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献165

1周楠,艾剑良.基于HMM和RNN的无人机语音控制方案与仿真研究[J].系统仿真学报,2020,32(3):464-471. 被引量：12
2刘迎军,王康,李立.基于LSTM神经网络的流域污染物通量预测[J].水力发电学报,2020,39(10):72-81. 被引量：16
3张庆龙,安再展,刘天云,张兆省,皇甫泽华,李庆斌.土石坝压实的智能控制理论[J].水力发电学报,2020(7):34-40. 被引量：18
4井晓阳,罗飞,王亚棋.汉语语音合成技术综述[J].计算机科学,2012,39(S3):386-390. 被引量：13
5熊亚军,廖晓农,李梓铭,张小玲,孙兆彬,赵秀娟,赵普生,马小会,蒲维维.KNN数据挖掘算法在北京地区霾等级预报中的应用[J].气象,2015,41(1):98-104. 被引量：53
6李锐,宋铁英.国内网络调查研究分析[J].情报科学,2005,23(6):891-895. 被引量：19
7刘晓明,覃胜,刘宗行,江泽佳.语音端点检测的仿真研究[J].系统仿真学报,2005,17(8):1974-1976. 被引量：21
8姚秋明,柴佩琪,宣国荣,杨志强,施云庆.基于期望最大化算法的音频取证中的篡改检测[J].计算机应用,2006,26(11):2598-2601. 被引量：12
9马汉旷.楼宇空调混合控制系统研究[J].山西建筑,2007,33(19):186-187. 被引量：2
10尚彦军,杨志法,曾庆利,孙元春,史永跃,袁广祥.TBM施工遇险工程地质问题分析和失误的反思[J].岩石力学与工程学报,2007,26(12):2404-2411. 被引量：104

引证文献17

1周楠,艾剑良.基于HMM和RNN的无人机语音控制方案与仿真研究[J].系统仿真学报,2020,32(3):464-471. 被引量：12
2李丹婷.基于RNN模型的工业机器人故障可跟踪预测方法[J].计算机与网络,2018,44(2):68-71. 被引量：1
3董海军,耿宇.移动互联网+问卷的应用特点与发展[J].晋阳学刊,2018(3):104-110. 被引量：7
4王民,许娟,要趁红,赵渊.基于ADSABC算法优化WNN的语音识别研究[J].液晶与显示,2018,33(7):615-623. 被引量：4
5高成吉.一种英语口语识别算法[J].信息技术,2018,42(8):148-151. 被引量：3
6牛德姣,刘亚文,蔡涛,彭长生,詹永照,梁军.基于递归神经网络的跌倒检测系统[J].智能系统学报,2018,13(3):380-387. 被引量：6
7雷志彬,陈骏霖.基于全连接LSTM的心肺音分离方法[J].自动化与信息工程,2018,39(6):25-30. 被引量：5
8杨随先,刘行,康慧,李晴.互联网+智能设计背景下的交互设计与体验[J].包装工程,2019,40(16):1-13. 被引量：20
9乌婷婷.针对多种伪造操作的数字语音取证算法[J].无线通信技术,2019,28(3):37-40.
10尹鹏飞,李晋宏.楼宇空调的能量预测与模型研究[J].计算机与数字工程,2019,47(11):2914-2918. 被引量：2

二级引证文献87

1苏翎菲,化永朝,董希旺,任章.人与无人机集群多模态智能交互方法[J].航空学报,2022,43(S01):129-142. 被引量：4
2杜茂康,张雪,肖玲,江河.基于多目标和贝叶斯优化的短期负荷区间预测[J].国外电子测量技术,2023,42(1):49-57. 被引量：4
3李杰,朱美红.地奥心血康在内科的应用[J].医药导报,2000,19(1):76-77.
4林凌武,张楚其,张文亮,叶颖雅,陈珂.智能穿戴设备中的自动问答系统研究[J].广东石油化工学院学报,2019,29(1):56-60.
5周倩,刘德林.基于知信行模型的我国居民洪灾风险感知评价[J].人民长江,2019,50(8):28-34. 被引量：5
6朱连杰,陈正宇,田晨林.基于可穿戴设备的跌倒检测方法综述[J].计算机工程与应用,2019,55(18):8-14. 被引量：15
7韩威,李昌,刘厶元,刘伟鑫,邱泽帆.基于CNN的心音特征融合分类方法[J].自动化与信息工程,2019,40(5):13-16. 被引量：3
8陈骏霖,张财宝.几种循环神经网络和时频掩码在心肺音分离中的应用[J].自动化与信息工程,2020,41(1):39-44. 被引量：2
9桑晚晴,杨帆.扶贫驻村干部留任参与乡村振兴的意愿及其影响因素研究[J].农村经济,2020,0(1):54-61. 被引量：12
10张硕,李燕,朱斐,谭孝勤,廖艺舒,岳云龙.视觉识别在校服交互设计中的应用[J].轻纺工业与技术,2020,49(3):48-48.

1贾振华,庄连英.基于切空间判别的稀疏数据降维方法[J].计算机工程与设计,2012,33(11):4268-4271.
2Mbarki Aymen Ammari Abdelaziz Sghaier Halim Hassen Maaref.Hidden Markov Models for Automatic Speech Recognition[J].Journal of Mechanics Engineering and Automation,2011,1(1):68-73.
3李伟,吴及,吕萍.基于前后向语言模型的语音识别词图生成算法[J].计算机应用,2010,30(10):2563-2566. 被引量：2
4吴燕仙,邹晓光,吕瑞芳.变时延神经网络的全局指数稳定性及收敛性[J].生物数学学报,2009,24(1):40-46. 被引量：5
5付强,肖怀铁,马君国.时延神经网络目标识别实时算法软件开发研究[J].微电子学与计算机,2002,19(4):36-39. 被引量：1
6优必选与亚马逊合作推出人形机器人Lynx[J].智能机器人,2017,0(1):17-17.
7洪灵,王耘.一种不规则零件排样的快速解码算法[J].计算机辅助设计与图形学学报,2005,17(11):2465-2470. 被引量：11
8孙倩华,满庆丰,夏继强.FPGA和ARM的Profibus-DP主站通信平台设计[J].单片机与嵌入式系统应用,2010,10(2):65-67. 被引量：7
9王敏,曾浩.循环神经网络语言模型定点化优化算法研究[J].软件导刊,2017,16(2):63-66. 被引量：1
10郭宇弘,黎塔,肖业鸣,潘接林,颜永红.基于加权有限状态机的动态匹配词图生成算法[J].电子与信息学报,2014,36(1):140-146. 被引量：4

电子与信息学报

2017年第4期

浏览历史

内容加载中请稍等...

基于递归神经网络的语音识别快速解码算法被引量：17

同被引文献165

引证文献17

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

基于递归神经网络的语音识别快速解码算法 被引量：17

同被引文献165

引证文献17

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

基于递归神经网络的语音识别快速解码算法被引量：17