期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
基于改进混合CTC/attention架构的端到端普通话语音识别 被引量:6
1
作者 杨鸿武 周刚 《西北师范大学学报(自然科学版)》 CAS 北大核心 2019年第3期48-53,共6页
端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification, CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构进... 端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification, CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构进行了改进,通过引入动态调整参数对CTC模型和基于注意力机制模型进行线性插值,从而实现混合架构的端到端语音识别.将改进后的方法应用在中文普通话语音识别中,选择带投影层的双向长短时记忆网络(Bidirectional long short-term memory projection, BLSTMP)作为编码器网络模型,声学特征选取80维的梅尔尺度滤波器组系数和基频共83维特征.实验结果表明,与传统的端到端语音识别方法比较,文中方法在普通话语音识别上能够降低3.8%的词错误率. 展开更多
关键词 语音识别 链接时序分类 注意力机制 混合ctc/attention 端到端系统
下载PDF
混合CTC/attention架构端到端带口音普通话识别 被引量:11
2
作者 杨威 胡燕 《计算机应用研究》 CSCD 北大核心 2021年第3期755-759,共5页
针对普通话语音识别任务中的多口音识别问题,提出了链接时序主义(connectionist temporal classification,CTC)和多头注意力(multi-head attention)的混合端到端模型,同时采用多目标训练和联合解码的方法。实验分析发现随着混合架构中... 针对普通话语音识别任务中的多口音识别问题,提出了链接时序主义(connectionist temporal classification,CTC)和多头注意力(multi-head attention)的混合端到端模型,同时采用多目标训练和联合解码的方法。实验分析发现随着混合架构中链接时序主义权重的降低和编码器层数的加深,混合模型在带口音的数据集上表现出了更好的学习能力,同时训练一个深度达到48层的编码器—解码器架构的网络,生成模型的表现超过之前所有端到端模型,在数据堂开源的200 h带口音数据集上达到了5.6%字错率和26.2%句错率。实验证明了提出的端到端模型超过一般端到端模型的识别率,在解决带口音的普通话识别上有一定的先进性。 展开更多
关键词 口音 混合ctc/attention的端到端模型 多头注意力 链接时序主义 语音识别
下载PDF
基于局部Attention和CTC融合的语音情感识别方法研究
3
作者 孟令源 孙哲 +2 位作者 刘扬 赵振 李永伟 《计算机应用与软件》 北大核心 2024年第10期197-201,共5页
针对基于时间序列的语音情感识别方法难以计算情感帧携带的情感信息量的问题,提出一种局部注意力机制(LAM)和结合连接主义时间分类(CTC)融合的语音情感识别模型(LAM-CTC)。提取VGFCC情感特征作为共享编码器的输入;CTC层最小化代价损失... 针对基于时间序列的语音情感识别方法难以计算情感帧携带的情感信息量的问题,提出一种局部注意力机制(LAM)和结合连接主义时间分类(CTC)融合的语音情感识别模型(LAM-CTC)。提取VGFCC情感特征作为共享编码器的输入;CTC层最小化代价损失并预测情感类别,LAM层使用局部注意力机制计算上下文向量;通过解码器对上下文向量进行解码;通过平均值法将解码结果融合得到情感预测结果。实验结果表明,提出的模型在IEMOCAP数据集上的UAR和WAR分别达到了68.1%和68.3%。 展开更多
关键词 语音情感识别 注意力机制 ctc VGFCC IEMOCAP
下载PDF
融入CTC-Attention机制的文本识别算法研究与应用
4
作者 胡石 陈心怡 +1 位作者 汪辉进 王雪娇 《池州学院学报》 2022年第3期18-20,共3页
针对自然场景中图像文本检测和识别极易受到各种噪声信息和对比度低等问题的影响,本文提出了一种融合CTC-Attention(Connectionist Temporal Classification-Attention)机制的文本识别算法。在特征提取上,运用CNN网络模型提取文本的静... 针对自然场景中图像文本检测和识别极易受到各种噪声信息和对比度低等问题的影响,本文提出了一种融合CTC-Attention(Connectionist Temporal Classification-Attention)机制的文本识别算法。在特征提取上,运用CNN网络模型提取文本的静态特征,运用长短时记忆网络LSTM提取文本动态上下文特征,运用混合CTC-Attention机制对输出层的编码进行解码,将混合CTC-Attention机制融入到文本识别算法中,利用CTC对Attention的空间约束作用,可以实现解码过程中更强调特征性,算法更强调当前的特征性,有效地减弱注意力偏移所产生的问题。实验仿真结果显示,该算法可以很好地实现识别效果的提升。 展开更多
关键词 文本检测 文本识别 卷积神经网络(CNN) ctcattention机制
下载PDF
基于混合注意力机制和CTC语音识别模型技术研究 被引量:2
5
作者 朱向前 《电视技术》 2019年第22期1-4,15,共5页
近年来,基于混合的连续时间分类(CTC)和注意力编解码器模型的端到端语音识别取得了很好的效果。文章在实验的基础上,提出了一种新的基于译码性能与编码器深度关系的CTC译码器结构,并运用注意力平滑机制获取更多的上下文信息,实现基于子... 近年来,基于混合的连续时间分类(CTC)和注意力编解码器模型的端到端语音识别取得了很好的效果。文章在实验的基础上,提出了一种新的基于译码性能与编码器深度关系的CTC译码器结构,并运用注意力平滑机制获取更多的上下文信息,实现基于子字的译码。该方法在语音识别数据集Voxforge中的测试结果为,在没有LM的情况下,词错误率降到了4.39%;在RNN-LM的情况下,词错误率降到了3.32%。 展开更多
关键词 语音识别 注意力 ctc RNN-LM 序列到序列
下载PDF
基于混合空洞卷积CNN和BiGRU的表面肌电信号手势识别
6
作者 张凯 陈峰 《计算机应用与软件》 北大核心 2024年第11期220-227,共8页
针对基于表面肌电信号(sEMG)的手势识别准确率低、计算量大的问题,提出一种基于混合空洞卷积神经网络组合双向门控循环单元与注意力机制(HDC-BiGRU-Attention)的表面肌电信号手势识别方法。相比普通CNN,HDC通过设置奇偶混合且大小不同... 针对基于表面肌电信号(sEMG)的手势识别准确率低、计算量大的问题,提出一种基于混合空洞卷积神经网络组合双向门控循环单元与注意力机制(HDC-BiGRU-Attention)的表面肌电信号手势识别方法。相比普通CNN,HDC通过设置奇偶混合且大小不同的膨胀率,可以扩大感受野,减少过拟合,提取到更多特征。BiGRU模块能很好地提取和处理数据的时序特征,Attention模块为重要特征赋予更大的权重,可以提高准确率。在NinaproDB1数据集和自采数据集上分别实现92.72%和97.85%的准确率。 展开更多
关键词 表面肌电信号 手势识别 混合空洞卷积 双向门控循环单元 attention机制
下载PDF
基于Conformer的端到端中英文管制语音识别
7
作者 孔建国 韩琪聪 +1 位作者 梁海军 李煜琨 《航空计算技术》 2024年第3期1-5,共5页
将语音识别技术应用到空中交通管理系统中可以提高飞行安全并降低管制员的工作负荷,目前已有的管制语音识别技术在中英文识别上效果较差,因此提出了一种基于Conformer-CTC/Attention的中英文管制语音识别框架。该方法使用基于改进的Conf... 将语音识别技术应用到空中交通管理系统中可以提高飞行安全并降低管制员的工作负荷,目前已有的管制语音识别技术在中英文识别上效果较差,因此提出了一种基于Conformer-CTC/Attention的中英文管制语音识别框架。该方法使用基于改进的Conformer共享编码器对输入序列进行语言分类并以参数有效的方式对音频序列的局部和全局相依性进行建模,添加了语种分类模块来判断输入语音序列的语种,还采用了CTC解码器和注意力解码器联合解码的多任务建模方法。最后在建立的民航数据集对所提出的框架进行验证,试验结果表明,Conformer-CTC/Attention(Language-Category)相对于基线模型错误率降低,识别效果达到预期。 展开更多
关键词 空中交通管制 中英文语音识别 Conformer-ctc/attention 多任务学习 端到端
下载PDF
基于注意力机制语谱图特征提取的语音识别 被引量:3
8
作者 姜囡 庞永恒 高爽 《吉林大学学报(理学版)》 CAS 北大核心 2024年第2期320-330,共11页
针对连接时序分类模型需具有输出独立性的假设,对语言模型的依赖性强且训练周期长的问题,提出一种基于连接时序分类模型的语音识别方法.首先,基于传统声学模型的框架,利用先验知识训练基于注意力机制的语谱图特征提取网络,有效提高了语... 针对连接时序分类模型需具有输出独立性的假设,对语言模型的依赖性强且训练周期长的问题,提出一种基于连接时序分类模型的语音识别方法.首先,基于传统声学模型的框架,利用先验知识训练基于注意力机制的语谱图特征提取网络,有效提高了语音特征的区分性和鲁棒性;其次,将语谱图特征提取网络拼接在连接时序分类模型的前端,并减少模型中循环神经网络层数进行重新训练.测试分析结果表明,该改进模型缩短了训练时间,有效提升了语音识别准确率. 展开更多
关键词 语音识别 ctc模型 循环神经网络 注意力机制
下载PDF
基于遮蔽多头注意力的CTC-Conformer中文语音识别模型
9
作者 黄天圆 王超 《智能计算机与应用》 2025年第2期162-167,共6页
Conformer模型是语言处理任务中广泛应用的模型之一,其结合了Transformer模型和卷积神经网络的特点,既能捕捉到局部和全局的序列特征又能更好地理解输入数据的结构和上下文信息。然而,现有Conformer模型中的音频和文本之间对齐关系存在... Conformer模型是语言处理任务中广泛应用的模型之一,其结合了Transformer模型和卷积神经网络的特点,既能捕捉到局部和全局的序列特征又能更好地理解输入数据的结构和上下文信息。然而,现有Conformer模型中的音频和文本之间对齐关系存在不确定性,同时模型采用的多头注意力还会将未来时间步输入信息泄漏到当前时间步。采用连接时序分类(Connectionist Temporal Classification, CTC)机制进行辅助训练,不仅可以提高基于Macaron-Net结构的Conformer模型鲁棒性,还可以解决音频和文本不对齐问题。在解码器部分,应用遮蔽多头自注意力机制以确保在t时刻模型无法查看未来时间步的输入信息,从而保证模型仅利用已生成的标记进行预测。实验结果表明,基于遮蔽多头注意力的CTC-Conformer模型相对于Conformer模型的字错率与损失率均有所下降,损失值最低达到了3.24。 展开更多
关键词 Conformer ctc 遮蔽多头注意力 语言处理
下载PDF
复杂场景文本段识别 被引量:1
10
作者 王孝男 张利 何思楠 《计算机应用研究》 CSCD 北大核心 2019年第9期2818-2820,2844,共4页
针对背景复杂或者存在字符黏连时文本段图片无法准确切分的情况进行了研究,提出了一种复杂场景文本段识别方法。该方法利用图像和文字序列的相关性设计双向递归神经网络对图像特征序列进行编码,然后设计集成的连接时间分类(CTC)和注意力... 针对背景复杂或者存在字符黏连时文本段图片无法准确切分的情况进行了研究,提出了一种复杂场景文本段识别方法。该方法利用图像和文字序列的相关性设计双向递归神经网络对图像特征序列进行编码,然后设计集成的连接时间分类(CTC)和注意力(attention)模块对编码特征进行解码输出。该算法在多个数据集(公开数据集ICDAR2013和ICDAR2003以及验证码数据集)上进行测试,得到识别准确率分别为90. 2%、87. 4%和92. 5%,从而证明了该算法的有效性。实验结果对文本段识别和应用有重要意义。 展开更多
关键词 文本段识别 连接时间分类 注意力 集成
下载PDF
基于卷积神经网络和Transformer的手写体英文文本识别 被引量:3
11
作者 张显杰 张之明 《计算机应用》 CSCD 北大核心 2022年第8期2394-2400,共7页
手写体文本识别技术可以将手写文档转录成可编辑的数字文档。但由于手写的书写风格迥异、文档结构千变万化和字符分割识别精度不高等问题,基于神经网络的手写体英文文本识别仍面临着许多挑战。针对上述问题,提出基于卷积神经网络(CNN)和... 手写体文本识别技术可以将手写文档转录成可编辑的数字文档。但由于手写的书写风格迥异、文档结构千变万化和字符分割识别精度不高等问题,基于神经网络的手写体英文文本识别仍面临着许多挑战。针对上述问题,提出基于卷积神经网络(CNN)和Transformer的手写体英文文本识别模型。首先利用CNN从输入图像中提取特征,而后将特征输入到Transformer编码器中得到特征序列每一帧的预测,最后经过链接时序分类(CTC)解码器获得最终的预测结果。在公开的IAM(Institut für Angewandte Mathematik)手写体英文单词数据集上进行了大量的实验结果表明,该模型获得了3.60%的字符错误率(CER)和12.70%的单词错误率(WER),验证了所提模型的可行性。 展开更多
关键词 手写体英文文本识别 深度学习 卷积神经网络 TRANSFORMER 链接时序分类 注意力 无分割
下载PDF
Recent Progresses in Deep Learning Based Acoustic Models 被引量:9
12
作者 Dong Yu Jinyu Li 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2017年第3期396-409,共14页
In this paper,we summarize recent progresses made in deep learning based acoustic models and the motivation and insights behind the surveyed techniques.We first discuss models such as recurrent neural networks(RNNs) a... In this paper,we summarize recent progresses made in deep learning based acoustic models and the motivation and insights behind the surveyed techniques.We first discuss models such as recurrent neural networks(RNNs) and convolutional neural networks(CNNs) that can effectively exploit variablelength contextual information,and their various combination with other models.We then describe models that are optimized end-to-end and emphasize on feature representations learned jointly with the rest of the system,the connectionist temporal classification(CTC) criterion,and the attention-based sequenceto-sequence translation model.We further illustrate robustness issues in speech recognition systems,and discuss acoustic model adaptation,speech enhancement and separation,and robust training strategies.We also cover modeling techniques that lead to more efficient decoding and discuss possible future directions in acoustic model research. 展开更多
关键词 attention model convolutional neural network(CNN) connectionist temporal classification(ctc) deep learning(DL) long short-term memory(LSTM) permutation invariant training speech adaptation speech processing speech recognition speech separation
下载PDF
基于双路卷积神经网络的中文语音识别 被引量:2
13
作者 张昱 李鸿燕 +1 位作者 邢璐 任健 《计算机工程与设计》 北大核心 2023年第3期880-886,共7页
为解决卷积神经网络在中文语音识别中识别准确率低、鲁棒性差的问题,提出一种基于双路卷积神经网络的声学建模方法。利用多尺度学习方法提取多尺度特征信息;将软阈值非线性转换层和注意力机制进行融合后嵌入残差网络,减轻网络梯度问题,... 为解决卷积神经网络在中文语音识别中识别准确率低、鲁棒性差的问题,提出一种基于双路卷积神经网络的声学建模方法。利用多尺度学习方法提取多尺度特征信息;将软阈值非线性转换层和注意力机制进行融合后嵌入残差网络,减轻网络梯度问题,加强网络特征信息传递,提高特征学习效果;采用连接时序分类技术分类,简化语音识别流程。实验结果表明,该模型与传统识别模型相比,词错误率降低了7.52%,在3种噪声环境下,错误率也低于传统模型。 展开更多
关键词 语音识别 多尺度学习 软阈值 注意力机制 残差网络 连接时序分类 端到端
下载PDF
基于端到端深度学习的藏语语音识别研究 被引量:2
14
作者 高耀荣 边巴旺堆 《现代计算机》 2023年第17期25-30,共6页
针对如今藏语语音识别前期准备门槛高、相关研究少等问题,探究了端到端网络在藏语语音识别上的应用,提出以联合基于链接时序分类(CTC)和注意力机制(Attention)为解码器,结合了自动对齐和获取注意力权重的优点,使用Transformer作为编码器... 针对如今藏语语音识别前期准备门槛高、相关研究少等问题,探究了端到端网络在藏语语音识别上的应用,提出以联合基于链接时序分类(CTC)和注意力机制(Attention)为解码器,结合了自动对齐和获取注意力权重的优点,使用Transformer作为编码器,从而构建Transformer⁃CTC/Attention模型。模型先通过Transformer提取语音全局特征,选择藏字为建模单元,然后通过CTC/Attention对语音特征进行联合解码,并输出文本序列。在30小时的卫藏语音数据集以不同联合参数作实验,取得25.75%的词识错率,对比文献的WaveNet⁃CTC提升了14.14%。 展开更多
关键词 藏语 语音识别 端到端 ctc/attention TRANSFORMER
下载PDF
语音识别技术在配电网工程建设中的应用 被引量:1
15
作者 郁小强 田毅帅 +2 位作者 韩磊 王忠军 李寿荣 《信息技术》 2023年第8期65-69,76,共6页
为了实现配电网调度的智能语音交互,研究基于连续时序分类(CTC)和注意力机制的端到端语音识别技术,构建改进CTC-ATT语音识别模型,并利用循环神经网络自适应映射模型进行优化。实验结果表明,改进CTC-ATT语音识别模型对配电网调度指令和... 为了实现配电网调度的智能语音交互,研究基于连续时序分类(CTC)和注意力机制的端到端语音识别技术,构建改进CTC-ATT语音识别模型,并利用循环神经网络自适应映射模型进行优化。实验结果表明,改进CTC-ATT语音识别模型对配电网调度指令和调度术语的识别正确率分别为92.45%和91.99%,能对配电网的调度指令术语进行高效精准地识别,帮助调度人员提升配电网调度的效率,对配电网工程的建设发展具有实用意义,为智能调度领域的发展提供了新的研究思路。 展开更多
关键词 语音识别 配电网 ctc 注意力机制 循环神经网络
下载PDF
基于深度学习的方言语音识别模型构建 被引量:3
16
作者 郝焕香 《自动化与仪器仪表》 2022年第4期48-51,共4页
为了提高方言语音识别效果,提出一种基于深度学习的方言语音识别模型。首先结合CTC和Attention架构的互补特点,构建基于端到端的混合CTC/Attention语音识别模型;其次构建多样化的方言数据库作为训练和测试数据,然后在特征提取基础上,利... 为了提高方言语音识别效果,提出一种基于深度学习的方言语音识别模型。首先结合CTC和Attention架构的互补特点,构建基于端到端的混合CTC/Attention语音识别模型;其次构建多样化的方言数据库作为训练和测试数据,然后在特征提取基础上,利用混合CTC/Attention语音模型对方言进行识别。结果表明,该模型无论是在识别准确率、错误率,还是在模型收敛性和整体识别结果上,基于混合CTC/Attention语音识别模型的识别效果更好。 展开更多
关键词 方言语音识别 端到端 深度学习 混合ctc/attention模型
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部