期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
混合连接时间/注意力机制端到端语音识别 被引量:6
1
作者 陈聪 贺杰 陈佳 《控制工程》 CSCD 北大核心 2021年第3期585-591,共7页
为提高常规自动语音识别(ASR)系统的精度,提出基于隐式马尔可夫模型混合连接时间分类/注意力机制的端到端ASR系统设计方法。首先,针对可观测时变序列语音识别过程中存在的连续性强、词汇量大的语音识别难点,基于隐式马尔可夫模型对语音... 为提高常规自动语音识别(ASR)系统的精度,提出基于隐式马尔可夫模型混合连接时间分类/注意力机制的端到端ASR系统设计方法。首先,针对可观测时变序列语音识别过程中存在的连续性强、词汇量大的语音识别难点,基于隐式马尔可夫模型对语音识别过程进行模拟,实现了语音识别模型参数化;其次,使用连接时间分类目标函数作为辅助任务,在多目标学习框架中训练语音识别过程的关注模型编码器,可降低序列级连接时间分类目标近似度,实现语音识别过程精度提升;最后,通过在自建语音识别库上的仿真实验,验证所提算法在识别效率和精度上的性能优势。 展开更多
关键词 隐式马尔可夫 连接时间分类 注意力机制 端到端 语音识别
下载PDF
C2客专线路CTC施工分类和施工影响范围研究
2
作者 黄文华 《铁道通信信号》 2015年第6期36-37,40,共3页
研究C2客专线路下CTC施工分类,结合CTC产品结构的特殊性,研究CTC不同施工类型对运输生产系统的影响,从而为铁路局电务管理部门制订精细施工方案提供参考。
关键词 ctc 施工分类 影响范围
下载PDF
基于改进混合CTC/attention架构的端到端普通话语音识别 被引量:6
3
作者 杨鸿武 周刚 《西北师范大学学报(自然科学版)》 CAS 北大核心 2019年第3期48-53,共6页
端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification, CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构进... 端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification, CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构进行了改进,通过引入动态调整参数对CTC模型和基于注意力机制模型进行线性插值,从而实现混合架构的端到端语音识别.将改进后的方法应用在中文普通话语音识别中,选择带投影层的双向长短时记忆网络(Bidirectional long short-term memory projection, BLSTMP)作为编码器网络模型,声学特征选取80维的梅尔尺度滤波器组系数和基频共83维特征.实验结果表明,与传统的端到端语音识别方法比较,文中方法在普通话语音识别上能够降低3.8%的词错误率. 展开更多
关键词 语音识别 接时分类 注意力机制 混合ctc/attention 端到端系统
下载PDF
基于Attention-CTC的自然场景文本识别算法 被引量:1
4
作者 和文杰 刘敬彪 +1 位作者 潘勉 吕帅帅 《电子科技》 2019年第12期32-36,共5页
针对自然场景下文本识别所存在的字符分割困难、识别精度依赖字典等问题,文中提出了一种基于注意力机制与连接时间分类损失相结合的文本识别算法。利用卷积神经网络与双向长短时期记忆网络实现对图像的特征编码,再使用Attention-CTC结... 针对自然场景下文本识别所存在的字符分割困难、识别精度依赖字典等问题,文中提出了一种基于注意力机制与连接时间分类损失相结合的文本识别算法。利用卷积神经网络与双向长短时期记忆网络实现对图像的特征编码,再使用Attention-CTC结构实现对特征序列的解码,有效解决Attention解码无约束的问题。该算法避免了对标签进行额外对齐预处理和后续语法处理,在加快训练收敛速度的同时显著提高了文本识别率。实验结果表明,该算法对字体模糊、背景复杂的文本图像都具有很好的鲁棒性。 展开更多
关键词 文本识别 连接时间分类 卷积神经网络 循环神经网络 多尺度特征提取 注意力机制
下载PDF
基于改进DFSMN的非特定人语音识别模型
5
作者 王世刚 严瑾 《电声技术》 2023年第12期111-114,共4页
深度前馈序列记忆网络(Deep Feedforward Sequential Memory Network,DFSMN)是一种识别准确率较高且在非特定人语音识别领域得到良好应用的声学模型,但存在参数冗余、模型训练困难的情况。针对此问题,提出一种基于改进DFSMN的非特定人... 深度前馈序列记忆网络(Deep Feedforward Sequential Memory Network,DFSMN)是一种识别准确率较高且在非特定人语音识别领域得到良好应用的声学模型,但存在参数冗余、模型训练困难的情况。针对此问题,提出一种基于改进DFSMN的非特定人语音识别模型。该模型改进了DFSMN记忆模块大小和模块之间的连接方式,并结合连接时序分类(Connectionist Temporal Classification,CTC)端到端语音识别框架。实验结果表明,在相同条件下,该改进模型的参数量较之前减少了约1/10,在不同数据集上与几种常见语音识别模型相比,其语音识别字符错误率均最低,在识别准确率和模型训练效率方面具有一定的优越性。 展开更多
关键词 语音识别 深度前馈序列记忆网络(DFSMN) 非特定人 连接时序分类(ctc)
下载PDF
基于人工智能机器学习的文字识别方法研究 被引量:6
6
作者 张少宇 《电脑编程技巧与维护》 2022年第9期154-156,176,共4页
介绍了深度学习和文本识别的基本概念,讲解了文本识别的分类、基本步骤和挑战,重点研究了基于深度学习的文本识别模型——卷积循环神经网络(CRNN),对其特点、网络结构进行了研究,对比了Attention模型和CRNN模型的优缺点。
关键词 深度学习 神经网络 文本检测 文本识别 光学字符识别(OCR) CRNN模型 连接时间分类(ctc)
下载PDF
复杂场景文本段识别 被引量:1
7
作者 王孝男 张利 何思楠 《计算机应用研究》 CSCD 北大核心 2019年第9期2818-2820,2844,共4页
针对背景复杂或者存在字符黏连时文本段图片无法准确切分的情况进行了研究,提出了一种复杂场景文本段识别方法。该方法利用图像和文字序列的相关性设计双向递归神经网络对图像特征序列进行编码,然后设计集成的连接时间分类(CTC)和注意力... 针对背景复杂或者存在字符黏连时文本段图片无法准确切分的情况进行了研究,提出了一种复杂场景文本段识别方法。该方法利用图像和文字序列的相关性设计双向递归神经网络对图像特征序列进行编码,然后设计集成的连接时间分类(CTC)和注意力(attention)模块对编码特征进行解码输出。该算法在多个数据集(公开数据集ICDAR2013和ICDAR2003以及验证码数据集)上进行测试,得到识别准确率分别为90. 2%、87. 4%和92. 5%,从而证明了该算法的有效性。实验结果对文本段识别和应用有重要意义。 展开更多
关键词 文本段识别 连接时间分类 注意力 集成
下载PDF
一种采用机器学习的氦语音识别方法
8
作者 李冬梅 李明 +1 位作者 郭莉莉 张士兵 《电讯技术》 北大核心 2022年第9期1215-1221,共7页
为了解决传统氦语音处理技术存在的处理速度慢、计算复杂、操作困难等问题,提出了一种采用机器学习的氦语音识别方法,通过深层网络学习高维信息、提取多种特征,不但解决了过拟合问题,同时也具备了字错率(Word Error Rate,WER)低、收敛... 为了解决传统氦语音处理技术存在的处理速度慢、计算复杂、操作困难等问题,提出了一种采用机器学习的氦语音识别方法,通过深层网络学习高维信息、提取多种特征,不但解决了过拟合问题,同时也具备了字错率(Word Error Rate,WER)低、收敛速度快的优点。首先自建氦语音孤立词和连续氦语音数据库,对氦语音数据预处理,提取的语音特征主要包括共振峰特征、基音周期特征和FBank(Filter Bank)特征。之后将语音特征输入到由深度卷积神经网络(Deep Convolutional Neural Network,DCNN)和连接时序分类(Connectionist Temporal Classification,CTC)组成的声学模型进行语音到拼音的建模,最后应用Transformer语言模型得到汉字输出。提取共振峰特征、基音周期特征和FBank特征的氦语音孤立词识别模型相比于仅提取FBank特征的识别模型的WER降低了7.91%,连续氦语音识别模型的WER降低了14.95%。氦语音孤立词识别模型的最优WER为1.53%,连续氦语音识别模型的最优WER为36.89%。结果表明,所提方法可有效识别氦语音。 展开更多
关键词 氦语音 语音识别 机器学习 深度卷积神经网络(DCNN) 连接时序分类(ctc)
下载PDF
基于深度学习的动态手势识别方法 被引量:8
9
作者 钟惠英 《电子测量技术》 2020年第2期128-132,共5页
为了提高动态手势的识别准确率,并避免动态手势的数据预分割和后输出处理过程,设计了一种融合卷积神经网络(CNN)和双向长短时记忆(BiLSTM),引入连接主义时间分类(CTC)作为损失函数的串联型网络模型。使用CTC训练网络来判断输入流中的类... 为了提高动态手势的识别准确率,并避免动态手势的数据预分割和后输出处理过程,设计了一种融合卷积神经网络(CNN)和双向长短时记忆(BiLSTM),引入连接主义时间分类(CTC)作为损失函数的串联型网络模型。使用CTC训练网络来判断输入流中的类标签,以完成动态手势的识别工作。在公开视频手势数据集Jester和通过Kinect自建的包含9个动态手势的数据集上进行了实验验证,结果表明提出的串联型融合网络模型在Jester上能得到较高的识别率,并且引入CTC算法用于手势识别领域是可行的,该方法高效且具有很高的识别率,对9个动态手势最好识别正确率可达98.11%。 展开更多
关键词 KINECT 手势识别 ctc(连接主义时间分类) BiLSTM(双向长短时记忆) 深度学习
下载PDF
基于递归神经网络的端到端语音识别 被引量:5
10
作者 王子龙 李俊峰 +2 位作者 张劭韡 王宏岩 王思杰 《计算机与数字工程》 2019年第12期3099-3106,共8页
论文提出了一种直接利用文本对音频数据进行转录的语音识别系统。采用基于深度双向长短期记忆(LSTM)的递归神经网络(RNN)结构和连接时间分类(CTC)目标函数相结合。引入了对目标函数的修正方法,进而使得训练网络对任意转录损失函数的期... 论文提出了一种直接利用文本对音频数据进行转录的语音识别系统。采用基于深度双向长短期记忆(LSTM)的递归神经网络(RNN)结构和连接时间分类(CTC)目标函数相结合。引入了对目标函数的修正方法,进而使得训练网络对任意转录损失函数的期望最小化。即使在没有词典或语言模型的情况下,也可直接优化单词错误率。该系统在没有语言信息情况下,对《华尔街日报》语料库实现了27.3%的单词错误率(WER),在只有允许单词词典的情况下达到了21.9%,在三元语言模型下达到了8.2%。将所提方法与基准系统结合,进一步将错误率降低到6.7%。 展开更多
关键词 递归神经网络 语音识别 长短期记忆 连接时间分类 单词错误率
下载PDF
基于RNN和WFST译码的自动语音识别研究 被引量:3
11
作者 郑晓琼 汪晓 +2 位作者 江海升 樊培培 张超 《信息技术》 2019年第6期115-120,共6页
文中利用Eesen框架声学建模简化了现有的自动语音识别(ASR),通过训练单个递归神经网络(RNN)来预测上下文无关的目标(音素或字符)。为了消除对预生成帧标签的需求,采用了连接时间分类(CTC)目标函数来推断语音和标签序列之间的对齐。同时... 文中利用Eesen框架声学建模简化了现有的自动语音识别(ASR),通过训练单个递归神经网络(RNN)来预测上下文无关的目标(音素或字符)。为了消除对预生成帧标签的需求,采用了连接时间分类(CTC)目标函数来推断语音和标签序列之间的对齐。同时,采用基于加权有限状态换能器(WFST)的广义译码方法,将词汇和语言模型有效地整合到CTC译码中。实验结果表明,与混合HMM/DNN模型相比,所提方法具有较低的误码率(WER),同时显著加快了译码速度。 展开更多
关键词 自动语音识别 Eesen 递归神经网络 加权有限状态换能器 连接时间分类
下载PDF
基于Bi-RNN中文语音识别的实验设计
12
作者 黄睿 《现代计算机》 2019年第10期92-95,共4页
介绍TensorFlow深度学习架构,分析梅尔频率倒谱系数(MFCC)模型,结合双向循环神经网络(Bi-RNN)和联结主义时间分类(CTC)模型,对中文语音数据集Thchs-30进行深度学习,最终完成中文语音识别的实验设计,为中文语音识别在本科实验教学的应用... 介绍TensorFlow深度学习架构,分析梅尔频率倒谱系数(MFCC)模型,结合双向循环神经网络(Bi-RNN)和联结主义时间分类(CTC)模型,对中文语音数据集Thchs-30进行深度学习,最终完成中文语音识别的实验设计,为中文语音识别在本科实验教学的应用具体重要参考意义。 展开更多
关键词 TensorFlow 深度学习 语音识别 双向循环神经网络(Bi-RNN) 梅尔频率倒谱系数(MFCC) 联结主义时间分类(ctc)
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部