期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
12
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
混合连接时间/注意力机制端到端语音识别
被引量:
6
1
作者
陈聪
贺杰
陈佳
《控制工程》
CSCD
北大核心
2021年第3期585-591,共7页
为提高常规自动语音识别(ASR)系统的精度,提出基于隐式马尔可夫模型混合连接时间分类/注意力机制的端到端ASR系统设计方法。首先,针对可观测时变序列语音识别过程中存在的连续性强、词汇量大的语音识别难点,基于隐式马尔可夫模型对语音...
为提高常规自动语音识别(ASR)系统的精度,提出基于隐式马尔可夫模型混合连接时间分类/注意力机制的端到端ASR系统设计方法。首先,针对可观测时变序列语音识别过程中存在的连续性强、词汇量大的语音识别难点,基于隐式马尔可夫模型对语音识别过程进行模拟,实现了语音识别模型参数化;其次,使用连接时间分类目标函数作为辅助任务,在多目标学习框架中训练语音识别过程的关注模型编码器,可降低序列级连接时间分类目标近似度,实现语音识别过程精度提升;最后,通过在自建语音识别库上的仿真实验,验证所提算法在识别效率和精度上的性能优势。
展开更多
关键词
隐式马尔可夫
连接时间
分类
注意力机制
端到端
语音识别
下载PDF
职称材料
C2客专线路CTC施工分类和施工影响范围研究
2
作者
黄文华
《铁道通信信号》
2015年第6期36-37,40,共3页
研究C2客专线路下CTC施工分类,结合CTC产品结构的特殊性,研究CTC不同施工类型对运输生产系统的影响,从而为铁路局电务管理部门制订精细施工方案提供参考。
关键词
ctc
施工
分类
影响范围
下载PDF
职称材料
基于改进混合CTC/attention架构的端到端普通话语音识别
被引量:
6
3
作者
杨鸿武
周刚
《西北师范大学学报(自然科学版)》
CAS
北大核心
2019年第3期48-53,共6页
端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification, CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构进...
端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification, CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构进行了改进,通过引入动态调整参数对CTC模型和基于注意力机制模型进行线性插值,从而实现混合架构的端到端语音识别.将改进后的方法应用在中文普通话语音识别中,选择带投影层的双向长短时记忆网络(Bidirectional long short-term memory projection, BLSTMP)作为编码器网络模型,声学特征选取80维的梅尔尺度滤波器组系数和基频共83维特征.实验结果表明,与传统的端到端语音识别方法比较,文中方法在普通话语音识别上能够降低3.8%的词错误率.
展开更多
关键词
语音识别
链
接时
序
分类
注意力机制
混合
ctc
/attention
端到端系统
下载PDF
职称材料
基于Attention-CTC的自然场景文本识别算法
被引量:
1
4
作者
和文杰
刘敬彪
+1 位作者
潘勉
吕帅帅
《电子科技》
2019年第12期32-36,共5页
针对自然场景下文本识别所存在的字符分割困难、识别精度依赖字典等问题,文中提出了一种基于注意力机制与连接时间分类损失相结合的文本识别算法。利用卷积神经网络与双向长短时期记忆网络实现对图像的特征编码,再使用Attention-CTC结...
针对自然场景下文本识别所存在的字符分割困难、识别精度依赖字典等问题,文中提出了一种基于注意力机制与连接时间分类损失相结合的文本识别算法。利用卷积神经网络与双向长短时期记忆网络实现对图像的特征编码,再使用Attention-CTC结构实现对特征序列的解码,有效解决Attention解码无约束的问题。该算法避免了对标签进行额外对齐预处理和后续语法处理,在加快训练收敛速度的同时显著提高了文本识别率。实验结果表明,该算法对字体模糊、背景复杂的文本图像都具有很好的鲁棒性。
展开更多
关键词
文本识别
连接时间
分类
卷积神经网络
循环神经网络
多尺度特征提取
注意力机制
下载PDF
职称材料
基于改进DFSMN的非特定人语音识别模型
5
作者
王世刚
严瑾
《电声技术》
2023年第12期111-114,共4页
深度前馈序列记忆网络(Deep Feedforward Sequential Memory Network,DFSMN)是一种识别准确率较高且在非特定人语音识别领域得到良好应用的声学模型,但存在参数冗余、模型训练困难的情况。针对此问题,提出一种基于改进DFSMN的非特定人...
深度前馈序列记忆网络(Deep Feedforward Sequential Memory Network,DFSMN)是一种识别准确率较高且在非特定人语音识别领域得到良好应用的声学模型,但存在参数冗余、模型训练困难的情况。针对此问题,提出一种基于改进DFSMN的非特定人语音识别模型。该模型改进了DFSMN记忆模块大小和模块之间的连接方式,并结合连接时序分类(Connectionist Temporal Classification,CTC)端到端语音识别框架。实验结果表明,在相同条件下,该改进模型的参数量较之前减少了约1/10,在不同数据集上与几种常见语音识别模型相比,其语音识别字符错误率均最低,在识别准确率和模型训练效率方面具有一定的优越性。
展开更多
关键词
语音识别
深度前馈序列记忆网络(DFSMN)
非特定人
连接
时序
分类
(
ctc
)
下载PDF
职称材料
基于人工智能机器学习的文字识别方法研究
被引量:
6
6
作者
张少宇
《电脑编程技巧与维护》
2022年第9期154-156,176,共4页
介绍了深度学习和文本识别的基本概念,讲解了文本识别的分类、基本步骤和挑战,重点研究了基于深度学习的文本识别模型——卷积循环神经网络(CRNN),对其特点、网络结构进行了研究,对比了Attention模型和CRNN模型的优缺点。
关键词
深度学习
神经网络
文本检测
文本识别
光学字符识别(OCR)
CRNN模型
连接时间
分类
(
ctc
)
下载PDF
职称材料
复杂场景文本段识别
被引量:
1
7
作者
王孝男
张利
何思楠
《计算机应用研究》
CSCD
北大核心
2019年第9期2818-2820,2844,共4页
针对背景复杂或者存在字符黏连时文本段图片无法准确切分的情况进行了研究,提出了一种复杂场景文本段识别方法。该方法利用图像和文字序列的相关性设计双向递归神经网络对图像特征序列进行编码,然后设计集成的连接时间分类(CTC)和注意力...
针对背景复杂或者存在字符黏连时文本段图片无法准确切分的情况进行了研究,提出了一种复杂场景文本段识别方法。该方法利用图像和文字序列的相关性设计双向递归神经网络对图像特征序列进行编码,然后设计集成的连接时间分类(CTC)和注意力(attention)模块对编码特征进行解码输出。该算法在多个数据集(公开数据集ICDAR2013和ICDAR2003以及验证码数据集)上进行测试,得到识别准确率分别为90. 2%、87. 4%和92. 5%,从而证明了该算法的有效性。实验结果对文本段识别和应用有重要意义。
展开更多
关键词
文本段识别
连接时间
分类
注意力
集成
下载PDF
职称材料
一种采用机器学习的氦语音识别方法
8
作者
李冬梅
李明
+1 位作者
郭莉莉
张士兵
《电讯技术》
北大核心
2022年第9期1215-1221,共7页
为了解决传统氦语音处理技术存在的处理速度慢、计算复杂、操作困难等问题,提出了一种采用机器学习的氦语音识别方法,通过深层网络学习高维信息、提取多种特征,不但解决了过拟合问题,同时也具备了字错率(Word Error Rate,WER)低、收敛...
为了解决传统氦语音处理技术存在的处理速度慢、计算复杂、操作困难等问题,提出了一种采用机器学习的氦语音识别方法,通过深层网络学习高维信息、提取多种特征,不但解决了过拟合问题,同时也具备了字错率(Word Error Rate,WER)低、收敛速度快的优点。首先自建氦语音孤立词和连续氦语音数据库,对氦语音数据预处理,提取的语音特征主要包括共振峰特征、基音周期特征和FBank(Filter Bank)特征。之后将语音特征输入到由深度卷积神经网络(Deep Convolutional Neural Network,DCNN)和连接时序分类(Connectionist Temporal Classification,CTC)组成的声学模型进行语音到拼音的建模,最后应用Transformer语言模型得到汉字输出。提取共振峰特征、基音周期特征和FBank特征的氦语音孤立词识别模型相比于仅提取FBank特征的识别模型的WER降低了7.91%,连续氦语音识别模型的WER降低了14.95%。氦语音孤立词识别模型的最优WER为1.53%,连续氦语音识别模型的最优WER为36.89%。结果表明,所提方法可有效识别氦语音。
展开更多
关键词
氦语音
语音识别
机器学习
深度卷积神经网络(DCNN)
连接
时序
分类
(
ctc
)
下载PDF
职称材料
基于深度学习的动态手势识别方法
被引量:
8
9
作者
钟惠英
《电子测量技术》
2020年第2期128-132,共5页
为了提高动态手势的识别准确率,并避免动态手势的数据预分割和后输出处理过程,设计了一种融合卷积神经网络(CNN)和双向长短时记忆(BiLSTM),引入连接主义时间分类(CTC)作为损失函数的串联型网络模型。使用CTC训练网络来判断输入流中的类...
为了提高动态手势的识别准确率,并避免动态手势的数据预分割和后输出处理过程,设计了一种融合卷积神经网络(CNN)和双向长短时记忆(BiLSTM),引入连接主义时间分类(CTC)作为损失函数的串联型网络模型。使用CTC训练网络来判断输入流中的类标签,以完成动态手势的识别工作。在公开视频手势数据集Jester和通过Kinect自建的包含9个动态手势的数据集上进行了实验验证,结果表明提出的串联型融合网络模型在Jester上能得到较高的识别率,并且引入CTC算法用于手势识别领域是可行的,该方法高效且具有很高的识别率,对9个动态手势最好识别正确率可达98.11%。
展开更多
关键词
KINECT
手势识别
ctc
(
连接
主义
时间
分类
)
BiLSTM(双向长短时记忆)
深度学习
下载PDF
职称材料
基于递归神经网络的端到端语音识别
被引量:
5
10
作者
王子龙
李俊峰
+2 位作者
张劭韡
王宏岩
王思杰
《计算机与数字工程》
2019年第12期3099-3106,共8页
论文提出了一种直接利用文本对音频数据进行转录的语音识别系统。采用基于深度双向长短期记忆(LSTM)的递归神经网络(RNN)结构和连接时间分类(CTC)目标函数相结合。引入了对目标函数的修正方法,进而使得训练网络对任意转录损失函数的期...
论文提出了一种直接利用文本对音频数据进行转录的语音识别系统。采用基于深度双向长短期记忆(LSTM)的递归神经网络(RNN)结构和连接时间分类(CTC)目标函数相结合。引入了对目标函数的修正方法,进而使得训练网络对任意转录损失函数的期望最小化。即使在没有词典或语言模型的情况下,也可直接优化单词错误率。该系统在没有语言信息情况下,对《华尔街日报》语料库实现了27.3%的单词错误率(WER),在只有允许单词词典的情况下达到了21.9%,在三元语言模型下达到了8.2%。将所提方法与基准系统结合,进一步将错误率降低到6.7%。
展开更多
关键词
递归神经网络
语音识别
长短期记忆
连接时间
分类
单词错误率
下载PDF
职称材料
基于RNN和WFST译码的自动语音识别研究
被引量:
3
11
作者
郑晓琼
汪晓
+2 位作者
江海升
樊培培
张超
《信息技术》
2019年第6期115-120,共6页
文中利用Eesen框架声学建模简化了现有的自动语音识别(ASR),通过训练单个递归神经网络(RNN)来预测上下文无关的目标(音素或字符)。为了消除对预生成帧标签的需求,采用了连接时间分类(CTC)目标函数来推断语音和标签序列之间的对齐。同时...
文中利用Eesen框架声学建模简化了现有的自动语音识别(ASR),通过训练单个递归神经网络(RNN)来预测上下文无关的目标(音素或字符)。为了消除对预生成帧标签的需求,采用了连接时间分类(CTC)目标函数来推断语音和标签序列之间的对齐。同时,采用基于加权有限状态换能器(WFST)的广义译码方法,将词汇和语言模型有效地整合到CTC译码中。实验结果表明,与混合HMM/DNN模型相比,所提方法具有较低的误码率(WER),同时显著加快了译码速度。
展开更多
关键词
自动语音识别
Eesen
递归神经网络
加权有限状态换能器
连接时间
分类
下载PDF
职称材料
基于Bi-RNN中文语音识别的实验设计
12
作者
黄睿
《现代计算机》
2019年第10期92-95,共4页
介绍TensorFlow深度学习架构,分析梅尔频率倒谱系数(MFCC)模型,结合双向循环神经网络(Bi-RNN)和联结主义时间分类(CTC)模型,对中文语音数据集Thchs-30进行深度学习,最终完成中文语音识别的实验设计,为中文语音识别在本科实验教学的应用...
介绍TensorFlow深度学习架构,分析梅尔频率倒谱系数(MFCC)模型,结合双向循环神经网络(Bi-RNN)和联结主义时间分类(CTC)模型,对中文语音数据集Thchs-30进行深度学习,最终完成中文语音识别的实验设计,为中文语音识别在本科实验教学的应用具体重要参考意义。
展开更多
关键词
TensorFlow
深度学习
语音识别
双向循环神经网络(Bi-RNN)
梅尔频率倒谱系数(MFCC)
联结主义
时间
分类
(
ctc
)
下载PDF
职称材料
题名
混合连接时间/注意力机制端到端语音识别
被引量:
6
1
作者
陈聪
贺杰
陈佳
机构
梧州学院大数据与软件工程学院
出处
《控制工程》
CSCD
北大核心
2021年第3期585-591,共7页
基金
国家自然科学基金项目(61562074,61961036)
广西高校行业软件技术重点实验室资助项目。
文摘
为提高常规自动语音识别(ASR)系统的精度,提出基于隐式马尔可夫模型混合连接时间分类/注意力机制的端到端ASR系统设计方法。首先,针对可观测时变序列语音识别过程中存在的连续性强、词汇量大的语音识别难点,基于隐式马尔可夫模型对语音识别过程进行模拟,实现了语音识别模型参数化;其次,使用连接时间分类目标函数作为辅助任务,在多目标学习框架中训练语音识别过程的关注模型编码器,可降低序列级连接时间分类目标近似度,实现语音识别过程精度提升;最后,通过在自建语音识别库上的仿真实验,验证所提算法在识别效率和精度上的性能优势。
关键词
隐式马尔可夫
连接时间
分类
注意力机制
端到端
语音识别
Keywords
Hidden Markov
connection time classification
attention mechanism
end-to-end
speech recognition
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
C2客专线路CTC施工分类和施工影响范围研究
2
作者
黄文华
机构
南宁铁路局南宁电务段
出处
《铁道通信信号》
2015年第6期36-37,40,共3页
文摘
研究C2客专线路下CTC施工分类,结合CTC产品结构的特殊性,研究CTC不同施工类型对运输生产系统的影响,从而为铁路局电务管理部门制订精细施工方案提供参考。
关键词
ctc
施工
分类
影响范围
Keywords
Centralized traffic control
Classification of construction
Scope of influence
分类号
U282.3 [交通运输工程—交通信息工程及控制]
下载PDF
职称材料
题名
基于改进混合CTC/attention架构的端到端普通话语音识别
被引量:
6
3
作者
杨鸿武
周刚
机构
西北师范大学物理与电子工程学院
出处
《西北师范大学学报(自然科学版)》
CAS
北大核心
2019年第3期48-53,共6页
基金
国家自然科学基金资助项目(11664036
61263036)
甘肃省高等学校科技创新团队项目(2017C-03)
文摘
端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification, CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构进行了改进,通过引入动态调整参数对CTC模型和基于注意力机制模型进行线性插值,从而实现混合架构的端到端语音识别.将改进后的方法应用在中文普通话语音识别中,选择带投影层的双向长短时记忆网络(Bidirectional long short-term memory projection, BLSTMP)作为编码器网络模型,声学特征选取80维的梅尔尺度滤波器组系数和基频共83维特征.实验结果表明,与传统的端到端语音识别方法比较,文中方法在普通话语音识别上能够降低3.8%的词错误率.
关键词
语音识别
链
接时
序
分类
注意力机制
混合
ctc
/attention
端到端系统
Keywords
speech recognition
connectionist temporal classification
attention mechanism
hybrid
ctc
/attention
end-to-end system
分类号
TN912.34 [电子电信—通信与信息系统]
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于Attention-CTC的自然场景文本识别算法
被引量:
1
4
作者
和文杰
刘敬彪
潘勉
吕帅帅
机构
杭州电子科技大学电子信息学院
出处
《电子科技》
2019年第12期32-36,共5页
基金
国家自然科学基金(61871164,61501155)~~
文摘
针对自然场景下文本识别所存在的字符分割困难、识别精度依赖字典等问题,文中提出了一种基于注意力机制与连接时间分类损失相结合的文本识别算法。利用卷积神经网络与双向长短时期记忆网络实现对图像的特征编码,再使用Attention-CTC结构实现对特征序列的解码,有效解决Attention解码无约束的问题。该算法避免了对标签进行额外对齐预处理和后续语法处理,在加快训练收敛速度的同时显著提高了文本识别率。实验结果表明,该算法对字体模糊、背景复杂的文本图像都具有很好的鲁棒性。
关键词
文本识别
连接时间
分类
卷积神经网络
循环神经网络
多尺度特征提取
注意力机制
Keywords
text recognition
connection time classification
convolution neural network
recurrent neural network
multi-scale feature extraction
attention mechanism
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于改进DFSMN的非特定人语音识别模型
5
作者
王世刚
严瑾
机构
广西科技大学自动化学院
出处
《电声技术》
2023年第12期111-114,共4页
文摘
深度前馈序列记忆网络(Deep Feedforward Sequential Memory Network,DFSMN)是一种识别准确率较高且在非特定人语音识别领域得到良好应用的声学模型,但存在参数冗余、模型训练困难的情况。针对此问题,提出一种基于改进DFSMN的非特定人语音识别模型。该模型改进了DFSMN记忆模块大小和模块之间的连接方式,并结合连接时序分类(Connectionist Temporal Classification,CTC)端到端语音识别框架。实验结果表明,在相同条件下,该改进模型的参数量较之前减少了约1/10,在不同数据集上与几种常见语音识别模型相比,其语音识别字符错误率均最低,在识别准确率和模型训练效率方面具有一定的优越性。
关键词
语音识别
深度前馈序列记忆网络(DFSMN)
非特定人
连接
时序
分类
(
ctc
)
Keywords
speech recognition
Deep Feedforward Sequential Memory Network(DFSMN)
non-specific person
Connection Temporal Classification(
ctc
)
分类号
TN912.34 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于人工智能机器学习的文字识别方法研究
被引量:
6
6
作者
张少宇
机构
广东金融学院
出处
《电脑编程技巧与维护》
2022年第9期154-156,176,共4页
文摘
介绍了深度学习和文本识别的基本概念,讲解了文本识别的分类、基本步骤和挑战,重点研究了基于深度学习的文本识别模型——卷积循环神经网络(CRNN),对其特点、网络结构进行了研究,对比了Attention模型和CRNN模型的优缺点。
关键词
深度学习
神经网络
文本检测
文本识别
光学字符识别(OCR)
CRNN模型
连接时间
分类
(
ctc
)
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
复杂场景文本段识别
被引量:
1
7
作者
王孝男
张利
何思楠
机构
清华大学电子工程系
出处
《计算机应用研究》
CSCD
北大核心
2019年第9期2818-2820,2844,共4页
文摘
针对背景复杂或者存在字符黏连时文本段图片无法准确切分的情况进行了研究,提出了一种复杂场景文本段识别方法。该方法利用图像和文字序列的相关性设计双向递归神经网络对图像特征序列进行编码,然后设计集成的连接时间分类(CTC)和注意力(attention)模块对编码特征进行解码输出。该算法在多个数据集(公开数据集ICDAR2013和ICDAR2003以及验证码数据集)上进行测试,得到识别准确率分别为90. 2%、87. 4%和92. 5%,从而证明了该算法的有效性。实验结果对文本段识别和应用有重要意义。
关键词
文本段识别
连接时间
分类
注意力
集成
Keywords
text segment recognition
ctc
attention
integration
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种采用机器学习的氦语音识别方法
8
作者
李冬梅
李明
郭莉莉
张士兵
机构
南通大学信息科学技术学院
出处
《电讯技术》
北大核心
2022年第9期1215-1221,共7页
基金
国家自然科学基金资助项目(61871241)
江苏省科研与实践创新计划项目(KYCX20_2828)。
文摘
为了解决传统氦语音处理技术存在的处理速度慢、计算复杂、操作困难等问题,提出了一种采用机器学习的氦语音识别方法,通过深层网络学习高维信息、提取多种特征,不但解决了过拟合问题,同时也具备了字错率(Word Error Rate,WER)低、收敛速度快的优点。首先自建氦语音孤立词和连续氦语音数据库,对氦语音数据预处理,提取的语音特征主要包括共振峰特征、基音周期特征和FBank(Filter Bank)特征。之后将语音特征输入到由深度卷积神经网络(Deep Convolutional Neural Network,DCNN)和连接时序分类(Connectionist Temporal Classification,CTC)组成的声学模型进行语音到拼音的建模,最后应用Transformer语言模型得到汉字输出。提取共振峰特征、基音周期特征和FBank特征的氦语音孤立词识别模型相比于仅提取FBank特征的识别模型的WER降低了7.91%,连续氦语音识别模型的WER降低了14.95%。氦语音孤立词识别模型的最优WER为1.53%,连续氦语音识别模型的最优WER为36.89%。结果表明,所提方法可有效识别氦语音。
关键词
氦语音
语音识别
机器学习
深度卷积神经网络(DCNN)
连接
时序
分类
(
ctc
)
Keywords
helium speech
speech recognition
machine learning
deep convolution neural network(DCNN)
connectionist temporal classification(
ctc
)
分类号
TN912.3 [电子电信—通信与信息系统]
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于深度学习的动态手势识别方法
被引量:
8
9
作者
钟惠英
机构
河海大学计算机与信息学院
出处
《电子测量技术》
2020年第2期128-132,共5页
文摘
为了提高动态手势的识别准确率,并避免动态手势的数据预分割和后输出处理过程,设计了一种融合卷积神经网络(CNN)和双向长短时记忆(BiLSTM),引入连接主义时间分类(CTC)作为损失函数的串联型网络模型。使用CTC训练网络来判断输入流中的类标签,以完成动态手势的识别工作。在公开视频手势数据集Jester和通过Kinect自建的包含9个动态手势的数据集上进行了实验验证,结果表明提出的串联型融合网络模型在Jester上能得到较高的识别率,并且引入CTC算法用于手势识别领域是可行的,该方法高效且具有很高的识别率,对9个动态手势最好识别正确率可达98.11%。
关键词
KINECT
手势识别
ctc
(
连接
主义
时间
分类
)
BiLSTM(双向长短时记忆)
深度学习
Keywords
kinect
gesture recognition
ctc
(connectionist temporal classification)
BiLSTM(Bi-directional LSTM)
deep learning
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于递归神经网络的端到端语音识别
被引量:
5
10
作者
王子龙
李俊峰
张劭韡
王宏岩
王思杰
机构
国家电网有限公司营销部
国家电网有限公司客户服务中心
北京中电普华信息技术有限公司
出处
《计算机与数字工程》
2019年第12期3099-3106,共8页
基金
国家自然科学基金项目(编号:51776082)资助
文摘
论文提出了一种直接利用文本对音频数据进行转录的语音识别系统。采用基于深度双向长短期记忆(LSTM)的递归神经网络(RNN)结构和连接时间分类(CTC)目标函数相结合。引入了对目标函数的修正方法,进而使得训练网络对任意转录损失函数的期望最小化。即使在没有词典或语言模型的情况下,也可直接优化单词错误率。该系统在没有语言信息情况下,对《华尔街日报》语料库实现了27.3%的单词错误率(WER),在只有允许单词词典的情况下达到了21.9%,在三元语言模型下达到了8.2%。将所提方法与基准系统结合,进一步将错误率降低到6.7%。
关键词
递归神经网络
语音识别
长短期记忆
连接时间
分类
单词错误率
Keywords
RNN
speech recognition
LSTM
ctc
WER
分类号
TN912.34 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于RNN和WFST译码的自动语音识别研究
被引量:
3
11
作者
郑晓琼
汪晓
江海升
樊培培
张超
机构
国网安徽省电力有限公司检修分公司
出处
《信息技术》
2019年第6期115-120,共6页
文摘
文中利用Eesen框架声学建模简化了现有的自动语音识别(ASR),通过训练单个递归神经网络(RNN)来预测上下文无关的目标(音素或字符)。为了消除对预生成帧标签的需求,采用了连接时间分类(CTC)目标函数来推断语音和标签序列之间的对齐。同时,采用基于加权有限状态换能器(WFST)的广义译码方法,将词汇和语言模型有效地整合到CTC译码中。实验结果表明,与混合HMM/DNN模型相比,所提方法具有较低的误码率(WER),同时显著加快了译码速度。
关键词
自动语音识别
Eesen
递归神经网络
加权有限状态换能器
连接时间
分类
Keywords
automatic speech recognition
Eesen
recurrent neural network
WSFT
ctc
分类号
TN912.34 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于Bi-RNN中文语音识别的实验设计
12
作者
黄睿
机构
广东第二师范学院计算机科学系
出处
《现代计算机》
2019年第10期92-95,共4页
基金
广东第二师范学院计算机实验教学示范中心(No.SY2016014)
文摘
介绍TensorFlow深度学习架构,分析梅尔频率倒谱系数(MFCC)模型,结合双向循环神经网络(Bi-RNN)和联结主义时间分类(CTC)模型,对中文语音数据集Thchs-30进行深度学习,最终完成中文语音识别的实验设计,为中文语音识别在本科实验教学的应用具体重要参考意义。
关键词
TensorFlow
深度学习
语音识别
双向循环神经网络(Bi-RNN)
梅尔频率倒谱系数(MFCC)
联结主义
时间
分类
(
ctc
)
Keywords
TensorFlow
Deep learning
Speech Recognition
Bi-RNN
MFCC(Mel Frequency Cepstrum Coefficient)
Connectionist Temporal Classification(
ctc
)
分类号
G642.4 [文化科学—高等教育学]
TP18 [自动化与计算机技术—控制理论与控制工程]
TN912.34-4 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
混合连接时间/注意力机制端到端语音识别
陈聪
贺杰
陈佳
《控制工程》
CSCD
北大核心
2021
6
下载PDF
职称材料
2
C2客专线路CTC施工分类和施工影响范围研究
黄文华
《铁道通信信号》
2015
0
下载PDF
职称材料
3
基于改进混合CTC/attention架构的端到端普通话语音识别
杨鸿武
周刚
《西北师范大学学报(自然科学版)》
CAS
北大核心
2019
6
下载PDF
职称材料
4
基于Attention-CTC的自然场景文本识别算法
和文杰
刘敬彪
潘勉
吕帅帅
《电子科技》
2019
1
下载PDF
职称材料
5
基于改进DFSMN的非特定人语音识别模型
王世刚
严瑾
《电声技术》
2023
0
下载PDF
职称材料
6
基于人工智能机器学习的文字识别方法研究
张少宇
《电脑编程技巧与维护》
2022
6
下载PDF
职称材料
7
复杂场景文本段识别
王孝男
张利
何思楠
《计算机应用研究》
CSCD
北大核心
2019
1
下载PDF
职称材料
8
一种采用机器学习的氦语音识别方法
李冬梅
李明
郭莉莉
张士兵
《电讯技术》
北大核心
2022
0
下载PDF
职称材料
9
基于深度学习的动态手势识别方法
钟惠英
《电子测量技术》
2020
8
下载PDF
职称材料
10
基于递归神经网络的端到端语音识别
王子龙
李俊峰
张劭韡
王宏岩
王思杰
《计算机与数字工程》
2019
5
下载PDF
职称材料
11
基于RNN和WFST译码的自动语音识别研究
郑晓琼
汪晓
江海升
樊培培
张超
《信息技术》
2019
3
下载PDF
职称材料
12
基于Bi-RNN中文语音识别的实验设计
黄睿
《现代计算机》
2019
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部