期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于CTC模型的无分割文本验证码识别 被引量:8
1
作者 杜薇 周武能 《计算机与现代化》 2018年第9期48-51,共4页
验证码安全性是保障网络安全的重要一环,本文利用深度学习,提出长短期记忆(Long Short-Term Memory,LSTM)网络和连接时序分类(Connectionist Temporal Classification,CTC)模型对主流的验证码图片进行智能识别,利用开源CAPTCHA验证码库... 验证码安全性是保障网络安全的重要一环,本文利用深度学习,提出长短期记忆(Long Short-Term Memory,LSTM)网络和连接时序分类(Connectionist Temporal Classification,CTC)模型对主流的验证码图片进行智能识别,利用开源CAPTCHA验证码库生成数据集,简化验证码识别模型,统一语音识别和文本识别方法,实现端到端模型识别。本文提出的方法在较小训练集情况下有更优秀的性能。 展开更多
关键词 验证码识别 深度学习 长短期记忆网络 连接时序分类模型
下载PDF
标签同步解码算法及其在语音识别中的应用 被引量:10
2
作者 陈哲怀 郑文露 +2 位作者 游永彬 钱彦旻 俞凯 《计算机学报》 EI CSCD 北大核心 2019年第7期1511-1523,共13页
自动语音识别(Automatic Speech Recognition,ASR)等序列标注任务的一个显著特点是其对相邻帧的时序序列关联性建模.用于对相邻帧进行时序建模的主流序列模型包括隐马尔可夫模型(Hidden Markov Model, HMM)和连接时序模型(Connectionist... 自动语音识别(Automatic Speech Recognition,ASR)等序列标注任务的一个显著特点是其对相邻帧的时序序列关联性建模.用于对相邻帧进行时序建模的主流序列模型包括隐马尔可夫模型(Hidden Markov Model, HMM)和连接时序模型(Connectionist Temporal Classification,CTC).针对这些模型,当前主流的推理方法是帧层面的维特比束搜索算法,该算法复杂度很高,限制了语音识别的广泛应用.深度学习的发展使得更强的上下文和历史建模成为可能.通过引入blank单元,端到端建模系统能够直接预测标签在给定特征下的后验概率.该文系统地提出了一系列方法,通过使用高效的blank结构和后处理方法,使得搜索解码过程从逐帧同步变为标签同步.该系列通用方法在隐马尔可夫模型和连接时序模型上均得到了验证.结果表明,在Switchboard数据集上,不损失性能的前提下,实验取得了2~4倍的加速.该文同时研究了搜索空间、候选序列剪枝、转移模型、降帧率等对加速比的影响,并在所有情况下取得一致性加速。 展开更多
关键词 自动语音识别 隐马尔可夫模型 连接时序模型 逐帧同步解码 标签同步解码 可变帧率 剪枝
下载PDF
基于连续语音识别技术的猪连续咳嗽声识别 被引量:22
3
作者 黎煊 赵建 +3 位作者 高云 刘望宏 雷明刚 谭鹤群 《农业工程学报》 EI CAS CSCD 北大核心 2019年第6期174-180,共7页
针对现有基于孤立词识别技术的猪咳嗽声识别存在识别声音种类有限,无法反映实际患病猪连续咳嗽的问题,该文提出了基于双向长短时记忆网络-连接时序分类模型(birectional long short-termmemory-connectionist temporal classification,B... 针对现有基于孤立词识别技术的猪咳嗽声识别存在识别声音种类有限,无法反映实际患病猪连续咳嗽的问题,该文提出了基于双向长短时记忆网络-连接时序分类模型(birectional long short-termmemory-connectionist temporal classification,BLSTM-CTC)构建猪声音声学模型,进行猪场环境猪连续咳嗽声识别的方法,以此进行猪早期呼吸道疾病的预警和判断。研究了体质量为75 kg左右长白猪单个咳嗽声样本的持续时间长度和能量大小的时域特征,构建了声音样本持续时间在0.24~0.74 s和能量大于40.15 V^2·s的阈值范围。在此阈值范围内,利用单参数双门限端点检测算法对基于多窗谱的心理声学语音增强算法处理后的30 h猪场声音进行检测,得到222段试验语料。将猪场环境下的声音分为猪咳嗽声和非猪咳嗽声,并以此作为声学模型建模单元,进行语料的标注。提取26维梅尔频率倒谱系数(Mel frequency cepstral coefficients,MFCC)作为试验语段特征参数。通过BLSTM网络学习猪连续声音的变化规律,并利用CTC实现了端到端的猪连续声音识别系统。5折交叉验证试验平均猪咳嗽声识别率达到92.40%,误识别率为3.55%,总识别率达到93.77%。同时,以数据集外1 h语料进行了算法应用测试,得到猪咳嗽声识别率为94.23%,误识别率为9.09%,总识别率为93.24%。表明基于连续语音识别技术的BLSTM-CTC猪咳嗽声识别模型是稳定可靠的。该研究可为生猪健康养殖过程中猪连续咳嗽声的识别和疾病判断提参考。 展开更多
关键词 信号处理 声音信号 识别 生猪产业 连续咳嗽声 双向长短时记忆网络-连接时序分类模型 声学模型
下载PDF
基于动态BLSTM和CTC的濒危语言语音识别研究 被引量:9
4
作者 于重重 陈运兵 +3 位作者 孙沁瑶 刘畅 徐世璇 尹蔚彬 《计算机应用研究》 CSCD 北大核心 2019年第11期3334-3337,共4页
针对低资源的濒危语言进行了端到端语音识别模型的建立与研究,能够为濒危语言的保护和传承探索出新的途径。采用动态双向长短时记忆网络与连接时序分类模型构造端到端的语音识别系统,在进行音素级别的识别训练时,传入模型的数据批量大... 针对低资源的濒危语言进行了端到端语音识别模型的建立与研究,能够为濒危语言的保护和传承探索出新的途径。采用动态双向长短时记忆网络与连接时序分类模型构造端到端的语音识别系统,在进行音素级别的识别训练时,传入模型的数据批量大小根据训练模型作自适应调整,不仅能够加快收敛速度,而且能够提高模型的泛化性。通过修改网络层次与结构参数,并提取不同的语音特征进行模型对比,实验结果表明在两种濒危语言——吕苏语和土家语的数据集上均取得了较好的识别效果。 展开更多
关键词 濒危语言语音识别 端到端 动态双向长短时记忆网络 连接时序分类模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部