期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于CTC模型的无分割文本验证码识别
被引量:
8
1
作者
杜薇
周武能
《计算机与现代化》
2018年第9期48-51,共4页
验证码安全性是保障网络安全的重要一环,本文利用深度学习,提出长短期记忆(Long Short-Term Memory,LSTM)网络和连接时序分类(Connectionist Temporal Classification,CTC)模型对主流的验证码图片进行智能识别,利用开源CAPTCHA验证码库...
验证码安全性是保障网络安全的重要一环,本文利用深度学习,提出长短期记忆(Long Short-Term Memory,LSTM)网络和连接时序分类(Connectionist Temporal Classification,CTC)模型对主流的验证码图片进行智能识别,利用开源CAPTCHA验证码库生成数据集,简化验证码识别模型,统一语音识别和文本识别方法,实现端到端模型识别。本文提出的方法在较小训练集情况下有更优秀的性能。
展开更多
关键词
验证码识别
深度学习
长短期记忆网络
连接
时序
分类
模型
下载PDF
职称材料
标签同步解码算法及其在语音识别中的应用
被引量:
10
2
作者
陈哲怀
郑文露
+2 位作者
游永彬
钱彦旻
俞凯
《计算机学报》
EI
CSCD
北大核心
2019年第7期1511-1523,共13页
自动语音识别(Automatic Speech Recognition,ASR)等序列标注任务的一个显著特点是其对相邻帧的时序序列关联性建模.用于对相邻帧进行时序建模的主流序列模型包括隐马尔可夫模型(Hidden Markov Model, HMM)和连接时序模型(Connectionist...
自动语音识别(Automatic Speech Recognition,ASR)等序列标注任务的一个显著特点是其对相邻帧的时序序列关联性建模.用于对相邻帧进行时序建模的主流序列模型包括隐马尔可夫模型(Hidden Markov Model, HMM)和连接时序模型(Connectionist Temporal Classification,CTC).针对这些模型,当前主流的推理方法是帧层面的维特比束搜索算法,该算法复杂度很高,限制了语音识别的广泛应用.深度学习的发展使得更强的上下文和历史建模成为可能.通过引入blank单元,端到端建模系统能够直接预测标签在给定特征下的后验概率.该文系统地提出了一系列方法,通过使用高效的blank结构和后处理方法,使得搜索解码过程从逐帧同步变为标签同步.该系列通用方法在隐马尔可夫模型和连接时序模型上均得到了验证.结果表明,在Switchboard数据集上,不损失性能的前提下,实验取得了2~4倍的加速.该文同时研究了搜索空间、候选序列剪枝、转移模型、降帧率等对加速比的影响,并在所有情况下取得一致性加速。
展开更多
关键词
自动语音识别
隐马尔可夫
模型
连接时序模型
逐帧同步解码
标签同步解码
可变帧率
剪枝
下载PDF
职称材料
基于连续语音识别技术的猪连续咳嗽声识别
被引量:
22
3
作者
黎煊
赵建
+3 位作者
高云
刘望宏
雷明刚
谭鹤群
《农业工程学报》
EI
CAS
CSCD
北大核心
2019年第6期174-180,共7页
针对现有基于孤立词识别技术的猪咳嗽声识别存在识别声音种类有限,无法反映实际患病猪连续咳嗽的问题,该文提出了基于双向长短时记忆网络-连接时序分类模型(birectional long short-termmemory-connectionist temporal classification,B...
针对现有基于孤立词识别技术的猪咳嗽声识别存在识别声音种类有限,无法反映实际患病猪连续咳嗽的问题,该文提出了基于双向长短时记忆网络-连接时序分类模型(birectional long short-termmemory-connectionist temporal classification,BLSTM-CTC)构建猪声音声学模型,进行猪场环境猪连续咳嗽声识别的方法,以此进行猪早期呼吸道疾病的预警和判断。研究了体质量为75 kg左右长白猪单个咳嗽声样本的持续时间长度和能量大小的时域特征,构建了声音样本持续时间在0.24~0.74 s和能量大于40.15 V^2·s的阈值范围。在此阈值范围内,利用单参数双门限端点检测算法对基于多窗谱的心理声学语音增强算法处理后的30 h猪场声音进行检测,得到222段试验语料。将猪场环境下的声音分为猪咳嗽声和非猪咳嗽声,并以此作为声学模型建模单元,进行语料的标注。提取26维梅尔频率倒谱系数(Mel frequency cepstral coefficients,MFCC)作为试验语段特征参数。通过BLSTM网络学习猪连续声音的变化规律,并利用CTC实现了端到端的猪连续声音识别系统。5折交叉验证试验平均猪咳嗽声识别率达到92.40%,误识别率为3.55%,总识别率达到93.77%。同时,以数据集外1 h语料进行了算法应用测试,得到猪咳嗽声识别率为94.23%,误识别率为9.09%,总识别率为93.24%。表明基于连续语音识别技术的BLSTM-CTC猪咳嗽声识别模型是稳定可靠的。该研究可为生猪健康养殖过程中猪连续咳嗽声的识别和疾病判断提参考。
展开更多
关键词
信号处理
声音信号
识别
生猪产业
连续咳嗽声
双向长短时记忆网络-
连接
时序
分类
模型
声学
模型
下载PDF
职称材料
基于动态BLSTM和CTC的濒危语言语音识别研究
被引量:
9
4
作者
于重重
陈运兵
+3 位作者
孙沁瑶
刘畅
徐世璇
尹蔚彬
《计算机应用研究》
CSCD
北大核心
2019年第11期3334-3337,共4页
针对低资源的濒危语言进行了端到端语音识别模型的建立与研究,能够为濒危语言的保护和传承探索出新的途径。采用动态双向长短时记忆网络与连接时序分类模型构造端到端的语音识别系统,在进行音素级别的识别训练时,传入模型的数据批量大...
针对低资源的濒危语言进行了端到端语音识别模型的建立与研究,能够为濒危语言的保护和传承探索出新的途径。采用动态双向长短时记忆网络与连接时序分类模型构造端到端的语音识别系统,在进行音素级别的识别训练时,传入模型的数据批量大小根据训练模型作自适应调整,不仅能够加快收敛速度,而且能够提高模型的泛化性。通过修改网络层次与结构参数,并提取不同的语音特征进行模型对比,实验结果表明在两种濒危语言——吕苏语和土家语的数据集上均取得了较好的识别效果。
展开更多
关键词
濒危语言语音识别
端到端
动态双向长短时记忆网络
连接
时序
分类
模型
下载PDF
职称材料
题名
基于CTC模型的无分割文本验证码识别
被引量:
8
1
作者
杜薇
周武能
机构
东华大学信息科学与技术学院
出处
《计算机与现代化》
2018年第9期48-51,共4页
基金
国家自然科学基金资助项目(61573095)
文摘
验证码安全性是保障网络安全的重要一环,本文利用深度学习,提出长短期记忆(Long Short-Term Memory,LSTM)网络和连接时序分类(Connectionist Temporal Classification,CTC)模型对主流的验证码图片进行智能识别,利用开源CAPTCHA验证码库生成数据集,简化验证码识别模型,统一语音识别和文本识别方法,实现端到端模型识别。本文提出的方法在较小训练集情况下有更优秀的性能。
关键词
验证码识别
深度学习
长短期记忆网络
连接
时序
分类
模型
Keywords
CAPTCHA recognition
deep learning
long short-term memory network
connectionist temporal classification model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
标签同步解码算法及其在语音识别中的应用
被引量:
10
2
作者
陈哲怀
郑文露
游永彬
钱彦旻
俞凯
机构
上海交通大学智能交互与认知工程上海高校重点实验室
上海交通大学计算机科学与工程系智能语音实验室
上海交通大学苏州人工智能研究院
苏州思必驰信息科技有限公司
出处
《计算机学报》
EI
CSCD
北大核心
2019年第7期1511-1523,共13页
基金
国家重点研发计划“智能机器人”重点专项(2017YFB1302400)
国家自然科学基金项目(U1736202)
江苏省基础研究计划(BE2016078)资助~~
文摘
自动语音识别(Automatic Speech Recognition,ASR)等序列标注任务的一个显著特点是其对相邻帧的时序序列关联性建模.用于对相邻帧进行时序建模的主流序列模型包括隐马尔可夫模型(Hidden Markov Model, HMM)和连接时序模型(Connectionist Temporal Classification,CTC).针对这些模型,当前主流的推理方法是帧层面的维特比束搜索算法,该算法复杂度很高,限制了语音识别的广泛应用.深度学习的发展使得更强的上下文和历史建模成为可能.通过引入blank单元,端到端建模系统能够直接预测标签在给定特征下的后验概率.该文系统地提出了一系列方法,通过使用高效的blank结构和后处理方法,使得搜索解码过程从逐帧同步变为标签同步.该系列通用方法在隐马尔可夫模型和连接时序模型上均得到了验证.结果表明,在Switchboard数据集上,不损失性能的前提下,实验取得了2~4倍的加速.该文同时研究了搜索空间、候选序列剪枝、转移模型、降帧率等对加速比的影响,并在所有情况下取得一致性加速。
关键词
自动语音识别
隐马尔可夫
模型
连接时序模型
逐帧同步解码
标签同步解码
可变帧率
剪枝
Keywords
automatic speech recognition
hidden Markov model
connectionist temporal classification
frame synchronous decoding
label synchronous decoding
variable frame rate
hypothesis pruning
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于连续语音识别技术的猪连续咳嗽声识别
被引量:
22
3
作者
黎煊
赵建
高云
刘望宏
雷明刚
谭鹤群
机构
华中农业大学工学院
生猪健康养殖协同创新中心
华中农业大学动物科技学院动物医学院
出处
《农业工程学报》
EI
CAS
CSCD
北大核心
2019年第6期174-180,共7页
基金
国家重点研发计划项目(2018YFD0500700)
华中农业大学自主科技创新基金
+2 种基金
华中农业大学大北农青年学者提升专项项目(2017DBN005)
现代农业产业技术体系项目(CARS-36)
国家级大学生创新创业训练计划(201810504074)
文摘
针对现有基于孤立词识别技术的猪咳嗽声识别存在识别声音种类有限,无法反映实际患病猪连续咳嗽的问题,该文提出了基于双向长短时记忆网络-连接时序分类模型(birectional long short-termmemory-connectionist temporal classification,BLSTM-CTC)构建猪声音声学模型,进行猪场环境猪连续咳嗽声识别的方法,以此进行猪早期呼吸道疾病的预警和判断。研究了体质量为75 kg左右长白猪单个咳嗽声样本的持续时间长度和能量大小的时域特征,构建了声音样本持续时间在0.24~0.74 s和能量大于40.15 V^2·s的阈值范围。在此阈值范围内,利用单参数双门限端点检测算法对基于多窗谱的心理声学语音增强算法处理后的30 h猪场声音进行检测,得到222段试验语料。将猪场环境下的声音分为猪咳嗽声和非猪咳嗽声,并以此作为声学模型建模单元,进行语料的标注。提取26维梅尔频率倒谱系数(Mel frequency cepstral coefficients,MFCC)作为试验语段特征参数。通过BLSTM网络学习猪连续声音的变化规律,并利用CTC实现了端到端的猪连续声音识别系统。5折交叉验证试验平均猪咳嗽声识别率达到92.40%,误识别率为3.55%,总识别率达到93.77%。同时,以数据集外1 h语料进行了算法应用测试,得到猪咳嗽声识别率为94.23%,误识别率为9.09%,总识别率为93.24%。表明基于连续语音识别技术的BLSTM-CTC猪咳嗽声识别模型是稳定可靠的。该研究可为生猪健康养殖过程中猪连续咳嗽声的识别和疾病判断提参考。
关键词
信号处理
声音信号
识别
生猪产业
连续咳嗽声
双向长短时记忆网络-
连接
时序
分类
模型
声学
模型
Keywords
signal processing
acoustic signal
recognition
pig industry
continuous cough
birectional long short-term memory-connectionist temporal classification
acoustic model
分类号
TN912.34 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于动态BLSTM和CTC的濒危语言语音识别研究
被引量:
9
4
作者
于重重
陈运兵
孙沁瑶
刘畅
徐世璇
尹蔚彬
机构
北京工商大学计算机与信息工程学院
中国社会科学院民族学与人类学研究所
出处
《计算机应用研究》
CSCD
北大核心
2019年第11期3334-3337,共4页
基金
国家教育部人文社会科学研究规划基金资助项目(16YJAZH072)
国家社会科学基金重大项目(14ZDB156)
文摘
针对低资源的濒危语言进行了端到端语音识别模型的建立与研究,能够为濒危语言的保护和传承探索出新的途径。采用动态双向长短时记忆网络与连接时序分类模型构造端到端的语音识别系统,在进行音素级别的识别训练时,传入模型的数据批量大小根据训练模型作自适应调整,不仅能够加快收敛速度,而且能够提高模型的泛化性。通过修改网络层次与结构参数,并提取不同的语音特征进行模型对比,实验结果表明在两种濒危语言——吕苏语和土家语的数据集上均取得了较好的识别效果。
关键词
濒危语言语音识别
端到端
动态双向长短时记忆网络
连接
时序
分类
模型
Keywords
endangered languages speech recognition
end to end
dynamic bi-directional long short-term memory network
connectionist temporal classification model
分类号
TP391.42 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于CTC模型的无分割文本验证码识别
杜薇
周武能
《计算机与现代化》
2018
8
下载PDF
职称材料
2
标签同步解码算法及其在语音识别中的应用
陈哲怀
郑文露
游永彬
钱彦旻
俞凯
《计算机学报》
EI
CSCD
北大核心
2019
10
下载PDF
职称材料
3
基于连续语音识别技术的猪连续咳嗽声识别
黎煊
赵建
高云
刘望宏
雷明刚
谭鹤群
《农业工程学报》
EI
CAS
CSCD
北大核心
2019
22
下载PDF
职称材料
4
基于动态BLSTM和CTC的濒危语言语音识别研究
于重重
陈运兵
孙沁瑶
刘畅
徐世璇
尹蔚彬
《计算机应用研究》
CSCD
北大核心
2019
9
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部