期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于ResNet-BLSTM的端到端语音识别 被引量:8
1
作者 胡章芳 徐轩 +2 位作者 付亚芹 夏志广 马苏东 《计算机工程与应用》 CSCD 北大核心 2020年第18期124-130,共7页
基于深度学习的端到端语音识别模型中,由于模型的输入采用固定长度的语音帧,造成时域信息和部分高频信息损失进而导致识别率不高、鲁棒性差等问题。针对上述问题,提出了一种基于残差网络与双向长短时记忆网络相结合的模型,该模型采用语... 基于深度学习的端到端语音识别模型中,由于模型的输入采用固定长度的语音帧,造成时域信息和部分高频信息损失进而导致识别率不高、鲁棒性差等问题。针对上述问题,提出了一种基于残差网络与双向长短时记忆网络相结合的模型,该模型采用语谱图作为输入,同时在残差网络中设计并行卷积层,提取不同尺度的特征,然后进行特征融合,最后采用连接时序分类方法进行分类,实现一个端到端的语音识别模型。实验结果表明,该模型在Aishell-1语音集上字错误率相较于传统端到端模型的WER下降2.52%,且鲁棒性较好。 展开更多
关键词 残差网络(ResNet) 双向长短记忆网络(BLSTM) 并行卷积层 连接时序分类
下载PDF
基于连续语音识别技术的猪连续咳嗽声识别 被引量:20
2
作者 黎煊 赵建 +3 位作者 高云 刘望宏 雷明刚 谭鹤群 《农业工程学报》 EI CAS CSCD 北大核心 2019年第6期174-180,共7页
针对现有基于孤立词识别技术的猪咳嗽声识别存在识别声音种类有限,无法反映实际患病猪连续咳嗽的问题,该文提出了基于双向长短时记忆网络-连接时序分类模型(birectional long short-termmemory-connectionist temporal classification,B... 针对现有基于孤立词识别技术的猪咳嗽声识别存在识别声音种类有限,无法反映实际患病猪连续咳嗽的问题,该文提出了基于双向长短时记忆网络-连接时序分类模型(birectional long short-termmemory-connectionist temporal classification,BLSTM-CTC)构建猪声音声学模型,进行猪场环境猪连续咳嗽声识别的方法,以此进行猪早期呼吸道疾病的预警和判断。研究了体质量为75 kg左右长白猪单个咳嗽声样本的持续时间长度和能量大小的时域特征,构建了声音样本持续时间在0.24~0.74 s和能量大于40.15 V^2·s的阈值范围。在此阈值范围内,利用单参数双门限端点检测算法对基于多窗谱的心理声学语音增强算法处理后的30 h猪场声音进行检测,得到222段试验语料。将猪场环境下的声音分为猪咳嗽声和非猪咳嗽声,并以此作为声学模型建模单元,进行语料的标注。提取26维梅尔频率倒谱系数(Mel frequency cepstral coefficients,MFCC)作为试验语段特征参数。通过BLSTM网络学习猪连续声音的变化规律,并利用CTC实现了端到端的猪连续声音识别系统。5折交叉验证试验平均猪咳嗽声识别率达到92.40%,误识别率为3.55%,总识别率达到93.77%。同时,以数据集外1 h语料进行了算法应用测试,得到猪咳嗽声识别率为94.23%,误识别率为9.09%,总识别率为93.24%。表明基于连续语音识别技术的BLSTM-CTC猪咳嗽声识别模型是稳定可靠的。该研究可为生猪健康养殖过程中猪连续咳嗽声的识别和疾病判断提参考。 展开更多
关键词 信号处理 声音信号 识别 生猪产业 连续咳嗽声 双向长短时记忆网络-连接时序分类模型 声学模型
下载PDF
基于CRNN改进的中文手写体文本行识别
3
作者 舒珊珊 郑晓旭 文成玉 《成都信息工程大学学报》 2023年第4期422-428,共7页
中文手写体文本行识别可以将纸质书写内容转换为可编辑的电子内容。对于手写体书写随意性大、中文字符种类多,且基于字符分割的方法识别准确率不高这些问题,提出基于卷积循环神经网络改进的端到端的中文手写体识别方法。首先将图片传入... 中文手写体文本行识别可以将纸质书写内容转换为可编辑的电子内容。对于手写体书写随意性大、中文字符种类多,且基于字符分割的方法识别准确率不高这些问题,提出基于卷积循环神经网络改进的端到端的中文手写体识别方法。首先将图片传入基于改进的Inception结构的特征提取网络,该网络首先改进GoogLeNet模型,然后在此基础上又改进添加卷积模块的注意力机制模块和Inception组合结构,改进后的模型能更好地提取图片的有效特征;之后将提取到的图片特征传入循环层,即两层双向长短时记忆网络进行预测;最后将预测序列传入转录层,经过连接时序分类进行转录输出。在CASIA-HWDB2数据集的实验结果表明,该方法能获得95.12%的识别准确率,证明方法的可行性。 展开更多
关键词 手写体识别 卷积循环神经网络 卷积模块的注意力机制模块 双向长短记忆网络 连接时序分类
下载PDF
基于动态BLSTM和CTC的濒危语言语音识别研究 被引量:8
4
作者 于重重 陈运兵 +3 位作者 孙沁瑶 刘畅 徐世璇 尹蔚彬 《计算机应用研究》 CSCD 北大核心 2019年第11期3334-3337,共4页
针对低资源的濒危语言进行了端到端语音识别模型的建立与研究,能够为濒危语言的保护和传承探索出新的途径。采用动态双向长短时记忆网络与连接时序分类模型构造端到端的语音识别系统,在进行音素级别的识别训练时,传入模型的数据批量大... 针对低资源的濒危语言进行了端到端语音识别模型的建立与研究,能够为濒危语言的保护和传承探索出新的途径。采用动态双向长短时记忆网络与连接时序分类模型构造端到端的语音识别系统,在进行音素级别的识别训练时,传入模型的数据批量大小根据训练模型作自适应调整,不仅能够加快收敛速度,而且能够提高模型的泛化性。通过修改网络层次与结构参数,并提取不同的语音特征进行模型对比,实验结果表明在两种濒危语言——吕苏语和土家语的数据集上均取得了较好的识别效果。 展开更多
关键词 濒危语言语音识别 端到端 动态双向长短记忆网络 连接时序分类模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部