期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
一种基于CNN-DFSMN-CTC的语音识别模型
1
作者 梁宏涛 刘家旭 《计算机与数字工程》 2024年第10期2984-2990,共7页
针对现有语音识别模块在复杂环境中识别准确率较低,训练较为复杂的问题,论文提出将深度前馈序列神经网络(Deep Feedforword Sequential Memory Networks,DFSMN)和端到端的连接时序分类(Connectionist Temporal Classification,CTC)方法... 针对现有语音识别模块在复杂环境中识别准确率较低,训练较为复杂的问题,论文提出将深度前馈序列神经网络(Deep Feedforword Sequential Memory Networks,DFSMN)和端到端的连接时序分类(Connectionist Temporal Classification,CTC)方法相结合的方法对语音识别的声学模型进行改进;其次,针对现有的声学特征表示方法在深度神经网络中的表征能力较差的问题,论文在对数梅尔滤波组(Log Mel Filter-bank,Fbank)特征提取方法的基础上,利用卷积神经网络(Convolutional Neural Networks,CNN)对声学特征进行二次提取,解决了现有的声学特征表示方法在深度神经网络中的表征能力较差的问题。在Thchs-30数据集上,改进的CNN-DFSMN-CTC模型相对于CNN模型和LSTM型在测试集上的字错率(Character Error Rate,CER)分别相对降低了6.83%和7.96%。 展开更多
关键词 语音识别 dfsmn CTC CNN
下载PDF
DFSMN-T:结合强语言模型Transformer的中文语音识别 被引量:13
2
作者 胡章芳 蹇芳 +2 位作者 唐珊珊 明子平 姜博文 《计算机工程与应用》 CSCD 北大核心 2022年第9期187-194,共8页
自动语音识别系统由声学模型和语言模型两部分构成,但传统语言模型N-gram存在忽略词条语义相似性、参数过大等问题,限制了语音识别字符错误率的进一步降低。针对上述问题,提出一种新型的语音识别系统,以中文音节(拼音)作为中间字符,以... 自动语音识别系统由声学模型和语言模型两部分构成,但传统语言模型N-gram存在忽略词条语义相似性、参数过大等问题,限制了语音识别字符错误率的进一步降低。针对上述问题,提出一种新型的语音识别系统,以中文音节(拼音)作为中间字符,以深度前馈序列记忆神经网络DFSMN作为声学模型,执行语音转中文音节任务,进而将拼音转汉字理解成翻译任务,引入Transformer作为语言模型;同时提出一种减少Transformer计算复杂度的简易方法,在计算注意力权值时引入Hadamard矩阵进行滤波,对低于阈值的参数进行丢弃,使得模型解码速度更快。在Aishell-1、Thchs30等数据集上的实验表明,相较于DFSMN结合3-gram模型,基于DFSMN和改进Transformer的语音识别系统在最优模型上的字符错误率相对下降了3.2%,达到了11.8%的字符错误率;相较于BLSTM模型语音识别系统,其字符错误率相对下降了7.1%。 展开更多
关键词 语音识别 深度前馈序列记忆神经网络(dfsmn) TRANSFORMER 中文音节 HADAMARD矩阵
下载PDF
DFSMN语音识别技术在智能安全帽上的应用研究 被引量:2
3
作者 卓凡 陈凯 刘宪国 《中国高新科技》 2021年第20期48-50,共3页
语音是最自然的输入手段。近年来语音识别已被广泛应用于智能家具、车载导航等场合,安全帽作为工地必备的物品,吸纳语音处理技术是必然趋势。文章在智能安全帽的基础上,依据现有服务器搭建语音识别云,基于深度神经网络的语音识别模型—... 语音是最自然的输入手段。近年来语音识别已被广泛应用于智能家具、车载导航等场合,安全帽作为工地必备的物品,吸纳语音处理技术是必然趋势。文章在智能安全帽的基础上,依据现有服务器搭建语音识别云,基于深度神经网络的语音识别模型——DFSMN声学模型结合改进Transformer语言模型的语音识别系统,对语音识别技术进行了研究,从安全帽现状、语音识别技术的实现等诸多方面阐述了语音识别在工地生产中的应用构想,为语音识别的人机交互新技术在工地生产的大量应用提供理论支持。 展开更多
关键词 语音识别 工地生产 dfsmn声学模型
下载PDF
用于大词汇量语音识别的门控残差DFSMN声波模型 被引量:3
4
作者 霍伟明 徐浩 《家电科技》 2022年第5期22-25,共4页
深度前馈序列记忆网络(DFSMN,Deep Feedforward Sequential Memory Network)是一种识别精度较高的声学模型,其在相邻的记忆块间引入跳跃链接来缓解梯度消失问题。而训练一个深层堆叠的DFSMN仍是十分具有挑战性的任务,且简单的网络层堆... 深度前馈序列记忆网络(DFSMN,Deep Feedforward Sequential Memory Network)是一种识别精度较高的声学模型,其在相邻的记忆块间引入跳跃链接来缓解梯度消失问题。而训练一个深层堆叠的DFSMN仍是十分具有挑战性的任务,且简单的网络层堆叠并不能使网络模型的性能得到提升。在构造非常深的神经网络结构时,残差学习是一种有效的方法,可以帮助神经网络更容易、更快地收敛。提出一种名为门控残差DFSMN(Gated Residual DFSMN,GR-DFSMN)的新型网络结构。该模型从低层DFSMN块引入了额外的门控捷径用于有效地训练深层DFSMN结构的网络。实验结果表明,当训练非常深的模型时,GR-DFSMN相比于普通的DFSMN具有较好的性能。在1000小时的大规模英语语料库Librispeech中,当层数达到40时,与DFSMN相比,GR-DFSMN在四个测试集上评估所得的平均字错误率降低了0.7%。 展开更多
关键词 语音识别 dfsmn 门控残差 CTC
下载PDF
基于改进DFSMN的非特定人语音识别模型
5
作者 王世刚 严瑾 《电声技术》 2023年第12期111-114,共4页
深度前馈序列记忆网络(Deep Feedforward Sequential Memory Network,DFSMN)是一种识别准确率较高且在非特定人语音识别领域得到良好应用的声学模型,但存在参数冗余、模型训练困难的情况。针对此问题,提出一种基于改进DFSMN的非特定人... 深度前馈序列记忆网络(Deep Feedforward Sequential Memory Network,DFSMN)是一种识别准确率较高且在非特定人语音识别领域得到良好应用的声学模型,但存在参数冗余、模型训练困难的情况。针对此问题,提出一种基于改进DFSMN的非特定人语音识别模型。该模型改进了DFSMN记忆模块大小和模块之间的连接方式,并结合连接时序分类(Connectionist Temporal Classification,CTC)端到端语音识别框架。实验结果表明,在相同条件下,该改进模型的参数量较之前减少了约1/10,在不同数据集上与几种常见语音识别模型相比,其语音识别字符错误率均最低,在识别准确率和模型训练效率方面具有一定的优越性。 展开更多
关键词 语音识别 深度前馈序列记忆网络(dfsmn) 非特定人 连接时序分类(CTC)
下载PDF
基于改进DFSMN模型的语音交互服务系统设计
6
作者 王晓丹 谢先明 李活 《自动化与仪器仪表》 2024年第1期150-154,共5页
为了进一步提升服务机器人的自动化语音交互服务质量,提出一种改进的DFSMN-CTC模型,以提升语音交互系统的识别能力。其中,对传统的DFSMN模型中记忆模块的结构以及记忆单元之间的连接方式进行改进,然后将改进得到的模型与CTC进行结合,以... 为了进一步提升服务机器人的自动化语音交互服务质量,提出一种改进的DFSMN-CTC模型,以提升语音交互系统的识别能力。其中,对传统的DFSMN模型中记忆模块的结构以及记忆单元之间的连接方式进行改进,然后将改进得到的模型与CTC进行结合,以实现日语语音的识别。实验结果表明,与其他建模准则构建的语音识别模型以及改进前的DFSMN模型相比,改进的DFSMN-CTC模型能够取得效果更好的语音交互效果,词错误率分别降低了6.42%和6.17%;与其他语音识别模型相比,改进的DFSMN-CTC模型在各种实验条件下均能保持最低的平均字错误率,语音识别精度较高。综上,使用改进的DFSMN-CTC模型所构建的日语语音交互系统能够实现效果良好的日语语音交互,实现更好的日语语音交互服务,具有一定的实际使用价值。 展开更多
关键词 服务机器人 语音交互 dfsmn模型 CTC
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部