-
题名一种基于CNN-DFSMN-CTC的语音识别模型
- 1
-
-
作者
梁宏涛
刘家旭
-
机构
青岛科技大学信息科学技术学院
-
出处
《计算机与数字工程》
2024年第10期2984-2990,共7页
-
文摘
针对现有语音识别模块在复杂环境中识别准确率较低,训练较为复杂的问题,论文提出将深度前馈序列神经网络(Deep Feedforword Sequential Memory Networks,DFSMN)和端到端的连接时序分类(Connectionist Temporal Classification,CTC)方法相结合的方法对语音识别的声学模型进行改进;其次,针对现有的声学特征表示方法在深度神经网络中的表征能力较差的问题,论文在对数梅尔滤波组(Log Mel Filter-bank,Fbank)特征提取方法的基础上,利用卷积神经网络(Convolutional Neural Networks,CNN)对声学特征进行二次提取,解决了现有的声学特征表示方法在深度神经网络中的表征能力较差的问题。在Thchs-30数据集上,改进的CNN-DFSMN-CTC模型相对于CNN模型和LSTM型在测试集上的字错率(Character Error Rate,CER)分别相对降低了6.83%和7.96%。
-
关键词
语音识别
DFSMN
CTC
CNN
-
Keywords
speech recognition
DFSMN
CTC
CNN
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
TN912.39
[电子电信—通信与信息系统]
-