-
题名基于多核卷积融合网络的BLSTM-CTC语音识别
被引量:13
- 1
-
-
作者
刘晓峰
宋文爱
陈小东
郇晋侠
李志媛
-
机构
中北大学软件学院
-
出处
《计算机应用与软件》
北大核心
2021年第11期167-173,共7页
-
基金
国家自然科学基金项目(61602427)。
-
文摘
语音信号在传播过程中会产生持续时长不等的音素特征,这些特征会影响语音识别的正确率。针对这一问题,提出一种多核卷积融合网络(Multi-core Convolution Fusion Network, MCFN),用于对不同长度的音素特征进行标准化,用标准化后的特征训练语音识别模型。此外,还利用子空间高斯混合模型(Subspace Gaussian Mixture Model, SGMM)将一般说话者的语音和信息加入到模型中,减小语料稀疏性对模型的影响。通过在Thchs30和ST-CMDS数据集对模型进行评估,结果显示,基于MCFN的BLSTM-CTC语音识别模型的识别字错误率(WER)较传统的语音识别模型有所降低。
-
关键词
语音识别
多核卷积融合网络
端到端
子空间高斯混合模型
-
Keywords
Speech recognition
MCFN
End-to-End
SGMM
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-