期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别 被引量:2
1
作者 王一鸣 陈恳 萨阿卜杜萨拉木·艾海提拉木 《电信科学》 2019年第12期79-89,共11页
提出一种端到端的视听语音识别算法。在该算法中,通过具有瓶颈结构的深度信念网络(deep belief network,DBN)中引入混合的l1/2范数和l1范数构建一种稀疏DBN(sparse DBN,SDBN)来提取稀疏瓶颈特征,从而实现对数据的特征降维,然后用双向长... 提出一种端到端的视听语音识别算法。在该算法中,通过具有瓶颈结构的深度信念网络(deep belief network,DBN)中引入混合的l1/2范数和l1范数构建一种稀疏DBN(sparse DBN,SDBN)来提取稀疏瓶颈特征,从而实现对数据的特征降维,然后用双向长短期记忆网络(bidirectional long short-term memory,BLSTM)在时序上对特征进行模态处理,之后利用一种注意力机制将经过模态处理的唇部视觉信息和音频听觉信息进行自动对齐、融合,最后将融合的视听觉信息通过一个附加了Softmax层的BLSTM进行分类识别。实验表明,该算法能有效地识别视听觉信息,在同类算法中有很好的识别率和顽健性。 展开更多
关键词 端到端 视听语音识别 稀疏瓶颈特征 注意力机制
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部