-
题名标签同步解码算法及其在语音识别中的应用
被引量:10
- 1
-
-
作者
陈哲怀
郑文露
游永彬
钱彦旻
俞凯
-
机构
上海交通大学智能交互与认知工程上海高校重点实验室
上海交通大学计算机科学与工程系智能语音实验室
上海交通大学苏州人工智能研究院
苏州思必驰信息科技有限公司
-
出处
《计算机学报》
EI
CSCD
北大核心
2019年第7期1511-1523,共13页
-
基金
国家重点研发计划“智能机器人”重点专项(2017YFB1302400)
国家自然科学基金项目(U1736202)
江苏省基础研究计划(BE2016078)资助~~
-
文摘
自动语音识别(Automatic Speech Recognition,ASR)等序列标注任务的一个显著特点是其对相邻帧的时序序列关联性建模.用于对相邻帧进行时序建模的主流序列模型包括隐马尔可夫模型(Hidden Markov Model, HMM)和连接时序模型(Connectionist Temporal Classification,CTC).针对这些模型,当前主流的推理方法是帧层面的维特比束搜索算法,该算法复杂度很高,限制了语音识别的广泛应用.深度学习的发展使得更强的上下文和历史建模成为可能.通过引入blank单元,端到端建模系统能够直接预测标签在给定特征下的后验概率.该文系统地提出了一系列方法,通过使用高效的blank结构和后处理方法,使得搜索解码过程从逐帧同步变为标签同步.该系列通用方法在隐马尔可夫模型和连接时序模型上均得到了验证.结果表明,在Switchboard数据集上,不损失性能的前提下,实验取得了2~4倍的加速.该文同时研究了搜索空间、候选序列剪枝、转移模型、降帧率等对加速比的影响,并在所有情况下取得一致性加速。
-
关键词
自动语音识别
隐马尔可夫模型
连接时序模型
逐帧同步解码
标签同步解码
可变帧率
剪枝
-
Keywords
automatic speech recognition
hidden Markov model
connectionist temporal classification
frame synchronous decoding
label synchronous decoding
variable frame rate
hypothesis pruning
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-