期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
后验概率图与补白模型二次融合的关键词识别 被引量:2
1
作者 陈太波 张翠芳 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2020年第6期1170-1176,共7页
使用全连接神经网络结合Softmax分类器对汉语的408个音节建立音节分类器,利用等长处理后的特征向量训练Softmax分类器,将Softmax分类器输出概率作为后验概率图,与隐马尔科夫补白模型(HMM/Filler)进行第一次融合,得到子后验概率图隐马尔... 使用全连接神经网络结合Softmax分类器对汉语的408个音节建立音节分类器,利用等长处理后的特征向量训练Softmax分类器,将Softmax分类器输出概率作为后验概率图,与隐马尔科夫补白模型(HMM/Filler)进行第一次融合,得到子后验概率图隐马尔科夫模型(Posteriorgram-HMM).针对关键词训练样本较少的问题,将标注样本进行强制切分,得到HMM每个状态上的训练数据.将隐马尔科夫最大后验概率基线模型(HMM-MAP)与Posteriorgram-HMM进行第二次融合,提出最大后验概率图隐马尔科夫模型(Posteriorgram-HMM-MAP).在数据集上训练模型后,使用测试数据对其进行测试.结果表明:Posteriorgram-HMM-MAP的综合识别率相比PosteriorgramHMM提升了3.55%,相比HMM/Filler提升了10.29%. 展开更多
关键词 识别 隐马尔可夫模型(HMM) 补白模型 Softmax分类器 后验概率图 最大后验概率(MAP)
下载PDF
基于DNN的自动语音识别系统错误率评估方法
2
作者 王梓赫 张培茗 司博宇 《北京生物医学工程》 2024年第6期613-618,共6页
目的为客观评估自动语音识别(automatic speech recognition,ASR)系统的词错率(word error rate,WER),满足言语能力受损人群的康复需求,促进特殊人群客观言语能力评估体系构建,本研究提供了一种直接根据深度神经网络(deep neural networ... 目的为客观评估自动语音识别(automatic speech recognition,ASR)系统的词错率(word error rate,WER),满足言语能力受损人群的康复需求,促进特殊人群客观言语能力评估体系构建,本研究提供了一种直接根据深度神经网络(deep neural network,DNN)发出的音素后验概率预测WER的方法,而不是计算参考转录文本与隐马尔可夫(hidden Markov model,HMM)解码的转录文本之间的WER。方法通过对语音信号进行特征提取并将其输入到DNN模型中以计算音素后验概率图(phonetic posterior grams,PPG)。通过PPG计算出反映ASR系统WER的3种性能指标以达到预测目的。最后,对在4种真实声学场景下所得WER预测数据进行分析,验证其有效性。同时,研究还搭建了20种不同深度、宽度的声学模型进行性能评估对比,探究了模型规模对预测效果的影响。结果根据20种模型WER评估的数据,其中具有2层隐藏层且每层含512个神经元的网络模型对WER数据预测误差达到最小,省略ASR系统解码步骤而得到可靠的WER预测数据。结论使用基于音素概率的性能指标可以实现对WER的有效预测,并且可以摆脱参考转录文本和单词标签的限制。 展开更多
关键词 深度神经网络 隐马尔科夫 自动语音识别系统 系统性能评估 音素后验概率图
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部