期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于动态贝叶斯网络的音视频连续语音识别和音素切分 被引量:2
1
作者 吕国云 蒋冬梅 +5 位作者 蒋晓悦 赵荣椿 侯云舒 孙阿利 H.Sahli W.Verhelst 《计算机应用》 CSCD 北大核心 2007年第7期1670-1673,共4页
构造了两个单流单音素的动态贝叶斯网络(DBN)模型,以实现基于音频和视频特征的连续语音识别,并在描述词和对应音素具体关系的基础上,实现对音素的时间切分。实验结果表明,在基于音频特征的识别率方面:在低信噪比(0~15dB)时,DBN模型的... 构造了两个单流单音素的动态贝叶斯网络(DBN)模型,以实现基于音频和视频特征的连续语音识别,并在描述词和对应音素具体关系的基础上,实现对音素的时间切分。实验结果表明,在基于音频特征的识别率方面:在低信噪比(0~15dB)时,DBN模型的识别率比HMM模型平均高12.79%;而纯净语音下,基于DBN模型的音素时间切分结果和三音素HMM模型的切分结果很接近。对基于视频特征的语音识别,DBN模型的识别率比HMM识别率高2.47%。实验最后还分析了音视频数据音素时间切分的异步关系,为基于多流DBN模型的音视频连续语音识别和确定音频和视频的异步关系奠定了基础。 展开更多
关键词 动态贝叶斯网络 音视频 语音识别 音素切分
下载PDF
基于多流三音素DBN模型的音视频语音识别和音素切分
2
作者 吕国云 蒋冬梅 +3 位作者 樊养余 赵荣椿 H.Sahli W.Vlerhelst 《电子与信息学报》 EI CSCD 北大核心 2009年第2期297-301,共5页
为实现音视频语音识别和同时对音频视频流进行准确的音素切分,该文提出一个新的多流异步三音素动态贝叶斯网络(MM-ADBN-TRI)模型,在词级别上描述了音频视频流的异步性,音频流和视频流都采用了词-三音素-状态-观测向量的层次结构,识别基... 为实现音视频语音识别和同时对音频视频流进行准确的音素切分,该文提出一个新的多流异步三音素动态贝叶斯网络(MM-ADBN-TRI)模型,在词级别上描述了音频视频流的异步性,音频流和视频流都采用了词-三音素-状态-观测向量的层次结构,识别基元是三音素,描述了连续语音中的协同发音现象。实验结果表明:该模型在音视频语音识别和对音频视频流的音素切分方面,以及在确定音视频流的异步关系上,都具备较好的性能。 展开更多
关键词 语音识别 动态贝叶斯网络 音素切分 音视频
下载PDF
基于动态贝叶斯网络的大词汇量连续语音识别和音素切分研究 被引量:1
3
作者 吕国云 蒋冬梅 +2 位作者 张艳宁 赵荣椿 Hichem Sahli 《西北工业大学学报》 EI CAS CSCD 北大核心 2008年第2期173-178,共6页
提出一个新颖的单流多状态动态贝叶斯网络(Single stream Multi-states DynamicBayesian Network,SM-DBN)模型,以实现大词汇量连续语音识别和音素切分。该模型在Bilmes等人提出的单流动态贝叶斯网络(Single stream Dynamic Bayesian Net... 提出一个新颖的单流多状态动态贝叶斯网络(Single stream Multi-states DynamicBayesian Network,SM-DBN)模型,以实现大词汇量连续语音识别和音素切分。该模型在Bilmes等人提出的单流动态贝叶斯网络(Single stream Dynamic Bayesian Network,Phone-shared,SS-DBN-P)模型(识别基元为词)基础上,增加了一个隐含的状态节点层,每个词由它的对应音素组成,而音素采用固定个数的状态描述,状态和观测向量直接连接。它的识别基元为音素,描述了音素的动态发音变化过程。大词汇量语音识别的实验结果表明:在纯净语音环境下,SM-DBN模型的识别率比HMM和SS-DBN-P模型的识别率分别提高了13.01%和35.2%,而音频流的音素切分正确率则分别提高了10%和44%。 展开更多
关键词 动态贝叶斯网络 音视频语音识别音素切分
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部