期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于BTSM-LDA的口形动态特征及多流异步音视频语音识别
1
作者 吕国云 赵荣椿 +3 位作者 蒋冬梅 h.sahli 樊养余 W.Verhelst 《数据采集与处理》 CSCD 北大核心 2008年第4期397-403,共7页
引入一种基于贝叶斯切线形状模型(BTSM)的口形轮廓特征提取和基于线性判别分析(LDA)的视觉语音动态特征提取方法,该特征充分体现了口形特征变化的动态性,消除了直接口形轮廓几何特征的冗余。同时采用一种新颖的多流异步动态贝叶... 引入一种基于贝叶斯切线形状模型(BTSM)的口形轮廓特征提取和基于线性判别分析(LDA)的视觉语音动态特征提取方法,该特征充分体现了口形特征变化的动态性,消除了直接口形轮廓几何特征的冗余。同时采用一种新颖的多流异步动态贝叶斯网络(MS—ADBN)模型来实现音视频的连续语音识别,该模型在词节点级别体现了音视频流的同步异步性。识别实验结果表明:采用LDA视觉语音动态特征的系统性能明显优于静态的口形轮廓几何特征,在语音信噪比为0~30dB的测试环境下,融合LDA视觉特征的MS—ADBN模型比多流异步HMM的平均识别率提高4.92%,说明MS—ADBN模型更好地表达了音视频流之间的异步关系。 展开更多
关键词 动态贝叶斯网络 语音识别 贝叶斯切线形状模型 多流异步 线性判别分析
下载PDF
基于多流三音素DBN模型的音视频语音识别和音素切分
2
作者 吕国云 蒋冬梅 +3 位作者 樊养余 赵荣椿 h.sahli W.Vlerhelst 《电子与信息学报》 EI CSCD 北大核心 2009年第2期297-301,共5页
为实现音视频语音识别和同时对音频视频流进行准确的音素切分,该文提出一个新的多流异步三音素动态贝叶斯网络(MM-ADBN-TRI)模型,在词级别上描述了音频视频流的异步性,音频流和视频流都采用了词-三音素-状态-观测向量的层次结构,识别基... 为实现音视频语音识别和同时对音频视频流进行准确的音素切分,该文提出一个新的多流异步三音素动态贝叶斯网络(MM-ADBN-TRI)模型,在词级别上描述了音频视频流的异步性,音频流和视频流都采用了词-三音素-状态-观测向量的层次结构,识别基元是三音素,描述了连续语音中的协同发音现象。实验结果表明:该模型在音视频语音识别和对音频视频流的音素切分方面,以及在确定音视频流的异步关系上,都具备较好的性能。 展开更多
关键词 语音识别 动态贝叶斯网络 音素切分 音视频
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部