期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
汉语听觉视觉语音识别(CAVSR)双模态数据库的建立与结构 被引量:1
1
作者 王东 蒙山 张有为 《五邑大学学报(自然科学版)》 CAS 2001年第1期50-54,共5页
介绍了汉语双模态数据库的研究背景、采集系统、语料选择和存储结构. 采用国际通 用模式,建立具有华人特征的汉语双模态数据库.
关键词 人机自然交互 听觉视觉语音识别 双模态数据库 模式识别 采集系统
下载PDF
汉语听觉视觉双模态数据库CAVSR1.0 被引量:16
2
作者 徐彦君 杜利民 +2 位作者 李国强 张欣 周治 《声学学报》 EI CSCD 北大核心 2000年第1期42-49,共8页
听觉视觉双模态语音识别在国际上已经逐渐成为当前语音识别的热点之一,汉语的双模态识别研究也已开始启动。然而,由于视觉信息获取及处理难度极大,目前的双模态语音数据库的建设尚显薄弱,汉语方面更是空白。鉴于此,我们在进行听觉... 听觉视觉双模态语音识别在国际上已经逐渐成为当前语音识别的热点之一,汉语的双模态识别研究也已开始启动。然而,由于视觉信息获取及处理难度极大,目前的双模态语音数据库的建设尚显薄弱,汉语方面更是空白。鉴于此,我们在进行听觉视觉双模态语音识别关键技术研究的同时,在分析国外同类数据库的结构的基础上,结合汉语语音的特点,建立了汉语语音的第一个双模态数据库CAVSR1.0。它具有如下特点:采用的语料涵盖所有声韵母,其规模(总数据量、音节量)超出目前国际上同类数据库;语料分布符合汉语声韵母的实际分布概率,因此其反映的规律具有代表性;捆绑了自动音节分割程序及脸部主要特征标定程序,使数据库具有很强的可扩展性。 展开更多
关键词 汉语 听觉 视觉 双模态数据库 语音识别
原文传递
基于双模态融合特征的模糊语音识别研究 被引量:3
3
作者 冯晓静 白静 +1 位作者 薛珮芸 戎如意 《电子设计工程》 2022年第2期43-48,54,共7页
针对模糊语音发音机理相近、听觉上容易混淆和容易被智能机器误识的问题,该文设计了一个双模态模糊语音数据库,并提取不同特征用于分类研究。数据库包括语音信号和发音器官运动信号两种模态,共计语音数据6 300条,运动信号数据1 268条。... 针对模糊语音发音机理相近、听觉上容易混淆和容易被智能机器误识的问题,该文设计了一个双模态模糊语音数据库,并提取不同特征用于分类研究。数据库包括语音信号和发音器官运动信号两种模态,共计语音数据6 300条,运动信号数据1 268条。提取声学特征与运动学特征,在特征层进行双模态的融合,通过核主成分分析降维来得到双模态融合特征,选择支持向量机分类模型进行分类识别。实验结果表明,单模态声学特征中,对数变化的耳蜗倒谱系数特征具有较高的识别率,最高可达86.95%。双模态融合特征相比于单模态特征识别率有明显的提高,在低信噪比情况下提升效果更加明显,最大可提高6.53%。 展开更多
关键词 双模态数据库 语音识别 特征提取 特征融合 发音运动特征
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部