期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
混响环境中的视-听语音识别 被引量:3
1
作者 万书婷 曾向阳 王强 《电声技术》 2012年第12期42-45,共4页
针对混响环境中语音识别率相对安静环境下急剧下降的问题,提出了一种将语音视觉信息与音频特征相结合的方法。通过快速检测和定位包含说话人唇部的感兴趣区域(ROI),获得ROI图像序列。首先对ROI图像进行离散余弦变换,提取反映说话人唇动... 针对混响环境中语音识别率相对安静环境下急剧下降的问题,提出了一种将语音视觉信息与音频特征相结合的方法。通过快速检测和定位包含说话人唇部的感兴趣区域(ROI),获得ROI图像序列。首先对ROI图像进行离散余弦变换,提取反映说话人唇动的视觉特征。音频特征的提取,则采用较为成熟的Mel频率倒谱系数(MF-CC)方法。对所获取的视、音特征采用隐马尔可夫模型作为训练识别算法。测试实验结果证明,采用视、听特征相结合的方法,有效地提高了混响环境中的语音识别率。 展开更多
关键词 语音识别 混响 -听特征融合 隐马尔可夫模型
下载PDF
Stream Weight Training Based on MCE for Audio-Visual LVCSR 被引量:1
2
作者 刘鹏 王作英 《Tsinghua Science and Technology》 SCIE EI CAS 2005年第2期141-144,共4页
In this paper we address the problem of audio-visual speech recognition in the framework of the multi-stream hidden Markov model. Stream weight training based on minimum classification error criterion is dis... In this paper we address the problem of audio-visual speech recognition in the framework of the multi-stream hidden Markov model. Stream weight training based on minimum classification error criterion is discussed for use in large vocabulary continuous speech recognition (LVCSR). We present the lattice re- scoring and Viterbi approaches for calculating the loss function of continuous speech. The experimental re- sults show that in the case of clean audio, the system performance can be improved by 36.1% in relative word error rate reduction when using state-based stream weights trained by a Viterbi approach, compared to an audio only speech recognition system. Further experimental results demonstrate that our audio-visual LVCSR system provides significant enhancement of robustness in noisy environments. 展开更多
关键词 audio-visual speech recognition (AVSR) large vocabulary continuous speech recognition (LVCSR) discriminative training minimum classification error (MCE)
原文传递
一种稳健的基于VisemicLDA的口形动态特征及听视觉语音识别 被引量:4
3
作者 谢磊 付中华 +4 位作者 蒋冬梅 赵荣椿 Werner Verhelst Hichem Sahli Jan Conlenis 《电子与信息学报》 EI CSCD 北大核心 2005年第1期64-68,共5页
视觉特征提取是听视觉语音识别研究的热点问题。文章引入了一种稳健的基于Visemic LDA的口形动态特征,这种特征充分考虑了发音时口形轮廓的变化及视觉Viseme划分。文章同时提出了一利利用语音识别结果进行LDA训练数据自动标注的方法。... 视觉特征提取是听视觉语音识别研究的热点问题。文章引入了一种稳健的基于Visemic LDA的口形动态特征,这种特征充分考虑了发音时口形轮廓的变化及视觉Viseme划分。文章同时提出了一利利用语音识别结果进行LDA训练数据自动标注的方法。这种方法免去了繁重的人工标注工作,避免了标注错误。实验表明,将'VisemicLDA视觉特征引入到听视觉语音识别中,可以大大地提高噪声条件下语音识别系统的识别率;将这种视觉特征与多数据流HMM结合之后,在信噪比为10dB的强噪声情况下,识别率仍可以达到80%以上。 展开更多
关键词 语音识别 听视觉语音识别 ASM LINEAR DISCRIMINANT Analysis(LDA) Viseme
下载PDF
基于发音特征的音视频融合语音识别模型 被引量:2
4
作者 吴鹏 蒋冬梅 +2 位作者 王风娜 Hichem SAHLI Werner VERHELST 《计算机工程》 CAS CSCD 北大核心 2011年第22期268-269,272,共3页
构建一种基于发音特征的音视频双流动态贝叶斯网络(DBN)语音识别模型(AF_AV_DBN),定义节点的条件概率关系,使发音特征状态的变化可以异步。在音视频语音数据库上的语音识别实验表明,通过调整发音特征之间的异步约束,AF_AV_DBN模型能得... 构建一种基于发音特征的音视频双流动态贝叶斯网络(DBN)语音识别模型(AF_AV_DBN),定义节点的条件概率关系,使发音特征状态的变化可以异步。在音视频语音数据库上的语音识别实验表明,通过调整发音特征之间的异步约束,AF_AV_DBN模型能得到比基于状态的同步和异步DBN模型以及音频单流模型更高的识别率,对噪声也具有较好的鲁棒性。 展开更多
关键词 动态贝叶斯网络 发音特征 音视频融合 语音识别 异步
下载PDF
基于多流多状态动态贝叶斯网络的音视频连续语音识别 被引量:1
5
作者 吕国云 蒋冬梅 +4 位作者 张艳宁 赵荣椿 H Sahli Ilse Ravyse W Verhelst 《电子与信息学报》 EI CSCD 北大核心 2008年第12期2906-2911,共6页
语音和唇部运动的异步性是多模态融合语音识别的关键问题,该文首先引入一个多流异步动态贝叶斯网络(MS-ADBN)模型,在词的级别上描述了音频流和视频流的异步性,音视频流都采用了词-音素的层次结构。而多流多状态异步DBN(MM-ADBN)模型是MS... 语音和唇部运动的异步性是多模态融合语音识别的关键问题,该文首先引入一个多流异步动态贝叶斯网络(MS-ADBN)模型,在词的级别上描述了音频流和视频流的异步性,音视频流都采用了词-音素的层次结构。而多流多状态异步DBN(MM-ADBN)模型是MS-ADBN模型的扩展,音视频流都采用了词-音素-状态的层次结构。本质上,MS-ADBN是一个整词模型,而MM-ADBN模型是一个音素模型,适用于大词汇量连续语音识别。实验结果表明:基于连续音视频数据库,在纯净语音环境下,MM-ADBN比MS-ADBN模型和多流HMM识别率分别提高35.91%和9.97%。 展开更多
关键词 语音识别 动态贝叶斯网络 音视频 多流异步
下载PDF
双模型语音识别中的听视觉合成和模型同步异步性实验研究 被引量:3
6
作者 谢磊 蒋冬梅 +4 位作者 Ilse Ravyse 赵荣椿 Hichem Sahli Werner Verhelst Jan Cornelis 《西北工业大学学报》 EI CAS CSCD 北大核心 2004年第2期171-175,共5页
研究了双模型语音识别系统中前合成和后合成两种听觉视觉合成方法 ;同时在后合成方法中引入了考虑听觉和视觉同步异步特点的复合模型。仿真实验证明了在声学噪音环境下 ,后合成方法能够带来比较理想的识别效果 ;考虑听觉和视觉同步异步... 研究了双模型语音识别系统中前合成和后合成两种听觉视觉合成方法 ;同时在后合成方法中引入了考虑听觉和视觉同步异步特点的复合模型。仿真实验证明了在声学噪音环境下 ,后合成方法能够带来比较理想的识别效果 ;考虑听觉和视觉同步异步性的模型可以有效地提高识别率。 展开更多
关键词 语音识别 双模型语音识别 听觉视觉合成 模型同步异步性
下载PDF
一种基于MASM的口形轮廓特征提取方法及听视觉语音识别 被引量:1
7
作者 谢磊 冯伟 赵荣椿 《西北工业大学学报》 EI CAS CSCD 北大核心 2004年第5期674-678,共5页
提出了一种用于听视觉语音识别的基于 MASM的口形轮廓提取方法 ,这种方法只需要少量的训练数据就可以实现对大量口形轮廓的准确提取。还引入了一种口形轮廓的平滑修正方法 ,该方法利用口形连续变化的特点 ,对错误轮廓进行修正。实验证... 提出了一种用于听视觉语音识别的基于 MASM的口形轮廓提取方法 ,这种方法只需要少量的训练数据就可以实现对大量口形轮廓的准确提取。还引入了一种口形轮廓的平滑修正方法 ,该方法利用口形连续变化的特点 ,对错误轮廓进行修正。实验证明 ,利用该方法提取轮廓的准确率比常规 ASM模型高出 2 0个百分点 ;将该口形轮廓特征引入到听视觉语音识别中 。 展开更多
关键词 语音识别 听视觉语音识别 ASM MASM 口形轮廓提取
下载PDF
一种噪音环境下的基于特征口形的音频视频混合连续语音识别系统 被引量:1
8
作者 谢磊 I.Cravyse +5 位作者 蒋冬梅 赵荣椿 H.Sahli Werner Verhelst J Cornelis Ignace Lemahieu 《计算机工程与应用》 CSCD 北大核心 2003年第16期3-5,35,共4页
文章抓住人类语音感知多模型的特点,尝试建立一个在噪音环境下的基于音频和视频复合特征的连续语音识别系统。在视频特征提取方面,引入了一种基于特征口形的提取方法。识别实验证明,这种视频特征提取方法比传统DCT、DWT方法能够带来更... 文章抓住人类语音感知多模型的特点,尝试建立一个在噪音环境下的基于音频和视频复合特征的连续语音识别系统。在视频特征提取方面,引入了一种基于特征口形的提取方法。识别实验证明,这种视频特征提取方法比传统DCT、DWT方法能够带来更高的识别率;基于特征口形的音频-视频混合连续语音识别系统具有很好的抗噪性。 展开更多
关键词 音频-视频混合连续语音识别 主分量分析 特征口形 多数据流 HMM
下载PDF
自适应视听信息融合用于抗噪语音识别 被引量:1
9
作者 梁冰 陈德运 程慧 《控制理论与应用》 EI CAS CSCD 北大核心 2011年第10期1461-1466,共6页
为了提高噪音环境中语音识别的准确性和鲁棒性,提出了基于自适应视听信息融合的抗噪语音识别方法,视听信息在识别过程中具有变化的权重,动态的自适应于环境输入的信噪比.根据信噪比和反馈的识别性能,通过学习自动机计算视觉信息的最优权... 为了提高噪音环境中语音识别的准确性和鲁棒性,提出了基于自适应视听信息融合的抗噪语音识别方法,视听信息在识别过程中具有变化的权重,动态的自适应于环境输入的信噪比.根据信噪比和反馈的识别性能,通过学习自动机计算视觉信息的最优权重;根据视听信息的特征向量,利用隐马尔科夫模型进行视听信息的模式匹配,并根据最优权重组合视觉和声音隐马尔科夫模型的决策,获得最终的识别结果.实验结果表明,在各种噪音水平下,自适应权重比不变权重的视听信息融合的语音识别性能更优. 展开更多
关键词 视听信息融合 语音识别 自适应权重 学习自动机 隐马尔科夫模型
下载PDF
大词汇量环境噪声下的多模态视听语音识别方法 被引量:4
10
作者 吴兰 杨攀 +1 位作者 李斌全 王涵 《广西科学》 CAS 北大核心 2023年第1期52-60,共9页
视听语音识别(Audio-Visual Speech Recognition,AVSR)技术利用唇读和语音识别(Audio-Visual Speech Recognition,AVSR)的关联性和互补性可有效提高字符识别准确率。针对唇读的识别率远低于语音识别、语音信号易受噪声破坏、现有的视听... 视听语音识别(Audio-Visual Speech Recognition,AVSR)技术利用唇读和语音识别(Audio-Visual Speech Recognition,AVSR)的关联性和互补性可有效提高字符识别准确率。针对唇读的识别率远低于语音识别、语音信号易受噪声破坏、现有的视听语音识别方法在大词汇量环境噪声中的识别率大幅降低等问题,本文提出一种多模态视听语音识别(Multi-modality Audio-Visual Speech Recognition,MAVSR)方法。该方法基于自注意力机制构建双流前端编码模型,引入模态控制器解决环境噪声下音频模态占据主导地位而导致的各模态识别性能不均衡问题,提高识别稳定性与鲁棒性,构建基于一维卷积的多模态特征融合网络,解决音视频数据异构问题,提升音视频模态间的关联性与互补性。与现有主流方法对比,在仅音频、仅视频、音视频融合3种任务下,该方法的识别准确率提升7.58%以上。 展开更多
关键词 注意力机制 多模态 视听语音识别 唇读 语音识别
下载PDF
基于多流三音素DBN模型的音视频语音识别和音素切分
11
作者 吕国云 蒋冬梅 +3 位作者 樊养余 赵荣椿 H.Sahli W.Vlerhelst 《电子与信息学报》 EI CSCD 北大核心 2009年第2期297-301,共5页
为实现音视频语音识别和同时对音频视频流进行准确的音素切分,该文提出一个新的多流异步三音素动态贝叶斯网络(MM-ADBN-TRI)模型,在词级别上描述了音频视频流的异步性,音频流和视频流都采用了词-三音素-状态-观测向量的层次结构,识别基... 为实现音视频语音识别和同时对音频视频流进行准确的音素切分,该文提出一个新的多流异步三音素动态贝叶斯网络(MM-ADBN-TRI)模型,在词级别上描述了音频视频流的异步性,音频流和视频流都采用了词-三音素-状态-观测向量的层次结构,识别基元是三音素,描述了连续语音中的协同发音现象。实验结果表明:该模型在音视频语音识别和对音频视频流的音素切分方面,以及在确定音视频流的异步关系上,都具备较好的性能。 展开更多
关键词 语音识别 动态贝叶斯网络 音素切分 音视频
下载PDF
基于发音特征的音/视频双流语音识别模型 被引量:1
12
作者 宋培岩 蒋冬梅 王风娜 《计算机应用研究》 CSCD 北大核心 2009年第7期2481-2483,共3页
构建了一种基于发音特征的音/视频双流动态贝叶斯网络(dynamic Bayesian network,DBN)语音识别模型,定义了各节点的条件概率关系,以及发音特征之间的异步约束关系,最后在音/视频连接数字语音数据库上进行了语音识别实验,并与音频单流、... 构建了一种基于发音特征的音/视频双流动态贝叶斯网络(dynamic Bayesian network,DBN)语音识别模型,定义了各节点的条件概率关系,以及发音特征之间的异步约束关系,最后在音/视频连接数字语音数据库上进行了语音识别实验,并与音频单流、视频单流DBN模型比较了在不同信噪比情况下的识别效果。结果表明,在低信噪比情况下,基于发音特征的音/视频双流语音识别模型表现出最好的识别性能,而且随着噪声的增加,其识别率下降的趋势比较平缓,表明该模型对噪声具有很强的鲁棒性,更适用于低信噪比环境下的语音识别。 展开更多
关键词 动态贝叶斯网络 发音特征 音/视频 语音识别
下载PDF
基于音频的数字媒体内容分析及其可视化
13
作者 张田 李嵩 +2 位作者 高畅 邱荣发 李海峰 《燕山大学学报》 CAS 2010年第2期100-105,共6页
为了对音视频内容进行更加有效地分析,将信息可视化方法引入数字媒体信息处理领域。设计并实现了集多媒体信号采集、大词表连续语音识别、文本检索和音频检索为一身的多媒体内容可视化分析平台,取得了较理想的效果,充实了信息可视化理... 为了对音视频内容进行更加有效地分析,将信息可视化方法引入数字媒体信息处理领域。设计并实现了集多媒体信号采集、大词表连续语音识别、文本检索和音频检索为一身的多媒体内容可视化分析平台,取得了较理想的效果,充实了信息可视化理论并对其具体应用进行了有益尝试。 展开更多
关键词 数字媒体内容 信息可视化 语音识别 文本检索 音频检索
下载PDF
多数据流隐马尔可夫模型的流权值优化方法
14
作者 秦伟 韦岗 《计算机应用研究》 CSCD 北大核心 2007年第11期100-102,共3页
提出了一种流权值的优化方法。这种优化方法是基于似然比最大化准则和N-best算法。实验表明,这种新的方法即使在少量优化数据的条件下,也可以得到合适的流权值。而且,在不同的信噪比条件下,利用这种方法优化的多数据流隐马尔可夫模型,... 提出了一种流权值的优化方法。这种优化方法是基于似然比最大化准则和N-best算法。实验表明,这种新的方法即使在少量优化数据的条件下,也可以得到合适的流权值。而且,在不同的信噪比条件下,利用这种方法优化的多数据流隐马尔可夫模型,都可以有效、合理地融合音频和视频语音,提高语音识别系统的识别率。 展开更多
关键词 双模语音识别 似然比最大化准则 流权值
下载PDF
一种快速嘴部检测方法在视听语音识别的应用
15
作者 刘家涛 陈一民 《计算机技术与发展》 2008年第10期16-19,共4页
在改进噪音环境下的语音识别率中,来自于说话人嘴部的可视化语音信息有着显著的作用。介绍了在视听语音识别(AVSR)中的重要组成部分之一:可视化信息的前端设计;描述了一种用于快速处理图像并能达到较高识别率的人脸嘴部检测的机器学习方... 在改进噪音环境下的语音识别率中,来自于说话人嘴部的可视化语音信息有着显著的作用。介绍了在视听语音识别(AVSR)中的重要组成部分之一:可视化信息的前端设计;描述了一种用于快速处理图像并能达到较高识别率的人脸嘴部检测的机器学习方法,此方法引入了旋转Harr-like特征在积分图像中的应用,在基于AdaBoost学习算法上通过使用单值分类作为基础特征分类器,以级联的方式合并强分类器,最后划分检测区域用于嘴部定位。将上述方法应用于AVSR系统中,基本上达到了对人脸嘴部实时准确的检测效果。 展开更多
关键词 模态 视听语音识别 Harr-like特征 重要区域 积分图像 区域划分
下载PDF
基于神经网络的视觉语音识别系统
16
作者 张晋宁 《电声技术》 2023年第11期101-104,共4页
视觉语音识别(Audio-Visual Speech Recognition,AVSR)系统结合音频和视觉信息,提供可靠的语音识别功能。为了提高AVSR系统在低信噪比(Signal-to-Noise Ratio,SNR)环境下的识别准确率,提出一种基于循环神经网络(Recurrent Neural Networ... 视觉语音识别(Audio-Visual Speech Recognition,AVSR)系统结合音频和视觉信息,提供可靠的语音识别功能。为了提高AVSR系统在低信噪比(Signal-to-Noise Ratio,SNR)环境下的识别准确率,提出一种基于循环神经网络(Recurrent Neural Network,RNN)的AVSR系统。该系统由音频特征提取模块、视觉特征提取模块以及音频和视觉特征联合模块3部分组成。特征联合模块利用RNN将基于梅尔频率倒谱系数的音频特征与OpenCV库中的Haar级联检测提取的视觉信息相结合,以提高系统识别率。实验结果表明,在低信噪比条件下,所提系统的正确识别率保持在89%左右。 展开更多
关键词 视觉语音识别 循环神经网络(RNN) 梅尔频率倒谱系数(MFCC) 信噪比(SNR)
下载PDF
基于多模态视听融合的Transformer语音识别算法研究
17
作者 赵小芬 彭朋 《传感器与微系统》 2025年第2期48-52,共5页
针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分... 针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分布不均的问题。通过将原始音频和视觉信号转换为Transformer模型可处理的特征表示,并结合编码器和解码器结构实现语音到文本的精确转换,利用多头自注意力机制捕捉序列间的内在相关性。实验结果表明,本算法在字错误率上降低了6%~22%,显著提升了语音识别率,验证了算法的有效性和优越性。 展开更多
关键词 多模态 视听融合 语音识别 Transformer 动态权重分配机制
下载PDF
基于联结主义的视听语音识别方法
18
作者 车娜 朱奕明 +3 位作者 赵剑 孙磊 史丽娟 曾现伟 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第10期2984-2993,共10页
针对视听语音识别技术存在的数据需求量大、音视频数据对齐、噪声鲁棒性等问题,深入分析了联结主义时序分类器、长短期记忆神经网络、Transformer、Conformer四类核心模型的特点与优势,归纳了各模型的适用场景,并提出了优化模型性能的... 针对视听语音识别技术存在的数据需求量大、音视频数据对齐、噪声鲁棒性等问题,深入分析了联结主义时序分类器、长短期记忆神经网络、Transformer、Conformer四类核心模型的特点与优势,归纳了各模型的适用场景,并提出了优化模型性能的思路和方法。基于主流数据集和常用评价标准,对模型性能进行了量化分析。结果表明:CTC在噪声条件下性能波动较大,LSTM能有效捕捉长时序依赖,Transformer和Conformer在跨模态任务中可显著降低识别错误率。最后,从自监督训练和噪声鲁棒性两个层面,展望了未来的研究方向。 展开更多
关键词 计算机应用技术 视听语音识别 深度学习 联结主义
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部