期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于神经网络的视觉语音识别系统
1
作者 张晋宁 《电声技术》 2023年第11期101-104,共4页
视觉语音识别(Audio-Visual Speech Recognition,AVSR)系统结合音频和视觉信息,提供可靠的语音识别功能。为了提高AVSR系统在低信噪比(Signal-to-Noise Ratio,SNR)环境下的识别准确率,提出一种基于循环神经网络(Recurrent Neural Networ... 视觉语音识别(Audio-Visual Speech Recognition,AVSR)系统结合音频和视觉信息,提供可靠的语音识别功能。为了提高AVSR系统在低信噪比(Signal-to-Noise Ratio,SNR)环境下的识别准确率,提出一种基于循环神经网络(Recurrent Neural Network,RNN)的AVSR系统。该系统由音频特征提取模块、视觉特征提取模块以及音频和视觉特征联合模块3部分组成。特征联合模块利用RNN将基于梅尔频率倒谱系数的音频特征与OpenCV库中的Haar级联检测提取的视觉信息相结合,以提高系统识别率。实验结果表明,在低信噪比条件下,所提系统的正确识别率保持在89%左右。 展开更多
关键词 视觉语音识别 循环神经网络(RNN) 梅尔频率倒谱系数(MFCC) 信噪比(SNR)
下载PDF
一种稳健的基于VisemicLDA的口形动态特征及听视觉语音识别 被引量:4
2
作者 谢磊 付中华 +4 位作者 蒋冬梅 赵荣椿 Werner Verhelst Hichem Sahli Jan Conlenis 《电子与信息学报》 EI CSCD 北大核心 2005年第1期64-68,共5页
视觉特征提取是听视觉语音识别研究的热点问题。文章引入了一种稳健的基于Visemic LDA的口形动态特征,这种特征充分考虑了发音时口形轮廓的变化及视觉Viseme划分。文章同时提出了一利利用语音识别结果进行LDA训练数据自动标注的方法。... 视觉特征提取是听视觉语音识别研究的热点问题。文章引入了一种稳健的基于Visemic LDA的口形动态特征,这种特征充分考虑了发音时口形轮廓的变化及视觉Viseme划分。文章同时提出了一利利用语音识别结果进行LDA训练数据自动标注的方法。这种方法免去了繁重的人工标注工作,避免了标注错误。实验表明,将'VisemicLDA视觉特征引入到听视觉语音识别中,可以大大地提高噪声条件下语音识别系统的识别率;将这种视觉特征与多数据流HMM结合之后,在信噪比为10dB的强噪声情况下,识别率仍可以达到80%以上。 展开更多
关键词 语音识别 视觉语音识别 ASM LINEAR DISCRIMINANT Analysis(LDA) Viseme
下载PDF
一种基于MASM的口形轮廓特征提取方法及听视觉语音识别 被引量:1
3
作者 谢磊 冯伟 赵荣椿 《西北工业大学学报》 EI CAS CSCD 北大核心 2004年第5期674-678,共5页
提出了一种用于听视觉语音识别的基于 MASM的口形轮廓提取方法 ,这种方法只需要少量的训练数据就可以实现对大量口形轮廓的准确提取。还引入了一种口形轮廓的平滑修正方法 ,该方法利用口形连续变化的特点 ,对错误轮廓进行修正。实验证... 提出了一种用于听视觉语音识别的基于 MASM的口形轮廓提取方法 ,这种方法只需要少量的训练数据就可以实现对大量口形轮廓的准确提取。还引入了一种口形轮廓的平滑修正方法 ,该方法利用口形连续变化的特点 ,对错误轮廓进行修正。实验证明 ,利用该方法提取轮廓的准确率比常规 ASM模型高出 2 0个百分点 ;将该口形轮廓特征引入到听视觉语音识别中 。 展开更多
关键词 语音识别 视觉语音识别 ASM MASM 口形轮廓提取
下载PDF
汉语听觉视觉语音识别(CAVSR)双模态数据库的建立与结构 被引量:1
4
作者 王东 蒙山 张有为 《五邑大学学报(自然科学版)》 CAS 2001年第1期50-54,共5页
介绍了汉语双模态数据库的研究背景、采集系统、语料选择和存储结构. 采用国际通 用模式,建立具有华人特征的汉语双模态数据库.
关键词 人机自然交互 听觉视觉语音识别 双模态数据库 模式识别 采集系统
下载PDF
基于稀疏DBN和双向LSTM的视觉语音识别算法 被引量:4
5
作者 王一鸣 陈恳 《数据通信》 2019年第3期9-15,共7页
唇部视觉信息作为语音识别的辅助信息一直受到广泛关注,为更好的提取唇部视觉信息,提出一种基于稀疏深度信念网络(Deep Belief Network,DBN)和双向长短期记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)的视觉语音识别算法。该... 唇部视觉信息作为语音识别的辅助信息一直受到广泛关注,为更好的提取唇部视觉信息,提出一种基于稀疏深度信念网络(Deep Belief Network,DBN)和双向长短期记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)的视觉语音识别算法。该算法通过在DBN的目标函数后引入混合的范数和范数来实现DBN的稀疏表示,以此稀疏DBN对唇部视觉信息进行稀疏瓶颈特征的提取,再将提取的瓶颈特征送入BiLSTM进行特征的学习分类。实验表明,该算法能有效的识别唇部视觉信息。 展开更多
关键词 稀疏深度信念网络 双向长短期记忆网络 视觉语音识别 稀疏表示
下载PDF
基于视觉语音识别的垃圾桶系统设计
6
作者 孙文成 曾安 刘小瑞 《装备制造技术》 2021年第7期43-46,共4页
搭载视觉识别的垃圾桶在国内未完全普及。以视觉识别、语音模块和智能感应为核心,设计一款自动感应识别垃圾桶,可以实现垃圾的分类、感应、检测等,进一步完善功能,比如垃圾的视觉语音识别分类,超声波自动感应,垃圾的满载检测等,为垃圾... 搭载视觉识别的垃圾桶在国内未完全普及。以视觉识别、语音模块和智能感应为核心,设计一款自动感应识别垃圾桶,可以实现垃圾的分类、感应、检测等,进一步完善功能,比如垃圾的视觉语音识别分类,超声波自动感应,垃圾的满载检测等,为垃圾的精确分类提供可能。 展开更多
关键词 视觉语音识别 自动感应 系统设计
下载PDF
基于多重视觉注意力的唇语识别
7
作者 谢胤岑 薛峰 曹明伟 《模式识别与人工智能》 EI CSCD 北大核心 2024年第1期73-84,共12页
唇语识别是将单个说话人嘴唇运动的无声视频翻译成文字的一种技术.由于嘴唇运动幅度较小,现有唇语识别方法的特征区分能力和泛化能力都较差.针对该问题,文中分别从时间、空间和通道三个维度研究唇语视觉特征的提纯问题,提出基于多重视... 唇语识别是将单个说话人嘴唇运动的无声视频翻译成文字的一种技术.由于嘴唇运动幅度较小,现有唇语识别方法的特征区分能力和泛化能力都较差.针对该问题,文中分别从时间、空间和通道三个维度研究唇语视觉特征的提纯问题,提出基于多重视觉注意力的唇语识别方法(Lipreading Based on Multiple Visual Attention Network,LipMVA).首先利用通道注意力自适应校准通道级别的特征,减轻无意义通道的干扰.然后使用两种粒度不同的时空注意力,抑制不重要的像素或帧的影响.CMLR、GRID数据集上的实验表明LipMVA可降低识别错误率,由此验证方法的有效性. 展开更多
关键词 唇语识别 视觉语音识别 注意力机制 深度神经网络 特征提取
下载PDF
双模型语音识别中的听视觉合成和模型同步异步性实验研究 被引量:3
8
作者 谢磊 蒋冬梅 +4 位作者 Ilse Ravyse 赵荣椿 Hichem Sahli Werner Verhelst Jan Cornelis 《西北工业大学学报》 EI CAS CSCD 北大核心 2004年第2期171-175,共5页
研究了双模型语音识别系统中前合成和后合成两种听觉视觉合成方法 ;同时在后合成方法中引入了考虑听觉和视觉同步异步特点的复合模型。仿真实验证明了在声学噪音环境下 ,后合成方法能够带来比较理想的识别效果 ;考虑听觉和视觉同步异步... 研究了双模型语音识别系统中前合成和后合成两种听觉视觉合成方法 ;同时在后合成方法中引入了考虑听觉和视觉同步异步特点的复合模型。仿真实验证明了在声学噪音环境下 ,后合成方法能够带来比较理想的识别效果 ;考虑听觉和视觉同步异步性的模型可以有效地提高识别率。 展开更多
关键词 语音识别 双模型语音识别 听觉视觉合成 模型同步异步性
下载PDF
基于多模态融合的端到端中文唇读识别研究
9
作者 陈焯辉 林绰雅 +3 位作者 刘奕显 王茗琛 梁思敏 陈灵 《科学技术创新》 2023年第10期85-88,共4页
为了更好地帮助健全人与听障或语言障碍人士进行交流,构建无障碍社会。构建了一个基于多模态融合的端到端音视频识别系统,实现中文唇语翻译功能。实验结果表明,将所提出的端到端视听语音识别结构体系应用于唇语识别模型,实现了8.0%的字... 为了更好地帮助健全人与听障或语言障碍人士进行交流,构建无障碍社会。构建了一个基于多模态融合的端到端音视频识别系统,实现中文唇语翻译功能。实验结果表明,将所提出的端到端视听语音识别结构体系应用于唇语识别模型,实现了8.0%的字符错误率。与之前的唇语识别模型相比,它在融合图像特征和音频特征方面表现出了良好的性能。 展开更多
关键词 端到端音视觉语音识别结构体系 多模态融合 唇语识别
下载PDF
语音识别技术与声调教学策略
10
作者 赵冉 杜乃岩 《汉语国际传播研究》 2019年第1期50-56,共7页
本文旨在介绍对大学初级汉语学生习得声调较为有效的一些教学法与科技应用,如学生个人学习网页、在语音识别软件Praat基础上开发的声调练习与实时反馈工具以及在课程管理平台上设计的录音作业.本文将以学生录制的视频为语料分析上述教... 本文旨在介绍对大学初级汉语学生习得声调较为有效的一些教学法与科技应用,如学生个人学习网页、在语音识别软件Praat基础上开发的声调练习与实时反馈工具以及在课程管理平台上设计的录音作业.本文将以学生录制的视频为语料分析上述教学法与工具发挥的作用和取得的效果. 展开更多
关键词 汉语声调 语音识别视觉呈现 声调教学策略
原文传递
汉语听觉视觉双模态信息的互补作用 被引量:4
11
作者 周治 杜利民 徐彦君 《中国科学(E辑)》 CSCD 2000年第3期283-288,共6页
从汉语听觉视觉双模态数据库CAVSR1.0中选出 10个人的视听数据 ,每人发 14个音节 /ba,bi,bian ,biao ,bin ,de ,di,dian ,duo,dong,gai,gan ,gen ,gu/ .感知实验的样本分单语音信号、语音信号 +视觉信号、单视觉信号 3类 .单语音信号、... 从汉语听觉视觉双模态数据库CAVSR1.0中选出 10个人的视听数据 ,每人发 14个音节 /ba,bi,bian ,biao ,bin ,de ,di,dian ,duo,dong,gai,gan ,gen ,gu/ .感知实验的样本分单语音信号、语音信号 +视觉信号、单视觉信号 3类 .单语音信号、语音信号+视觉信号分别包括 5种声学条件 :无噪语音信号 ,信噪比S/N为 0 ,-8,-12 ,-16dB的语音信号 .由 2 0名观察者进行感知识别 .通过对实验结果分析 ,发现人类对单视觉信号有较强的识别能力 ;声母的发音方法、发音部位和韵母造成了视觉上的不同差异 ;在噪声环境下 ,视觉信息对听觉信息有非常明显的补偿作用 ,可以使正确识别率大幅度提高 . 展开更多
关键词 听觉视觉双模态语音识别 汉语 视听信息 互补作
原文传递
基于生成对抗网络的唇形重建改进方法
12
作者 毛志炜 朱铮宇 《网络安全技术与应用》 2021年第8期28-30,共3页
在视觉语音识别(Visual Speech Recognition,VSR)研究领域,已有的研究表明,基于正面的视图语音识别率是非常高的。而用于视觉研究的额叶面语料库很少。一方面,研究者从非正面视图(尤其是大角度)尝试提高视觉语音的识别效率;另一方面,研... 在视觉语音识别(Visual Speech Recognition,VSR)研究领域,已有的研究表明,基于正面的视图语音识别率是非常高的。而用于视觉研究的额叶面语料库很少。一方面,研究者从非正面视图(尤其是大角度)尝试提高视觉语音的识别效率;另一方面,研究者试图找到解决在现实场景下难以获取正面视图而从非正面视图进行重构正面视图的方法。本文就是基于第二种方案,基于生成对抗网络(GAN)强大的图像生成能力,对多角度视觉库中唇部进行正面视图重建。本文模型采用了U-Net网络结构,添加身份一致性损失Lid,在重构正面唇形的同时,保留了身份特征。 展开更多
关键词 视觉语音识别(VSR) GAN U-Net 图像重建 身份损失
原文传递
Audiovisual bimodal mutual compensation of Chinese
13
作者 周治 杜利民 徐彦居 《Science China(Technological Sciences)》 SCIE EI CAS 2001年第1期19-26,共8页
The perception of human languages is inherently a multi-modalprocess, in which audio information can be compensated by visual information to improve the recognition performance. Such a phenomenon in English, German, S... The perception of human languages is inherently a multi-modalprocess, in which audio information can be compensated by visual information to improve the recognition performance. Such a phenomenon in English, German, Spanish and so on has been researched, but in Chinese it has not been reported yet. In our experiment, 14 syllables (/ba, bi, bian, biao, bin, de, di, dian, duo, dong, gai, gan, gen, gu/), extracted from Chinese audiovisual bimodal speech database CAVSR-1.0, were pronounced by 10 subjects. The audio-only stimuli, audiovisual stimuli, and visual-only stimuli were recognized by 20 observers. The audio-only stimuli and audiovisual stimuli both were presented under 5 conditions: no noise, SNR 0 dB, -8 dB, -12 dB, and -16 dB. The experimental result is studied and the following conclusions for Chinese speech are reached. Human beings can recognize visual-only stimuli rather well. The place of articulation determines the visual distinction. In noisy environment, audio information can remarkably be compensated by visual information and as a result the recognition performance is greatly improved. 展开更多
关键词 听觉视觉 bimodal 语音识别 bimodal 讲话感觉 感觉实验 视听觉的信息相互的赔偿
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部