期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于乘积HMM的双模态语音识别方法 被引量:8
1
作者 赵晖 顾亚强 唐朝京 《计算机工程》 CAS CSCD 北大核心 2010年第8期7-9,共3页
针对噪声环境中的语音识别,提出一种用于双模态语音识别的乘积隐马尔可夫模型(HMM)。在独立训练音频HMM和视频HMM的基础上,建立二维训练模型,表征音频流和视频流之间的异步特性。引入权重系数,根据不同噪声环境自适应调整音频流与视频... 针对噪声环境中的语音识别,提出一种用于双模态语音识别的乘积隐马尔可夫模型(HMM)。在独立训练音频HMM和视频HMM的基础上,建立二维训练模型,表征音频流和视频流之间的异步特性。引入权重系数,根据不同噪声环境自适应调整音频流与视频流的权重。实验结果证明,与其他双模态语音识别方法相比,该方法的识别性能更高。 展开更多
关键词 双模态语音识别 乘积隐马尔可夫模型 异步特性 权重系数
下载PDF
双模态语音识别中乘积HMM权重系数与瞬时SNR的关系研究
2
作者 赵晖 顾亚强 唐朝京 《计算机应用》 CSCD 北大核心 2009年第B12期279-281,285,共4页
在有噪声污染等复杂情况下,为了能够得到更高的语音识别率,提出了一种新的乘积隐马尔可夫模型(HMM)用于双模态语音识别,研究并确定了模型中权重系数与瞬时信噪比(SNR)之间的关系。该模型在独立训练音频和视频HMM的基础上,建立二维训练模... 在有噪声污染等复杂情况下,为了能够得到更高的语音识别率,提出了一种新的乘积隐马尔可夫模型(HMM)用于双模态语音识别,研究并确定了模型中权重系数与瞬时信噪比(SNR)之间的关系。该模型在独立训练音频和视频HMM的基础上,建立二维训练模型,并使用重估策略保证更高的准确性。同时引入广义几率递减(GPD)算法,调整音视频特征的权重系数。实验结果表明,提出的方法在噪声环境下体现出了良好稳定的识别性能。 展开更多
关键词 双模态语音识别 乘积隐马尔可夫模型 权重系数 重估 广义几率递减算法
下载PDF
双模态跨语料库语音情感识别
3
作者 刘云翔 张可欣 《应用技术学报》 2024年第1期77-84,共8页
语音情感识别(SER)在双模态的跨数据库语音情感识别研究较少,跨数据库情感识别过度减少数据集之间差异的同时,会忽视情感判别能力的特征的问题。YouTube数据集为源数据,互动情感二元动作捕捉数据库(IEMOCAP)为目标数据。在源数据和目标... 语音情感识别(SER)在双模态的跨数据库语音情感识别研究较少,跨数据库情感识别过度减少数据集之间差异的同时,会忽视情感判别能力的特征的问题。YouTube数据集为源数据,互动情感二元动作捕捉数据库(IEMOCAP)为目标数据。在源数据和目标数据中,Opensmile工具箱用来提取语音特征,将提取的语音特征输入到CNN和双向长短期记忆网络(BLSTM),来提取更高层次的特征,文本模态为语音信号的翻译稿。首先双向编码器表示转换器(Bert)把文本信息向量化,BLSTM提取文本特征,然后设计模态不变损失来形成2种模态的公共表示空间。为了解决跨语料库的SER问题,通过联合优化线性判别分析(LDA)、最大平均差异(MMD)、图嵌入(GE)和标签回归(LSR),学习源数据和目标数据的公共子空间。为了保留情绪辨别特征,情感判别损失与MMD+GE+LDA+LSR相结合。SVM分类器作为迁移公共子空间的最终情感分类,IEMOCAP上的实验结果表明,此方法优于其他先进的跨语料库和双模态SER. 展开更多
关键词 跨语料库 情感识别 双模态语音情感识别 迁移子空间学习 循环神经网络
下载PDF
双模态车载语音控制仿真系统的设计与实现
4
作者 严乐贫 奉小慧 《计算机与现代化》 2010年第8期211-215,共5页
针对音、视频双模态语音识别能有效地提高噪声环境下的识别率的特性,本文设计了车载语音控制指令识别实验系统。该系统模拟车载环境,把说话时的视频信息融入到语音识别系统中,系统分为模型训练、离线识别和在线识别3部分。在线识别全程... 针对音、视频双模态语音识别能有效地提高噪声环境下的识别率的特性,本文设计了车载语音控制指令识别实验系统。该系统模拟车载环境,把说话时的视频信息融入到语音识别系统中,系统分为模型训练、离线识别和在线识别3部分。在线识别全程采用语音作为人机交互手段,并具备用户自适应的功能。离线识别部分将系统产生的数据分层次进行统计,非常适合进行双模态语音识别算法研究。 展开更多
关键词 双模态语音识别 语音识别 车载控制
下载PDF
文本与朗读语音共同驱动的汉语语音与口型匹配方案 被引量:1
5
作者 曾洪鑫 胡东波 胡志刚 《计算机与现代化》 2013年第10期135-137,共3页
构建一种文本和朗读语音共同驱动的双模态语音与口型匹配控制模型,将文本与语音相结合,弥补单模式驱动中信息量不足的缺点,利用文本拼音提供正确的口型视位和朗读语音为口型视位提供正确的时序,实现对语音和口型动作过程的合理匹配。
关键词 语音口型匹配 双模态语音 口型视位
下载PDF
基于调度下令的录音自动识别方法及关键技术研究 被引量:1
6
作者 傅靖 季铮铮 +1 位作者 周红杰 谈叶月 《自动化与仪表》 2022年第3期96-101,共6页
为提高企业办公中录音的识别率,该研究应用机器人流程自动化技术,建立基于PRA接口的录音自动识别调度下令系统,使用主流的RPA开发工具UiPath,实现企业业务流程自动化。建立基于注意力机制的AVSR双模态语音识别模型,对原始音频信号进行... 为提高企业办公中录音的识别率,该研究应用机器人流程自动化技术,建立基于PRA接口的录音自动识别调度下令系统,使用主流的RPA开发工具UiPath,实现企业业务流程自动化。建立基于注意力机制的AVSR双模态语音识别模型,对原始音频信号进行谱减法去噪,使用注意力机制对特征进行前期和后期融合,在音频缺失和噪声污染的情况下辅助修正音频特征。为提高系统的任务执行效率,提出一种基于动态优先级的任务调度下令方法,计算等待队列中等待任务的实时优先级,选择动态优先级最高的任务执行。实验结果表明,该研究系统的任务调度完成时间较低,任务数高达80个时任务调度完成时间为3086ms,训练次数达到200次时对存在噪声的语音信号的识别率高达99%。 展开更多
关键词 机器人流程自动化 注意力机制 双模态语音识别 动态优先级 任务调度下令
下载PDF
汉语听觉视觉双模态信息的互补作用 被引量:4
7
作者 周治 杜利民 徐彦君 《中国科学(E辑)》 CSCD 2000年第3期283-288,共6页
从汉语听觉视觉双模态数据库CAVSR1.0中选出 10个人的视听数据 ,每人发 14个音节 /ba,bi,bian ,biao ,bin ,de ,di,dian ,duo,dong,gai,gan ,gen ,gu/ .感知实验的样本分单语音信号、语音信号 +视觉信号、单视觉信号 3类 .单语音信号、... 从汉语听觉视觉双模态数据库CAVSR1.0中选出 10个人的视听数据 ,每人发 14个音节 /ba,bi,bian ,biao ,bin ,de ,di,dian ,duo,dong,gai,gan ,gen ,gu/ .感知实验的样本分单语音信号、语音信号 +视觉信号、单视觉信号 3类 .单语音信号、语音信号+视觉信号分别包括 5种声学条件 :无噪语音信号 ,信噪比S/N为 0 ,-8,-12 ,-16dB的语音信号 .由 2 0名观察者进行感知识别 .通过对实验结果分析 ,发现人类对单视觉信号有较强的识别能力 ;声母的发音方法、发音部位和韵母造成了视觉上的不同差异 ;在噪声环境下 ,视觉信息对听觉信息有非常明显的补偿作用 ,可以使正确识别率大幅度提高 . 展开更多
关键词 听觉视觉双模态语音识别 汉语 视听信息 互补作
原文传递
基于神经网络的家居智能分类垃圾桶
8
作者 曹玉玉 鲍蓉 +1 位作者 强旭艳 祖宏磊 《电脑知识与技术》 2021年第21期114-117,共4页
垃圾分类是大势所趋,目前,国家已经在上海等地区强制实行垃圾分类,而很多人对垃圾分类意识薄弱,对于家庭产生的垃圾不能及时正确进行垃圾分类处理,本项目通过对垃圾图像和人工语音信号进行去噪等预处理,后分别完成两类数据的特征提取,... 垃圾分类是大势所趋,目前,国家已经在上海等地区强制实行垃圾分类,而很多人对垃圾分类意识薄弱,对于家庭产生的垃圾不能及时正确进行垃圾分类处理,本项目通过对垃圾图像和人工语音信号进行去噪等预处理,后分别完成两类数据的特征提取,最后利用特征融合算法完成两种模态特征的融合,并输入到分类器中完成垃圾的识别。从而给居民的生活带来便利,提升居民生活质量,推进垃圾分类政策的实施。 展开更多
关键词 卷积神经网络 图像语音模态识别 智能分类 迁移学习 家居垃圾桶
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部