期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
Speech-driven facial animation with spectral gathering and temporal attention 被引量:1
1
作者 Yujin CHAI Yanlin WENG +1 位作者 Lvdi WANG Kun ZHOU 《Frontiers of Computer Science》 SCIE EI CSCD 2022年第3期153-162,共10页
In this paper,we present an efficient algorithm that generates lip-synchronized facial animation from a given vocal audio clip.By combining spectral-dimensional bidirectional long short-term memory and temporal attent... In this paper,we present an efficient algorithm that generates lip-synchronized facial animation from a given vocal audio clip.By combining spectral-dimensional bidirectional long short-term memory and temporal attention mechanism,we design a light-weight speech encoder that leams useful and robust vocal features from the input audio without resorting to pre-trained speech recognition modules or large training data.To learn subject-independent facial motion,we use deformation gradients as the internal representation,which allows nuanced local motions to be better synthesized than using vertex offsets.Compared with state-of-the-art automatic-speech-recognition-based methods,our model is much smaller but achieves similar robustness and quality most of the time,and noticeably better results in certain challenging cases. 展开更多
关键词 speech-driven facial animation spectral-dimensional bidirectional long short-term memory temporal attention deformation gradients
原文传递
引入非局部模块卷积神经网络的基频提取模型 被引量:2
2
作者 刘晶晶 黄浩 《计算机工程》 CAS CSCD 北大核心 2023年第3期128-133,160,共7页
基频或基音的估计是各种语音信号处理技术的关键子问题,现有信号处理技术研究多使用数据驱动的方法,即通过卷积神经网络进行基频提取。然而,卷积神经网络中的卷积操作一次只能处理局部的音频样本点,只有在递归应用卷积操作时才能捕获全... 基频或基音的估计是各种语音信号处理技术的关键子问题,现有信号处理技术研究多使用数据驱动的方法,即通过卷积神经网络进行基频提取。然而,卷积神经网络中的卷积操作一次只能处理局部的音频样本点,只有在递归应用卷积操作时才能捕获全局音频样本点依赖关系,导致计算效率低与优化困难。受非局部模块在计算机视觉任务中具有较高性能的启发,提出一种具有非局部模块的卷积神经网络用于基频提取任务。非局部模块相比不断堆叠的卷积神经网络,可以直接计算两个位置之间的关系,由于其可以忽略欧氏距离,因此能够快速捕获长范围的依赖关系。对于基频估计任务,可在卷积神经网络中加入非局部模块以计算音频样本点之间的相似性,有助于捕获帧与帧和样本点与样本点之间的全局依赖关系,且非局部模块可以保持输入输出维度不变,能够快速地集成卷积神经网络。实验结果表明,该方法平均绝对误差仅为4.7,与基线模型相比,至少降低了0.7,能够获得最佳的模型性能。 展开更多
关键词 基频 语音信号处理 数据驱动 卷积神经网络 非局部模块
下载PDF
基于LSTM-CBAM的音视频同步人脸视频生成
3
作者 洪学敏 张海翔 《智能计算机与应用》 2023年第5期151-155,共5页
语音驱动的人脸视频生成是指通过视觉与听觉双模态的输入来生成唇音同步的高自然度人脸视频。人脸视频生成任务的主要挑战是如何在保证人脸面部真实性的同时,生成语音同步且连贯的人脸视频。传统方法仅将其考虑为多个单帧的视频生成,而... 语音驱动的人脸视频生成是指通过视觉与听觉双模态的输入来生成唇音同步的高自然度人脸视频。人脸视频生成任务的主要挑战是如何在保证人脸面部真实性的同时,生成语音同步且连贯的人脸视频。传统方法仅将其考虑为多个单帧的视频生成,而不考虑视频帧间的时序关系,从而导致生成的视频存在不连贯性,容易出现像素抖动问题。本文提出了基于LSTM-CBAM的音视频同步生成模型来生成唇音同步的人脸视频,通过LSTM模块处理音频数据,可以对音频数据进行更好地特征编码,通过CBAM模块来推断网络中的注意力映射,可以实现对音频信息与人脸口型信息的特征细化,从而生成音频与人物口型同步的视频。实验结果表明,本文生成的人脸视频连续自然,指标较优。 展开更多
关键词 视频生成 语音驱动 生成式对抗网络
下载PDF
基于机器学习的语音驱动人脸动画方法 被引量:20
4
作者 陈益强 高文 +1 位作者 王兆其 姜大龙 《软件学报》 EI CSCD 北大核心 2003年第2期215-221,共7页
语音与唇动面部表情的同步是人脸动画的难点之一.综合利用聚类和机器学习的方法学习语音信号和唇动面部表情之间的同步关系,并应用于基于MEPG-4标准的语音驱动人脸动画系统中.在大规模音视频同步数据库的基础上,利用无监督聚类发现了能... 语音与唇动面部表情的同步是人脸动画的难点之一.综合利用聚类和机器学习的方法学习语音信号和唇动面部表情之间的同步关系,并应用于基于MEPG-4标准的语音驱动人脸动画系统中.在大规模音视频同步数据库的基础上,利用无监督聚类发现了能有效表征人脸运动的基本模式,采用神经网络学习训练,实现了从含韵律的语音特征到人脸运动基本模式的直接映射,不仅回避了语音识别鲁棒性不高的缺陷,同时学习的结果还可以直接驱动人脸网格.最后给出对语音驱动人脸动画系统定量和定性的两种分析评价方法.实验结果表明,基于机器学习的语音驱动人脸动画不仅能有效地解决语音视频同步的难题,增强动画的真实感和逼真性,同时基于MPEG-4的学习结果独立于人脸模型,还可用来驱动各种不同的人脸模型,包括真实视频、2D卡通人物以及3维虚拟人脸. 展开更多
关键词 机器学习 语音驱动 人脸动画 语音识别 模式识别
下载PDF
基于数据挖掘的语音驱动三维人脸动画合成 被引量:1
5
作者 陈益强 高文 +2 位作者 王兆其 姜大龙 左力 《系统仿真学报》 CAS CSCD 2002年第4期496-500,共5页
提出采用数据挖掘的概念,利用神经网络,聚类以及统计学方法从大量语音视频库中发现语音与唇动以及人脸表情之间的关联模型,并应用于语音驱动人脸动画合成中,本文提出的方法不仅可很好地解决语音与人脸动画的同步,同时还具有易训练,鲁棒... 提出采用数据挖掘的概念,利用神经网络,聚类以及统计学方法从大量语音视频库中发现语音与唇动以及人脸表情之间的关联模型,并应用于语音驱动人脸动画合成中,本文提出的方法不仅可很好地解决语音与人脸动画的同步,同时还具有易训练,鲁棒性强,可扩展等特性。实验表明,基于数据挖掘技术的合成模型非常有效,极大提高了动画人物的真实感和可信度。 展开更多
关键词 数据挖掘 语音驱动 三维人脸动画合成 计算机
下载PDF
基于深层神经网络的藏语识别 被引量:14
6
作者 袁胜龙 郭武 戴礼荣 《模式识别与人工智能》 EI CSCD 北大核心 2015年第3期209-213,共5页
文中首次涉及藏语的自然对话风格大词汇电话连续语音识别问题.作为一种少数民族语言,藏语识别面临的最大的困难是数据稀疏问题.文中在基于深层神经网络(DNN)的声学模型建模中,针对数据稀疏的问题,提出采用大语种数据训练好的DNN作为目... 文中首次涉及藏语的自然对话风格大词汇电话连续语音识别问题.作为一种少数民族语言,藏语识别面临的最大的困难是数据稀疏问题.文中在基于深层神经网络(DNN)的声学模型建模中,针对数据稀疏的问题,提出采用大语种数据训练好的DNN作为目标模型的初始网络进行模型优化的策略.另外,由于藏语语音学的研究很不完善,人工生成决策树问题集的方式并不可行.针对该问题,文中利用数据驱动的方式自动生成决策树问题集,对三音子隐马尔可夫模型(HMM)进行状态绑定,从而减少需要估计的模型参数.在测试集上,基于混合高斯模型(GMM)声学建模的藏字识别率为30.86%.在基于DNN的声学模型建模中,采用三种大语种数据训练好的DNN网络作为初始网络,并在测试集上验证该方法的有效性,藏字识别正确率达到43.26%. 展开更多
关键词 藏语 连续语音识别 数据驱动 深层神经网络(DNN)
下载PDF
基于TBL算法的汉语韵律词预测 被引量:6
7
作者 陈龙 杨鸿武 蔡莲红 《西北师范大学学报(自然科学版)》 CAS 2008年第1期47-51,共5页
提出了一种新的汉语韵律词预测方法.利用标注过的语料,分析了语法词与韵律词之间的关系,发现24%的韵律词由不同语法词组合而成,语法词的词长是确定韵律词边界的主要特征.基于以上分析,实现了一种基于错误驱动的规则学习算法(TBL)的韵律... 提出了一种新的汉语韵律词预测方法.利用标注过的语料,分析了语法词与韵律词之间的关系,发现24%的韵律词由不同语法词组合而成,语法词的词长是确定韵律词边界的主要特征.基于以上分析,实现了一种基于错误驱动的规则学习算法(TBL)的韵律词预测方法.实验结果表明,所提出的方法在测试集上能够达到97.5%的预测精度. 展开更多
关键词 韵律词 语法词 TBL算法 文语转换
下载PDF
基于数据驱动技术在语料词类分析中的应用 被引量:1
8
作者 张玥杰 姚天顺 《计算机科学》 CSCD 北大核心 1999年第1期69-74,共6页
语料库语言学的主要研究内容之一是对所建立语料库中的语料,进行不同层次的语法分析。语法分析一般由两个层次组成,即词类分析(Part-of-Speech Analyzing)与句法分析(Parsing)。词类分析通常包括两个过程:(i)引入歧义(即,词法分析过程);... 语料库语言学的主要研究内容之一是对所建立语料库中的语料,进行不同层次的语法分析。语法分析一般由两个层次组成,即词类分析(Part-of-Speech Analyzing)与句法分析(Parsing)。词类分析通常包括两个过程:(i)引入歧义(即,词法分析过程);(ii)消除歧义(即,排除非法选择的过程)。 展开更多
关键词 语料 词类分析 语言信息处理 数据驱动
下载PDF
汉语语音理解中自动纠错系统的研究 被引量:4
9
作者 李晶皎 张王利 姚天顺 《软件学报》 EI CSCD 北大核心 1999年第4期377-381,共5页
根据汉语语音的特点,通过总结在连续汉语语音识别的汉字序列中出现错误的规律,写出相应的用于查错和校正的词法和句法语义规则.利用“词汇语义驱动”的分析方法,找出汉字序列中的错误并校正。
关键词 汉语语音理解 自动纠错 汉字信息处理 语音识别
下载PDF
汉语文语转换系统中停顿指数的自动标注 被引量:6
10
作者 赵永贞 刘挺 +2 位作者 王志伟 陈惠鹏 邵艳秋 《中文信息学报》 CSCD 北大核心 2004年第5期48-55,共8页
本文采用了一个基于C TOBI的停顿指数标注的语料库 ,利用有指导的学习方法对自动停顿指数标注方面做了一些有益的探索。本文共实现了三种方法 :基本的马尔科夫模型 ,引入了词长信息的马尔科夫模型 ,引入词长信息的马尔科夫模型结合基于... 本文采用了一个基于C TOBI的停顿指数标注的语料库 ,利用有指导的学习方法对自动停顿指数标注方面做了一些有益的探索。本文共实现了三种方法 :基本的马尔科夫模型 ,引入了词长信息的马尔科夫模型 ,引入词长信息的马尔科夫模型结合基于转换的错误驱动的学习方法。然后通过对 30 0 0句的真实文本进行开放测试 ,以基本的马尔科夫模型的结果作为基准 ,实验结果不断改进 ,最终达到了 78 6 %的准确率 ,错误代价降低了 14 5 % 展开更多
关键词 计算机应用 中文信息处理 文语转换 停顿指数 马尔科夫模型 基于转换的错误驱动的学习
下载PDF
专用语音信箱数据采集与处理 被引量:1
11
作者 吕志民 宋靖涛 周劲松 《数据采集与处理》 CSCD 1999年第4期523-526,共4页
介绍的专用语音信箱由2 条中继线、7 台分机、1 个语音处理单元以及呼叫处理程序和语音信箱管理程序组成。内外线电话能够互相呼叫或拨号访问信箱,并拥有多种程控业务新功能。语音信箱具有查询、留言和播放公众信息等功能,在被叫... 介绍的专用语音信箱由2 条中继线、7 台分机、1 个语音处理单元以及呼叫处理程序和语音信箱管理程序组成。内外线电话能够互相呼叫或拨号访问信箱,并拥有多种程控业务新功能。语音信箱具有查询、留言和播放公众信息等功能,在被叫忙音或无应答时自动进入信箱。呼叫处理程序使用状态迁移法解决呼叫信号采集、处理的多重性问题;使用时间调度技术解决多用户的实时处理问题;使用VisualBasic的MSCOMM 控件实现了串行口交互通信;将多媒体MIC控件用于语音信息的记录、储存和重放过程。 展开更多
关键词 语音信箱 数据采集 数据处理 自动交换机 电话
下载PDF
基于深度神经网络的语音驱动发音器官的运动合成 被引量:6
12
作者 唐郅 侯进 《自动化学报》 EI CSCD 北大核心 2016年第6期923-930,共8页
实现一种基于深度神经网络的语音驱动发音器官运动合成的方法,并应用于语音驱动虚拟说话人动画合成.通过深度神经网络(Deep neural networks,DNN)学习声学特征与发音器官位置信息之间的映射关系,系统根据输入的语音数据估计发音器官的... 实现一种基于深度神经网络的语音驱动发音器官运动合成的方法,并应用于语音驱动虚拟说话人动画合成.通过深度神经网络(Deep neural networks,DNN)学习声学特征与发音器官位置信息之间的映射关系,系统根据输入的语音数据估计发音器官的运动轨迹,并将其体现在一个三维虚拟人上面.首先,在一系列参数下对比人工神经网络(Artificial neural network,ANN)和DNN的实验结果,得到最优网络;其次,设置不同上下文声学特征长度并调整隐层单元数,获取最佳长度;最后,选取最优网络结构,由DNN输出的发音器官运动轨迹信息控制发音器官运动合成,实现虚拟人动画.实验证明,本文所实现的动画合成方法高效逼真. 展开更多
关键词 深度神经网络 语音驱动 运动合成 虚拟说话人
下载PDF
语音驱动的口型同步算法 被引量:1
13
作者 范鑫鑫 杨旭波 《东华大学学报(自然科学版)》 CSCD 北大核心 2017年第4期466-471,共6页
本文提出一种口型动画同步算法,可以根据输入的语音信号,生成与该信号同步的口型动画.该算法分为预处理与运行时两个阶段.在预处理阶段,预定义一个基本口型动作集合,然后令设计师通过定义该集合中元素的权重变化曲线,来设计不同音素对... 本文提出一种口型动画同步算法,可以根据输入的语音信号,生成与该信号同步的口型动画.该算法分为预处理与运行时两个阶段.在预处理阶段,预定义一个基本口型动作集合,然后令设计师通过定义该集合中元素的权重变化曲线,来设计不同音素对应的口型动画.在运行时阶段,首先获取输入语音信号对应的音素序列,然后将该序列映射到一系列口型动画片段上,最后将这些片段互相拼接,即可得到最终输出的结果.试验表明,该算法具有较高的准确率,在运行时耗时较少,并且对于不同的人脸模型具有较高的可重用性. 展开更多
关键词 语音驱动 口型同步 音素
下载PDF
基于项目驱动的android课程研究 被引量:2
14
作者 李鑫伟 张立 孙阳 《教育教学论坛》 2020年第12期254-255,共2页
基于android系统的移动终端设备在智能终端市场上占据了主导地位,国内高校纷纷开设了android课程,以满足日益增长的社会需求。由于android知识体系庞杂,实践性强,传统的教学模式以知识点讲授为主,实践教学环节薄弱,已不能满足社会对andr... 基于android系统的移动终端设备在智能终端市场上占据了主导地位,国内高校纷纷开设了android课程,以满足日益增长的社会需求。由于android知识体系庞杂,实践性强,传统的教学模式以知识点讲授为主,实践教学环节薄弱,已不能满足社会对android人才的需求。将android课程知识与生动活泼的APP项目融合能够很好地激发学生学习兴趣,提高学生动手实践能力,是当前android课程改革的研究热点之一。文章以“基于语音识别的智能记事本APP设计”项目为例,探讨了基于项目驱动的android课程设计和实施方案。 展开更多
关键词 android课程 项目驱动 语音识别
下载PDF
基于语音识别的Android游戏应用 被引量:2
15
作者 潘智刚 姚敏锋 《现代计算机》 2015年第5期36-39,44,共5页
在对语音信号的预处理过程、特征提取及识别算法研究、分析基础上,基于Android平台进行游戏的开发与设计,根据游戏控制指令多为孤立词的特点,游戏语音识别算法采用动态时间规整算法(DTW),为了提高游戏语音交互的识别率,提出多模板匹配... 在对语音信号的预处理过程、特征提取及识别算法研究、分析基础上,基于Android平台进行游戏的开发与设计,根据游戏控制指令多为孤立词的特点,游戏语音识别算法采用动态时间规整算法(DTW),为了提高游戏语音交互的识别率,提出多模板匹配的算法对DTW算法进行改进,实现利用语音识别技术控制游戏操作的方式。 展开更多
关键词 语音识别 动态时间规整 ANDROID平台 实时语音驱动 语音交互
下载PDF
语音驱动人脸动画研究综述 被引量:2
16
作者 王慧慧 赵晖 《现代计算机(中旬刊)》 2015年第5期54-59,共6页
对语音信息的理解除了听觉信息,视觉信息也非常重要。在给出语音的同时,如果能给出相应的人脸动画,会提高人们对语音信息的正确理解,这正是语音驱动的人脸动画要达到的效果。语音驱动的人脸动画系统使计算机模拟人类语音的双模态,为人... 对语音信息的理解除了听觉信息,视觉信息也非常重要。在给出语音的同时,如果能给出相应的人脸动画,会提高人们对语音信息的正确理解,这正是语音驱动的人脸动画要达到的效果。语音驱动的人脸动画系统使计算机模拟人类语音的双模态,为人机交互提供可能性。简述语音驱动人脸动画的发展和语音驱动的人脸动画核心技术。 展开更多
关键词 语音驱动的人脸动画 音视频映射 人脸模型
下载PDF
项目驱动教学法在语音信号处理课程中的探索与应用 被引量:2
17
作者 赵小燕 梁瑞宇 +2 位作者 童莹 包永强 王青云 《计算机时代》 2022年第6期112-115,共4页
语音信号处理技术具有很强的专业性、先进性和实用性。将项目驱动教学法应用于语音信号处理课程教学,从项目设置、项目执行和项目评价等方面探索其实施路径,并以声源定位为例,阐述教学实施过程。教学实践表明,该模式有效激发了学生的学... 语音信号处理技术具有很强的专业性、先进性和实用性。将项目驱动教学法应用于语音信号处理课程教学,从项目设置、项目执行和项目评价等方面探索其实施路径,并以声源定位为例,阐述教学实施过程。教学实践表明,该模式有效激发了学生的学习积极性和主动性,提升了学生综合应用知识的能力,为学生今后开展科研和开发工作打下了良好基础。 展开更多
关键词 语音信号处理 项目驱动教学 声源定位 教学实施
下载PDF
语料库数据驱动下的程式语与协商系统研究
18
作者 李美霞 焦瑷珲 《北京航空航天大学学报(社会科学版)》 2013年第3期92-98,共7页
程式语是指日常使用的套话以及多少具备相对固定的句法和语篇结构的口头或书面话语。它以其整体性、易于提取性不但成为实现概念意义的重要方式,而且也成为实现协商意义的主要潜势。从语篇语义视角看,人际意义通过协商系统实现,协商系... 程式语是指日常使用的套话以及多少具备相对固定的句法和语篇结构的口头或书面话语。它以其整体性、易于提取性不但成为实现概念意义的重要方式,而且也成为实现协商意义的主要潜势。从语篇语义视角看,人际意义通过协商系统实现,协商系统通过言语功能系统实现,言语功能系统又通过语气系统实现,语气系统最终由程式语和非程式语实现。那么,程式语在语气系统中通过什么样的结构实现协商系统中的言语功能,这一话题迄今还鲜有研究者对其进行全面的探究。因此,以系统功能语言学相关理论为依据,以语料库数据驱动为研究方法,以情景喜剧《老友记》为语料。研究发现,不同的具有一定结构的程式语分别实现信息与物品和服务的交换,从而不但实现了言语功能,也完成了意义的协商。 展开更多
关键词 程式语 协商意义 语料库数据驱动 《老友记》 系统功能语言学 言语功能系统 协商系统 语言系统
下载PDF
基于SAPI的语音驱动口型动画方法
19
作者 杨茂巍 郑伯川 高春梅 《现代计算机》 2012年第7期3-7,19,共6页
语音驱动口型动画是人脸表情动画中非常关键的部分。在研究语音与口型动画同步问题的基础上,提出一种真实、自然的语音口型动画实现方法。该方法首先对输入语音进行大段分割;再通过SAPI识别出具体的汉语序列信息;然后将汉语序列转换为... 语音驱动口型动画是人脸表情动画中非常关键的部分。在研究语音与口型动画同步问题的基础上,提出一种真实、自然的语音口型动画实现方法。该方法首先对输入语音进行大段分割;再通过SAPI识别出具体的汉语序列信息;然后将汉语序列转换为音节序列;最后通过音节序列到口型序列的转换得到含有口型时间信息的口型序列。在动画模块中利用该口型序列驱动3D人脸模型口型动画,取得了真实、自然的语音动画同步效果。 展开更多
关键词 语音驱动 SAPI 口型动画 语音分割 语音识别
下载PDF
英汉翻译系统上的汉语自然语音输出系统ECTRAN/SO
20
作者 曹木 姚天顺 《计算机研究与发展》 EI CSCD 北大核心 1997年第9期710-715,共6页
本文旨在介绍在英汉翻译系统基础之上实现汉语语音输出系统ECTRAN/SO.着重讨论如何利用英汉翻译系统的语法、语义信息,产生停顿和轻音信息,借以得到自然流畅的语音输出.在本输出系统的实现过程中,用波形存储法建立常用音... 本文旨在介绍在英汉翻译系统基础之上实现汉语语音输出系统ECTRAN/SO.着重讨论如何利用英汉翻译系统的语法、语义信息,产生停顿和轻音信息,借以得到自然流畅的语音输出.在本输出系统的实现过程中,用波形存储法建立常用音库,实现了简单句子的语音输出. 展开更多
关键词 英汉翻译系统 语音输出系统 ECTRAN/SO
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部