期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
双模型语音识别中的听视觉合成和模型同步异步性实验研究 被引量:3
1
作者 谢磊 蒋冬梅 +4 位作者 Ilse Ravyse 赵荣椿 Hichem Sahli Werner Verhelst Jan Cornelis 《西北工业大学学报》 EI CAS CSCD 北大核心 2004年第2期171-175,共5页
研究了双模型语音识别系统中前合成和后合成两种听觉视觉合成方法 ;同时在后合成方法中引入了考虑听觉和视觉同步异步特点的复合模型。仿真实验证明了在声学噪音环境下 ,后合成方法能够带来比较理想的识别效果 ;考虑听觉和视觉同步异步... 研究了双模型语音识别系统中前合成和后合成两种听觉视觉合成方法 ;同时在后合成方法中引入了考虑听觉和视觉同步异步特点的复合模型。仿真实验证明了在声学噪音环境下 ,后合成方法能够带来比较理想的识别效果 ;考虑听觉和视觉同步异步性的模型可以有效地提高识别率。 展开更多
关键词 语音识别 双模型语音识别 听觉视觉合成 模型同步异步性
下载PDF
汉语语音视觉合成研究数据库CVSS1.0 被引量:3
2
作者 张欣 杜利民 +1 位作者 陈柯 赵向阳 《微计算机应用》 2007年第3期260-265,共6页
目前现有的双模态语音数据库多为外文,且绝大部分都是为语音识别或身份认证服务的。鉴于此,我们根据汉语语音的特点,建立了国内第一个较为完备的汉语语音视觉合成数据库CVSS1.0。它具有如下特点:包含136个单音节和265个连续发音语句的... 目前现有的双模态语音数据库多为外文,且绝大部分都是为语音识别或身份认证服务的。鉴于此,我们根据汉语语音的特点,建立了国内第一个较为完备的汉语语音视觉合成数据库CVSS1.0。它具有如下特点:包含136个单音节和265个连续发音语句的视频和音频数据,其语料规模超出目前同类数据库;语料是在汉语发音方式归类的基础上,依据汉字出现频度的高低选取,其中的独白语句涵盖了大部分的韵律结构,因此其反映的规律具有代表性;记录了脸部发音动作的三维运动信息;用绿点标出了部分MPEG4定义的脸部特征点,方便跟踪;可服务于多种视觉语音合成研究,有很高的通用性。 展开更多
关键词 视觉语音合成 数据库 语料 MPEG4
下载PDF
基于音频匹配的藏语驱动视觉语音合成算法研究
3
作者 韩西 梁凯 岳宇 《吉林大学学报(信息科学版)》 CAS 2024年第3期509-515,共7页
为解决唇部轮廓检测精度较低、视觉语音合成效果不好的问题,提出了基于音频匹配的藏语驱动视觉语音合成算法。该算法从藏语驱动视觉语音信号中提取短时能量和过零率,并建立语音信号的短时自相关函数。首先,提取语音信号中的特征信息,以... 为解决唇部轮廓检测精度较低、视觉语音合成效果不好的问题,提出了基于音频匹配的藏语驱动视觉语音合成算法。该算法从藏语驱动视觉语音信号中提取短时能量和过零率,并建立语音信号的短时自相关函数。首先,提取语音信号中的特征信息,以此获得藏语语音信号的基音轨迹,即音频特征;其次,建立了唇部时空分析模型,分析唇部轮廓在发音过程中变化趋势,采用主成分分析法提取唇部轮廓特征;最后,通过输入输出隐马尔可夫模型获取音频特征与唇部轮廓特征之间的关联,在音频匹配的基础上合成藏语驱动视觉语音。实验结果表明,该方法具有较高的唇部轮廓检测精度,视觉语音合成效果较好。 展开更多
关键词 音频匹配 短时自相关函数 时空分析模型 主成分分析法 视觉语音合成
下载PDF
视觉语音合成技术在身份认证中的应用
4
作者 曹义东 胡征慧 《电脑与信息技术》 2023年第1期31-32,64,共3页
文章分析了语音合成技术的要点,基于语音合成提出了一种视觉的语音合成算法L2W(Lip to Wav),并将其应用到身份认证当中。在GRID英文唇语数据集上的实验验证,证明了L2W的准确率能够达到78.85%,比相关算法有4.55%的提升。通过L2W合成的语... 文章分析了语音合成技术的要点,基于语音合成提出了一种视觉的语音合成算法L2W(Lip to Wav),并将其应用到身份认证当中。在GRID英文唇语数据集上的实验验证,证明了L2W的准确率能够达到78.85%,比相关算法有4.55%的提升。通过L2W合成的语音与原声源的频谱距离实现基于视觉语音合成的身份认证技术。 展开更多
关键词 唇语识别 视觉语音合成 身份认证
下载PDF
虚拟空间会议系统的视觉空间合成 被引量:5
5
作者 齐越 张茂军 +2 位作者 孙立峰 胡晓峰 杨冰 《小型微型计算机系统》 CSCD 北大核心 2001年第2期157-160,共4页
虚拟空间会议系统是在视频会议的基础上发展起来的 .与会者以替身的形式出现在计算机生成的虚拟空间中 ,通过替身在虚拟空间中定位、观察、操纵虚拟空间的物体、与其他用户进行“面对面”交流 ,与会者共享“同一个空间”,达到协同工作... 虚拟空间会议系统是在视频会议的基础上发展起来的 .与会者以替身的形式出现在计算机生成的虚拟空间中 ,通过替身在虚拟空间中定位、观察、操纵虚拟空间的物体、与其他用户进行“面对面”交流 ,与会者共享“同一个空间”,达到协同工作的目的 .本文介绍 VST的概念 ,视觉空间的合成方法以及我们研制的 VST系统 VST- 1. 展开更多
关键词 虚拟空间会议系统 视觉空间合成 虚拟现实 视频会议
下载PDF
基于双层码本的语音驱动视觉语音合成系统 被引量:2
6
作者 贾熹滨 尹宝才 孙艳丰 《计算机科学》 CSCD 北大核心 2014年第1期100-104,共5页
提出了一种基于双层码本的语音驱动视觉语音合成系统,该系统以矢量量化的思想为基础,建立语音特征空间到视觉语音特征空间的粗耦合映射关系。为加强语音和视觉语音的关联性,系统分别根据语音特征与视觉语音特征的相似性两次对样本数据... 提出了一种基于双层码本的语音驱动视觉语音合成系统,该系统以矢量量化的思想为基础,建立语音特征空间到视觉语音特征空间的粗耦合映射关系。为加强语音和视觉语音的关联性,系统分别根据语音特征与视觉语音特征的相似性两次对样本数据进行自动聚类,构造同时反映语音之间与视觉语音之间相似性的双层映射码本。数据预处理阶段,提出一种能反映视觉语音几何形状特征与牙齿可见度的联合特征模型,并在语音特征LPCC及MFCC基础上采用遗传算法提取视觉语音相关的语音特征模型。合成的视频中图像数据与原始视频中图像数据的比较结果表明,合成结果能在一定程度上逼近原始数据,取得了很好的效果。 展开更多
关键词 双层码本 视觉语音合成 视觉语音特征 语音特征
下载PDF
文本-视觉语音合成综述 被引量:5
7
作者 王志明 陶建华 《计算机研究与发展》 EI CSCD 北大核心 2006年第1期145-152,共8页
视觉信息对于理解语音的内容非常重要·不只是听力有障碍的人,普通人在交谈过程中也存在着一定程度的唇读,尤其是在语音质量受损的噪声环境下·正如文语转换系统可以使计算机像人一样讲话,文本-视觉语音合成系统可以使计算机模... 视觉信息对于理解语音的内容非常重要·不只是听力有障碍的人,普通人在交谈过程中也存在着一定程度的唇读,尤其是在语音质量受损的噪声环境下·正如文语转换系统可以使计算机像人一样讲话,文本-视觉语音合成系统可以使计算机模拟人类语音的双模态性,让计算机界面变得更为友好·回顾了文本-视觉语音合成的发展·文本驱动的视觉语音合成的实现方法可以分为两类:基于参数控制的方法和基于数据驱动的方法·详细介绍了参数控制类中的几个关键问题和数据驱动类中的几种不同实现方法,比较了这两类方法的优缺点及不同的适用环境· 展开更多
关键词 文本-视觉语音合成(TTVS) 视位 协同发音 人脸模型 人脸动画
下载PDF
面向合成视觉技术的多源航空序列影像处理应用
8
作者 周俊 余旭初 《测绘科学技术学报》 北大核心 2007年第B12期47-49,52,共4页
对合成视觉技术的概念、系统组成等方面进行了阐述,归纳了面向合成视觉技术的多源航空序列影像处理应用的关键技术。通过从合成视觉技术的关键组成部分多源航空序列影像的处理应用入手,探索合成视觉技术的原理和实施方法,对于构建"... 对合成视觉技术的概念、系统组成等方面进行了阐述,归纳了面向合成视觉技术的多源航空序列影像处理应用的关键技术。通过从合成视觉技术的关键组成部分多源航空序列影像的处理应用入手,探索合成视觉技术的原理和实施方法,对于构建"透明战场",增强战场感知能力有着深远的意义。 展开更多
关键词 合成视觉 序列影像 融合 配准 目标检测
下载PDF
视觉特效合成技术发展分析 被引量:1
9
作者 高蓉莉 《现代电视技术》 2011年第9期112-115,共4页
本文主要对节目包装中视觉特效与合成技术现状和发展进行了介绍。首先,介绍了节目包装的概念以及特效合成技术的现状,然后详细分析了特效合成技术中五个关键技术点:抠像、跟踪、颜色校正、遮罩与合成,并对其功能特性及技术难度进行了阐... 本文主要对节目包装中视觉特效与合成技术现状和发展进行了介绍。首先,介绍了节目包装的概念以及特效合成技术的现状,然后详细分析了特效合成技术中五个关键技术点:抠像、跟踪、颜色校正、遮罩与合成,并对其功能特性及技术难度进行了阐述,最后对视觉特效合成技术在未来的发展提出了展望。 展开更多
关键词 节目包装 视觉特效与合成 抠像 跟踪
下载PDF
一种基于三维模型和照片的合成“说话头” 被引量:3
10
作者 赖伟 孙岭 王仁华 《中国图象图形学报(A辑)》 CSCD 北大核心 2004年第7期886-892,共7页
视觉语音的研究已经成为人机交互技术中一个非常活跃的领域 ,在语音的相关视觉信息当中 ,最主要的是说话人的口型乃至整个头部的图像 ,即“说话头”(talkinghead)。为了合成具有真实感的三维“说话头”模型 ,提出了一种基于三维模型和... 视觉语音的研究已经成为人机交互技术中一个非常活跃的领域 ,在语音的相关视觉信息当中 ,最主要的是说话人的口型乃至整个头部的图像 ,即“说话头”(talkinghead)。为了合成具有真实感的三维“说话头”模型 ,提出了一种基于三维模型和真人照片来合成真实“说话头”的方法 ,即在一个中性的三维人头部模型的基础上 ,从任意人的正面和侧面两张照片当中 ,通过提取脸形和五官位置等特征参数来校正模型 ,并且从照片中提取皮肤和头发等纹理 ,使得合成的模型能在较大程度上贴近真人。该方法综合了基于三维模型和基于图像库的建模方法 ,因此同时具有两者的优点 ,即既能够灵活控制表情和口型 ,又可自由旋转 ,不仅可实时合成 ,而且合成效果接近真人 ,自然度高。已将此模型应用于视觉语音合成系统 。 展开更多
关键词 说话头 视觉语音合成 三维模型 人脸动画 人机交互
下载PDF
改进的神经渲染方法在建筑施工场景中的应用
11
作者 张在成 李健 《计算机与现代化》 2023年第12期76-81,共6页
针对神经辐射场(NeRF)应用于室外施工场景时,由于室外场景中光照难以捕捉和施工场景的前景背景范围差异过大,在新颖视图中会出现模糊和伪影等现象,通过分析提出改进的视觉合成方法。首先通过SFM算法从RGB图像中获得相机参数,实现对室外... 针对神经辐射场(NeRF)应用于室外施工场景时,由于室外场景中光照难以捕捉和施工场景的前景背景范围差异过大,在新颖视图中会出现模糊和伪影等现象,通过分析提出改进的视觉合成方法。首先通过SFM算法从RGB图像中获得相机参数,实现对室外施工场景的表示;接着引入预训练编码器中生成的向量,并加入渲染网络中减少光照的影响;最终将图像中的前景与背景分离开进行体绘制渲染,从而提高视觉合成的效果。基于室外施工场景数据集,与3种方法进行比较,结果表明,所提方法在峰值信噪比(PSNR)和结构相似性(SSIM)中分别较其中最优方法提高12.2%与10.9%。整体看来,所提方法在室外施工场景中生成的新颖视图具有更好的细腻度。 展开更多
关键词 神经辐射场 视觉合成 施工场景 光照 范围
下载PDF
复杂条件下飞行器进近可视导航的基础理论研究技术 被引量:2
12
作者 戴琼海 《科技创新导报》 2016年第12期174-175,共2页
复杂条件下飞行器进近着陆问题引发的事故占全部飞行事故的60%以上,提高进近着陆安全水平刻不容缓。进近过程中,飞行器间、飞行器与障碍物间的安全飞行间隔急剧缩小,受复杂地形、电磁、气象等特殊环境的影响,飞行运动呈现复杂时空变化... 复杂条件下飞行器进近着陆问题引发的事故占全部飞行事故的60%以上,提高进近着陆安全水平刻不容缓。进近过程中,飞行器间、飞行器与障碍物间的安全飞行间隔急剧缩小,受复杂地形、电磁、气象等特殊环境的影响,飞行运动呈现复杂时空变化。尤其在低能见度条件下,进近飞行存在重大安全隐患。可视导航技术将是解决复杂条件下飞行器安全进近着陆的重要手段,其原理和理论尚处于初步探索阶段。该研究属于航空、信息、交通和地学等多学科交叉领域,是典型的军民两用技术,其核心技术一直被国外严密封锁,此方面的研究国内刚刚起步。迫切需要开展多维动态复杂空地环境统一表示、多源多尺度景象鲁棒匹配与合成视觉的时空配准以及可信导航视场下的自主进近优化理论与方法等方面的研究。该报告的研究工作主要涉及飞行器进近复杂环境的多维动态统一表示;飞行器威胁目标的实时识别、地空数据自适应协同传输方法;飞行进近景象鲁棒匹配,刻画飞行器导航定位信息、环境模型数据、多视角场景的时空映射关系;复杂进近的可视导航置信理论;飞行器周边威胁目标的实时预警与冲突解脱方法;空地协同的自主进近队列优化与引导技术。 展开更多
关键词 飞行器进近 鲁棒匹配 威胁目标识别 协同传输 合成视觉 可信导航
下载PDF
Image Fusion Based on Complex Contourlet Transform and Nonnegative Matrix Factorization 被引量:1
13
作者 吴一全 侯雯 吴诗婳 《Transactions of Tianjin University》 EI CAS 2012年第4期266-270,共5页
An image fusion method combining complex contourlet transform(CCT) with nonnegative matrix factorization(NMF) is proposed in this paper.After two images are decomposed by CCT,NMF is applied to their highand low-freque... An image fusion method combining complex contourlet transform(CCT) with nonnegative matrix factorization(NMF) is proposed in this paper.After two images are decomposed by CCT,NMF is applied to their highand low-frequency components,respectively,and finally an image is synthesized.Subjective-visual-quality of the image fusion result is compared with those of the image fusion methods based on NMF and the combination of wavelet /contourlet /nonsubsampled contourlet with NMF.The experimental results are evaluated quantitatively,and the running time is also contrasted.It is shown that the proposed image fusion method can gain larger information entropy,standard deviation and mean gradient,which means that it can better integrate featured information from all source images,avoid background noise and promote space clearness in the fusion image effectively. 展开更多
关键词 image fusion complex contourlet transform nonnegative matrix factorization
下载PDF
Objective measurement for image defogging algorithms 被引量:4
14
作者 郭璠 唐琎 蔡自兴 《Journal of Central South University》 SCIE EI CAS 2014年第1期272-286,共15页
Since there is lack of methodology to assess the performance of defogging algorithm and the existing assessment methods have some limitations,three new methods for assessing the defogging algorithm were proposed.One w... Since there is lack of methodology to assess the performance of defogging algorithm and the existing assessment methods have some limitations,three new methods for assessing the defogging algorithm were proposed.One was using synthetic foggy image simulated by image degradation model to assess the defogging algorithm in full-reference way.In this method,the absolute difference was computed between the synthetic image with and without fog.The other two were computing the fog density of gray level image or constructing assessment system of color image from human visual perception to assess the defogging algorithm in no-reference way.For these methods,an assessment function was defined to evaluate algorithm performance from the function value.Using the defogging algorithm comparison,the experimental results demonstrate the effectiveness and reliability of the proposed methods. 展开更多
关键词 image defogging algorithm image assessment simulated foggy image fog density human visual perception
下载PDF
THREE DIMENSIONAL DIGITIZATION OF HUMAN HEAD BY FUSING STRUCTURED LIGHT AND CONTOURS
15
作者 JinGang LiDehua 《Journal of Electronics(China)》 2002年第1期37-42,共6页
Three dimensional digitization of human head is desired in many applications. In this paper, an information fusion based scheme is presented to obtain 3-D information of human head. Structured light technology is empl... Three dimensional digitization of human head is desired in many applications. In this paper, an information fusion based scheme is presented to obtain 3-D information of human head. Structured light technology is employed to measure depth. For the special reflection areas,in which the structured light stripe can not be detected directly, the shape of the structured light stripe can be calculated from the corresponding contour. By fusing the information of structured light and the contours, the problem of reflectance influence is solved, and the whole shape of head,including hair area, can be obtained. Some good results are obtained. 展开更多
关键词 Computer vision 3-D information digitization Structured light Shape from contours Data fusion
下载PDF
《吉祥称多》后期制作技术解析
16
作者 嘉龚.扎西当周 《影视制作》 2018年第5期71-76,共6页
本文主要围绕宣传片《吉祥称多》的后期制作过程,对敦煌视觉效果合成系统在剪辑、特效合成和调色方面的应用进行了解析。
关键词 敦煌视觉效果合成系统 剪辑 特效合成 调色
下载PDF
An area-based position and attitude estimation for unmanned aerial vehicle navigation 被引量:8
17
作者 LIU XiaoChun WANG Hou +4 位作者 FU Dan YU QiFeng GUO PengYu LEI ZhiHui SHANG Yang 《Science China(Technological Sciences)》 SCIE EI CAS CSCD 2015年第5期916-926,共11页
The paper aims to challenge non-GPS navigation problems by using visual sensors and geo-referenced images. An area-based method is proposed to estimate full navigation parameters(FNPs), including attitude, altitude an... The paper aims to challenge non-GPS navigation problems by using visual sensors and geo-referenced images. An area-based method is proposed to estimate full navigation parameters(FNPs), including attitude, altitude and horizontal position, for unmanned aerial vehicle(UAV) navigation. Our method is composed of three main modules: geometric transfer function, local normalized sobel energy image(LNSEI) based objective function and simplex-simulated annealing(SSA) based optimization algorithm. The adoption of relatively rich scene information and LNSEI, makes it possible to yield a solution robustly even in the presence of very noisy cases, such as multi-modal and/or multi-temporal images that differ in the type of visual sensor, season, illumination, weather, and so on, and also to handle the sparsely textured regions where features are barely detected or matched. Simulation experiments using many synthetic images clearly support noise resistance and estimation accuracy, and experimental results using 2367 real images show the maximum estimation error of 5.16(meter) for horizontal position, 9.72(meter) for altitude and 0.82(degree) for attitude. 展开更多
关键词 navigation illumination attitude normalized matching scene handle noisy aerial unmanned
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部