期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于数据驱动方法的汉语文本-可视语音合成(英文) 被引量:16
1
作者 王志明 蔡莲红 艾海舟 《软件学报》 EI CSCD 北大核心 2005年第6期1054-1063,共10页
计算机文本-可视语音合成系统(TTVS)可以增强语音的可懂度,并使人机交互界面变得更为友好.给出一个基于数据驱动方法(基于样本方法)的汉语文本-可视语音合成系统,通过将小段视频拼接生成新的可视语音.给出一种构造汉语声韵母视觉混淆树... 计算机文本-可视语音合成系统(TTVS)可以增强语音的可懂度,并使人机交互界面变得更为友好.给出一个基于数据驱动方法(基于样本方法)的汉语文本-可视语音合成系统,通过将小段视频拼接生成新的可视语音.给出一种构造汉语声韵母视觉混淆树的有效方法,并提出了一个基于视觉混淆树和硬度因子的协同发音模型,模型可用于分析阶段的语料库选取和合成阶段的基元选取.对于拼接边界处两帧图像的明显差别,采用图像变形技术进行平滑并.结合已有的文本-语音合成系统(TTS),实现了一个中文文本-视觉语音合成系统. 展开更多
关键词 文-语转换系统(TTS) 文本-可视语音合成系统(TTVS) 视位 协同发音
下载PDF
基于可视语音合成的3D通信技术研究 被引量:3
2
作者 杨志晓 隋菲 张德贤 《计算机应用研究》 CSCD 北大核心 2009年第11期4209-4211,4214,共4页
提出了基于可视语音合成的3D通信技术概念。通信双方利用文本交换信息,用户终端采用可视语音合成技术对接收到的文字进行人物化朗读;同时通过3D用户替身的肢体动作和面部表情表达文字蕴涵的人类情感和意图信息,给出了基于可视语音合成... 提出了基于可视语音合成的3D通信技术概念。通信双方利用文本交换信息,用户终端采用可视语音合成技术对接收到的文字进行人物化朗读;同时通过3D用户替身的肢体动作和面部表情表达文字蕴涵的人类情感和意图信息,给出了基于可视语音合成的通信平台结构、情感和意图的表达模型、用户替身的自主交互模型。采用程序驱动方法,通过控制虚拟人各连杆间沿关节自由度方向夹角及角度变化率等特征参数实现肢体运动合成;利用VB6.0和OpenGL实现了基于可视语音合成的3D通信平台原型。 展开更多
关键词 可视语音合成 3D通信 用户替身 非语言信息 界面
下载PDF
基于汉语视频三音素的可视语音合成
3
作者 赵晖 唐朝京 《电子与信息学报》 EI CSCD 北大核心 2009年第12期3010-3014,共5页
为了合成具有真实感的视频序列,该文提出一种基于汉语视频三音素的可视语音合成方法。根据汉语的发音规律和音素与视素的对应关系,该文提出"视频三音素"的概念。在此基础上,建立隐马尔可夫(HMM)训练与合成模型,在训练过程中... 为了合成具有真实感的视频序列,该文提出一种基于汉语视频三音素的可视语音合成方法。根据汉语的发音规律和音素与视素的对应关系,该文提出"视频三音素"的概念。在此基础上,建立隐马尔可夫(HMM)训练与合成模型,在训练过程中使用了视频音频联合特征,并加入了动态特征。在合成过程中,连接视频三音素HMM模型形成句子HMM,并从中提取特征参数,合成可视语音。从主观和客观评估结果来看,合成视频的真实感强,满意度较高。 展开更多
关键词 可视语音合成 视频三音素 隐马尔可夫模型 联合特征
下载PDF
改进参数控制的可视语音合成方法
4
作者 刘学杰 赵晖 《计算机工程与设计》 北大核心 2017年第4期989-995,共7页
传统单音素对音节内部和音节之间的协同发音影响采用相同处理方法,为此,分析音节内部和音节之间两种不同协同发音现象对可视语音合成的不同影响,提出一种改进参数控制的可视语音合成方法。针对不同音节,不改变元、辅音视位峰值处权值函... 传统单音素对音节内部和音节之间的协同发音影响采用相同处理方法,为此,分析音节内部和音节之间两种不同协同发音现象对可视语音合成的不同影响,提出一种改进参数控制的可视语音合成方法。针对不同音节,不改变元、辅音视位峰值处权值函数的幅度及其变化速度参数,仅修改元、辅音的时间参数,使修改后的元、辅音视位参数能更好地模拟真实音节发音过程中发音器官的动态变化特征。实验结果表明,改进方法能有效地解决音节内协同发音的问题,改善了可视语音合成的质量。 展开更多
关键词 可视语音合成 参数控制 维吾尔语 视位 协同发音
下载PDF
可视语音合成技术的3D通信关键技术研究
5
作者 王文敏 李胜辉 《单片机与嵌入式系统应用》 2021年第11期42-46,共5页
针对3D通信中人物模型面部表情难以控制、音频和动作数据同步性较差的问题,本研究基于可视语音合成技术的3D通信平台,用户终端对接收到的数据进行人物化表达,通过虚拟人物模型的肢体动作和面部表情传递情感和意图。基于OpenGL工具开发,... 针对3D通信中人物模型面部表情难以控制、音频和动作数据同步性较差的问题,本研究基于可视语音合成技术的3D通信平台,用户终端对接收到的数据进行人物化表达,通过虚拟人物模型的肢体动作和面部表情传递情感和意图。基于OpenGL工具开发,将纹理展开图作为映射材质,提高了虚拟人物模型的真实性。实验结果显示,本研究输出的语音数据正确率最高可达到99%,面部模型的动作数据与真实运动数据最为接近。 展开更多
关键词 3D通信 可视语音合成 网格抽象化 音频切割 OPENGL
下载PDF
基于可视语音的英语发音辅导系统
6
作者 许芹 《电脑与电信》 2006年第10期50-54,共5页
发音问题是初学英语的一大难题。在我国这样的非英语环境中,很多小学生课后缺少专业老师辅导,极易出现英语发音障碍。本文设计开发了一个基于可视语音的英语发音辅导系统EP Tutor,模拟一个卡通家教的脸部动画,生动亲切的为学生一对一辅... 发音问题是初学英语的一大难题。在我国这样的非英语环境中,很多小学生课后缺少专业老师辅导,极易出现英语发音障碍。本文设计开发了一个基于可视语音的英语发音辅导系统EP Tutor,模拟一个卡通家教的脸部动画,生动亲切的为学生一对一辅导英语发音。本文重点讨论了系统设计理念、系统架构、部分关键功能的详细设计以及关键技术的实现。 展开更多
关键词 英语发音 音位 视位 文本一可视语音合成
下载PDF
基于MPEG-4的融合多元素的三维人脸动画合成方法 被引量:7
7
作者 尹宝才 王恺 王立春 《北京工业大学学报》 EI CAS CSCD 北大核心 2011年第2期266-271,共6页
为了实时合成真实感的可视语音,提出了一种融合口型、表情等多种运动元素的三维人脸动画合成方法.以MPEG-4人脸动画标准为基础,建立了汉语音节口型库和人脸基本表情库,通过在人脸动画参数上对共同影响面部运动的多种元素进行加权融合,... 为了实时合成真实感的可视语音,提出了一种融合口型、表情等多种运动元素的三维人脸动画合成方法.以MPEG-4人脸动画标准为基础,建立了汉语音节口型库和人脸基本表情库,通过在人脸动画参数上对共同影响面部运动的多种元素进行加权融合,合成出最终的动画序列.实验结果表明,该方法有效融合了面部运动的多种元素,同时具有真实感和实时性的优点. 展开更多
关键词 人脸动画 可视语音合成 表情合成 MPEG-4
下载PDF
三维语音动画聊天室的设计与实现 被引量:1
8
作者 王洵 张道义 +1 位作者 董兰芳 万寿红 《计算机工程与应用》 CSCD 北大核心 2004年第1期106-108,共3页
聊天室是人们在网上交流的一种重要手段,由于硬件设备、网络带宽的限制,目前广泛使用的聊天室只能基于文本和语音,不能基于人脸形象。以已经实现的“一个基于SAPI5.0的中文语音动画系统”为基础,设计并实现了一个结合文本、语音和人脸... 聊天室是人们在网上交流的一种重要手段,由于硬件设备、网络带宽的限制,目前广泛使用的聊天室只能基于文本和语音,不能基于人脸形象。以已经实现的“一个基于SAPI5.0的中文语音动画系统”为基础,设计并实现了一个结合文本、语音和人脸动画的三维语音动画聊天室。聊天室由客户端和服务器两部分组成,多个用户利用客户端连接到服务器上,用户可以输入文本并且选择各种表情,由客户端混合成带有表情标签的文本传送给服务器。服务器将该用户的三维人脸模型以及带有表情标签的文本传送给接收方,由接收方的客户端合成为带有表情的语音动画。聊天室只有发送方第一次给接收方传送信息时才需要下载人脸模型,以后只传送带有表情标签的文本,具有计算方法简单、系统通信开销小的特点,在普通微机上就能够产生带有表情的高质量的语音动画。 展开更多
关键词 语音动画 聊天室 可视语音合成 ACTIVEX WINSOCK
下载PDF
基于视频三音子的汉语双模态语料库的建立 被引量:6
9
作者 赵晖 林成龙 唐朝京 《中文信息学报》 CSCD 北大核心 2009年第5期98-103,共6页
为实现可视语音合成和双模态语音识别,需要建立符合条件的双模态语料库。该文提出了一种汉语双模态语料库的建立方法。根据视频中唇部发音特征,对已有的三音子模型聚类,形成视频三音子。在视频三音子的基础上,利用评估函数对原始语料中... 为实现可视语音合成和双模态语音识别,需要建立符合条件的双模态语料库。该文提出了一种汉语双模态语料库的建立方法。根据视频中唇部发音特征,对已有的三音子模型聚类,形成视频三音子。在视频三音子的基础上,利用评估函数对原始语料中的句子打分,并实现语料的自动选取。与其他双模态语料库相比,该文所建立的语料库在覆盖率、覆盖效率和高频词分布律有了较大改进,能够更加真实反映汉语中的双模态语言现象。 展开更多
关键词 计算机应用 中文信息处理 可视语音合成 双模态语料 视频三音子 评估函数
下载PDF
基于视频三音子的双模态语料自动选取算法 被引量:2
10
作者 赵晖 林成龙 唐朝京 《计算机工程》 CAS CSCD 北大核心 2009年第17期1-3,共3页
为实现可视语音合成,建立符合条件的双模态语料库,提出双模态语料自动选取算法。根据视频中唇部发音特征,对已有的三音子模型归类,形成视频三音子,在其基础上从原始语料中自动选取语料,利用评估函数对原始语料中的句子打分。与其他双模... 为实现可视语音合成,建立符合条件的双模态语料库,提出双模态语料自动选取算法。根据视频中唇部发音特征,对已有的三音子模型归类,形成视频三音子,在其基础上从原始语料中自动选取语料,利用评估函数对原始语料中的句子打分。与其他双模态语料库相比,该语料库在覆盖率等指标上有较大改进,为实现具有真实感的可视语音合成奠定基础。 展开更多
关键词 可视语音合成 双模态语料 视频三音子 评估函数
下载PDF
实时语音驱动的虚拟说话人 被引量:2
11
作者 李冰锋 谢磊 +2 位作者 周祥增 付中华 张艳宁 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第9期1180-1186,共7页
该文实现了一个实时语音驱动的虚拟说话人面部动画方案。随着语音信号的输入,同步生成对应的面部动画。这种实时语音驱动的虚拟说话人在可视电话、虚拟会议、音视频聊天等即时通讯与娱乐媒体领域具有巨大的应用潜力。由于音素是最小的... 该文实现了一个实时语音驱动的虚拟说话人面部动画方案。随着语音信号的输入,同步生成对应的面部动画。这种实时语音驱动的虚拟说话人在可视电话、虚拟会议、音视频聊天等即时通讯与娱乐媒体领域具有巨大的应用潜力。由于音素是最小的可分发音单元,因此构建音素识别器,对输入语音信号进行实时音素识别。为提高语音与口型的同步效果,改进了音素识别与输出算法。考虑协同发音影响,利用动态视素生成算法,将识别得到的音素转化为对应的面部动画参数序列。最后用参数序列驱动按照MPEG-4面部动画标准参数化的3-D头部模型,实现面部动画的同步生成。主观MOS评测结果表明:本文所实现的实时语音驱动虚拟说话人在的同步性和逼真度上的MOS评分分别达到了3.42和3.50。 展开更多
关键词 可视语音合成 虚拟说话人 面部动画
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部