期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
11
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于数据驱动方法的汉语文本-可视语音合成(英文)
被引量:
16
1
作者
王志明
蔡莲红
艾海舟
《软件学报》
EI
CSCD
北大核心
2005年第6期1054-1063,共10页
计算机文本-可视语音合成系统(TTVS)可以增强语音的可懂度,并使人机交互界面变得更为友好.给出一个基于数据驱动方法(基于样本方法)的汉语文本-可视语音合成系统,通过将小段视频拼接生成新的可视语音.给出一种构造汉语声韵母视觉混淆树...
计算机文本-可视语音合成系统(TTVS)可以增强语音的可懂度,并使人机交互界面变得更为友好.给出一个基于数据驱动方法(基于样本方法)的汉语文本-可视语音合成系统,通过将小段视频拼接生成新的可视语音.给出一种构造汉语声韵母视觉混淆树的有效方法,并提出了一个基于视觉混淆树和硬度因子的协同发音模型,模型可用于分析阶段的语料库选取和合成阶段的基元选取.对于拼接边界处两帧图像的明显差别,采用图像变形技术进行平滑并.结合已有的文本-语音合成系统(TTS),实现了一个中文文本-视觉语音合成系统.
展开更多
关键词
文-语转换系统(TTS)
文本-
可视语音合成
系统(TTVS)
视位
协同发音
下载PDF
职称材料
基于可视语音合成的3D通信技术研究
被引量:
3
2
作者
杨志晓
隋菲
张德贤
《计算机应用研究》
CSCD
北大核心
2009年第11期4209-4211,4214,共4页
提出了基于可视语音合成的3D通信技术概念。通信双方利用文本交换信息,用户终端采用可视语音合成技术对接收到的文字进行人物化朗读;同时通过3D用户替身的肢体动作和面部表情表达文字蕴涵的人类情感和意图信息,给出了基于可视语音合成...
提出了基于可视语音合成的3D通信技术概念。通信双方利用文本交换信息,用户终端采用可视语音合成技术对接收到的文字进行人物化朗读;同时通过3D用户替身的肢体动作和面部表情表达文字蕴涵的人类情感和意图信息,给出了基于可视语音合成的通信平台结构、情感和意图的表达模型、用户替身的自主交互模型。采用程序驱动方法,通过控制虚拟人各连杆间沿关节自由度方向夹角及角度变化率等特征参数实现肢体运动合成;利用VB6.0和OpenGL实现了基于可视语音合成的3D通信平台原型。
展开更多
关键词
可视语音合成
3D通信
用户替身
非语言信息
界面
下载PDF
职称材料
基于汉语视频三音素的可视语音合成
3
作者
赵晖
唐朝京
《电子与信息学报》
EI
CSCD
北大核心
2009年第12期3010-3014,共5页
为了合成具有真实感的视频序列,该文提出一种基于汉语视频三音素的可视语音合成方法。根据汉语的发音规律和音素与视素的对应关系,该文提出"视频三音素"的概念。在此基础上,建立隐马尔可夫(HMM)训练与合成模型,在训练过程中...
为了合成具有真实感的视频序列,该文提出一种基于汉语视频三音素的可视语音合成方法。根据汉语的发音规律和音素与视素的对应关系,该文提出"视频三音素"的概念。在此基础上,建立隐马尔可夫(HMM)训练与合成模型,在训练过程中使用了视频音频联合特征,并加入了动态特征。在合成过程中,连接视频三音素HMM模型形成句子HMM,并从中提取特征参数,合成可视语音。从主观和客观评估结果来看,合成视频的真实感强,满意度较高。
展开更多
关键词
可视语音合成
视频三音素
隐马尔可夫模型
联合特征
下载PDF
职称材料
改进参数控制的可视语音合成方法
4
作者
刘学杰
赵晖
《计算机工程与设计》
北大核心
2017年第4期989-995,共7页
传统单音素对音节内部和音节之间的协同发音影响采用相同处理方法,为此,分析音节内部和音节之间两种不同协同发音现象对可视语音合成的不同影响,提出一种改进参数控制的可视语音合成方法。针对不同音节,不改变元、辅音视位峰值处权值函...
传统单音素对音节内部和音节之间的协同发音影响采用相同处理方法,为此,分析音节内部和音节之间两种不同协同发音现象对可视语音合成的不同影响,提出一种改进参数控制的可视语音合成方法。针对不同音节,不改变元、辅音视位峰值处权值函数的幅度及其变化速度参数,仅修改元、辅音的时间参数,使修改后的元、辅音视位参数能更好地模拟真实音节发音过程中发音器官的动态变化特征。实验结果表明,改进方法能有效地解决音节内协同发音的问题,改善了可视语音合成的质量。
展开更多
关键词
可视语音合成
参数控制
维吾尔语
视位
协同发音
下载PDF
职称材料
可视语音合成技术的3D通信关键技术研究
5
作者
王文敏
李胜辉
《单片机与嵌入式系统应用》
2021年第11期42-46,共5页
针对3D通信中人物模型面部表情难以控制、音频和动作数据同步性较差的问题,本研究基于可视语音合成技术的3D通信平台,用户终端对接收到的数据进行人物化表达,通过虚拟人物模型的肢体动作和面部表情传递情感和意图。基于OpenGL工具开发,...
针对3D通信中人物模型面部表情难以控制、音频和动作数据同步性较差的问题,本研究基于可视语音合成技术的3D通信平台,用户终端对接收到的数据进行人物化表达,通过虚拟人物模型的肢体动作和面部表情传递情感和意图。基于OpenGL工具开发,将纹理展开图作为映射材质,提高了虚拟人物模型的真实性。实验结果显示,本研究输出的语音数据正确率最高可达到99%,面部模型的动作数据与真实运动数据最为接近。
展开更多
关键词
3D通信
可视语音合成
网格抽象化
音频切割
OPENGL
下载PDF
职称材料
基于可视语音的英语发音辅导系统
6
作者
许芹
《电脑与电信》
2006年第10期50-54,共5页
发音问题是初学英语的一大难题。在我国这样的非英语环境中,很多小学生课后缺少专业老师辅导,极易出现英语发音障碍。本文设计开发了一个基于可视语音的英语发音辅导系统EP Tutor,模拟一个卡通家教的脸部动画,生动亲切的为学生一对一辅...
发音问题是初学英语的一大难题。在我国这样的非英语环境中,很多小学生课后缺少专业老师辅导,极易出现英语发音障碍。本文设计开发了一个基于可视语音的英语发音辅导系统EP Tutor,模拟一个卡通家教的脸部动画,生动亲切的为学生一对一辅导英语发音。本文重点讨论了系统设计理念、系统架构、部分关键功能的详细设计以及关键技术的实现。
展开更多
关键词
英语发音
音位
视位
文本一
可视语音合成
下载PDF
职称材料
基于MPEG-4的融合多元素的三维人脸动画合成方法
被引量:
7
7
作者
尹宝才
王恺
王立春
《北京工业大学学报》
EI
CAS
CSCD
北大核心
2011年第2期266-271,共6页
为了实时合成真实感的可视语音,提出了一种融合口型、表情等多种运动元素的三维人脸动画合成方法.以MPEG-4人脸动画标准为基础,建立了汉语音节口型库和人脸基本表情库,通过在人脸动画参数上对共同影响面部运动的多种元素进行加权融合,...
为了实时合成真实感的可视语音,提出了一种融合口型、表情等多种运动元素的三维人脸动画合成方法.以MPEG-4人脸动画标准为基础,建立了汉语音节口型库和人脸基本表情库,通过在人脸动画参数上对共同影响面部运动的多种元素进行加权融合,合成出最终的动画序列.实验结果表明,该方法有效融合了面部运动的多种元素,同时具有真实感和实时性的优点.
展开更多
关键词
人脸动画
可视语音合成
表情
合成
MPEG-4
下载PDF
职称材料
三维语音动画聊天室的设计与实现
被引量:
1
8
作者
王洵
张道义
+1 位作者
董兰芳
万寿红
《计算机工程与应用》
CSCD
北大核心
2004年第1期106-108,共3页
聊天室是人们在网上交流的一种重要手段,由于硬件设备、网络带宽的限制,目前广泛使用的聊天室只能基于文本和语音,不能基于人脸形象。以已经实现的“一个基于SAPI5.0的中文语音动画系统”为基础,设计并实现了一个结合文本、语音和人脸...
聊天室是人们在网上交流的一种重要手段,由于硬件设备、网络带宽的限制,目前广泛使用的聊天室只能基于文本和语音,不能基于人脸形象。以已经实现的“一个基于SAPI5.0的中文语音动画系统”为基础,设计并实现了一个结合文本、语音和人脸动画的三维语音动画聊天室。聊天室由客户端和服务器两部分组成,多个用户利用客户端连接到服务器上,用户可以输入文本并且选择各种表情,由客户端混合成带有表情标签的文本传送给服务器。服务器将该用户的三维人脸模型以及带有表情标签的文本传送给接收方,由接收方的客户端合成为带有表情的语音动画。聊天室只有发送方第一次给接收方传送信息时才需要下载人脸模型,以后只传送带有表情标签的文本,具有计算方法简单、系统通信开销小的特点,在普通微机上就能够产生带有表情的高质量的语音动画。
展开更多
关键词
语音
动画
聊天室
可视语音合成
ACTIVEX
WINSOCK
下载PDF
职称材料
基于视频三音子的汉语双模态语料库的建立
被引量:
6
9
作者
赵晖
林成龙
唐朝京
《中文信息学报》
CSCD
北大核心
2009年第5期98-103,共6页
为实现可视语音合成和双模态语音识别,需要建立符合条件的双模态语料库。该文提出了一种汉语双模态语料库的建立方法。根据视频中唇部发音特征,对已有的三音子模型聚类,形成视频三音子。在视频三音子的基础上,利用评估函数对原始语料中...
为实现可视语音合成和双模态语音识别,需要建立符合条件的双模态语料库。该文提出了一种汉语双模态语料库的建立方法。根据视频中唇部发音特征,对已有的三音子模型聚类,形成视频三音子。在视频三音子的基础上,利用评估函数对原始语料中的句子打分,并实现语料的自动选取。与其他双模态语料库相比,该文所建立的语料库在覆盖率、覆盖效率和高频词分布律有了较大改进,能够更加真实反映汉语中的双模态语言现象。
展开更多
关键词
计算机应用
中文信息处理
可视语音合成
双模态语料
视频三音子
评估函数
下载PDF
职称材料
基于视频三音子的双模态语料自动选取算法
被引量:
2
10
作者
赵晖
林成龙
唐朝京
《计算机工程》
CAS
CSCD
北大核心
2009年第17期1-3,共3页
为实现可视语音合成,建立符合条件的双模态语料库,提出双模态语料自动选取算法。根据视频中唇部发音特征,对已有的三音子模型归类,形成视频三音子,在其基础上从原始语料中自动选取语料,利用评估函数对原始语料中的句子打分。与其他双模...
为实现可视语音合成,建立符合条件的双模态语料库,提出双模态语料自动选取算法。根据视频中唇部发音特征,对已有的三音子模型归类,形成视频三音子,在其基础上从原始语料中自动选取语料,利用评估函数对原始语料中的句子打分。与其他双模态语料库相比,该语料库在覆盖率等指标上有较大改进,为实现具有真实感的可视语音合成奠定基础。
展开更多
关键词
可视语音合成
双模态语料
视频三音子
评估函数
下载PDF
职称材料
实时语音驱动的虚拟说话人
被引量:
2
11
作者
李冰锋
谢磊
+2 位作者
周祥增
付中华
张艳宁
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2011年第9期1180-1186,共7页
该文实现了一个实时语音驱动的虚拟说话人面部动画方案。随着语音信号的输入,同步生成对应的面部动画。这种实时语音驱动的虚拟说话人在可视电话、虚拟会议、音视频聊天等即时通讯与娱乐媒体领域具有巨大的应用潜力。由于音素是最小的...
该文实现了一个实时语音驱动的虚拟说话人面部动画方案。随着语音信号的输入,同步生成对应的面部动画。这种实时语音驱动的虚拟说话人在可视电话、虚拟会议、音视频聊天等即时通讯与娱乐媒体领域具有巨大的应用潜力。由于音素是最小的可分发音单元,因此构建音素识别器,对输入语音信号进行实时音素识别。为提高语音与口型的同步效果,改进了音素识别与输出算法。考虑协同发音影响,利用动态视素生成算法,将识别得到的音素转化为对应的面部动画参数序列。最后用参数序列驱动按照MPEG-4面部动画标准参数化的3-D头部模型,实现面部动画的同步生成。主观MOS评测结果表明:本文所实现的实时语音驱动虚拟说话人在的同步性和逼真度上的MOS评分分别达到了3.42和3.50。
展开更多
关键词
可视语音合成
虚拟说话人
面部动画
原文传递
题名
基于数据驱动方法的汉语文本-可视语音合成(英文)
被引量:
16
1
作者
王志明
蔡莲红
艾海舟
机构
北京科技大学计算机科学与技术系
清华大学计算机科学与技术系
出处
《软件学报》
EI
CSCD
北大核心
2005年第6期1054-1063,共10页
基金
国家教育部博士点基金
北京科技大学校内科研基金~~
文摘
计算机文本-可视语音合成系统(TTVS)可以增强语音的可懂度,并使人机交互界面变得更为友好.给出一个基于数据驱动方法(基于样本方法)的汉语文本-可视语音合成系统,通过将小段视频拼接生成新的可视语音.给出一种构造汉语声韵母视觉混淆树的有效方法,并提出了一个基于视觉混淆树和硬度因子的协同发音模型,模型可用于分析阶段的语料库选取和合成阶段的基元选取.对于拼接边界处两帧图像的明显差别,采用图像变形技术进行平滑并.结合已有的文本-语音合成系统(TTS),实现了一个中文文本-视觉语音合成系统.
关键词
文-语转换系统(TTS)
文本-
可视语音合成
系统(TTVS)
视位
协同发音
Keywords
Human computer interaction
Image processing
Pattern recognition
Speech
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于可视语音合成的3D通信技术研究
被引量:
3
2
作者
杨志晓
隋菲
张德贤
机构
河南工业大学信息科学与工程学院
出处
《计算机应用研究》
CSCD
北大核心
2009年第11期4209-4211,4214,共4页
基金
河南省重点科技攻关计划资助项目(082102210096)
河南省教育厅自然科学研究计划资助项目(2008A520006)
文摘
提出了基于可视语音合成的3D通信技术概念。通信双方利用文本交换信息,用户终端采用可视语音合成技术对接收到的文字进行人物化朗读;同时通过3D用户替身的肢体动作和面部表情表达文字蕴涵的人类情感和意图信息,给出了基于可视语音合成的通信平台结构、情感和意图的表达模型、用户替身的自主交互模型。采用程序驱动方法,通过控制虚拟人各连杆间沿关节自由度方向夹角及角度变化率等特征参数实现肢体运动合成;利用VB6.0和OpenGL实现了基于可视语音合成的3D通信平台原型。
关键词
可视语音合成
3D通信
用户替身
非语言信息
界面
Keywords
text-to-visual speeches
3D communication
avatar
nonverbal information
interface
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于汉语视频三音素的可视语音合成
3
作者
赵晖
唐朝京
机构
国防科技大学电子科学与工程学院
出处
《电子与信息学报》
EI
CSCD
北大核心
2009年第12期3010-3014,共5页
基金
国家部委基金(51329060101)资助课题
文摘
为了合成具有真实感的视频序列,该文提出一种基于汉语视频三音素的可视语音合成方法。根据汉语的发音规律和音素与视素的对应关系,该文提出"视频三音素"的概念。在此基础上,建立隐马尔可夫(HMM)训练与合成模型,在训练过程中使用了视频音频联合特征,并加入了动态特征。在合成过程中,连接视频三音素HMM模型形成句子HMM,并从中提取特征参数,合成可视语音。从主观和客观评估结果来看,合成视频的真实感强,满意度较高。
关键词
可视语音合成
视频三音素
隐马尔可夫模型
联合特征
Keywords
Visual speech synthesis
Visual triphone
Hidden Markov Model(HMM)
Combined features
分类号
TP391.42 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
改进参数控制的可视语音合成方法
4
作者
刘学杰
赵晖
机构
新疆大学信息科学与工程学院
出处
《计算机工程与设计》
北大核心
2017年第4期989-995,共7页
基金
国家自然科学基金项目(61261037
61561047)
文摘
传统单音素对音节内部和音节之间的协同发音影响采用相同处理方法,为此,分析音节内部和音节之间两种不同协同发音现象对可视语音合成的不同影响,提出一种改进参数控制的可视语音合成方法。针对不同音节,不改变元、辅音视位峰值处权值函数的幅度及其变化速度参数,仅修改元、辅音的时间参数,使修改后的元、辅音视位参数能更好地模拟真实音节发音过程中发音器官的动态变化特征。实验结果表明,改进方法能有效地解决音节内协同发音的问题,改善了可视语音合成的质量。
关键词
可视语音合成
参数控制
维吾尔语
视位
协同发音
Keywords
visual speech synthesis
monophone parameter control
Uyghur
viseme
coarticulation
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
可视语音合成技术的3D通信关键技术研究
5
作者
王文敏
李胜辉
机构
中移在线服务有限公司
出处
《单片机与嵌入式系统应用》
2021年第11期42-46,共5页
文摘
针对3D通信中人物模型面部表情难以控制、音频和动作数据同步性较差的问题,本研究基于可视语音合成技术的3D通信平台,用户终端对接收到的数据进行人物化表达,通过虚拟人物模型的肢体动作和面部表情传递情感和意图。基于OpenGL工具开发,将纹理展开图作为映射材质,提高了虚拟人物模型的真实性。实验结果显示,本研究输出的语音数据正确率最高可达到99%,面部模型的动作数据与真实运动数据最为接近。
关键词
3D通信
可视语音合成
网格抽象化
音频切割
OPENGL
Keywords
3D communication
visual speech synthesis
grid abstraction
audio cutting
OpenGL
分类号
TP37 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于可视语音的英语发音辅导系统
6
作者
许芹
机构
华东师范大学教育信息技术学系
出处
《电脑与电信》
2006年第10期50-54,共5页
文摘
发音问题是初学英语的一大难题。在我国这样的非英语环境中,很多小学生课后缺少专业老师辅导,极易出现英语发音障碍。本文设计开发了一个基于可视语音的英语发音辅导系统EP Tutor,模拟一个卡通家教的脸部动画,生动亲切的为学生一对一辅导英语发音。本文重点讨论了系统设计理念、系统架构、部分关键功能的详细设计以及关键技术的实现。
关键词
英语发音
音位
视位
文本一
可视语音合成
Keywords
english pronunciation
phoneme
viseme
text-to-visual speech
分类号
TP393.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于MPEG-4的融合多元素的三维人脸动画合成方法
被引量:
7
7
作者
尹宝才
王恺
王立春
机构
北京工业大学计算机学院多媒体与智能软件北京市重点实验室
出处
《北京工业大学学报》
EI
CAS
CSCD
北大核心
2011年第2期266-271,共6页
基金
国家自然科学基金资助项目(60825203
U0935004
+2 种基金
60973057
61070117)
北京市教育委员会科技发展计划面上项目(KM200710005023)
文摘
为了实时合成真实感的可视语音,提出了一种融合口型、表情等多种运动元素的三维人脸动画合成方法.以MPEG-4人脸动画标准为基础,建立了汉语音节口型库和人脸基本表情库,通过在人脸动画参数上对共同影响面部运动的多种元素进行加权融合,合成出最终的动画序列.实验结果表明,该方法有效融合了面部运动的多种元素,同时具有真实感和实时性的优点.
关键词
人脸动画
可视语音合成
表情
合成
MPEG-4
Keywords
facial animation
visual speech synthesis
expression synthesis
MPEG-4
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
三维语音动画聊天室的设计与实现
被引量:
1
8
作者
王洵
张道义
董兰芳
万寿红
机构
中国科学技术大学计算机科学技术系
出处
《计算机工程与应用》
CSCD
北大核心
2004年第1期106-108,共3页
基金
安徽省自然科学基金(编号:01042203)
文摘
聊天室是人们在网上交流的一种重要手段,由于硬件设备、网络带宽的限制,目前广泛使用的聊天室只能基于文本和语音,不能基于人脸形象。以已经实现的“一个基于SAPI5.0的中文语音动画系统”为基础,设计并实现了一个结合文本、语音和人脸动画的三维语音动画聊天室。聊天室由客户端和服务器两部分组成,多个用户利用客户端连接到服务器上,用户可以输入文本并且选择各种表情,由客户端混合成带有表情标签的文本传送给服务器。服务器将该用户的三维人脸模型以及带有表情标签的文本传送给接收方,由接收方的客户端合成为带有表情的语音动画。聊天室只有发送方第一次给接收方传送信息时才需要下载人脸模型,以后只传送带有表情标签的文本,具有计算方法简单、系统通信开销小的特点,在普通微机上就能够产生带有表情的高质量的语音动画。
关键词
语音
动画
聊天室
可视语音合成
ACTIVEX
WINSOCK
Keywords
Speech Animation,Chat-room,V isual Text-To-Speech,ActiveX,WINSOCK
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于视频三音子的汉语双模态语料库的建立
被引量:
6
9
作者
赵晖
林成龙
唐朝京
机构
国防科技大学电子科学与工程学院
出处
《中文信息学报》
CSCD
北大核心
2009年第5期98-103,共6页
基金
"十一五"武器装备预研项目(51329060101)
文摘
为实现可视语音合成和双模态语音识别,需要建立符合条件的双模态语料库。该文提出了一种汉语双模态语料库的建立方法。根据视频中唇部发音特征,对已有的三音子模型聚类,形成视频三音子。在视频三音子的基础上,利用评估函数对原始语料中的句子打分,并实现语料的自动选取。与其他双模态语料库相比,该文所建立的语料库在覆盖率、覆盖效率和高频词分布律有了较大改进,能够更加真实反映汉语中的双模态语言现象。
关键词
计算机应用
中文信息处理
可视语音合成
双模态语料
视频三音子
评估函数
Keywords
computer application
Chinese information processing
visual speech synthesis
bimodal speech recognition
himodal corpus
visual triphone
evaluation function
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于视频三音子的双模态语料自动选取算法
被引量:
2
10
作者
赵晖
林成龙
唐朝京
机构
国防科技大学电子科学与工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第17期1-3,共3页
基金
国家部委预研基金资助项目
文摘
为实现可视语音合成,建立符合条件的双模态语料库,提出双模态语料自动选取算法。根据视频中唇部发音特征,对已有的三音子模型归类,形成视频三音子,在其基础上从原始语料中自动选取语料,利用评估函数对原始语料中的句子打分。与其他双模态语料库相比,该语料库在覆盖率等指标上有较大改进,为实现具有真实感的可视语音合成奠定基础。
关键词
可视语音合成
双模态语料
视频三音子
评估函数
Keywords
visual speech synthesis
bimodal corpus
visual triphone
evaluation function
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
实时语音驱动的虚拟说话人
被引量:
2
11
作者
李冰锋
谢磊
周祥增
付中华
张艳宁
机构
西北工业大学计算机学院
出处
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2011年第9期1180-1186,共7页
基金
国家自然科学基金青年基金资助项目(60802085)
国家自然科学基金面上项目(61175018)
+1 种基金
陕西省科技计划青年科技新星项目(2011KJXX29)
陕西省自然科学基础研究计划(2011JM8009)
文摘
该文实现了一个实时语音驱动的虚拟说话人面部动画方案。随着语音信号的输入,同步生成对应的面部动画。这种实时语音驱动的虚拟说话人在可视电话、虚拟会议、音视频聊天等即时通讯与娱乐媒体领域具有巨大的应用潜力。由于音素是最小的可分发音单元,因此构建音素识别器,对输入语音信号进行实时音素识别。为提高语音与口型的同步效果,改进了音素识别与输出算法。考虑协同发音影响,利用动态视素生成算法,将识别得到的音素转化为对应的面部动画参数序列。最后用参数序列驱动按照MPEG-4面部动画标准参数化的3-D头部模型,实现面部动画的同步生成。主观MOS评测结果表明:本文所实现的实时语音驱动虚拟说话人在的同步性和逼真度上的MOS评分分别达到了3.42和3.50。
关键词
可视语音合成
虚拟说话人
面部动画
Keywords
visual speech synthesis
talking avatar
facial animation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于数据驱动方法的汉语文本-可视语音合成(英文)
王志明
蔡莲红
艾海舟
《软件学报》
EI
CSCD
北大核心
2005
16
下载PDF
职称材料
2
基于可视语音合成的3D通信技术研究
杨志晓
隋菲
张德贤
《计算机应用研究》
CSCD
北大核心
2009
3
下载PDF
职称材料
3
基于汉语视频三音素的可视语音合成
赵晖
唐朝京
《电子与信息学报》
EI
CSCD
北大核心
2009
0
下载PDF
职称材料
4
改进参数控制的可视语音合成方法
刘学杰
赵晖
《计算机工程与设计》
北大核心
2017
0
下载PDF
职称材料
5
可视语音合成技术的3D通信关键技术研究
王文敏
李胜辉
《单片机与嵌入式系统应用》
2021
0
下载PDF
职称材料
6
基于可视语音的英语发音辅导系统
许芹
《电脑与电信》
2006
0
下载PDF
职称材料
7
基于MPEG-4的融合多元素的三维人脸动画合成方法
尹宝才
王恺
王立春
《北京工业大学学报》
EI
CAS
CSCD
北大核心
2011
7
下载PDF
职称材料
8
三维语音动画聊天室的设计与实现
王洵
张道义
董兰芳
万寿红
《计算机工程与应用》
CSCD
北大核心
2004
1
下载PDF
职称材料
9
基于视频三音子的汉语双模态语料库的建立
赵晖
林成龙
唐朝京
《中文信息学报》
CSCD
北大核心
2009
6
下载PDF
职称材料
10
基于视频三音子的双模态语料自动选取算法
赵晖
林成龙
唐朝京
《计算机工程》
CAS
CSCD
北大核心
2009
2
下载PDF
职称材料
11
实时语音驱动的虚拟说话人
李冰锋
谢磊
周祥增
付中华
张艳宁
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2011
2
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部