-
题名基于语音生成和发音模型的语音合成新方法的探讨
被引量:2
- 1
-
-
作者
俞振利
程伯中
-
机构
浙江大学信息与电子工程系
香港中文大学电子工程系
-
出处
《声学学报》
EI
CSCD
北大核心
2000年第5期455-462,共8页
-
基金
本文研究获国家自然科学基金!(项目编号:69972046)
浙江省自然科学基金!(项目编号:698076)资助。
-
文摘
提出基于语音生成模型和发音模型RTLA合成模式实现以共振峰轨迹为目标的语音合成的新方法。该方法采用了基于发音声学原理的反射型传输线模型来实现语音合成器。用于控制合成器的声道面积函数参数由以三个共振峰轨迹为目标的语音生成逆向解获得。该方法不仅可以得到动态过渡和自然度好的合成语音,能够方便灵活地控制或改变语音音色,合成器所需的输入控制参数少,参数更新率低。
-
关键词
语音生成
发音模型
语音合成
-
Keywords
Acoustic generators
Inverse problems
Models
Speech processing
Trajectories
-
分类号
H017
[语言文字—语言学]
-
-
题名基于可视化发音模型的语音训练研究
被引量:10
- 2
-
-
作者
智娜
李爱军
-
机构
首都师范大学外国语学院
中国社会科学院语言研究所
-
出处
《外国语》
CSSCI
北大核心
2020年第1期59-74,共16页
-
基金
北京市社会科学基金项目“英语语音教学中的可视化发音训练研究”(17YYC023)
教育部人文社会科学研究项目“方言区英语学习者的发音生理研究与可视化的语音教学应用”(18YJC740150)
国家社科基金重大项目“中国方言区英语学习者语音习得机制的跨学科研究”(15ZDB103).
-
文摘
本研究利用电磁发音仪对元音的发音生理特征进行了分析和探讨,并基于3D的发音生理模型进行了可视化的语音训练研究。本文汇报了两项实验的研究结果,其中实验1通过EMA分别记录了中国英语学习者、美国标准发音人和英国标准发音人在英语元音发音时的舌运动特征。并从发音生理的角度,对比了学习者和美、英本族语者的元音发音差异,并对影响可懂度的学习者的问题元音,如/■/、/I/、/■/等提供了纠正型的发音反馈意见。实验2对比了两组受试分别使用音频和可视化的3D发音模型进行国际音标学习的效果。两次测试结果均显示,使用3D发音模型的受试小组在元音、辅音和声调的得分要高于使用音频的受试小组的得分,表明可视化的3D发音模型比音频更有助于学习者的语音学习。本文的研究结果对可视化的发音训练模式融入语音课堂具有一定的推动意义。
-
关键词
电磁发音仪
发音生理
可视化
3D发音模型
-
Keywords
EMA
physiological articulation
visualized
3D articulatory model
-
分类号
H017
[语言文字—语言学]
-
-
题名基于发音轨迹的可视语音合成
被引量:1
- 3
-
-
作者
郑红娜
白静
王岚
朱云
-
机构
太原理工大学信息工程学院山西太原
中国科学院深圳先进技术研究院广东深圳
-
出处
《计算机应用与软件》
CSCD
北大核心
2013年第6期253-257,261,共6页
-
文摘
着眼于语音可视化。为呈现真实说话人各发音器官的运动,提出一种改进的CM协同发音模型,并采用该方法合成汉字的发音轨迹,进而以此驱动和控制虚拟3D音视频说话人头模型,直观呈现通常可见及不可见发音器官的发音运动。实验证明:由改进方法获得的合成发音轨迹更逼近真实发音轨迹。同时,为了定量比较舌读和唇读在语音感知和识别中的作用,设计三组感知实验,实验结果显示:叠加了唇读信息的感知识别率较单纯的加噪语音的识别率提高了25.8%;而叠加了舌读信息的识别率较单纯听觉信息的识别率提高了26.7%。因此,当语音恶化时,舌读信息可提供大于唇读信息的补充作用,且舌读信息与唇读信息一样具有识别力。
-
关键词
语音可视化
CM协同发音模型
改进的CM协同发音模型
舌读
唇读
-
Keywords
Speech visualisation
CM co-articulation model
Modified
CM co-articulation model
Tongue reading
Lip reading
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名基于发音易混淆模型的发音质量评价算法
- 4
-
-
作者
黄双
李婧
王洪莹
杨军
张波
-
机构
南开大学软件学院
-
出处
《计算机应用》
CSCD
北大核心
2006年第S2期287-289,293,共4页
-
文摘
提出了一种新的评价英语发音质量的算法。该算法采用基于隐马尔科夫模型(HMM)的语音识别技术,引入各音素对应的发音易混淆模型(PronunciationConfusionModel),定义段时长归一化的相似度比例对数为各音素的发音质量分数,并综合得到整句发音的评分结果。该算法降低了不同发音人对评分准确性的影响,提高了系统的稳健性。实验证明,在实验室自行采集的非母语语音数据库上,该算法评分与专家评分的相关性达到了0.700,明显优于其他评分算法。
-
关键词
相似度比例对数
发音易混淆模型
发音质量分数
语音识别
-
分类号
TN912.3
[电子电信—通信与信息系统]
-
-
题名汉语三维发音动作合成和动态模拟
被引量:1
- 5
-
-
作者
郑红娜
朱云
王岚
陈辉
-
机构
中国科学院深圳先进技术研究院集成所环绕智能实验室
太原理工大学信息工程学院
中国科学院软件研究所
-
出处
《集成技术》
2013年第1期23-28,共6页
-
基金
国家自然科学基金项目(NSFC61135003
NSFC90920002)
中国科学院知识创新工程项目(KJCXZ-YW-617)
-
文摘
本文以帮助聋儿言语康复为出发点,从聋儿音频发音数据中获得了聋儿易错发音文本以及聋儿易混淆发音文本对。设计了一个数据驱动的3D说话人头发音系统,该系统以EMA AG500设备采集的发音动作为驱动数据,逼真模拟了汉语的发音,从而可使聋儿观察到说话人嘴唇及舌头的运动情况,辅助聋儿发音训练,纠正易错发音。最后对系统的性能进行了人工评测,结果表明:3D说话人头发音系统可以有效地模拟说话人发音时口腔内外器官的发音动作。此外,本文还用基于音素的CM协同发音模型合成的方法,合成了聋儿易错发音文本的发音动动作,并用RMS度量了合成发音动作与真实发音动作的误差,得到了均值为1.25mm的RMS误差值。
-
关键词
聋儿易错发音文本
3D说话人头
CM协同发音模型
电磁发音动作采集仪(EMA)
DIRICHLET
Free-Form
Deformation
(DFFD)算法
-
Keywords
hearing loss children’s fallible pronunciation texts
3D talking head
CM co-articulation model
electromagnetic articulography (EMA)
Dirichlet Free-Form Deformation (DFFD) algorithm
-
分类号
TN912.3
[电子电信—通信与信息系统]
-
-
题名混合口音语音识别中的声学和语音层发音变异性研究
- 6
-
-
作者
张超
刘轶
-
机构
清华信息科学技术国家实验室技术创新与开发部语音和语言技术中心
清华大学计算机科学与技术系
-
出处
《中国科技论文在线》
CAS
2011年第10期743-749,共7页
-
基金
高等学校博士学科点专项科研基金资助项目(20090002120012)
-
文摘
通过在语音层使用多发音字典对完全发音变异进行建模,在声学层分别使用上下文无关部分变异音子模型(partial change phone model,PCPM)对部分发音变异进行建模,从而探究了语音层和声学层发音变异模型的特征、区别和联系,并将它们整合到语音识别系统的不同部分中,实现了对发音变异的分层处理。应用分层发音变异模型,对带方言口音汉语普通话朗读语音进行测试,提高了识别结果。最好情况下,应用多发音字典使音节准确率提高了1.24%;应用上下文无关PCPM使音节的准确率提高了9.7%。分别使用带有重庆、广州和上海口音的普通话进行实验,从实验结果对汉语不同方言口音之间发音变异的区别和关联进行了分析。
-
关键词
电信技术
口音语音识别
完全变异
部分变异
分层发音变异模型
-
Keywords
accented speech recognition
complete change
partial change
multi-layered pronunciation variation model
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名汉语语音同步的三维口型动画研究
被引量:3
- 7
-
-
作者
米辉辉
侯进
李克豹
甘凌云
-
机构
西南交通大学信息科学与技术学院
南京大学计算机软件新技术国家重点实验室
-
出处
《计算机应用研究》
CSCD
北大核心
2015年第4期1244-1247,共4页
-
基金
国家自然科学基金面上项目(61371165)
浙江大学CAD&CG国家重点实验室开放课题(A1416)
+1 种基金
计算机软件新技术国家重点实验室开放课题基金资助项目(KFKT2013B22)
四川省动漫研究中心2012年度科研项目(DM201204)
-
文摘
针对汉语的发音习惯以及语音可视化技术中对口型动画自然、连续的要求,提出了一种基于肌肉模型与协同发音模型的与语音保持同步的口型动画的方法。首先,根据汉语发音时的口型视位特征将声、韵母音素归类,并用数据映射的方式合成与之对应的口型关键帧。通过分析输入的文本信息,合成与语音保持同步的三维人脸口型动画。为了解决汉语发音习惯的问题,设计了一种基于微分几何学描述的协同发音建模的方法,该方法通过分析相邻音子间视素的影响权重,可以产生符合汉语发音习惯的口型动画。最后,通过实验对比和分析,该方法产生的口型动画更为逼真,且符合汉语发音的习惯。
-
关键词
语音可视化
协同发音模型
口型动画
语音动画
-
Keywords
speech visualization
coarticulation model
lip animation
speech animation
-
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]
-
-
题名腭音与腭化音
被引量:5
- 8
-
-
作者
张慧丽
段海凤
陈保亚
-
机构
鲁东大学文学院
中央民族大学少数民族语言文学系
北京大学中国语言文学系
-
出处
《语言研究》
CSSCI
北大核心
2018年第1期54-62,共9页
-
基金
国家社科基金重大项目"基于中国语言及方言的语言接触类型和演化建模研究"(14ZBD102)
国家社会科学基金项目"基于交叉验证的汉语语体计量研究"(16BYY110)
-
文摘
围绕腭音与腭化音产生的一些分歧,包括语音特征、定义、分类和表征方案等,其主要根源是从被动发音部位来定义和区分腭音类。从主动发音器官模型出发,腭音类可以表征为舌冠和舌体的组合活动。这个方案可以给分散在国际音标表不同子表中的龈后音[(50)],龈腭音[?]、硬腭音[(34)]和腭化音[s(41)]、[x(41)]一个统一的表征和有效的内部区分,还能简明的表达世界语言中普遍存在、又表现各异的各种腭化现象。
-
关键词
腭音
腭化音
主动发音器官模型
发音动作
-
Keywords
Palatal
Palatalization
Active Articulator Model
Articulatory Gesture
-
分类号
H016
[语言文字—语言学]
-