-
题名韵律增强型汉语语音合成系统
- 1
-
-
作者
牛芳
吾守尔·斯拉木
-
机构
新疆大学信息科学与工程学院
新疆多语种信息技术实验室
新疆多语种信息技术研究中心
-
出处
《现代电子技术》
2022年第13期87-92,共6页
-
基金
国家自然科学基金资助项目:维吾尔语汉语语音翻译系统关键技术研究(U1603262)
-
文摘
端到端语音合成(TTS)系统可以直接根据给定的字素或音素序列生成语音。当前主流的端到端语音合成系统可以为英语生成近似于人类声音的语音。然而,中文的文本不同于这类以罗马字母为基础的语言(如英语),直接将端到端语音合成框架应用于汉语时,合成音频存在较为严重的韵律问题,如断句或停顿不恰当、自然度差等。为此,结合汉语的语言特性和韵律特性,提出一种神经网络端到端韵律增强型汉语语音合成系统,该系统使用从预训练Bert模型中提取的多层次上下文特征增强端到端汉语语音合成系统的输入。在汉语语音合成公开数据集上的实验结果表明,与当前主流的端到端语音合成系统相比,该韵律增强型汉语语音合成系统可以生成更加自然且富有表现力的语音。
-
关键词
文语转换
语音合成
汉语
韵律增强
Bert模型
TTS
-
Keywords
text⁃to⁃speech
speech synthesis
mandarin
prosody enhancement
Bert model
TTS
-
分类号
TN912.33-34
[电子电信—通信与信息系统]
-
-
题名多尺度富有表现力的汉语语音合成
被引量:1
- 2
-
-
作者
高洁
肖大军
徐遐龄
刘绍翰
杨群
-
机构
南京航空航天大学计算机科学与技术学院
国家电网公司华中分部
-
出处
《数据采集与处理》
CSCD
北大核心
2023年第6期1458-1468,共11页
-
文摘
常见的增强合成语音表现力方法通常是将参考音频编码为固定维度的韵律嵌入,与文本信息一起输入语音合成模型的解码器,从而向语音合成模型中引入变化的韵律信息,但这种方法仅提取了音频整体级别的韵律信息,忽略了字或音素级别的细粒度韵律信息,导致合成语音依然存在部分字词发音不自然、音调语速平缓的现象。针对这些问题,本文提出一种基于Tacotron2语音合成模型的多尺度富有表现力的汉语语音合成方法。该方法利用基于变分自编码器的多尺度韵律编码网络,提取参考音频整体级别的韵律信息和音素级别的音高信息,然后将其与文本信息一起输入语音合成模型的解码器。此外,在训练过程中通过最小化韵律嵌入与音高嵌入之间的互信息,消除不同特征表示之间的相互关联,分离不同特征表示。实验结果表明,该方法与单一尺度的增强表现力语音合成方法相比,听力主观平均意见得分提高了约2%,基频F0帧错误率降低了约14%,该方法可以生成更加自然且富有表现力的语音。
-
关键词
语音合成
神经网络
变分自动编码器
注意力机制
韵律增强
-
Keywords
speech synthesis
neural networks
variational auto-encoder
attention mechanism
prosody enhancement
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-