-
题名基于BERT的端到端语音合成方法
被引量:10
- 1
-
-
作者
安鑫
代子彪
李阳
孙晓
任福继
-
机构
合肥工业大学计算机与信息学院
合肥工业大学情感计算与先进智能机器安徽省重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2022年第4期221-226,共6页
-
基金
国家自然科学基金联合资助项目(U1613217)
安徽省重点研究与开发计划项目(202004d07020004)
中央高校基本科研业务专项资金(JZ2020YYPY0092)。
-
文摘
针对基于RNN的神经网络语音合成模型训练和预测效率低下以及长距离信息丢失的问题,提出了一种基于BERT的端到端语音合成方法,在语音合成的Seq2Seq架构中使用自注意力机制(Self-Attention Mechanism)取代RNN作为编码器。该方法使用预训练好的BERT作为模型的编码器(Encoder)从输入的文本内容中提取上下文信息,解码器(Decoder)采用与语音合成模型Tacotron2相同的架构输出梅尔频谱,最后使用训练好的WaveGlow网络将梅尔频谱转化为最终的音频结果。该方法在预训练BERT的基础上通过微调适配下游任务来大幅度减少训练参数和训练时间。同时,借助其自注意力(Self-Attention)机制还可以并行计算编码器中的隐藏状态,从而充分利用GPU的并行计算能力以提高训练效率,并能有效缓解远程依赖问题。与Tacotron2模型的对比实验表明,文中提出的模型能够在得到与Tacotron2模型相近效果的基础上,把训练速度提升1倍左右。
-
关键词
语音合成
循环神经网络
Seq2Seq
WaveGlow
注意力机制
-
Keywords
Speech synthesis
Recurrent neural network(RNN)
Seq2Seq
WaveGlow
Attention mechanism
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名样本线性化与数据去重的极限学习机
- 2
-
-
作者
张灿
代子彪
安鑫
李建华
-
机构
合肥工业大学计算机与信息学院
-
出处
《智能计算机与应用》
2021年第7期24-31,共8页
-
基金
国家自然科学基金青年基金(61402145,61673156)。
-
文摘
对于多标签分类中存在非线性的数据样本和重复的样本数据问题,本文提出了一种基于在线顺序极限学习机(On⁃line Sequential Extreme Learning Machine,OS-ELM)的改进算法—样本线性化和数据预处理极限学习机(PDC-ELM)。PDC-ELM算法对线性不可分的数据样本先利用核函数进行处理,使数据样本具有线性可分的特征,对于处理后的数据样本,利用在线顺序极限学习机(OS-ELM)在计算之前对分类数据进行预处理,即从训练和测试数据集中查找不一样的特征标签并保存类标签中,实验中新生成的标签组将不具有重复的特征标签,大大减少了训练的对比次数。实验表明,相比于其他没有样本线性化和数据预处理的极限学习机模型,计算的准确度得到很大的提升,计算时间也有所降低。
-
关键词
极限学习机
核函数
多标签分类
多标签数据
支持向量机
-
Keywords
extreme learning machine
kernel function
multi-label classification
multi-label data
support vector machine
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-