-
题名融合多情感的语音驱动虚拟说话人生成方法
- 1
-
-
作者
李帅帅
何向真
张跃洲
王嘉欣
-
机构
西北民族大学语言与文化计算教育部重点实验室
西北民族大学甘肃省民族语言文化智能信息处理重点实验室
-
出处
《计算机应用研究》
CSCD
北大核心
2024年第8期2546-2553,共8页
-
基金
国家自然科学基金资助项目(62341209)
甘肃省教育教学成果培育项目(2023GSJXCGPY-60)
中央高校基本科研业务费专项资金资助项目(31920230054)。
-
文摘
虚拟说话人生成是人工智能领域的一个重要研究方向,旨在通过计算机生成具有逼真语音的虚拟说话人。然而,现有方法往往忽视情绪表达、生成的人脸图像面部细节缺乏真实感,限制了虚拟说话人的表现能力和交互性。为解决这一问题,提出一种基于Transformer的生成对抗网络(generative adversarial network,GAN)方法,用于生成具有不同情绪的虚拟说话人(GANLTB)。该方法基于GAN架构,生成器采用Transformer模型处理语音和图像特征,结合情绪条件信息和潜在空间向量,生成带有指定情绪的语音和图像。判别器用于评估生成结果的真实性,并提供梯度信号指导生成器训练。通过引入双三次插值法,进一步提升了虚拟说话人生成的图像质量,使得虚拟说话人的面部细节更加清晰可见,表情更加自然和生动。使用情感多样性数据集(CREMA-D)验证了该方法,通过主观评估和客观指标,评估了生成的语音和图像的情绪表达能力和质量。实验结果表明,该方法能够生成具有多样化和逼真情绪表达的虚拟说话人。相比目前其他先进方法,所提方法在流畅度和逼真度等细节上都更加清晰,带来了更好的真实感。
-
关键词
虚拟说话人
生成对抗网络
TRANSFORMER
多情感表达
语音驱动
-
Keywords
virtual speaker
GAN
Transformer
multi-emotion expression
voice-driven
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-