-
题名基于分层联邦框架的音频模型生成技术研究
- 1
-
-
作者
王健宗
张旭龙
姜桂林
程宁
肖京
-
机构
平安科技(深圳)有限公司
湖南财信金融控股集团有限公司
-
出处
《智能系统学报》
CSCD
北大核心
2024年第5期1331-1339,共9页
-
基金
广东省重点领域研发计划“新一代人工智能”重大专项(2021B0101400003).
-
文摘
针对音频模型,围绕下一代音频生成技术研究,构建联邦音频模型训练框架,面向超大规模音频数据进行音频表征学习,为音频下游任务提供高效鲁棒的解决方案。提出一种适用于音频模型的联邦学习框架,解决数据异构性、通信效率、隐私保护等问题;提出一种基于对比学习的音频模型的预训练方法,利用<音频,文本描述>数据学习语义特征,提高模型的泛化能力和多样化能力;提出一种基于提示学习的音频生成微调方法,利用少量标注数据提高模型的适应能力和定制化能力;提出一种音频模型分布式优化算法进行模型压缩,降低模型的复杂度和资源消耗,提高模型的部署效率和运行效率。通过在下游任务音效转换上的实验,提出的方法在语音质量平均意见得分可以达到3.81。实验结果表明,该方法在音效转换任务上取得了良好的效果。
-
关键词
音频模型
联邦学习框架
音频表征学习
数据异构性
隐私保护
对比学习
提示学习
模型压缩
-
Keywords
audio model
federated learning framework
audio representation learning
data heterogeneity
privacy protection
contrastive learning
prompt learning
model compression
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-