题名 采用表示分离自编码器的任意说话人语音转换
1
作者
简志华
章子旭
机构
杭州电子科技大学通信工程学院
出处
《通信学报》
EI
CSCD
北大核心
2024年第2期162-172,共11页
基金
国家自然科学基金资助项目(No.61201301,No.61772166)。
文摘
针对非平行语料库下任意说话人之间的语音转换存在语言内容信息和说话人个性特征难以分离,从而导致语音转换的性能不佳的问题,提出了一种采用表示分离自编码器的语音转换方法RSAE-VC。该方法将语音信号的说话人个性特征视为时不变,而将内容信息视为时变,利用编码器中的实例归一化和激活引导层将两者进行分离,再由解码器将源语音的内容信息与目标语音的个性特征进行合成,从而生成转换后的语音。实验结果表明,RSAE-VC在梅尔倒谱距离上比现有的AGAIN-VC转换方法平均降低了3.11%,在基音频率均方根误差上降低了2.41%,MOS分和ABX值分别提升了5.22%和8.45%。RSAE-VC方法通过自内容损失进行约束使语音更好地保留内容信息,通过自说话人损失将说话人个性特征更好地从语音中分离,可以确保说话人个性特征尽少地遗留在内容信息中,从而提高语音转换性能。
关键词
语音转换
表示分离
自适应实例归一化
自内容损失
自说话人损失
Keywords
voice conversion
representation separation
adaptive instance normalization
self-content loss
selfspeaker loss
分类号
TP391.42
[自动化与计算机技术—计算机应用技术]
题名 基于CLIP和双空间自适应归一化的图像翻译
2
作者
李田芳
普园媛
赵征鹏
徐丹
钱文华
机构
云南大学信息学院
云南省高校物联网技术及应用重点实验室
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第5期229-240,共12页
基金
国家自然科学基金(61163019,61271361,61761046,U1802271,61662087,62061049)
云南省科技厅项目(2014FA021,2018FB100)
+2 种基金
云南省科技厅应用基础研究计划重点项目(202001BB050043,2019FA044)
云南省重大科技专项计划项目(202002AD080001)
云南省中青年学术技术带头人后备人才(2019HB121)。
文摘
现有的图像翻译方法大多依赖数据集域标签来完成翻译任务,这种依赖往往限制了它们的应用范围。针对完全无监督图像翻译任务的方法能够解决域标签的限制问题,但是普遍存在源域信息丢失的现象。为了解决上述2个问题,提出一种基于对比学习语言-图像预训练(CLIP)的无监督图像翻译模型。首先,引入CLIP相似性损失对图像的风格特征施加约束,以在不使用数据集域标签的情况下增强模型传递图像风格信息的能力和准确性;其次,对自适应实例归一化(AdaIN)进行改进,设计一个新的双空间自适应归一化(DSAdaIN)模块,在特征的风格化阶段添加网络的学习和自适应交互过程,以加强对内容源域信息的保留;最后,设计一个鉴别器对比损失来平衡对抗网络损失的训练和优化过程。在多个公开数据集上的实验结果表明,与Star GANv2、Style DIS等模型相比,该模型可在准确传递图像风格信息的同时保留一定的源域信息,且在定量评估指标FID分数和KID分数上分别提升了近3.35和0.57×102,实现了较好的图像翻译性能。
关键词
图像翻译
生成对抗网络
对比学习语言-图像预训练模型
自适应实例归一化
对比学习
Keywords
image-to-image translation
Generative Adversarial Networks(GAN)
Contrastive Language-Image Pre-training(CLIP)model
adaptive instance normalization (adain )
contrastive learning
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于字形感知和注意力归一化的字体迁移
3
作者
吕文锐
普园媛
赵征鹏
徐丹
钱文华
机构
云南大学信息学院
云南省高校物联网技术及应用重点实验
出处
《计算机科学》
CSCD
北大核心
2023年第S01期398-403,共6页
基金
国家自然科学基金(62162068,61271361,61761046,62061049)
云南省应用基础研究面上项目(2018FB100)
云南省科技厅应用基础研究计划重点项目(202001BB050043,2019FA044)。
文摘
字体迁移是一项十分具有挑战性的任务,其目的是将目标字体通过某种映射方式迁移到源字体,以实现字体的变换。现有的方法在字体迁移方面的鲁棒性有限,突出表现为对生成字体结构完整性的保持较差,尤其是当两种不同种类的字体差别较大时。针对这些问题,提出了一种端到端的字体迁移网络框架模型。该模型引入了注意力归一化以更好地提取字形图像的高级语义特征,从而提高生成图像的质量。此外,使用自适应实例归一化进行字体特征和内容特征融合,以实现字体的转换。在保持字形结构完整性方面,设计了感知损失和上下文损失来约束字形结构的生成。为了稳定GAN网络的训练,在对抗损失函数的设计中加入了正则化项。为了验证该模型的有效性,实验采用FET-GAN中公开的数据集进行了多组训练和测试,并与FET-GAN,CycleGAN和StarGANv2进行了对比。实验结果表明,该模型能够在给定的多个字体域之间实现相互的字体迁移,并且其迁移的效果和模型泛化能力与其他工作相比均具有一定的优势。
关键词
字体迁移
自适应实例归一化
注意力归一化
上下文损失
感知损失
Keywords
Font transfer
adaptive instance normalization
Attentive normalization
Context loss
Perception loss
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于无监督学习的单样本红外图像生成方法
4
作者
易星
潘昊
赵怀慈
杨斌
机构
沈阳化工大学信息工程学院
中国科学院光电信息技术处理重点实验室
中国科学院沈阳自动化研究所
出处
《红外》
CAS
2023年第6期19-26,共8页
基金
装备预研重点项目(41401040105)。
文摘
针对当前可见光-红外图像数据集匮乏导致的模型特征学习能力不够以及生成图像质量低下等问题,提出了单样本的无监督学习方法来训练红外图像生成模型。首先,在数据集难以获取、匮乏的情况下,仅采用一对可见光-红外图像作为模型训练的数据,降低了数据获取的难度,解决了数据匮乏的问题。其次,为了在训练模型时充分提取图像特征,改进了网络结构。实验数据表明,本文方法能够在单样本图像生成中取得较好的效果。在艾睿光电数据集中,本文方法的峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)与结构相似性(Structural Similarity, SSIM)指标分别达到了26.5588 dB和0.8846;在俄亥俄州立大学(Ohio State University, OSU)数据集上的PSNR和SSIM分别达到了30.3528 dB和0.9182。与基于风格的生成对抗网络(Style-based Generative Adversarial Network, StyleGAN)方法相比,本文方法在艾睿光电数据集上的PSNR和SSIM指标分别提高了16.07%和23.78%;在OSU数据集上的PSNR和SSIM指标分别提高了31.8%和40.4%。结果表明,本文方法在当前图像质量评价指标方面有较为明显的提高,生成的红外图像纹理细节丰富且接近于真实红外图像。该研究对于今后的红外图像生成技术优化具有一定的参考意义。
关键词
无监督学习
红外图像生成
adain 归一化模块
少样本数据
Keywords
unsupervised learning
infrared image generation
adaptive instance normalization module
few sample data
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 选择性传输与铰链对抗的多图像域人脸属性迁移
被引量:1
5
作者
林泓
陈壮源
任硕
李琳
李玉强
机构
武汉理工大学计算机科学与技术
出处
《计算机工程》
CAS
CSCD
北大核心
2022年第4期179-190,共12页
基金
国家社会科学基金(15BGL048)。
文摘
在基于生成对抗网络的人脸属性迁移过程中,存在图像域表达形式单一、图像域迁移细节失真的问题。提出一种结合选择性传输单元与铰链对抗损失的多图像域人脸属性迁移方法。在生成器中,利用自适应实例归一化融合图像的内容信息与图像域控制器生成的样式信息,增加图像域表达方式的多样性,同时通过选择性传输单元将下采样提取的内容特征根据相对属性标签选择性地传输到上采样,形成融合特征以增强图像的细节信息。在判别器中,通过增加双尺度判别,协同鉴定人脸图像的真伪及类别,从而提高判定的准确度。在此基础上,设计融合相对鉴别和铰链损失的对抗损失函数,增强真伪图像域之间的联系。在CelebA数据集上的实验结果表明,与StarGAN、STGAN等主流的多图像域人脸属性迁移方法相比,该方法能够建立更准确的多图像域映射关系,提高迁移图像的质量同时增加迁移图像表达的多样性。
关键词
生成对抗网络
多图像域属性迁移
自适应实例归一化
选择性传输单元
相对属性标签
域控制器
双尺度判别
Keywords
Generative Adversarial Network(GAN)
attribute migration across multiple image domains
adaptive instance normalization
Selective Transfer Units(STU)
relative attributes label
domain controller
dual-scale discrimination
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于参考图语义匹配的花卉线稿工笔效果上色算法
6
作者
李媛
陈昭炯
叶东毅
机构
福州大学计算机与大数据学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2022年第6期1271-1285,共15页
基金
国家自然科学基金项目(61672158)
福建省自然科学基金项目(2018J01798)。
文摘
研究基于参考图像的花卉线稿图的工笔效果上色问题.现有的基于参考图像的线稿图上色算法对工笔花卉画特有的色彩渐变的特点难以学习和模拟;此外通常还要求参考图像与线稿图具有相似的几何布局结构,这也限制了算法的适用性,故而直接采用现有算法难以实现线稿图的工笔效果上色.基于条件生成对抗网(conditional generative adversarial network,CGAN)框架,提出了一种将参考图像与线稿图进行语义匹配的花卉线稿图工笔效果上色算法RBSM-CGAN.该算法在网络结构设计方面,以U型网络(简称U-Net)为生成器基础,设计了2个附加子模块:1)语义定位子模块.该模块预训练了一个语义分割网络,以生成花卉线稿图的语义标签图,该标签图编码后作为自适应实例归一化的仿射参数引入到上色模型中,提升对不同语义区域的识别能力,进而提高颜色定位的准确性.2)颜色编码子模块.该模块提取参考图像的颜色特征,而后将该特征拼接到生成网络解码层的前3层,利用这种方式将颜色信息注入上色模型,与语义定位模块相配合加强算法对渐变色的学习和模拟.另外,算法在网络训练方面改变传统的“工笔花卉原作-花卉线稿图”数据对的训练方式,通过打乱原作的几何结构等摄动操作生成原作摄动图,采用“原作摄动图-花卉线稿图”数据对进行网络训练,降低了模型对原作空间几何结构的依赖性,提升了算法的适用性.实验结果表明:该算法对用户选择的参考图像的颜色语义具有正确的响应,所引入的“语义定位+颜色编码”的结构设计提升了对渐变色的模拟效果,实现了在不同参考图像指导下的花卉线稿图的工笔效果上色,可快速生成多样化的上色结果.
关键词
工笔花卉上色
语义匹配
条件生成对抗网络
语义分割网络
自适应实例归一化
Keywords
meticulous flower coloring
semantic matching
conditional generative adversarial network(CGAN)
semantic segmentation network
adaptive instance normalization
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 沙尘图像色彩恢复及增强卷积神经网络
被引量:1
7
作者
石争浩
刘春月
任文琦
都双丽
赵明华
机构
西安理工大学计算机科学与工程学院
中山大学网络空间安全学院
出处
《中国图象图形学报》
CSCD
北大核心
2022年第5期1493-1508,共16页
基金
国家自然科学基金项目(61872290)。
文摘
目的在沙尘天气条件下,由于大气中悬浮微粒对入射光线的吸收和散射,户外计算机视觉系统所采集图像通常存在颜色偏黄失真和低对比度等问题,严重影响户外计算机视觉系统的性能。为此,提出一种带色彩恢复的沙尘图像卷积神经网络增强方法,由一个色彩恢复子网和一个去尘增强子网组成。方法采用提出的色彩恢复子网(sand dust color correction,SDCC)校正沙尘图像的偏色,将颜色校正后的图像作为条件,输入到由自适应实例归一化残差块组成的去尘增强子网中,对沙尘图像进行增强处理。本文还提出一种基于物理光学模型的沙尘图像合成方法,并采用该方法构建了大规模的配对沙尘图像数据集。结果对大量沙尘图像的实验结果表明,所提出的沙尘图像增强方法能很好地去除图像中的偏色和沙尘,获得正常的视觉颜色和细节清晰的图像。进一步的对比实验表明,该方法能取得优于对比方法的增强图像。结论本文所提出的沙尘图像增强方法能很好地消除整体的黄色色调和尘霾现象,获得正常的视觉色彩和细节清晰的图像。
关键词
沙尘图像
沙尘图像增强
颜色校正
自适应实例归一化残差块
合成沙尘图像数据集
Keywords
sand dust image
sand dust image enhancement
color correction
adaptive instance normalization residual block
synthetic sand dust image dataset
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]