-
题名基于空间域和频率域特征融合的场景文本识别
被引量:3
- 1
-
-
作者
霍华骑
陆璐
-
机构
华南理工大学计算机科学与工程学院
鹏城实验室
-
出处
《计算机科学》
CSCD
北大核心
2023年第S02期36-43,共8页
-
基金
广东省重点领域研究计划(2022B0101070001)。
-
文摘
对于小样本语言无关场景的文本识别,现有的方法往往面临鲁棒性低和泛化能力差的问题。针对这一问题,一方面,在特征提取阶段,提出了基于空间域和频率域特征融合的双流网络结构,其包含一个提取空间域特征的深度残差卷积网络分支,以及提取频率域特征的一维快速傅里叶变换和浅层神经网络分支,接着使用通道注意力机制融合这两种特征。另一方面,在序列建模阶段,针对语言无关场景的特点,提出一种多尺度一维卷积模块用来代替双向长短期记忆网络。然后结合现有的TPS矫正模块和CTC解码器搭建完整模型。训练过程中采用了迁移学习的方法,先在大型英文数据集上进行预训练,后在目标数据集上进行微调。在文中整理的两个小样本语言无关数据集上的实验结果表明,所提模型在准确率上优于现有的模型,验证了其在该场景下的具有较高的鲁棒性和泛化能力;此外,在语言相关场景的5个基准数据集上的相关实验(不用微调)表明,使用文中所述特征提取模块的方法优于对比的基线方法,证明了所提出的双流特征融合网络的有效性和通用性。
-
关键词
深度学习
场景文本识别
双流网络
频率域分支
小样本
-
Keywords
Deep learning
Scene text recognition
Dual-stream network
Frequency domain branch
Few-shot
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于双流网络结构的深度伪造人脸的检测方法
被引量:2
- 2
-
-
作者
李颖
边山
王春桃
黄琼
-
机构
华南农业大学数学与信息学院
广州市智慧农业重点实验室
广东省信息安全技术重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2022年第S02期558-566,共9页
-
基金
国家自然科学基金(61702199,62172165,61872152)
广东省基础与应用基础研究重大项目(2019B030302008)
+1 种基金
广东省信息安全技术重点实验室开放基金(2020B1212060078-07)
广州市科技计划项目(202102020582,201902010081)
-
文摘
深度伪造技术(Deepfake)是一种基于生成对抗网络(Generative Adversarial Networks,GAN)的深度网络模型,可以利用源和目标人脸生成高度逼真且难以鉴别的人脸视频。如果不法分子借此技术制造虚假视频并在互联网上传播谣言,将会侵犯个人肖像权,造成不良的社会影响,甚至引发严重的司法纠纷。面对深度伪造技术带来的严重威胁,国内外众多研究机构高度关注深度伪造检测技术的研究并提出了若干检测方法。现有的检测方法在高质量视频上可以取得良好的检测效果,然而日常应用中的视频通常会通过社交软件从而被压缩为低质量视频,在此类低质量数据集中,现有的大多数伪造人脸检测方法的准确率有着明显的下降,并且现有方法在跨库情况下的检测性能也不够理想。文中针对现有工作的局限性,提出了一种注意力机制下基于Xception模型的双流网络结构。该网络结构中包含了使用多重注意力机制的RGB分支,以及用于捕捉低质量视频伪影效应的频率域分支。通过研究发现,真实图像与伪造图像之间的微小差别更多地集中在局部位置,因此多重注意力机制下的RGB分支将使得模型关注人脸的不同区域,并在注意力图的指导下得到由低层纹理特征及高层语义特征聚合的全局特征。频率域分支引入离散余弦变换作为频域变换手段,为图像提供与RGB分支互补的特征表示,此分支能够反映细微的伪造痕迹或者压缩误差。为了验证该网络结构的有效性,所提算法在FaceForensics++,Celeb-DF以及DFDC 3个公开数据集上进行了大量对比实验。实验结果表明,所提算法在低质量视频集上的性能优于现有的检测算法,并且所提模型在跨库场景下具有更好的检测性能,即验证了文中提出的注意力机制下的RGB和频率域双流特征的结合可以提高检测模型在低质量视频集及跨库情形下的鲁棒性。
-
关键词
深度伪造
视频取证
双流网络
注意力机制
RGB分支
频率域分支
-
Keywords
Deepfake
Video forensics
Dual stream network
Attention mechanism
RGB branch
Frequency branch
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-