期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于空间域和频率域特征融合的场景文本识别 被引量:3
1
作者 霍华骑 陆璐 《计算机科学》 CSCD 北大核心 2023年第S02期36-43,共8页
对于小样本语言无关场景的文本识别,现有的方法往往面临鲁棒性低和泛化能力差的问题。针对这一问题,一方面,在特征提取阶段,提出了基于空间域和频率域特征融合的双流网络结构,其包含一个提取空间域特征的深度残差卷积网络分支,以及提取... 对于小样本语言无关场景的文本识别,现有的方法往往面临鲁棒性低和泛化能力差的问题。针对这一问题,一方面,在特征提取阶段,提出了基于空间域和频率域特征融合的双流网络结构,其包含一个提取空间域特征的深度残差卷积网络分支,以及提取频率域特征的一维快速傅里叶变换和浅层神经网络分支,接着使用通道注意力机制融合这两种特征。另一方面,在序列建模阶段,针对语言无关场景的特点,提出一种多尺度一维卷积模块用来代替双向长短期记忆网络。然后结合现有的TPS矫正模块和CTC解码器搭建完整模型。训练过程中采用了迁移学习的方法,先在大型英文数据集上进行预训练,后在目标数据集上进行微调。在文中整理的两个小样本语言无关数据集上的实验结果表明,所提模型在准确率上优于现有的模型,验证了其在该场景下的具有较高的鲁棒性和泛化能力;此外,在语言相关场景的5个基准数据集上的相关实验(不用微调)表明,使用文中所述特征提取模块的方法优于对比的基线方法,证明了所提出的双流特征融合网络的有效性和通用性。 展开更多
关键词 深度学习 场景文本识别 双流网络 频率域分支 小样本
下载PDF
基于双流网络结构的深度伪造人脸的检测方法 被引量:2
2
作者 李颖 边山 +1 位作者 王春桃 黄琼 《计算机科学》 CSCD 北大核心 2022年第S02期558-566,共9页
深度伪造技术(Deepfake)是一种基于生成对抗网络(Generative Adversarial Networks,GAN)的深度网络模型,可以利用源和目标人脸生成高度逼真且难以鉴别的人脸视频。如果不法分子借此技术制造虚假视频并在互联网上传播谣言,将会侵犯个人... 深度伪造技术(Deepfake)是一种基于生成对抗网络(Generative Adversarial Networks,GAN)的深度网络模型,可以利用源和目标人脸生成高度逼真且难以鉴别的人脸视频。如果不法分子借此技术制造虚假视频并在互联网上传播谣言,将会侵犯个人肖像权,造成不良的社会影响,甚至引发严重的司法纠纷。面对深度伪造技术带来的严重威胁,国内外众多研究机构高度关注深度伪造检测技术的研究并提出了若干检测方法。现有的检测方法在高质量视频上可以取得良好的检测效果,然而日常应用中的视频通常会通过社交软件从而被压缩为低质量视频,在此类低质量数据集中,现有的大多数伪造人脸检测方法的准确率有着明显的下降,并且现有方法在跨库情况下的检测性能也不够理想。文中针对现有工作的局限性,提出了一种注意力机制下基于Xception模型的双流网络结构。该网络结构中包含了使用多重注意力机制的RGB分支,以及用于捕捉低质量视频伪影效应的频率域分支。通过研究发现,真实图像与伪造图像之间的微小差别更多地集中在局部位置,因此多重注意力机制下的RGB分支将使得模型关注人脸的不同区域,并在注意力图的指导下得到由低层纹理特征及高层语义特征聚合的全局特征。频率域分支引入离散余弦变换作为频域变换手段,为图像提供与RGB分支互补的特征表示,此分支能够反映细微的伪造痕迹或者压缩误差。为了验证该网络结构的有效性,所提算法在FaceForensics++,Celeb-DF以及DFDC 3个公开数据集上进行了大量对比实验。实验结果表明,所提算法在低质量视频集上的性能优于现有的检测算法,并且所提模型在跨库场景下具有更好的检测性能,即验证了文中提出的注意力机制下的RGB和频率域双流特征的结合可以提高检测模型在低质量视频集及跨库情形下的鲁棒性。 展开更多
关键词 深度伪造 视频取证 双流网络 注意力机制 RGB分支 频率域分支
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部