期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
由粗到精的高保真单目三维人脸重建
1
作者 景圣恩 高添 +3 位作者 陶应诚 彭梦昊 侍亚东 王冠 《计算机科学与应用》 2024年第4期255-267,共13页
针对现有单目三维人脸重建方法在细节刻画和身份信息保持方面的不足,本文提出了一种由粗到精的三维人脸重建框架。该框架首先利用从二维人脸图片中提取的特征参数生成初始三维人脸模型,并设计多尺度身份特征提取器捕获个性化特征。然后... 针对现有单目三维人脸重建方法在细节刻画和身份信息保持方面的不足,本文提出了一种由粗到精的三维人脸重建框架。该框架首先利用从二维人脸图片中提取的特征参数生成初始三维人脸模型,并设计多尺度身份特征提取器捕获个性化特征。然后,通过自适应加权策略筛选对重建任务最具贡献的特征信息。在精细重建阶段,本文关注人脸的几何细节重建,将身份和表情编码融入几何细节生成网络中,以生成具有特定身份和表情信息的几何细节。最后,利用可微分渲染器将三维人脸模型渲染为二维人脸图像,进行自监督训练。在CelebA和AFLW2000-3D数据集上的实验结果表明,本文提出的框架能够从单幅图像中重建出更加真实、自然且具有高度个性化特征的三维人脸模型,在细节刻画和身份信息保持方面均优于现有方法,具有广阔的应用前景。 展开更多
关键词 三维人脸重建 三维形变模型 自监督学习 人脸渲染
下载PDF
基于时空Transformer的端到端的视频注视目标检测
2
作者 彭梦昊 王冠 +1 位作者 徐浩 景圣恩 《图像与信号处理》 2024年第2期190-209,共20页
注视目标检测旨在定位人的注视目标。HGTTR的提出,将Transformer结构用于注视目标检测的任务中,解决了卷积神经网络需要额外的头部探测器的问题,实现了端到端的对头部位置和注视目标的同时检测,并且实现了优于传统的卷积神经网络的性能... 注视目标检测旨在定位人的注视目标。HGTTR的提出,将Transformer结构用于注视目标检测的任务中,解决了卷积神经网络需要额外的头部探测器的问题,实现了端到端的对头部位置和注视目标的同时检测,并且实现了优于传统的卷积神经网络的性能。然而,目前的方法在视频数据集上的性能还有较大提升空间。原因在于,当前的方法侧重于在单个视频帧中学习人的注视目标,没有对视频中的时间变化进行建模,所以无法解决动态注视、镜头失焦、运动模糊等问题。当一个人的注视目标在不断的发生变化时,缺乏时间变化建模可能会导致定位注视目标偏离人的真实注视目标。并且由于缺乏对于时间维度上的建模,模型无法解决因为镜头失焦和运动模糊等问题所导致的特征缺失。在这项工作当中,我们提出了一种基于时空Transformer的端到端的视频注视目标检测模型。首先,我们提出帧间局部可变形注意力机制,用于处理特征缺失的问题。其次,我们在可变形注意力机制的基础上,提出帧间可变形注意力机制,利用相邻视频帧的时序差异,动态选择采样点,从而实现对于动态注视的建模。最后,我们提出了时序Transformer来聚合由当前帧和参考帧的注视关系查询向量和注视关系特征。我们的时序Transformer包含三个部分:用于编码多帧空间信息的时序注视关系特征编码器,用于融合注视关系查询的时序注视关系查询编码器以及用于获取当前帧检测结果的时序注视关系解码器。通过对于单个帧空间、相邻帧间以及帧序列三个维度的时空建模,很好的解决了视频数据中常见的动态注视、镜头失焦、运动模糊等问题。大量实验证明,我们的方法在VideoAttentionTarget和VideoCoAtt两个数据集上均取得了较为优异的性能。 展开更多
关键词 注视目标检测 TRANSFORMER 可变形注意力 时序变化建模
下载PDF
一致性对比采样网络的弱监督时序动作定位
3
作者 陶应诚 黎鑫 +2 位作者 徐浩 王冠 景圣恩 《计算机科学与应用》 2024年第2期183-199,共17页
弱监督时序动作定位使用视频级标签,不需要高成本的动作实例标签,具有重要的研究价值。弱监督时序动作定位的难点在于,视频中的前景片段被淹没在背景片段中,难以得到精确的前景样本用于训练模型。关注于分析背景和前景片段在时间类激活... 弱监督时序动作定位使用视频级标签,不需要高成本的动作实例标签,具有重要的研究价值。弱监督时序动作定位的难点在于,视频中的前景片段被淹没在背景片段中,难以得到精确的前景样本用于训练模型。关注于分析背景和前景片段在时间类激活序列上的差异,提出一致性对比采样网络。该网络使用多头注意力模块来增强行为特征。为了缓解前景样本被背景样本干扰的问题,该网络设计了易混淆样本的随机采样策略,用于学习前景采样的提议分布。为了促进前景分布的收敛,该网络联合考虑多阶段的前景采样规则,设计多阶段一致性采样模块。此外,针对前景和背景过渡区域的前景样本和背景样本较为相似,难以区分的问题,该网络设计对比采样模块,并联合考虑多阶段一致性采样,用于挖掘出困难前景样本,并使用对比学习优化困难前景样本的特征。在THUMOS 14和Activity v1.3数据集上进行实验验证。实验结果表明,提出的方法达到现有弱监督时序动作定位方法的性能。 展开更多
关键词 时序动作定位 弱监督方法 一致性前景采样 对比采样
下载PDF
基于时空采样的视频行为识别
4
作者 王冠 彭梦昊 +2 位作者 陶应诚 徐浩 景圣恩 《人工智能与机器人研究》 2024年第2期300-312,共13页
视频特征包含了行为执行时的时间、空间冗余信息。该信息和行为类别无关,会干扰行为识别,造成行为类别的错误判断。本文提出了一种基于时空采样的视频行为识别模型。模型包括关键帧采样和Token采样的视频Transformer。关键帧采样过程,... 视频特征包含了行为执行时的时间、空间冗余信息。该信息和行为类别无关,会干扰行为识别,造成行为类别的错误判断。本文提出了一种基于时空采样的视频行为识别模型。模型包括关键帧采样和Token采样的视频Transformer。关键帧采样过程,通过量化相邻帧间的像素差异,识别出包含显著变化的关键帧,累积多个连续帧的更新概率处理两个关键帧间的可能存在的长时间间隔,引入一个可训练的采样概率阈值从而将更新概率二值化,增强对于关键帧的建模能力。因此该过程保证了视频关键信息的获取。本文认为不同的Token对识别任务的重要性会有所不同,因此在时空Transformer块中,本文采用一种数据依赖的Token采样策略,通过分层减少Token的数量有效降低空间冗余信息,同时也减少了模型计算量。最终通过全连接层完成视频行为识别。实验在ActivityNet-v1.3、Mini-Kinetics数据集上进行验证。实验表明,本文基于时空采样的视频行为识别方法,具有较小计算量的同时,能够达到现有行为识别方法的准确率。 展开更多
关键词 视频行为识别 时空采样 视频Transformer
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部