-
题名基于多尺度聚合和共享注意力的注视估计模型
- 1
-
-
作者
施赛龙
方智文
-
机构
南方医科大学生物医学工程学院
广东省医学图像处理重点实验室(南方医科大学)
广东省医学成像与诊断技术工程实验室(南方医科大学)
-
出处
《计算机应用》
CSCD
北大核心
2024年第7期2047-2054,共8页
-
基金
国家自然科学基金资助项目(62371219)
广东省基础与应用基础研究基金资助项目(2023A1515011260)
广州市科技计划项目(202201011672)。
-
文摘
注视估计是从人脸图像中估计3D注视方向的方法,其中与注视直接相关的眼睛细节信息在人脸图像中集中且对注视估计具有显著影响。然而现有的注视估计模型忽略了小尺度的眼睛细节,且容易被图像特征中与注视无关的信息淹没。为此,提出一种基于多尺度聚合和共享注意力的模型以增强特征的表达能力。首先,使用分流自注意力聚合图像中不同尺度的眼睛和人脸信息,并引导模型学习不同尺度对象之间的相关性,以此处理模型对图像中眼睛细节的遗漏问题;其次,通过建立共享注意力来捕获图像之间的共享特征,减少对注视无关特征的关注;最后,结合多尺度聚合和共享注意力,进一步提高注视估计的精度。在公开数据集MPIIFaceGaze、Gaze360、Gaze360_Processed和GAFA-Head上,所提模型的平均角度误差比GazeTR(Gaze TRansformer)降低了5.74%、4.09%、4.82%和10.55%。在Gaze360背对相机的困难图像上,所提模型的平均角度误差比GazeTR降低了4.70%。实验结果表明,所提模型能有效聚合多尺度的注视信息和共享注意力,提高注视估计的准确性和鲁棒性。
-
关键词
注视估计
共享注意力
多尺度聚合
共享特征
计算机视觉
-
Keywords
gaze estimation
shared attention
multi-scale aggregation
shared feature
computer vision
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-