自然场景中的实体标志,如商标、交通标志等,易受拍摄角度、所依附物体形变、尺度变化等影响,导致检测精度降低.为此,提出一种注意力引导的标志检测与识别网络(attention guided logo detection and recognition network,AGLDN),联合优...自然场景中的实体标志,如商标、交通标志等,易受拍摄角度、所依附物体形变、尺度变化等影响,导致检测精度降低.为此,提出一种注意力引导的标志检测与识别网络(attention guided logo detection and recognition network,AGLDN),联合优化模型对多尺度变化和复杂形变的鲁棒性.首先通过标志模板图像搜集及掩码生成、标志背景图像选取和标志图像生成创建标志合成数据集;然后基于RetinaNet和FPN提取多尺度特征并形成高级语义特征映射;最后利用注意力机制引导网络关注标志区域,克服目标变形对特征鲁棒性的影响,实现标志检测与识别.实验结果表明,所提方法可以有效降低尺度变化、非刚性形变的影响,提高标志检测准确率.展开更多
在传统的图像描述生成任务中,已有方法对图像的描述仅仅停留在浅层,并缺乏真实世界知识的指导,难以挖掘出对象在特定背景下的逻辑语义关系。新闻文本的引入为图像描述带来了新的可能,同时对模型的学习能力有了更高要求;此外,新闻图集中...在传统的图像描述生成任务中,已有方法对图像的描述仅仅停留在浅层,并缺乏真实世界知识的指导,难以挖掘出对象在特定背景下的逻辑语义关系。新闻文本的引入为图像描述带来了新的可能,同时对模型的学习能力有了更高要求;此外,新闻图集中往往存在多幅图像,且相互之间联系紧密,导致现有单图描述生成方法不适用于新闻图集描述生成。针对上述问题,本文提出了一种基于图文双向引导注意力(image and text bidirectional guidance attention,ITBGA)的新闻图集描述方法,以图集作为研究对象,并辅以对应的新闻文本作为背景知识,基于ITBGA分别实现粗、细两个粒度的跨模态信息交互,并通过指针网络辅助命名实体词生成。在本文构建的新闻图集数据集上进行了实验验证,结果表明ITBGA能有效提升描述文本的质量,在关键的CIDEr指标上达到了最优。展开更多
文摘自然场景中的实体标志,如商标、交通标志等,易受拍摄角度、所依附物体形变、尺度变化等影响,导致检测精度降低.为此,提出一种注意力引导的标志检测与识别网络(attention guided logo detection and recognition network,AGLDN),联合优化模型对多尺度变化和复杂形变的鲁棒性.首先通过标志模板图像搜集及掩码生成、标志背景图像选取和标志图像生成创建标志合成数据集;然后基于RetinaNet和FPN提取多尺度特征并形成高级语义特征映射;最后利用注意力机制引导网络关注标志区域,克服目标变形对特征鲁棒性的影响,实现标志检测与识别.实验结果表明,所提方法可以有效降低尺度变化、非刚性形变的影响,提高标志检测准确率.
文摘在传统的图像描述生成任务中,已有方法对图像的描述仅仅停留在浅层,并缺乏真实世界知识的指导,难以挖掘出对象在特定背景下的逻辑语义关系。新闻文本的引入为图像描述带来了新的可能,同时对模型的学习能力有了更高要求;此外,新闻图集中往往存在多幅图像,且相互之间联系紧密,导致现有单图描述生成方法不适用于新闻图集描述生成。针对上述问题,本文提出了一种基于图文双向引导注意力(image and text bidirectional guidance attention,ITBGA)的新闻图集描述方法,以图集作为研究对象,并辅以对应的新闻文本作为背景知识,基于ITBGA分别实现粗、细两个粒度的跨模态信息交互,并通过指针网络辅助命名实体词生成。在本文构建的新闻图集数据集上进行了实验验证,结果表明ITBGA能有效提升描述文本的质量,在关键的CIDEr指标上达到了最优。