期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于激发和汇聚注意力的扩散模型生成对象的位置控制方法
1
作者 徐劲松 朱明 +1 位作者 李智强 郭世杰 《计算机应用》 CSCD 北大核心 2024年第4期1093-1098,共6页
由于文本的模糊性和训练数据中位置信息的缺失,当前先进的扩散模型无法在文本提示的条件下准确控制生成对象在图像中的位置。针对这一问题,加入对象位置范围的空间条件,并基于U-Net中的交叉注意力图和图像空间布局的强关联性,提出一种... 由于文本的模糊性和训练数据中位置信息的缺失,当前先进的扩散模型无法在文本提示的条件下准确控制生成对象在图像中的位置。针对这一问题,加入对象位置范围的空间条件,并基于U-Net中的交叉注意力图和图像空间布局的强关联性,提出一种注意力引导方法控制注意力图的生成,以控制对象的生成位置。具体地,基于稳定扩散(SD)模型,在U-Net层中的交叉注意力图生成的早期阶段,通过引入损失激发相应位置范围的高注意力值,减小范围外的平均注意力值,并在每一个去噪步骤中逐步优化隐空间中的噪声向量,从而控制注意力图的生成。实验结果表明,所提方法能明显控制一个或多个对象在生成图像中的位置,并在生成多个对象时能减少对象缺失、生成冗余对象和对象融合的现象。 展开更多
关键词 注意力图 扩散模型 位置控制 文本引导 图像生成
下载PDF
双重模态文本引导的图像修复算法
2
作者 李海燕 陈杰 +2 位作者 余鹏飞 李海江 张榆锋 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2023年第10期2547-2557,共11页
为解决现有图像修复算法因缺乏足够的上下文信息导致修复大面积破损时效果差且修复结果不可控的缺陷,提出了双重模态文本引导的图像修复算法。引入文本标签作为修复的控制引导,确保修复结果的整体与区域一致,并增加修复的可控多样性。... 为解决现有图像修复算法因缺乏足够的上下文信息导致修复大面积破损时效果差且修复结果不可控的缺陷,提出了双重模态文本引导的图像修复算法。引入文本标签作为修复的控制引导,确保修复结果的整体与区域一致,并增加修复的可控多样性。设计双重模态掩码注意力机制提取破损区域的语义信息;通过深度文本图像融合模块加深生成器中的文本图像融合过程,并应用图像文本匹配损失最大化生成图像与文本之间的语义相似度;采用投射鉴别器训练生成图像与真实图像增强修复图像的真实性。在2个带有文本标签的数据集上进行定量和定性实验,结果表明:生成的修复图像与引导文本描述一致,可根据不同的文字描述生成多样的结果。 展开更多
关键词 图像修复 文本引导 注意力机制 文本图像融合 图像文本匹配损失
下载PDF
基于图文关联与上下文引导的军事新闻图集描述生成方法
3
作者 梅运红 刘茂福 《计算机工程与科学》 2024年第9期1625-1634,共10页
传统的图像描述生成方法由于缺少现实世界的先验知识,生成的描述文本不具有解释性,同时在某些专业领域生成的描述文本准确性不高。针对上述问题,提出了军事新闻图集描述生成任务,还构建了军事新闻图集数据集。该任务存在2个关键挑战:描... 传统的图像描述生成方法由于缺少现实世界的先验知识,生成的描述文本不具有解释性,同时在某些专业领域生成的描述文本准确性不高。针对上述问题,提出了军事新闻图集描述生成任务,还构建了军事新闻图集数据集。该任务存在2个关键挑战:描述信息来源于整个图集和对应的新闻文本中,模型学习到的语义不够充分。进一步提出了一种基于图文关联与上下文引导的军事新闻图集描述生成方法ITRCG。基于ITRCG实现跨模态信息交互,引导模型学习更完整的语义,并通过标签清理辅助命名实体生成。在构建的军事新闻图集数据集上进行了验证实验,结果表明ITRCG能够有效提高描述文本的质量,在各项评价指标上均取得了提升。 展开更多
关键词 图像描述 图文关联注意力 上下文引导注意力 图集 新闻文本
下载PDF
基于图文双向引导注意力的新闻图集描述生成方法
4
作者 张炫 刘茂福 +1 位作者 邱晨 胡慧君 《武汉大学学报(理学版)》 CAS CSCD 北大核心 2023年第2期223-232,共10页
在传统的图像描述生成任务中,已有方法对图像的描述仅仅停留在浅层,并缺乏真实世界知识的指导,难以挖掘出对象在特定背景下的逻辑语义关系。新闻文本的引入为图像描述带来了新的可能,同时对模型的学习能力有了更高要求;此外,新闻图集中... 在传统的图像描述生成任务中,已有方法对图像的描述仅仅停留在浅层,并缺乏真实世界知识的指导,难以挖掘出对象在特定背景下的逻辑语义关系。新闻文本的引入为图像描述带来了新的可能,同时对模型的学习能力有了更高要求;此外,新闻图集中往往存在多幅图像,且相互之间联系紧密,导致现有单图描述生成方法不适用于新闻图集描述生成。针对上述问题,本文提出了一种基于图文双向引导注意力(image and text bidirectional guidance attention,ITBGA)的新闻图集描述方法,以图集作为研究对象,并辅以对应的新闻文本作为背景知识,基于ITBGA分别实现粗、细两个粒度的跨模态信息交互,并通过指针网络辅助命名实体词生成。在本文构建的新闻图集数据集上进行了实验验证,结果表明ITBGA能有效提升描述文本的质量,在关键的CIDEr指标上达到了最优。 展开更多
关键词 图像描述 图文双向引导注意力 图集 新闻文本
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部