针对当前的图像字幕方法只能够用一种黑盒的、从外部难以控制的架构描述图像的问题。创造性地将图像字幕问题转换为seq2seq问题,达到了可控生成图像字幕的效果。设计一个由图像区域构成的实体集合或实体序列作为控制信号,在实体块切换...针对当前的图像字幕方法只能够用一种黑盒的、从外部难以控制的架构描述图像的问题。创造性地将图像字幕问题转换为seq2seq问题,达到了可控生成图像字幕的效果。设计一个由图像区域构成的实体集合或实体序列作为控制信号,在实体块切换的块哨兵和带视觉哨兵的自适应注意力机制的指导下,将控制信号有规律地输入到双层的长短期记忆网络(long short term memory,LSTM)中,以可控的方式指导模型生成对应的图像字幕;此外,baseline使用cross entropy loss来早停模型的训练,引入强化学习思想来解决训练时的优化目标与评估算法效果时指标不一致的问题,进一步优化模型效果。实验表明:在MSCOCO及Flickr30k数据集上,提出的算法在生成可控图像字幕、字幕质量、多样性上达到了非常好的效果。展开更多
文摘针对当前的图像字幕方法只能够用一种黑盒的、从外部难以控制的架构描述图像的问题。创造性地将图像字幕问题转换为seq2seq问题,达到了可控生成图像字幕的效果。设计一个由图像区域构成的实体集合或实体序列作为控制信号,在实体块切换的块哨兵和带视觉哨兵的自适应注意力机制的指导下,将控制信号有规律地输入到双层的长短期记忆网络(long short term memory,LSTM)中,以可控的方式指导模型生成对应的图像字幕;此外,baseline使用cross entropy loss来早停模型的训练,引入强化学习思想来解决训练时的优化目标与评估算法效果时指标不一致的问题,进一步优化模型效果。实验表明:在MSCOCO及Flickr30k数据集上,提出的算法在生成可控图像字幕、字幕质量、多样性上达到了非常好的效果。