-
题名基于正反上下文语义对齐融合的多模态文本摘要模型
- 1
-
-
作者
陈中峰
陆振宇
荣欢
-
机构
南京信息工程大学人工智能学院
-
出处
《中文信息学报》
CSCD
北大核心
2024年第4期108-119,共12页
-
基金
国家自然科学基金(U20B2061,62102187)
江苏省自然科学基金(基础研究计划)(BK20210639)。
-
文摘
该文基于序列到序列的神经网络,提出了使用文本语义信息和图片语义信息对多模态文本摘要生成任务进行建模。具体而言,使用文本一级编码器和带有图片信息指导的二级门控编码器对多模态语义信息进行编码,对齐文本与图片的语义信息。通过多模态正向注意力机制与反向注意力机制多方面观察对齐后的源文本与图片内容,分别得到各自模态语义信息的正相关和不相关特征表示。使用正向滤波器过滤正向注意力机制中的不相关信息,使用反向滤波器过滤反向注意力机制中的相关信息,达到分别从正向与反向两个方面选择性地融合文本语义信息和图片语义信息的目的。最后基于指针生成网络,使用正相关信息搭建正向指针、使用不相关信息搭建反向指针,生成带有多模态语义信息补偿的文本摘要内容。在京东中文电子商务数据集上,所提模型生成的多模态文本摘要在ROUGE-1、ROUGE-2、ROUGE-L指标上分别取得了38.40、16.71、28.01的结果。
-
关键词
多模态文本摘要
多模态信息对齐
二级门控编码机制
文本生成模型
-
Keywords
multi-modal text summarization
multi-modal alignment
secondary gated encoding
text-generation model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名红外与可见光图像特征引导融合的电力线检测方法
- 2
-
-
作者
张关应
束云豪
赵宇嘉
候姝斌
李庆武
-
机构
国网江苏省电力有限公司常州供电分公司
河海大学信息科学与工程学院
-
出处
《应用科技》
CAS
2024年第5期66-72,共7页
-
基金
国网江苏省电力有限公司孵化项目(JF2023012)。
-
文摘
针对无人机输电线路巡检中航拍图像背景复杂、电力线不显著、检测难度大、分割精度低的问题,提出一种红外与可见光图像特征引导融合的电力线检测方法。首先利用双路编码器进行电力线特征提取,然后提出一种模态信息对齐模块对图像进行特征对齐,并利用全局上下文融合模块挖掘语义信息以提升模态相关性,最后在高级语义信息的引导下进行特征融合,对图像进行像素细节信息上的恢复。相比传统的可见光图像电力线检测算法,红外与可见光图像特征引导融合的电力线检测方法显著提升了电力线检测精度,更适用于复杂地物背景下的应用场合。
-
关键词
电力线检测
无人机巡检
红外与可见光图像
双模态
模态信息对齐
特征融合
语义引导
全局上下文
-
Keywords
power line detection
drone inspection
infrared and visible images
dual modality
modal information alignment
feature fusion
semantic guidance
global context
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-