-
题名基于多分支结构的不确定性局部通道注意力机制
被引量:5
- 1
-
-
作者
伍邦谷
张苏林
石红
朱鹏飞
王旗龙
胡清华
-
机构
天津大学智能与计算学部
中汽数据(天津)有限公司
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2022年第2期374-382,共9页
-
基金
国家自然科学基金(No.61806140,No.61925602,No.61876127,No.61732011)。
-
文摘
近几年的研究表明视觉注意力机制是提升深层卷积神经网络性能的有效途径.然而,现有的视觉注意力方法更多地致力于建模所有卷积通道之间的相关性,在一定程度上限制了模型的计算效率.此外,这些方法尚未明确考虑相关性建模过程中不确定性带来的影响,缺少对注意力机制在泛化能力和稳定性方面的探索.为解决上述问题,提出了一种多分支局部通道注意力模块(Multi-Branch Local Channel Attention,MBLCA).通过建模通道之间的局部相关性学习各个通道的权重,提升了模型的计算效率.并采用蒙特卡洛(Monte Carlo,MC)Dropout近似的深度贝叶斯学习方法对局部通道注意力模块进行不确定性建模,从而得到一个多分支的局部通道注意力模块.提出的MBLCA模块可以灵活地应用于各种深层卷积神经网络架构中,与同类型的工作相比,嵌入MBLCA模块的ResNet-50网络结构在ImageNet-1K和MS COCO数据集上分别取得了2.58%的分类精度提升和1.9%的AP提升.
-
关键词
通道注意力机制
不确定性
多分支结构
深层卷积神经网络
-
Keywords
channel attention mechanism
uncertainty
multi-branch structure
deep convolutional neural networks
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多阶信息融合的行为识别方法研究
被引量:9
- 2
-
-
作者
张冰冰
葛疏雨
王旗龙
李培华
-
机构
大连理工大学信息与通信工程学院
天津大学智能与计算学部
-
出处
《自动化学报》
EI
CAS
CSCD
北大核心
2021年第3期609-619,共11页
-
基金
国家自然科学基金(61971086,61806140,61471082)资助。
-
文摘
双流卷积神经网络能够获取视频局部空间和时间特征的一阶统计信息,测试阶段将多个视频局部特征的分类器分数平均作为最终的预测.但是,一阶统计信息不能充分建模空间和时间特征分布,测试阶段也未考虑使用多个视频局部特征之间的更高阶统计信息.针对这两个问题,本文提出一种基于二阶聚合的视频多阶信息融合方法.首先,通过建立二阶双流模型得到视频局部特征的二阶统计信息,与一阶统计信息形成多阶信息.其次,将基于多阶信息的视频局部特征分别进行二阶聚合,形成高阶视频全局表达.最后,采用两种策略融合该表达.实验表明,本文方法能够有效提高行为识别精度,在HMDB51和UCF101数据集上的识别准确率比双流卷积神经网络分别提升了8%和2:1%,融合改进的密集点轨迹(Improved dense trajectory,IDT)特征之后,其性能进一步提升.
-
关键词
行为识别
双流卷积神经网络
多阶信息融合
二阶聚合
-
Keywords
Human action recognition
two-stream convolutional neural network
multi-order information fusion
second-order aggregation
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于循环神经网络的散焦图像去模糊算法
被引量:2
- 3
-
-
作者
程文涛
任冬伟
王旗龙
-
机构
天津大学智能与计算学部
哈尔滨工业大学计算机科学与技术学院
-
出处
《计算机应用研究》
CSCD
北大核心
2022年第7期2203-2209,共7页
-
基金
国家自然科学基金资助项目(62172127,61801326)。
-
文摘
近年来,基于深度学习的运动模糊去除算法得到了广泛关注,然而单幅散焦图像去模糊算法鲜有研究。为针对性地解决单幅图像的散焦模糊问题,提出一种基于循环神经网络的散焦图像去模糊算法。首先级联两个残差网络,分别完成散焦图估计和图像去模糊;随后,为了保证散焦图和清晰图像的深度特征可以更好地跨阶段传播以及阶段内相互作用,在残差网络中引入LSTM(long short-term memory)循环层;最后,整个残差网络进行了多次迭代,迭代过程中网络参数共享。为了训练网络,制作了一个合成散焦图像数据集,每一张散焦图像都包含对应的清晰图像和散焦图。实验结果表明,该算法相较于对比算法在主客观图像质量评价上均有显著优势,在复原结果中具有更锐利的边缘和清晰的细节。对于真实双像素图像散焦模糊数据集DPD,该算法相比DPDNet-Single在峰值信噪比(PSNR)和结构相似性(SSIM)上分别提高了0.77 dB、5.6%,因此所提方法可以有效处理真实场景散焦模糊。
-
关键词
图像去模糊
散焦模糊
散焦图估计
循环神经网络
-
Keywords
image deblurring
defocus blur
defocus map estimation
recurrent neural network
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名视觉弱监督学习研究进展
被引量:9
- 4
-
-
作者
任冬伟
王旗龙
魏云超
孟德宇
左旺孟
-
机构
哈尔滨工业大学
天津大学
北京交通大学
西安交通大学
-
出处
《中国图象图形学报》
CSCD
北大核心
2022年第6期1768-1798,共31页
-
基金
科技创新2030——“新一代人工智能”重大项目(2021ZD0112100)
国家自然科学基金项目(62172127,U19A2073)。
-
文摘
视觉理解,如物体检测、语义和实例分割以及动作识别等,在人机交互和自动驾驶等领域中有着广泛的应用并发挥着至关重要的作用。近年来,基于全监督学习的深度视觉理解网络取得了显著的性能提升。然而,物体检测、语义和实例分割以及视频动作识别等任务的数据标注往往需要耗费大量的人力和时间成本,已成为限制其广泛应用的一个关键因素。弱监督学习作为一种降低数据标注成本的有效方式,有望对缓解这一问题提供可行的解决方案,因而获得了较多的关注。围绕视觉弱监督学习,本文将以物体检测、语义和实例分割以及动作识别为例综述国内外研究进展,并对其发展方向和应用前景加以讨论分析。在简单回顾通用弱监督学习模型,如多示例学习(multiple instance learning,MIL)和期望—最大化(expectation-maximization,EM)算法的基础上,针对物体检测和定位,从多示例学习、类注意力图机制等方面分别进行总结,并重点回顾了自训练和监督形式转换等方法;针对语义分割任务,根据不同粒度的弱监督形式,如边界框标注、图像级类别标注、线标注或点标注等,对语义分割研究进展进行总结分析,并主要回顾了基于图像级别类别标注和边界框标注的弱监督实例分割方法;针对视频动作识别,从电影脚本、动作序列、视频级类别标签和单帧标签等弱监督形式,对弱监督视频动作识别的模型与算法进行回顾,并讨论了各种弱监督形式在实际应用中的可行性。在此基础上,进一步讨论视觉弱监督学习面临的挑战和发展趋势,旨在为相关研究提供参考。
-
关键词
弱监督学习
目标定位
目标检测
语义分割
实例分割
动作识别
-
Keywords
weakly supervised learning
object localization
object detection
semantic segmentation
instance segmentation
action recognition
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-