题名 面向智能驾驶的行人多目标跟踪算法研究
被引量:1
1
作者
闫晨阳
刘宏哲
徐成
李学伟
机构
北京 联合大学北京 市信息服务工程重点实验室
北京 联合大学机器人学院脑与认知智能北京实验室
出处
《计算机工程与应用》
CSCD
北大核心
2023年第15期206-213,共8页
基金
国家自然科学基金(62171042,62102033,61871039,61906017,61802019)
北京市科技重点项目(KZ202211417048)
北京联合大学学术研究项目(BPHR2020DZ02,ZB10202003,ZK40202101,ZK120202104)。
文摘
多目标跟踪(multi-object tracking,MOT)是智能驾驶场景中的一个研究热点,大多数现代MOT网络遵循“逐检测跟踪”范式,跟踪目标的轨迹关联是其中一个急需解决的热点问题。针对场景混乱以及意外的遮挡造成的对象重叠往往会导致遗漏检测,进而增加了数据关联的难度等问题,提出融合注意力机制和无锚框检测的智能驾驶多目标跟踪算法PDTNet。将金字塔分割注意力模块融入深层聚合网络,提高多尺度特征的表示能力;设计一个简单Re-identification模块,将由无锚框检测器获得的目标检测与已有的跟踪轨迹相结合进行多步匹配,实现强鲁棒性的多目标跟踪。实验结果表明,在MOT16、MOT17数据集和BUUISE数据集上验证了算法的有效性,提高了多目标跟踪的检测准确率、关联准确率以及跟踪总精度等,在智能驾驶多目标跟踪场景中有很大应用。
关键词
多目标跟踪
智能驾驶
注意力机制
深层聚合网络
Keywords
multi-object tracking
intelligent driving
attention mechanism
deep aggregation network
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
题名 改进YOLOv5的智慧课堂人脸检测算法
2
作者
钟源
袁家政
李鸿天
刘宏哲
徐成
机构
北京 联合大学
北京 联合大学脑与认知智能北京实验室
北京 开放大学科学技术学院
出处
《计算机工程与应用》
CSCD
北大核心
2024年第11期251-257,共7页
基金
国家自然科学基金(62171042,62102033,62006020)
北京市重点科技项目(KZ202211417048)
+2 种基金
北京市属高等学校高水平科研创新团队建设支持计划项目(BPHR20220121)
北京市自然科学基金(4232026)
协同创新中心(CYXC2203)。
文摘
智慧课堂是人工智能领域热门的应用场景。针对课堂场景下摄像头位置较远且偏,图像中目标存在人脸过小和遮挡导致漏检或错检等问题,提出了一种改进YOLOv5的智慧课堂人脸检测算法YOLOv5-SASA。该算法主要包括三个部分,在backbone层沿用了CSPDarknet53网络,通过在最后的空间池化层中使用BasicRFB模块来有效增强网络的特征提取能力;采用NWD损失函数来提高模型对小目标检测的鲁棒性,同时在head层中引入了独立自注意力机制模块SASA,以解决人脸遮挡的问题,并降低模型的参数量;通过降低中间层通道神经元的数量、调节学习率等方式,对改进的YOLOv5网络进行了优化,以避免模型过拟合。实验结果表明,所提出的方法在WiderFace验证集的easy、medium和hard难度下的效果均优于原网络,分别达到了97.5%、96.3%和86.5%的准确率,能够有效提升课堂场景下人脸检测的精度。
关键词
智慧课堂
人脸检测
YOLOv5
独立自注意力机制
Keywords
smart classroom
face detection
YOLOv5
stand-alone self-attention
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
题名 基于多模态融合的城市道路场景视频描述模型研究
被引量:4
3
作者
李铭兴
徐成
李学伟
刘宏哲
闫晨阳
廖文森
机构
北京 联合大学北京 市信息服务工程重点实验室
北京 联合大学脑与认知智能北京实验室
出处
《计算机应用研究》
CSCD
北大核心
2023年第2期607-611,640,共6页
基金
国家自然科学基金资助项目(62171042,62102033,61906017,61802019)
北京市重点科技项目(KZ202211417048)
+1 种基金
协同创新中心资助项目(CYXC2203)
北京联合大学学术研究项目(BPHR2020DZ02,ZB10202003,ZK40202101,ZK120202104)。
文摘
城市道路视频描述存在仅考虑视觉信息而忽视了同样重要的音频信息的问题,多模态融合算法是解决此问题的方案之一。针对现有基于Transformer的多模态融合算法都存在着模态之间融合性能低、计算复杂度高的问题,为了提高多模态信息之间的交互性,提出了一种新的基于Transformer的视频描述模型多模态注意力瓶颈视频描述(multimodal attention bottleneck for video captioning,MABVC)。首先使用预训练好的I3D和VGGish网络提取视频的视觉和音频特征并将提取好的特征输入到Transformer模型当中,然后解码器部分分别训练两个模态的信息再进行多模态的融合,最后将解码器输出的结果经过处理生成人们可以理解的文本描述。在通用数据集MSR-VTT、MSVD和自建数据集BUUISE上进行对比实验,通过评价指标对模型进行验证。实验结果表明,基于多模态注意力融合的视频描述模型在各个指标上都有明显提升。该模型在交通场景数据集上依旧能够取得良好的效果,在智能驾驶行业具有很大的应用前景。
关键词
视频描述
多模态融合
注意力机制
智能驾驶
Keywords
video caption
multimodal fusion
attention mechanism
intelligent driving
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
题名 基于多分支网络的道路场景实时语义分割方法
4
作者
廖文森
徐成
刘宏哲
李学伟
机构
北京 联合大学北京 市信息服务工程重点实验室
北京 联合大学脑与认知智能北京实验室
出处
《计算机应用研究》
CSCD
北大核心
2023年第8期2526-2530,共5页
基金
国家自然科学基金资助项目(62171042,62102033,62006020)
北京市重点科技项目(KZ202211417048)
+1 种基金
北京市属高等学校高水平科研创新团队建设支持计划项目(BPHR20220121)
协同创新中心资助项目(CYXC2203)。
文摘
针对目前实时语义分割方法存在大目标分割不准确、小目标信息丢失的问题,提出一种基于多分支网络的实时语义分割算法。首先,对双边分割网络进行优化,设计了金字塔分支扩大感受野,以覆盖视野内的大目标,充分地将上下文信息结合起来;其次,设计双边指导融合模块,为深层和浅层的特征映射提供指导信息,弥补小目标信息的损失。最后在Cityscapes数据集上进行验证,实验结果表明所提模型以51.3 fps的推理速度使平均交并比达到77.8%,与基准相比,精度提高了2.5个百分点。所提方法采用金字塔分支,在扩大感受野的同时,获取不同尺度的语义边缘区域特性,增强对语义边界的建模能力,且提出的双边指导融合模块可以更有效地融合不同层次的特征,弥补下采样造成的信息丢失,能够更好地指导模型学习。
关键词
实时语义分割
轻量级
多分支网络
特征融合
Keywords
real-time semantic segmentation
lightweight
multi-path network
feature fusion
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
题名 面向大规模数据的高效超图神经网络
5
作者
吉书仪
魏宇轩
戴琼海
高跃
机构
清华大学软件学院
清华大学自动化系
脑与认知智能北京实验室
北京 信息科学与技术国家研究中心
清华大学脑 与认知 科学研究院
出处
《中国科学:信息科学》
CSCD
北大核心
2024年第4期853-871,共19页
基金
国家自然科学基金(批准号:62021002,62088102)
清华大学自主科研计划(批准号:20227020007)
+1 种基金
北京市自然科学基金(批准号:4222025)
之江实验室开放课题(批准号:2021KG0AB05)资助项目。
文摘
高阶关联广泛存在于现实世界中,如社交网络、生物网络、交通网络等,建模及优化高阶关联对于网络属性研究和演化趋势预测具有重要意义.超图是一种灵活的数据结构,能够自然地建模高阶关联.近年来,随着深度学习的发展,基于超图建模的超图神经网络被广泛应用于面向高阶关联的表示学习.然而,现有的超图神经网络均基于直推学习范式,虽然在小规模超图数据集上取得了不错的效果,但难以应用到大规模数据上,限制了其应用范围.本文首先分析了现有超图神经网络方法在大规模数据上应用的挑战,然后针对该问题提出了面向大规模数据的高效超图神经网络方法(efficient hypergraph neural network,EHGNN).针对现有方法空间、时间复杂度过高的问题,EHGNN分别设计了超图采样模块和基于单阶段超图卷积的计算加速模块,同时降低了超图神经网络的空间开销和时间开销,使得超图神经网络适用于大规模超图数据,显著增强了可扩展性.在4个真实超图数据集上的实验结果验证了EHGNN的有效性和高效性.
关键词
超图计算
超图神经网络
高阶关联
大规模数据
节点分类
Keywords
hypergraph computation
hypergraph neural network
high-order correlation
large-scale data
vertex classification
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
O157.5
[理学—基础数学]