基于Transformer的通用和鲁棒体素特征学习的目标检测被引量：1

General and robust voxel feature learning with Transformer for 3D object detection

下载PDF

导出

摘要自注意力网络和Transformer主导了机器翻译和自然语言处理领域,并在诸如图像分类和目标检测等图像视觉任务中显示出巨大潜力。受到Transformer在2D图像视觉任务中取得的巨大进步的启发,提出了一种基于传统Transformer的新颖和鲁棒的体素特征编码器。首先,探究自注意力对序列数据的排列不变性,并将其应用于点云数据处理。其次,基于自注意力构造体素特征层,根据体素内所有点之间的空间关系和上下文信息交换自适应地学习体素的局部和鲁棒上下文。最后,构建了以体素特征层为核心的通用3D目标检测框架。VFT(voxel feature learning with Transformer)是通用的体素特征提取器,可以嵌入任何其他基于体素方法的3D物体检测框架中。在KITTI数据集上进行的实验结果表明,本方法在3D目标检测方面表现出优越的性能。 The self-attention networks and Transformer have dominated machine translation and natural language processing fields,and shown great potential in image vision tasks such as image classification and object detection.Inspired by the great progress of Transformer,we propose a novel general and robust voxel feature encoder for 3D object detection based on the traditional Transformer.We first investigate the permutation invariance of sequence data of the self-attention and apply it to point cloud processing.Then we construct a voxel feature layer based on the self-attention to adaptively learn local and robust context of a voxel according to the spatial relationship and context information exchanging between all points within the voxel.Lastly,we construct a general voxel feature learning framework with the voxel feature layer as the core for 3D object detection.The voxel feature with Transformer(VFT)can be plugged into any other voxel-based 3D object detection framework easily,and serves as the backbone for voxel feature extractor.Experiments results on the KITTI dataset demonstrate that our method achieves the state-of-the-art performance on 3D object detection.

作者李阳葛洪伟 LI Yang;GE Hongwei(Jiangsu Provincial Engineering Laboratory of Pattern Recognition and Computational Intelligence, Wuxi 214122, China;School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China)

机构地区江南大学江苏省模式识别与计算智能实验室江南大学人工智能与计算机学院

出处《Journal of Measurement Science and Instrumentation》 CAS CSCD 2022年第1期51-60,共10页 测试科学与仪器（英文版）

基金 National Natural Science Foundation of China(No.61806006) Innovation Program for Graduate of Jiangsu Province(No.KYLX160-781) University Superior Discipline Construction Project of Jiangsu Province。

关键词 3D目标检测自注意力网络基于Transformer的体素特征学习点云编码解码器 3D object detection self-attention networks voxel feature with Transformer(VFT) point cloud encoder-decoder

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

同被引文献4

1孟祥海,郑来,秦观明.基于模糊逻辑的交通事故预测及影响因素分析[J].交通运输系统工程与信息,2009,9(2):87-92. 被引量：24
2郑来,何莎莉.高速公路大区段交通事故预测模型研究[J].公路交通科技,2017,34(7):108-114. 被引量：6
3张志豪,杨文忠,袁婷婷,李东昊,王雪颖.基于LSTM神经网络模型的交通事故预测[J].计算机工程与应用,2019,55(14):249-253. 被引量：30
4李文书,邹涛涛,王洪雁,黄海.基于双尺度长短期记忆网络的交通事故量预测模型[J].浙江大学学报（工学版）,2020,54(8):1613-1619. 被引量：10

引证文献1

1管林涛,黄志强,陈洋.一种基于时空Transformer的交通事故预测方法[J].电脑与信息技术,2022,30(1):8-13.

1肖万新,李华锋,张亚飞,谢明鸿,李凡.多尺度特征学习和边缘增强的医学图像融合[J].激光与光电子学进展,2022,59(6):353-362. 被引量：3
2唐佳敏,韩华,黄丽.行人再识别中基于无监督学习的粗细粒度特征提取[J].计算机工程,2022,48(4):269-275. 被引量：1
3胡璇,邢凯,李亚鸣,王志勇,邓洪武.基于因果干预与不变性的卷积预训练模型优化研究[J].计算机工程,2022,48(4):89-98.
4朱昱,樊航,王鹏,马莞悦,周媛.基于深度对抗丢弃正则化的年龄估计[J].电子测量技术,2022,45(1):145-152.
5刘楠.基于物联网的新型智慧园区应用以及实现[J].现代商贸工业,2022,43(7):28-30. 被引量：5
6赵九霄,刘毅,李国燕.基于改进SSD的视频行人目标检测[J].传感器与微系统,2022,41(1):146-149. 被引量：7
7哈艳,袁伟珵,孟翔杰,田俊峰.基于增强图卷积神经网络的病毒形态识别方法研究[J].中国全科医学,2022,25(14):1749-1756. 被引量：3
8王宁,张江波,高晨珂.基于三维激光扫描的商业广场地面水平沉降测量设计[J].自动化与仪器仪表,2022(3):91-95. 被引量：1
9哈艳,孟翔杰,田俊峰.基于近邻样本联合学习模型的疟疾识别算法[J].河北大学学报（自然科学版）,2022,42(2):208-216.
10本刊编辑部.医学科研论文中阿拉伯数字的使用规则[J].国际肿瘤学杂志,2022,49(3):139-139.

Journal of Measurement Science and Instrumentation

2022年第1期

浏览历史

内容加载中请稍等...

基于Transformer的通用和鲁棒体素特征学习的目标检测被引量：1

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Transformer的通用和鲁棒体素特征学习的目标检测 被引量：1

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Transformer的通用和鲁棒体素特征学习的目标检测被引量：1