面向无人机自主飞行的无监督单目视觉深度估计被引量：6

Unsupervised Monocular Depth Estimation for Autonomous Flight of Drones

导出

摘要针对双目视觉深度估计成本高、体积大以及监督学习需要大量深度图进行训练的问题,为实现无人机在飞行过程中的场景理解,提出一种面向无人机自主飞行的无监督单目深度估计模型。首先,为减小不同尺寸目标对深度估计的影响,将输入的图像进行金字塔化处理;其次,针对图像重构设计一种基于ResNet-50进行特征提取的自编码神经网络,该网络基于输入的左视图或右视图以及生成对应的金字塔视差图,采用双线性插值的方法重构出与其对应的金字塔右视图或左视图;最后为提高深度估计的精度,将结构相似性引入到图像重构损失、视差图一致性损失中,并且联合视差图平滑性损失、图像重构损失、视差图一致性损失作为训练的总损失。实验结果表明,经过在KITTI数据集上的训练,该模型在KITTI和Make3D数据集上相比其他单目深度估计方法具有更高的准确性和实时性,基本满足无人机自主飞行对深度估计准确性和实时性的要求。 This study proposes an unsupervised monocular depth estimation model for autonomous drone flight to overcome the limitations of high cost and large size in binocular depth estimation and a large number of depth maps required for training in supervised learning.The model first processes the input image into a pyramid shape to reduce the impact of different target sizes on the depth estimation.In addition,the neural network of the automatic encoder used for image reconstruction is designed based on ResNet-50,which is capable of feature extraction.The corresponding right or left pyramid images are subsequently reconstructed by the bilinear sampling method based on the left or right input images,and corresponding pyramid disparity map is generated.Finally,the training loss could be assessed as the combination of the disparity smoothness loss,image reconstruction loss based on the structural similarity,and the loss of disparity consistency.Experimental results indicate that the model is more accurate and timely on KITTI and Make3D compared with other monocular depth estimation methods.When trained on KITTI,the model essentially meets the accuracy requirements and real-time necessities for autonomous drone flight depth estimation.

作者赵栓峰黄涛许倩耿龙龙 Zhao Shuanfeng;Huang Tao;Xu Qian;Geng Longlong(College of Mechanical Engineering,Xi′an University of Science and Technology,X'ian,Shaanxi 710054,China)

机构地区西安科技大学机械工程学院

出处《激光与光电子学进展》 CSCD 北大核心 2020年第2期137-146,共10页 Laser & Optoelectronics Progress

基金陕西省自然科学基金(2017JM5029) 西安市科技计划项目(CXY2017079CG/RC042)。

关键词图像处理无监督自编码神经网络图像重构单目深度估计 image processing non-supervision neural network of automatic encoder image reconstruction monocular depth estimation

分类号 TN219 [电子电信—物理电子学]

引文网络
相关文献

参考文献8

1李耀宇,王宏民,张一帆,卢汉清.基于结构化深度学习的单目图像深度估计[J].机器人,2017,39(6):812-819. 被引量：11
2许路,赵海涛,孙韶媛.基于深层卷积神经网络的单目红外图像深度估计[J].光学学报,2016,36(7):188-197. 被引量：26
3顾婷婷,赵海涛,孙韶媛.基于金字塔型残差神经网络的红外图像深度估计[J].红外技术,2018,40(5):417-423. 被引量：5
4廖斌,李浩文.基于多孔卷积神经网络的图像深度估计模型[J].计算机应用,2019,39(1):267-274. 被引量：8
5袁建中,周武杰,潘婷,顾鹏笠.基于深度卷积神经网络的道路场景深度估计[J].激光与光电子学进展,2019,56(8):171-179. 被引量：7
6何通能,尤加庚,陈德富.基于DenseNet的单目图像深度估计[J].计算机测量与控制,2019,27(2):233-236. 被引量：3
7鲍振强,李艾华,崔智高,袁梦.深度学习在视觉定位与三维结构恢复中的研究进展[J].激光与光电子学进展,2018,55(5):62-70. 被引量：2
8毕天腾,刘越,翁冬冬,王涌天.基于监督学习的单幅图像深度估计综述[J].计算机辅助设计与图形学学报,2018,30(8):1383-1393. 被引量：15

二级参考文献33

1Saxena A, Chung S H, Ng A Y. 3-D depth reconstruction from a single still image[J]. International Journal of Computer Vision, 2008, 76(1): 53-69.
2Horn B K P. Obtaining shape from shading information[M]. New York: MIT Press, 1989: 123-171.
3Saxena A, Chung S H, Ng A Y. Learning depth from single monocular images [C]. Advances in Neural Information Processing Systems, 2005: 1161-1168.
4Saxena A, Sun M, Ng A Y. Make 3D: Learning 3D scene structure from a single still image[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(5): 824-840.
5Saxena A, Schulte J, Ng A Y. Depth estimation using monocular and stereo cues [C] . International Joint Conference on Artificial Intelligence, 2007: 2197-2203.
6Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C] Advances in Neural Information Processing Systems, 2012 : 1106-1114.
7Karpathy A, Toderici G, Shetty S, et ai. Large-scale video classification with convolutional neural networks[C] . IEEE Conference on Computer Vision and Pattern Recognition, 2014: 1725-1732.
8Liang M, Hu X. Recurrent convolutional neural network for object recognition[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2015: 3367-3375.
9Lee S C, Nevatia R. Extraction and integration of window in a 3D building model from ground view images [C]. IEEE Computer Conference on Computer Vision and Pattern Recognition, 2004: 113-120.
10Liu L, Yu G, Zokai S, et al. Multiview geometry for texture mapping 2D images onto 3D range data [C]. IEEE Conference on Computer Vision and Pattern Recognition, 2006, 2: 2293-2300.

共引文献63

1何建争,简慧杰,马孟超,王克逸.基于虚拟双球面的仿生复眼系统标定[J].光学学报,2017,37(7):220-230. 被引量：3
2叶国林,孙韶媛,高凯珺,赵海涛.基于加速区域卷积神经网络的夜间行人检测研究[J].激光与光电子学进展,2017,54(8):117-123. 被引量：25
3高琳,王俊峰,范勇,陈念年.基于卷积神经网络与一致性预测器的稳健视觉跟踪[J].光学学报,2017,37(8):222-231. 被引量：8
4姚广顺,孙韶媛,方建安,赵海涛.基于红外与雷达的夜间无人车场景深度估计[J].激光与光电子学进展,2017,54(12):158-164. 被引量：9
5吴寿川,赵海涛,孙韶媛.基于双向递归卷积神经网络的单目红外视频深度估计[J].光学学报,2017,37(12):246-254. 被引量：11
6侯聪聪,何宇清,姜晓恒,潘静.基于二分支卷积单元的深度卷积神经网络[J].激光与光电子学进展,2018,55(2):186-192. 被引量：4
7吴桐,陈平.基于X射线的复杂结构件内部零件装配正确性检测[J].激光与光电子学进展,2018,55(4):168-176. 被引量：5
8顾婷婷,赵海涛,孙韶媛.基于金字塔型残差神经网络的红外图像深度估计[J].红外技术,2018,40(5):417-423. 被引量：5
9鲍振强,李艾华,崔智高,袁梦.深度学习在视觉定位与三维结构恢复中的研究进展[J].激光与光电子学进展,2018,55(5):62-70. 被引量：2
10顾婷婷,赵海涛,孙韶媛.基于帧间信息提取的单幅红外图像深度估计[J].激光与光电子学进展,2018,55(6):163-172. 被引量：8

同被引文献54

1谷潇.无人机机载激光雷达在地质测绘与工程测量中的应用研究[J].应用激光,2020,40(6):1126-1131. 被引量：30
2宋弦,陈锦龙,陈俊全,叶航超.一种基于3D视觉传感器的障碍物检测方法[J].应用激光,2020,40(6):1115-1119. 被引量：4
3梅中义,范玉青.基于激光跟踪定位的部件对接柔性装配技术[J].北京航空航天大学学报,2009,35(1):65-69. 被引量：36
4高珊,韩艳铧.一种基于机器视觉的航天器交会对接相对位置和姿态确定算法研究[J].航天控制,2011,29(1):31-36. 被引量：2
5任留成,吕泗洲,王青山,吕晓华.一种空间斜圆锥投影模型及解算[J].测绘学报,2013,42(3):461-466. 被引量：2
6吴坤,王小华,姚金良.Shi-Tomasi角点区域的拷贝图像检测[J].中国计量学院学报,2014,25(3):263-267. 被引量：10
7许路,赵海涛,孙韶媛.基于深层卷积神经网络的单目红外图像深度估计[J].光学学报,2016,36(7):188-197. 被引量：26
8龙洋,胡改玲,蒙雁琦,温琳鹏,王军平.快速的线结构光条纹骨架剪枝算法[J].西安交通大学学报,2017,51(2):60-64. 被引量：4
9毕天腾,刘越,翁冬冬,王涌天.基于监督学习的单幅图像深度估计综述[J].计算机辅助设计与图形学学报,2018,30(8):1383-1393. 被引量：15
10赵立明,叶川,张毅,徐晓东,陈婧.非结构化环境下机器人视觉导航的路径识别方法[J].光学学报,2018,38(8):259-268. 被引量：19

引证文献6

1方琪,王晓华,苏杰.基于分组策略的点线特征融合同步定位与地图构建算法[J].激光与光电子学进展,2021,58(14):397-405. 被引量：10
2李航宇,黄翔,褚文敏,周蒯,赵子越.一种面向齿形结构装配的视觉测量方法[J].激光与光电子学进展,2021,58(16):172-181. 被引量：1
3江俊君,李震宇,刘贤明.基于深度学习的单目深度估计方法综述[J].计算机学报,2022,45(6):1276-1307. 被引量：14
4白琳,刘林军,李轩昂,吴沙,刘汝庆.基于自监督学习的单目图像深度估计算法[J].吉林大学学报（工学版）,2023,53(4):1139-1145.
5熊强强,赵旭.一种基于激光传感器的双目无人机室外场景视觉深度估计方法[J].应用激光,2023,43(5):94-98. 被引量：1
6李恩华,闫梦若,张佃君.基于改进GhostNet模型的快速单目图像深度估计[J].信息记录材料,2023,24(6):137-140.

二级引证文献26

1张云佐,郭亚宁,蔡昭权,张嘉煜.顾及方向信息的时空联合监控视频摘要方法[J].光电子．激光,2022,33(9):992-1000.
2卜泳,杜兆才,李泷杲,郑璐晗,陈龙.直升机自动倾斜器、主桨毂与主减速器地面自动组立技术研究[J].现代制造技术与装备,2022,58(5):75-81.
3林林,黄宜庆,李宏.基于采样点的直线匹配视觉惯性SLAM算法[J].安徽工程大学学报,2022,37(4):25-31.
4姜家国,郭曼利.基于MTF和DenseNet的滚动轴承故障诊断方法[J].工矿自动化,2022,48(9):63-68. 被引量：8
5张荣芬,袁文昊,卢金,刘宇红.面向室内动态场景的视觉同时定位与地图构建语义八叉树地图构建方法[J].激光与光电子学进展,2022,59(18):180-194. 被引量：2
6赵荣亮,王红旗,刘群坡,张岩.运动曲率自适应V-SLAM算法研究[J].导航定位学报,2022,10(6):53-58.
7罗宏芳,王春枝.云计算下大规模网络流量异常检测仿真[J].计算机仿真,2023,40(1):433-436. 被引量：1
8龙燕,高研,张广犇.基于改进HRNet的单幅图像苹果果树深度估计方法[J].农业工程学报,2022,38(23):122-129. 被引量：3
9韦和钧,许恩永,韩冰,蒙艳玫,韦锦,李正强.基于自适应特征及闭环优化的激光即时定位与建图算法[J].激光与光电子学进展,2023,60(4):191-201. 被引量：2
10任瀚实,周志宇,孙树森.基于通道注意力机制的室内场景深度图补全[J].浙江理工大学学报（自然科学版）,2023,49(3):344-352.

1邓相舟,张荣福.基于迁移学习的单目菌落深度提取算法[J].光学仪器,2020,42(2):39-44.
2张乐,金秀,傅雷扬,李绍稳.基于Faster R-CNN深度网络的油菜田间杂草识别方法[J].激光与光电子学进展,2020,57(2):297-305. 被引量：31
3刘晴川,傅国耕,戚铭.TLAC框架梳理:国际经验与启示[J].金融市场研究,2019,0(12):8-17. 被引量：2
4刘银萍,尹明,陈平,曾奕秋.基于深度学习的疟疾检测[J].实验技术与管理,2020,37(2):67-71. 被引量：2
5孙世栋,秦磊,任宏伟,陈祥晨.基于电阻层析成像的混凝土钢筋锈蚀无损检测[J].无损检测,2020,0(1):37-40. 被引量：8
6熊启跃,张文婧.全球系统重要性银行变化趋势研究[J].新金融,2020(4):7-11. 被引量：3
7王阳,裘乐淼,刘晓健,张树有,张利春.基于多域关联约束的复杂产品布局重构技术[J].浙江大学学报（工学版）,2020,54(4):650-661.
8韩毅博,秦琪,胡宝雷,杨柳.飞行综合显示器的设计与实现[J].信息通信,2020,0(2):116-117. 被引量：1
9贾宇霞,樊帅昌,易晓梅.基于显著性增强和迁移学习的鱼类识别研究[J].渔业现代化,2020,47(1):38-46. 被引量：11
10倪彦哲,朱文亮,黄廷波,韩家好.基于激光雷达的圆孔圆心定位研究[J].无线互联科技,2020,17(4):7-11.

激光与光电子学进展

2020年第2期

浏览历史

内容加载中请稍等...

面向无人机自主飞行的无监督单目视觉深度估计被引量：6

参考文献8

二级参考文献33

共引文献63

同被引文献54

引证文献6

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

面向无人机自主飞行的无监督单目视觉深度估计 被引量：6

参考文献8

二级参考文献33

共引文献63

同被引文献54

引证文献6

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

面向无人机自主飞行的无监督单目视觉深度估计被引量：6