基于近端策略优化算法的端到端车道保持算法研究

An end-to-end lane keeping algorithm based on the Proximal Policy Optimization algorithm

下载PDF

导出

摘要为提高车道保持算法的成功率,增强无人车导航能力,提出了一种基于改进的近端策略优化算法(Proxi-mal Policy Optimization,PPO)的端到端车道保持算法研究。通过将PPO算法中的一个隐藏层替换为LSTM网络及重新设计奖励函数创建端到端的车道保持算法框架,该框架可以将用于训练的算法策略与模拟器相结合,框架以车前方摄像头的RGB图像、深度图像、无人车的速度、偏离车道线值与碰撞系数等无人车周围环境变量为输入,以车前方摄像头的油门、刹车、方向盘转角等无人车周围环境变量为输出。在Airsim仿真平台下不同的地图中进行训练与测试,并与原算法进行对比实验。实验结果证明改进的LSTM-PPO算法能够训练出有效的车道保持算法,改进后的算法能显著减少训练时间并增加算法的鲁棒性。 To improve the success rate of unmanned driving and enhance the navigation ability of unmanned vehicles,this paper proposes an end-to-end lane keeping algorithm based on an improved Proximal Policy Optimization(PPO)algorithm.This article cre⁃ates an end-to-end unmanned driving framework by replacing a hidden layer in the PPO algorithm with an LSTM network and rede⁃signing a reward function.The framework can combine algorithm strategies for training with simulators.The framework takes RGB im⁃ages,depth images,unmanned vehicle speed,lane departure values,and collision coefficients of the camera in front of the vehicle as in⁃puts,and takes throttle,brake The environment variables around unmanned vehicles such as steering wheel angle are outputs.Train and test on different maps on the Airsim simulation platform,and conduct comparative experiments with the original algorithm.The ex⁃perimental results demonstrate that the improved LSTM-PPO algorithm can train effective autonomous driving algorithms,and the im⁃proved algorithm can significantly reduce training time and increase the robustness of the algorithm.

作者宋建辉崔永阔 SONG Jianhui;CUI Yongkuo(Shenyang Ligong University,Shenyang 110159)

机构地区沈阳理工大学

出处《通信与信息技术》 2024年第3期92-97,共6页 Communication & Information Technology

基金辽宁省教育厅高等学校基本科研项目(项目编号:LJKZ0275) 沈阳市中青年科技创新人才支持计划项目(项目编号RC210247)。

关键词自动驾驶强化学习近端策略优化长短期记忆网络 Autonomous driving Reinforcement learning Near end strategy optimization Long and short term memory network

分类号 TN915.63 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献8

1魏永合,刘光昕,尹际雄.基于VMD-LSTM的滚动轴承退化状态识别[J].沈阳理工大学学报,2022,41(1):1-6. 被引量：3
2张仪,冯伟,王卫军,杨之乐,张艳辉,朱子翰,谭勇.融合LSTM和PPO算法的移动机器人视觉导航[J].电子测量与仪器学报,2022,36(8):132-140. 被引量：15
3丁维,王渊,丁达理,谢磊,周欢,谭目来,吕丞辉.基于LSTM-PPO算法的无人作战飞机近距空战机动决策[J].空军工程大学学报（自然科学版）,2022,23(3):19-25. 被引量：5
4陈越,焦朋朋,白如玉,李汝鉴.基于深度强化学习的自动驾驶车辆跟驰行为建模[J].交通信息与安全,2023,41(2):67-75. 被引量：7
5黄志清,曲志伟,张吉,张严心,田锐.基于深度强化学习的端到端无人驾驶决策[J].电子学报,2020,48(9):1711-1719. 被引量：19
6赖晨光,杨小青,胡博,庞玉涵,邹宏.基于深度确定性梯度算法的端到端自动驾驶策略[J].重庆理工大学学报（自然科学）,2023,37(1):56-65. 被引量：1
7王庭晗,罗禹贡,刘金鑫,李克强.基于考虑状态分布的深度确定性策略梯度算法的端到端自动驾驶策略[J].清华大学学报（自然科学版）,2021,61(9):881-888. 被引量：6
8魏文强.人工智能在汽车自动驾驶中的应用[J].时代汽车,2022(24):196-198. 被引量：7

二级参考文献46

1梅丹,吴文海,徐家义.影响图的空战机动决策方法[J].火力与指挥控制,2008,33(S1):46-49. 被引量：6
2傅莉,王晓光.无人战机近距空战微分对策建模研究[J].兵工学报,2012,33(10):1210-1216. 被引量：20
3高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
4刘国荣,张扬名.移动机器人轨迹跟踪的模糊PID-P型迭代学习控制[J].电子学报,2013,41(8):1536-1541. 被引量：36
5吴小涛,杨锰,袁晓辉,龚廷恺.基于峭度准则EEMD及改进形态滤波方法的轴承故障诊断[J].振动与冲击,2015,34(2):38-44. 被引量：108
6魏永合,王明华.基于EEMD和SVM的滚动轴承退化状态识别[J].计算机集成制造系统,2015,21(9):2475-2483. 被引量：22
7傅莉,谢福怀,孟光磊,王东政.基于滚动时域的无人机空战决策专家系统[J].北京航空航天大学学报,2015,41(11):1994-1999. 被引量：41
8高阳阳,余敏建,韩其松,董肖杰.基于改进共生生物搜索算法的空战机动决策[J].北京航空航天大学学报,2019,45(3):429-436. 被引量：12
9王杰,丁达理,许明,韩博,雷磊.基于目标逃逸机动预估的空空导弹可发射区[J].北京航空航天大学学报,2019,45(4):722-734. 被引量：7
10付丽君,王光兴,任慧轩.小波包与径向基神经网络的电力电子装置故障诊断[J].沈阳理工大学学报,2016,35(3):47-51. 被引量：4

共引文献55

1吴晓敏,贺苗,刘暾东,张馨月,邵桂芳.基于狄利克雷过程聚类的机器人演示学习研究[J].仪器仪表学报,2023,44(1):265-274. 被引量：2
2刘雷,陈晨,冯杰,肖婷婷,裴庆祺.车载边缘计算卸载技术研究综述[J].电子学报,2021,49(5):861-871. 被引量：11
3吕品,何岳滨,许嘉.基于顺序选择的自动驾驶车辆十字路口调度方案[J].电子学报,2021,49(5):912-919.
4田丹,臧守雨,涂斌斌.具有空间调整和稀疏约束的相关滤波跟踪算法[J].图学学报,2021,42(5):755-761. 被引量：1
5张明恒,吕新飞,万星,吴增文.基于WGAIL-DDPG(λ)的车辆自动驾驶决策模型[J].大连理工大学学报,2022,62(1):77-84. 被引量：3
6张帆,黄赟,方子茁,郭威.卷积神经网络的损失最小训练后参数量化方法[J].通信学报,2022,43(4):114-122. 被引量：5
7田豆,李凤莲,张雪英,张晋义.特征选择融合深度强化学习分类模型的构建及应用[J].电子设计工程,2022,30(12):93-97. 被引量：5
8饶宁,许华,蒋磊,宋佰霖,史蕴豪.基于多智能体深度强化学习的分布式协同干扰功率分配算法[J].电子学报,2022,50(6):1319-1330. 被引量：11
9王树磊,赵景波,赵杰,刘逍遥,张大炜.基于改进PilotNet的端到端无人车控制[J].重庆理工大学学报（自然科学）,2022,36(6):41-47.
10华夏,王新晴,芮挺,邵发明,王东.视觉感知的无人机端到端目标跟踪控制技术[J].浙江大学学报（工学版）,2022,56(7):1464-1472. 被引量：4

1张国芳,仲波,刘枭,倪一铭,杨河清.横向控制系统在商用车领域的应用[J].汽车电器,2024(5):44-46.
2杨硕,陈昕,崔文锋,韩晓.基于路测图像与改进ResNet50网络的自动驾驶场景天气识别算法[J].汽车与新动力,2024,7(2):15-22.
3王家琪,朱俊国,余正涛.基于梯度权重变化训练策略的低资源机器翻译[J].计算机科学与探索,2024,18(3):731-739. 被引量：1
4赵崇钦,景晖,王刚,冯焕秦,刘夫云.考虑参数估计的MPC算法的商用车车道保持控制[J].汽车安全与节能学报,2024,15(1):129-136.
5汤维杰,方挺,韩家明,袁东祥.基于轻量级MobileNetV2-DeeplabV3+的棒材分割方法[J].重庆工商大学学报（自然科学版）,2024,41(3):66-71.
6黎越.高铁5G网络波束干扰避让策略研究及应用[J].江苏通信,2024,40(2):26-28.
7吴文娟.基于虚拟仿真技术的高校英语教学平台构建研究[J].英语广场（学术研究）,2024(13):109-112.
8赵征,刘子涵.基于深度强化学习的SCR脱硝系统协同控制策略研究[J].动力工程学报,2024,44(5):802-809. 被引量：5
9孙明,吕天宇.基于改进白鲸优化算法的D2D通信功率控制[J].高师理科学刊,2024,44(4):40-47. 被引量：1
10双丰,马翰林,杨杰,李少东.基于改进EKF_LOAM的电缆沟巡检机器人精准定位策略[J].中国惯性技术学报,2024,32(4):326-335.

通信与信息技术

2024年第3期

浏览历史

内容加载中请稍等...

基于近端策略优化算法的端到端车道保持算法研究

参考文献8

二级参考文献46

共引文献55

相关作者

相关机构

相关主题

浏览历史