基于分布式强化学习的车辆控制算法研究被引量：1

Research on Vehicle Control Algorithm Based on Distributed Reinforcement Learning

下载PDF

导出

摘要端到端自动驾驶算法的开发现已成为当前自动驾驶技术研发的热点。经典的强化学习算法利用车辆状态、环境反馈等信息训练车辆行驶,通过试错学习获得最佳策略,实现了端到端的自动驾驶算法开发,但仍存在开发效率低下的问题。为解决虚拟仿真环境下训练强化学习算法的低效性和高复杂度问题,本文提出了一种异步分布式强化学习框架,并建立了进程间和进程内的多智能体并行柔性动作-评价(soft actor-critic,SAC)分布式训练框架,加速了Carla模拟器上的在线强化学习训练。同时,为进一步实现模型的快速训练和部署,本文提出了一种基于Cloud-OTA的分布式模型快速训练和部署系统架构,系统框架主要由空中下载技术(over-the-air technology,OTA)平台、云分布式训练平台和车端计算平台组成。在此基础上,本文为了提高模型的可复用性并降低迁移部署成本,搭建了基于ROS的Autoware-Carla集成验证框架。实验结果表明,本文方法与多种主流自动驾驶方法定性相比训练速度更快,能有效地应对密集交通流道路工况,提高了端到端自动驾驶策略对未知场景的适应性,减少在实际环境中进行实验所需的时间和资源。 The development of end-to-end autonomous driving algorithms has become a hot topic in current autonomous driving technology research and development.Classic reinforcement learning algorithms leverage information such as vehicle state and environmental feedback to train the vehicle for driving,through trial-and-error learning to obtain the best strategy,so as to achieve the development of end-to-end autonomous driving algorithms.However,there is still the problem of low development efficiency.The article proposes an asynchronous distributed reinforcement learning framework to address the inefficiency and high complexity problems in training RL algorithms in virtual simulation environment,establishes intra and inter process multi-agent parallel Soft Actor-Critic(SAC)distributed training framework on the Carla simulator to accelerate online RL training.Additionally,to achieve rapid model training and deployment,the article proposes a distributed model training and deployment system architecture based on Cloud-OTA,which mainly consists of an Over-the-Air Technology(OTA)platform,a cloud-based distributed training platform,and an on-vehicle computing platform.On this basis,the paper establishes an Autoware-Carla integrated validation framework based on ROS to improve model reusability and reduce migration and deployment cost.The experimental results show that compared with various mainstream autonomous driving methods,the method proposed in this paper has a faster training speed qualitatively,which can effectively copewith dense traffic flow and improve the adaptability of end-to-end autonomous driving strategies to unknown scenes,and reduce the time and resources required for experimentation in actual environment.

作者刘卫国项志宇刘伟平齐道新王子旭 Liu Weiguo;Xiang Zhiyu;Liu Weiping;Qi Daoxin;Wang Zixu(School of Information and Electronic Engineering,Zhejiang University,Hangzhou 310058;National Innovation Center of Intelligent and Connected Vehicles,Beijing 100160)

机构地区浙江大学信息与电子工程学院国家智能网联汽车创新中心

出处《汽车工程》 EI CSCD 北大核心 2023年第9期1637-1645,共9页 Automotive Engineering

基金自动驾驶国家新一代人工智能开放创新平台项目(2020AAA0103702)资助。

关键词强化学习分布式多智能体自动驾驶 Carla 车辆控制 reinforcement learning distributed system multi-agent autonomous driving Carla vehicle control

分类号 U463.6 [机械工程—车辆工程]

引文网络
相关文献

参考文献3

1杨顺,蒋渊德,吴坚,刘海贞.基于多类型传感数据的自动驾驶深度强化学习方法[J].吉林大学学报（工学版）,2019,49(4):1026-1033. 被引量：13
2冯洋,夏志龙,郭安,陈振宇.自动驾驶软件测试技术研究综述[J].中国图象图形学报,2021,26(1):13-27. 被引量：23
3张新钰,高洪波,赵建辉,周沫.基于深度学习的自动驾驶技术综述[J].清华大学学报（自然科学版）,2018,58(4):438-444. 被引量：116

二级参考文献6

1南杨,李中健,叶文伟.基于强化学习的飞行自动驾驶仪设计[J].电子设计工程,2013,21(10):45-47. 被引量：3
2夏伟,李慧云.基于深度强化学习的自动驾驶策略学习方法[J].集成技术,2017,6(3):29-40. 被引量：19
3Chen Lv,Dongpu Cao,Yifan Zhao,Daniel J. Auger,Mark Sullman,Huaji Wang,Laura Millen Dutka,Lee Skrypchuk,Alexandros Mouzakitis.Analysis of Autopilot Disengagements Occurring During Autonomous Vehicle Testing[J].IEEE/CAA Journal of Automatica Sinica,2018,5(1):58-68. 被引量：19
4余卓平,邢星宇,陈君毅.自动驾驶汽车测试技术与应用进展[J].同济大学学报（自然科学版）,2019,47(4):540-547. 被引量：57
5朱冰,张培兴,赵健,陈虹,徐志刚,赵祥模,邓伟文.基于场景的自动驾驶汽车虚拟测试研究进展[J].中国公路学报,2019,32(6):1-19. 被引量：126
6舒红,袁康,修海林,夏芹,何杉.自动驾驶汽车基础测试场景构建研究[J].中国公路学报,2019,32(11):245-254. 被引量：28

共引文献147

1崔驰,游聪,李晓冲.针对自动驾驶车辆的对抗攻击与防御研究进展[J].郑州师范教育,2021,10(6):18-22.
2南晓虎,丁雷.深度学习的典型目标检测算法综述[J].计算机应用研究,2020,37(S02):15-21. 被引量：55
3宋绍京,陆婷婷,孙翔,龚玉梅,陈建.面向自动驾驶的多任务环境感知算法[J].电子测量技术,2023,46(24):157-163.
4冉险生,李锐,贺帅.基于改进YOLOv5s的道路障碍物检测算法[J].电子测量技术,2023,46(22):177-185. 被引量：1
5郑雅婷,刘亚男,周亚辉,韦晓梦,房丽婷.基于图片扰动的自动驾驶测试数据生成方法[J].智能计算机与应用,2022,12(1):65-68. 被引量：1
6唐兰文,王耀东,田儒贤.基于区块链技术的车联网研究[J].电脑知识与技术,2018,14(10):23-25. 被引量：1
7耿特,严军鹏.基于卷积神经网络(CNN)的无人车避障方法[J].工业控制计算机,2019,32(2):61-61. 被引量：4
8郭怀钰.人工智能在智能交通中的应用[J].电子制作,2019,27(6):73-74. 被引量：2
9刘俊生.基于Mask R-CNN网络模型的无人驾驶感知[J].汽车实用技术,2019,45(7):39-40.
10李云伍,徐俊杰,刘得雄,于尧.基于改进空洞卷积神经网络的丘陵山区田间道路场景识别[J].农业工程学报,2019,35(7):150-159. 被引量：32

同被引文献3

1张新钰,高洪波,赵建辉,周沫.基于深度学习的自动驾驶技术综述[J].清华大学学报（自然科学版）,2018,58(4):438-444. 被引量：116
2林洪振,杨孟,田磊,粱辉,赵玉超.自动驾驶仿真测试平台发展现状与展望[J].重型汽车,2023(1):28-29. 被引量：4
3程浩然,王薪陶,李俊燃,郭子怡,刘维.改进YOLOv4-tiny的疫情协同口罩佩戴检测方法[J].计算机工程与应用,2023,59(20):208-218. 被引量：6

引证文献1

1尹誉翔.基于Carla仿真平台的YOLOv5多目标检测研究[J].黑龙江科学,2024,15(6):12-15.

1武文涛,张志才,付芳.基于联邦学习的智能网联车驾驶策略优化研究[J].测试技术学报,2023,37(5):420-427. 被引量：3
2李吉峰,邹楠,李卫东,吴俊,张明泽.计及需求灵活性的地区绿色证书、碳排放权及电力联合交易分析[J].电网技术,2023,47(8):3164-3173. 被引量：4
3姜洪亮,梁丹.基于架构设计的车载网联系统验证体系研究与开发测试[J].汽车与驾驶维修,2023(7):26-30.
4刘伟,张志宏.基于AR、VR、DT及互联网+技术的传感器仿真实验系统设计及应用[J].电脑编程技巧与维护,2023(9):94-97.
5秦琴,谷文军.ball tree优化的自动驾驶仿真测试场景生成方法[J].计算机应用研究,2023,40(9):2781-2784. 被引量：1
6陈桢,李侠.高速公路养护施工封道时间优化模型研究[J].公路交通技术,2023,39(4):26-33.
7孙明慧.大思政课视域下高校“概论”课融合式教学改革探究——以党的二十大精神融入为例[J].中国医学教育技术,2023,37(5):624-627. 被引量：1
8周志华.一种前照灯控制器设计[J].中国照明电器,2023(7):38-41.
9姚雨蒙,孙文轩,李俊明.基于GhostNet的机器人对番茄叶片目标检测算法[J].电脑编程技巧与维护,2023(9):3-5.
10秦懿,於章杰,池晓颖,肖洁,俞卫锋,苏殿三.无痛消化内镜围术期气道管理进展[J].世界临床药物,2023,44(7):683-690.

汽车工程

2023年第9期

浏览历史

内容加载中请稍等...

基于分布式强化学习的车辆控制算法研究被引量：1

参考文献3

二级参考文献6

共引文献147

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于分布式强化学习的车辆控制算法研究 被引量：1

参考文献3

二级参考文献6

共引文献147

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于分布式强化学习的车辆控制算法研究被引量：1