专家监督的SAC强化学习重载列车运行优化控制被引量：4

Supervised SAC reinforcement learning method for heavy haul train optimization control

下载PDF

导出

摘要重载列车是我国大宗商品运输的重要方式,因载重大、车身长、线路复杂等因素导致重载列车的控制变得困难.本文将列车运行过程分为启动牵引、巡航控制、停车制动3个阶段,基于多质点重载列车纵向动力学模型,考虑常用空气制动,利用(SAC)强化学习方法,结合循环神经网络对专家经验数据进行行为克隆,并将克隆出的专家策略对强化学习训练进行监督,训练了一种新的智能驾驶操控策略.本文的策略可以高效学习驾驶经验数据,不断从学习中提高目标奖励,得到最优控制策略.仿真结果表明:本文所提的控制策略比未受专家模型监督的强化学习算法更优,奖励提升的周期更快,并能获得更高的奖励,训练出的控制器运行效果更加高效、稳定. Heavy haul train is an important transportation way of bulk commodity in our country.The control of heavy haul train becomes difficult due to factors such as heavy load,long body length,and complex line conditions.In this paper,the train operation process is divided into three stages:startup mode,cruise mode,and brake mode.Based on the longitudinal dynamics model of the multi-point mass heavy haul train,the common air brake is considered,using soft actorcritic(SAC)reinforcement learning method,combined with expert contorl strategy that trained by recurrent neural network fitting with expertise data,which called“behavior clone”,to supervise reinforcement learning process.A new intelligent driving control strategy is trained.The strategy in this paper can efficiently learn the driving experience data,continuously improve the total reward from the learning,and obtain the optimal control strategy.The result of simulation shows that the control strategy proposed in this paper is better than the reinforcement learning algorithm that is not supervised by the expert model,the period of reward promotion is faster,higher rewards can be obtained,and the training controller operates more efficiently and stably.

作者杨辉王禹李中奇付雅婷谭畅 YANG Hui;WANG Yu;LI Zhong-qi;FU Ya-ting;TAN Chang(School of Electrical and Automation,East China Jiaotong University,Nanchang Jiangxi 330013,China;Key Laboratory of Advanced Control and Optimization of Jiangxi Province,Nanchang Jiangxi 330013,China)

机构地区华东交通大学电气与自动化工程学院江西省先进控制与优化重点实验室

出处《控制理论与应用》 EI CAS CSCD 北大核心 2022年第5期799-808,共10页 Control Theory & Applications

基金国家自然科学基金项目(U2034211,62003138,61803155) 江西省自然科学基金项目(20202BAB202005) 江西省科技专项(20203AEI009) 江西省青年科学基金重点资助项目(20192ACBL21005)资助。

关键词重载列车强化学习行为克隆专家策略 heavy haul train reinforcement learning behavior clone expertise strategy

分类号 U284.48 [交通运输工程—交通信息工程及控制]

引文网络
相关文献

参考文献5

1何之煜,徐宁.基于自适应迭代学习控制的列车自动驾驶算法[J].交通运输系统工程与信息,2020,20(2):69-75. 被引量：10
2张淼,张琦,刘文韬,周博渊.一种基于策略梯度强化学习的列车智能控制方法[J].铁道学报,2020,42(1):69-75. 被引量：15
3张淼,张琦,张梓轩.基于Q学习算法的高速铁路列车节能优化研究[J].铁道运输与经济,2019,41(12):111-117. 被引量：8
4赵旭宝,魏伟,张军,胡杨.缓冲器分段阻抗特性对重载列车纵向冲动的影响[J].铁道学报,2017,39(10):33-42. 被引量：15
5付雅婷,原俊荣,李中奇,杨辉.基于钩缓约束的重载列车驾驶过程优化[J].自动化学报,2019,45(12):2355-2365. 被引量：13

二级参考文献34

1黄运华,李芾,傅茂海.车辆缓冲器特性研究[J].中国铁道科学,2005,26(1):95-99. 被引量：29
2常崇义,王成国,马大炜,张波.2万t组合列车纵向力计算研究[J].铁道学报,2006,28(2):89-94. 被引量：88
3魏伟.列车空气制动系统仿真的有效性[J].中国铁道科学,2006,27(5):104-109. 被引量：47
4张日东,王树青,李平.基于支持向量机的非线性系统预测控制[J].自动化学报,2007,33(10):1066-1073. 被引量：21
5魏伟.两万吨组合列车制动特性[J].交通运输工程学报,2007,7(6):12-16. 被引量：34
6杨俊杰,常崇义,封全保,马大炜.重载组合列车机车缓冲器关键技术参数研究[J].中国铁道科学,2010,31(3):76-81. 被引量：15
7马卫华,宋荣荣,揭长安,罗世辉.缓冲器阻抗特性对重载列车动力学性能的影响[J].交通运输工程学报,2011,11(2):59-64. 被引量：16
8金弟,刘杰,杨博,何东晓,刘大有.局部搜索与遗传算法结合的大规模复杂网络社区探测[J].自动化学报,2011,37(7):873-882. 被引量：53
9胡辉.我国铁路运输系统节能问题的研究分析[J].华东交通大学学报,2011,28(6):73-79. 被引量：17
10陈荣武,刘莉,郭进.基于遗传算法的列车运行能耗优化算法[J].交通运输工程学报,2012,12(1):108-114. 被引量：19

共引文献54

1宿帅,朱擎阳,魏庆来,唐涛,阴佳腾.基于DQN的列车节能驾驶控制方法[J].智能科学与技术学报,2020(4):372-384. 被引量：3
2孙树磊,王广超,彭忆强,李平飞.重载货车冲击动态特性及其对摇枕横向载荷的影响[J].交通运输工程学报,2018,18(3):94-104. 被引量：2
3李朋,魏伟,李开颜.无调车作业重载列车制动工况缓冲器特性研究[J].大连交通大学学报,2019,40(1):31-35. 被引量：1
4张欣刚,齐朝晖,国树东,屈福政.核环吊地震反应数值模拟分析[J].机械工程学报,2020,56(1):47-57. 被引量：3
5宁侨,李铁兵,霍晟,杨宜萍,朱保林.重载列车自动驾驶纵向动力学仿真技术研究[J].机车电传动,2020,0(1):58-64. 被引量：6
6马洋锦,付茂全,许志,李敬兆.矿山信息物理融合系统多节点智联策略[J].工矿自动化,2020,46(3):38-42. 被引量：4
7武承龙,董昱.基于改进的Newmark-β法重载列车车钩纵向力仿真研究[J].铁道科学与工程学报,2021,18(1):211-219. 被引量：4
8褚心童,张亚东,郭进,高豪,李耀,刘芯宏.基于蚁群算法的列车节能驾驶策略优化算法研究[J].铁道标准设计,2021,65(2):159-164. 被引量：6
9朱涛,张敬科,吴启凡,吕锐娟,王小瑞,肖守讷,邓永权.车钩缓冲装置对轨道列车碰撞安全性的影响综述[J].交通运输工程学报,2021,21(1):233-249. 被引量：14
10罗锦才,刘暾东.基于增强学习的车辆转弯制动横向轨迹控制[J].计算机仿真,2021,38(7):107-110. 被引量：3

同被引文献61

1魏伟,张善荣,刘庆忠.长大列车制动系统减压特性的计算机模拟[J].大连交通大学学报,1992,26(4):43-49. 被引量：16
2丁勇,刘海东,栢赟,周方明.地铁列车节能运行的两阶段优化模型算法研究[J].交通运输系统工程与信息,2011,11(1):96-101. 被引量：36
3陈荣武,诸昌钤,刘莉.基于CBTC的城市轨道交通列车能耗算法及仿真[J].计算机应用研究,2011,28(6):2126-2129. 被引量：11
4魏伟.120阀及试验台的计算机模拟[J].铁道学报,2000,22(1):31-35. 被引量：32
5魏伟,赵旭宝,姜岩,张军.列车空气制动与纵向动力学集成仿真[J].铁道学报,2012,34(4):39-46. 被引量：62
6王鹏玲,林轩,李跃宗,冯晓云.自适应遗传算法在列车节能优化中的应用[J].计算机仿真,2012,29(11):350-354. 被引量：14
7唐海川,朱金陵,王青元,冯晓云.一种可在线调整的列车正点运行节能操纵控制算法[J].中国铁道科学,2013,34(4):89-94. 被引量：30
8翟婉明,黄志辉.列车动力学的非线性数值分析方法[J].西南交通大学学报,1991,26(1):82-90. 被引量：13
9何晔,胡彩凤,吴能峰,杨北辉.地铁车辆牵引仿真计算[J].铁道机车车辆,2015,35(6):63-68. 被引量：8
10黄友能,宫少丰,曹源,陈磊.基于粒子群算法的城轨列车节能驾驶优化模型[J].交通运输工程学报,2016,16(2):118-124. 被引量：33

引证文献4

1吴琼,马月,李茂林,赵磊.浅述智能控制及其在光伏发电领域的应用[J].科技与创新,2023(15):161-163. 被引量：1
2黄兆军,曾明如.小型无人有缆遥控水下机器人智能控制方法[J].实验室研究与探索,2024,43(7):34-38.
3孟建军,蒋小一,陈晓强,胥如迅.基于Sarsa算法的城轨列车节能控制策略研究[J].铁道标准设计,2024,68(8):8-14.
4胡云卿,江帆,张征方.机车自动驾驶关键技术与问题研究[J].控制与信息技术,2024(4):1-10.

二级引证文献1

1彭熙,黄志辉,王振宇,罗佳超.一种自适应可折叠车载太阳板的设计[J].装备制造技术,2024(4):161-164.

1刘健,顾扬,程玉虎,王雪松.基于多智能体强化学习的乳腺癌致病基因预测[J].自动化学报,2022,48(5):1246-1258. 被引量：6
2袁月,谭浩,张旭飞,王子全.基于重型卡车巡航控制系统的调试工艺优化[J].汽车测试报告,2022(9):37-39.
3郑慧芬.循环冷却水处理技术面临新的形势和挑战[J].石油石化物资采购,2022(9):81-83.
4张鹏飞,岳建海,裴迪,焦静.基于KPCA和优化HMM的货车制动系统故障诊断[J].计算机仿真,2022,39(5):167-171. 被引量：3
5彭玥锴,张鹏,徐滔,万壮,杨黎.地铁列车荷载作用位置对道床与管片剥离的影响研究[J].路基工程,2022(3):167-171. 被引量：1
6孙泽勇,周媛,殷源.地铁列车牵引能耗测试用控车装置的设计[J].控制与信息技术,2022(2):43-48.
7田锐,赵飞.高速铁路智能调度系统功能架构及关键技术探讨[J].铁道运输与经济,2022,44(5):52-56. 被引量：6
8宋宇,胡莉,刘满禄,张华,徐冬苓.基于人机合作的核运维机器人轴孔装配研究[J].制造业自动化,2022,44(6):132-138. 被引量：3
9古煜,魏伟,孙元波,李延宝.SS<sub>4B</sub>机车牵引与电制动模型研究[J].交通技术,2022,11(3):169-177.

控制理论与应用

2022年第5期

浏览历史

内容加载中请稍等...

专家监督的SAC强化学习重载列车运行优化控制被引量：4

参考文献5

二级参考文献34

共引文献54

同被引文献61

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

专家监督的SAC强化学习重载列车运行优化控制 被引量：4

参考文献5

二级参考文献34

共引文献54

同被引文献61

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

专家监督的SAC强化学习重载列车运行优化控制被引量：4