-
题名基于策略梯度强化学习的高铁列车动态调度方法
被引量:7
- 1
-
-
作者
俞胜平
韩忻辰
袁志明
崔东亮
-
机构
东北大学流程工业综合自动化国家重点实验室
中国铁道科学研究院集团有限公司通信信号研究所
-
出处
《控制与决策》
EI
CSCD
北大核心
2022年第9期2407-2417,共11页
-
基金
国家自然科学基金项目(U1834211,61790574,61603262,61773269)
辽宁省自然科学基金项目(2020-MS093)。
-
文摘
高速铁路以其运输能力大、速度快、全天候等优势,取得了飞速蓬勃的发展.而恶劣天气等突发事件会导致列车延误晚点,更甚者延误会沿着路网不断传播扩散,其带来的多米诺效应将造成大面积列车无法按计划运行图运行.目前依靠人工经验的动态调度方式难以满足快速优化调整的实际要求.因此,针对突发事件造成高铁列车延误晚点的动态调度问题,设定所有列车在各站到发时间晚点总和最小为优化目标,构建高铁列车可运行情况下的混合整数非线性规划模型,提出基于策略梯度强化学习的高铁列车动态调度方法,包括交互环境建立、智能体状态及动作集合定义、策略网络结构及动作选择方法和回报函数建立,并结合具体问题对策略梯度强化学习(REINFORCE)算法进行误差放大和阈值设定两种改进.最后对算法收敛性及算法改进后的性能提升进行仿真研究,并与Q-learning算法进行比较,结果表明所提出的方法可以有效地对高铁列车进行动态调度,将突发事件带来的延误影响降至最小,从而提高列车的运行效率.
-
关键词
高铁列车
突发扰动
动态调度
强化学习
策略梯度
策略梯度强化学习
-
Keywords
high-speed railway
unexpected disturbances
dynamic scheduling
reinforcement learning
policy gradient
REINFORCE
-
分类号
TP273
[自动化与计算机技术—检测技术与自动化装置]
-