基于深度强化学习的机场出租车司机决策方法

Decision-making Method for Airport Taxi Drivers Based on Deep Reinforcement Learning

下载PDF

导出

摘要针对以机场为代表的大型交通枢纽出租车调度困难的问题,从出租车司机利益的角度出发,提出一种基于改进深度强化学习的司机决策方法。该方法首先对机场环境和机场所在的城市环境进行模拟,定义了司机的状态、动作,与环境交互获得的奖励和状态转移。然后,以司机的状态参数作为DQN的输入,用DQN拟合状态-动作值函数(Q值函数)。最后,通过不断地让司机根据ε-贪心策略做出决策,并根据奖励函数达到更新DQN参数的目的。实验结果表明:在模拟的大、中、小型城市等环境下,司机都可以通过模型定量地得到当前各种决策动作的期望收益并作出合理的决策,从而自动地完成出租车调度的过程。 In order to deal with the difficulty of taxi dispatching in large transportation hub,especially in airport,from the view of the taxi driver’s profit,this paper proposes a decision-making method based on improved deep reinforcement learning.Firstly,the airport environment and the urban environment where the airport is located are simulated,and the driver’s states,actions,the rewards obtained from interaction with the environment and the state transitions are defined.Then,the states of the driver,as inputs,are fed into DQN to fit the values of Q-value function.Finally,through continuously simulating the drivers’decisions byε-greedy strategy and reward functions,this paper reaches the purpose of upgrading the parameters of DQN.The experiment results show that drivers can quantitatively get expected benefit for current decision actions and make proper decision through the model in simulated large,medium and small cities and other environments,so as to automatically complete the process of taxi dispatching.

作者王鹏勇陈龚涛赵江烁 WANG Peng-yong;CHEN Gong-tao;ZHAO Jiang-shuo(School of Mathematics, China University of Mining and Technology, Xuzhou 221100, China)

机构地区中国矿业大学数学学院

出处《计算机与现代化》 2020年第8期94-99,104,共7页 Computer and Modernization

基金中国矿业大学大学生创新训练计划项目(20190510)。

关键词出租车调度深度强化学习 DQN Q值函数 taxi dispatching deep reinforcement learning DQN Q-value function

分类号 TP391.9 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1万里鹏,兰旭光,张翰博,郑南宁.深度强化学习理论及其应用综述[J].模式识别与人工智能,2019,32(1):67-81. 被引量：65
2袁雯,刘惠义.基于深度Q网络的仿人机器人步态优化[J].计算机与现代化,2019(4):47-51. 被引量：1
3王竹晓,张彭彭,李为,吴克河,崔文超,程瑞.基于深度Q网络的电力工控网络异常检测系统[J].计算机与现代化,2019,0(12):114-118. 被引量：8
4Dongxia Zhang,Xiaoqing Han,Chunyu Deng.Review on the Research and Practice of Deep Learning and Reinforcement Learning in Smart Grids[J].CSEE Journal of Power and Energy Systems,2018,4(3):362-370. 被引量：54
5顾鸿儒,孙连坤.基于层次颜色Petri网的交通紧急调度算法与建模[J].计算机工程与应用,2016,52(16):261-270. 被引量：5
6王云鹏,郭戈.基于深度强化学习的有轨电车信号优先控制[J].自动化学报,2019,45(12):2366-2377. 被引量：14
7曾伟良,吴淼森,孙为军,谢胜利.自动驾驶出租车调度系统研究综述[J].计算机科学,2020,47(5):181-189. 被引量：7
8李敏.交通堵塞车流调度单点信号嵌入式控制仿真[J].计算机仿真,2017,34(2):189-192. 被引量：2
9谢榕,潘维,柴崎亮介.基于人工鱼群算法的出租车智能调度[J].系统工程理论与实践,2017,37(11):2938-2947. 被引量：11
10欧先锋,罗百通,向灿群,黎式南,郭龙源.一种出租车合乘业务方案设计[J].成都工业学院学报,2017,20(2):43-49. 被引量：4

二级参考文献53

1陈星,贾卓生.工业控制网络的信息安全威胁与脆弱性分析与研究[J].计算机科学,2012,39(S2):188-190. 被引量：29
2刘洪丽,冯伯林.基于最优化思想的城市交通流分配[J].武汉理工大学学报（交通科学与工程版）,2005,29(6):913-916. 被引量：4
3覃运梅,石琴.出租车合乘模式的探讨[J].合肥工业大学学报（自然科学版）,2006,29(1):77-79. 被引量：30
4高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
5Hsieh S,Lin K H M.Building AGV traffic-control modelswith place-transition nets[J].The International Journalof Advanced Manufacturing Technology,1991,6(4):346-363.
6Tzes A,Kim S,McShane W.Applications of Petri networksto transportation network modeling[J].IEEE Transactionson Vehicular Technology,1996,45(2):391-400.
7Gallego J L,Farges J L,Henry J J.Design by Petrinets of an intersection signal controller[J].TransportationResearch Part C:Emerging Technologies,1996,4(4):231-248.
8Di Febbraro A,Giglio D,Sacco N.On applying Petrinets to determine optimal offsets for coordinated trafficlight timings[C].The IEEE 5th International Conferenceon Intelligent Transportation Systems,2002:773-778.
9Mun N K,Reaz M B I,Ali M A M.A review on theapplications of Petri nets in modeling,analysis,and controlof urban traffic[J].IEEE Transactions on IntelligentTransportation Systems,2013,14(2):858-870.
10Huang Y S,Weng Y S,Zhou M C.Design of trafficsafety control systems for emergency vehicle preemptionusing timed Petri nets[J].IEEE Transactions on IntelligentTransportation Systems,2015.

共引文献168

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：37
2周宏宇,王小刚,赵亚丽,崔乃刚.组合动力运载器上升段轨迹智能优化方法[J].宇航学报,2020,41(1):61-70. 被引量：10
3钟玮琦,喻仁虹,李明柱.基于DDPG算法的供热末端运行策略研究[J].暖通空调,2022,52(S02):170-174.
4Shuang Wu,Wei Hu,Zongxiang Lu,Yujia Gu,Bei Tian,Hongqiang Li.Power System Flow Adjustment and Sample Generation Based on Deep Reinforcement Learning[J].Journal of Modern Power Systems and Clean Energy,2020,8(6):1115-1127. 被引量：9
5李瑜,张占强,孟克其劳,魏皓天.基于改进深度确定性策略梯度算法的微电网能量优化调度[J].电子测量技术,2023,46(2):73-80. 被引量：3
6程乔,王映华,李冉,刘文雯.重点业务感知监测分析机器人在网优智能化中应用的研究[J].广西通信技术,2019,0(3):48-54.
7曹红倩.应用改进Q-learning算法解决柔性作业车间调度问题[J].国外电子测量技术,2022,41(4):164-169. 被引量：3
8闫冬,陈盛,彭国政,谈元鹏,张玉天,吴凯.基于层次深度强化学习的带电作业机械臂控制技术[J].高电压技术,2020,46(2):459-471. 被引量：17
9郑伟光.自信心,学生前进的心理动力[J].中学教育,2000(8):22-23.
10胡伟.基于人工鱼群算法的机械系统可靠度分配研究[J].机械制造,2018,56(12):11-13.

1何凌燕.七彩童年——幼儿教育之“快乐教学”[J].时代教育（下旬）,2020,0(5):0145-0145.
2张家玮,张继元,许迅雷.基于大数据的出租车调度方案研究[J].中国周刊,2020,42(8):0367-0368.
3赵艳启.基于ZigBee技术的机场环境多参数监测系统设计[J].电子设计工程,2020,28(15):61-64. 被引量：3
4张宗垚,孟康,董龙琦.机场出租车司机选择策略与出租车调度设计[J].信息技术与信息化,2020(7):66-68. 被引量：1
5郭业才,周腾威.基于深度强化对抗学习的图像增强方法[J].扬州大学学报（自然科学版）,2020,23(2):42-46. 被引量：5
6江民民,李大朋,邱昕,慕福奇,柴旭荣,孙志浩.基于CGAN的避扰通信决策网络离线式训练方法[J].北京航空航天大学学报,2020,46(7):1412-1421.
7邱晗光,高敏,甄杰,周继祥.可选交付方式及时间窗下城市配送服务选项多目标联合定价[J].计算机集成制造系统,2020,26(7):1965-1975. 被引量：4
8王振宏,王笑笑,李彩娜.儿童发展的不同环境敏感性:理论与实证[J].北京师范大学学报（社会科学版）,2020(4):36-47. 被引量：9
9许小媛,李海波,于本成,刘芳.具有对偶约束的半监督重叠社区发现方法[J].计算机与现代化,2020(8):63-68.
10丁志刚,陈涵,徐琪.碳交易与碳税双重风险下供应链低碳技术采纳时机决策研究[J].软科学,2020,34(7):101-107. 被引量：10

计算机与现代化

2020年第8期

浏览历史

内容加载中请稍等...

基于深度强化学习的机场出租车司机决策方法

参考文献12

二级参考文献53

共引文献168

相关作者

相关机构

相关主题

浏览历史