基于共享注意力的多智能体强化学习订单派送

Order dispatching by multi-agent reinforcement learning based on shared attention

下载PDF

导出

摘要网约车因方便、快捷成为现今人们出行热门之选,如何更高效地派送合适的订单将乘客送到目的地是如今研究的热点。许多研究着重于训练单智能体,再由它统一分配订单,车辆本身并不参与决策。针对以上问题,提出一种基于共享注意力的多智能体强化学习(SARL)算法。该算法将订单派送问题建模为一个马尔可夫决策过程,运用多智能体强化学习,通过集中训练、分散执行的方式让每个智能体均成为决策者;同时加入共享注意力机制,让智能体彼此共享信息并合作。最后,在不同尺度地图、不同乘客数以及不同车辆数情形下与完全随机匹配(Random)、贪婪算法(Greedy)、多智能体强化学习算法IDQN和混合Q值网络(QMIX)进行对比。结果显示,在固定和可变的车辆与乘客组合情况下,SARL算法在三个不同尺度地图(100×100、10×10和500×500)的时间效率均达到了最优,验证了算法的泛化性能和稳定性。SARL算法可以优化车辆和乘客的配对,减少乘客等待时间,提升乘客满意度。 Ride-hailing has become a popular choice for people to travel due to its convenience and speed,how to efficiently dispatch the appropriate orders to deliver passengers to the destination is a research hotspot today.Many researches focus on training a single agent,which then uniformly distributies orders,without the vehicle itself being involved in the decision making.To solve the above problem,a multi-agent reinforcement learning algorithm based on shared attention,named SARL(Shared Attention Reinforcement Learning),was proposed.In the algorithm,the order dispatching problem was modeled as a Markov decision process,and multi-agent reinforcement learning was used to make each agent become a decision-maker through centralized training and decentralized execution.Meanwhile,the shared attention mechanism was added to make the agents share information and cooperate with each other.Comparison experiments with Random matching(Random),Greedy algorithm(Greedy),Individual Deep-Q-Network(IDQN)and Q-learning MIXing network(QMIX)were conducted under different map scales,different number of passengers and different number of vehicles.Experimental results show that the SARL algorithm achieves optimal time efficiency in three different scale maps(100×100,10×10 and 500×500)for fixed and variable vehicle and passenger combinations,which verifies the generalization performance and stable performance of the SARL algorithm.The SARL algorithm can optimize the matching of vehicles and passengers,reduce the waiting time of passengers and improve the satisfaction of passengers.

作者黄晓辉杨凯铭凌嘉壕 HUANG Xiaohui;YANG Kaiming;LING Jiahao(School of Information Engineering,East China Jiaotong University,Nanchang Jiangxi 330013,China)

机构地区华东交通大学信息工程学院

出处《计算机应用》 CSCD 北大核心 2023年第5期1620-1624,共5页 journal of Computer Applications

基金国家自然科学基金资助项目(62062033) 江西省自然科学基金资助项目(20212BAB202008)。

关键词机器学习深度强化学习注意力机制多智能体强化学习车辆订单派送 machine learning deep reinforcement learning attention mechanism multi-agent reinforcement learning vehicle order dispatching

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1陈浩杰,范江亭,刘勇.深度强化学习解决动态旅行商问题[J].计算机应用,2022,42(4):1194-1200. 被引量：5
2王建平,王刚,毛晓彬,马恩琪.基于深度强化学习的二连杆机械臂运动控制方法[J].计算机应用,2021,41(6):1799-1804. 被引量：13
3李建斌,杨帆,管梦城,陈政枪.共同配送模式下订单车辆匹配决策优化研究[J].管理工程学报,2021,35(6):259-266. 被引量：5

二级参考文献14

1张健,潘耀宗,杨海涛,孙舒,赵洪利,无.基于蒙特卡洛Q值函数的多智能体决策方法[J].控制与决策,2020,35(3):637-644. 被引量：5
2谷炜,张群,胡睿.基于改进K-means聚类的物流配送区域划分方法研究[J].中国管理信息化,2010,13(24):60-63. 被引量：14
3高学东,谷淑娟,白尘,武森.考虑物流配送路网结构及配送量约束的客户聚类算法[J].系统工程理论与实践,2012,32(1):173-181. 被引量：15
4靳志宏,于波,侯丽晓.基于配载约束的配送优化问题及其求解算法[J].系统工程学报,2012,27(3):390-398. 被引量：12
5赵立力,游琦.高速公路BOT项目调节基金决策机制研究[J].管理工程学报,2013,27(3):81-86. 被引量：9
6饶卫振,朱庆华,金淳,刘从虎.协作车辆路径成本分摊问题的B-T Shapley方法[J].管理科学学报,2019,22(1):107-126. 被引量：19
7张莉莉,胡祥培.基于人力资本竞优结构的“团队-作业对象”匹配决策模型[J].管理工程学报,2015,29(1):1-7. 被引量：14
8颜瑞,张群,胡睿.考虑三维装箱约束的车辆路径问题研究[J].中国管理科学,2015,23(1):128-134. 被引量：11
9刘成亮,戈新生.一类二连杆欠驱动机器人系统的稳定控制[J].北京信息科技大学学报（自然科学版）,2017,32(3):25-29. 被引量：3
10张源凯,孙丽君,胡祥培.成品油配送多车舱车辆指派及路径优化问题研究[J].运筹与管理,2017,26(7):1-9. 被引量：25

共引文献20

1钟辉,袁邦颐,丁度坤,辛曼玉,邓建新,黄秋林.基于模型补偿的机械臂位置跟踪控制研究[J].装备制造技术,2022(9):24-28.
2周小祥,黄承锋.农村物流末端共配联盟演化博弈及稳定性研究[J].交通运输系统工程与信息,2022,22(1):265-272. 被引量：14
3LIN Xiangyang,XING Qinghua,LIU Fuxian.Choice of discount rate in reinforcement learning with long-delay rewards[J].Journal of Systems Engineering and Electronics,2022,33(2):381-392. 被引量：1
4邓绍斌,朱军,周晓锋,李帅,刘舒锐.基于局部策略交互探索的深度确定性策略梯度的工业过程控制方法[J].计算机应用,2022,42(5):1642-1648.
5唐超,张帆,王文龙,李徐.基于深度强化学习的蛇形机械臂控制策略研究[J].农业装备与车辆工程,2022,60(8):17-21. 被引量：1
6范振,陈乃建,董春超,张来伟,包佳伟,李亚辉,李映君.基于深度强化学习的单臂机器人末端姿态控制[J].济南大学学报（自然科学版）,2022,36(5):616-625. 被引量：2
7程鹏斐,钟子涵,罗妍,刘家财.考虑贡献的最小二乘解及在共同配送联盟利润分配中的应用[J].科学技术与工程,2022,22(31):13636-13642. 被引量：4
8陈运胜,孙令真,张创基.基于积分分离式PID的三连杆机械臂传动控制方法[J].机械与电子,2022,40(12):59-62. 被引量：2
9刘小英,刘志勇,崔慧娟.基于动态规划算法的液压驱动机械臂运动控制研究[J].液压气动与密封,2023,43(1):15-18. 被引量：3
10傅卫沁,刘彬,徐长瑜.基于多传感器的工业机械臂精细化操作远程控制方法[J].机械与电子,2023,41(5):62-66. 被引量：1

1黄晓辉,凌嘉壕,张雄,熊李艳,曾辉.基于局部位置感知的多智能体网约车调度方法[J].计算机工程与应用,2023,59(7):294-301. 被引量：2
2周一帆,郭凯,李帮诚.基于多智能体强化学习的多部件系统维修优化[J].长沙理工大学学报（自然科学版）,2023,20(2):27-34.
3宋艾璘,李雨捷,舒欣,胡小艳,钟坤华,陈芋文,张炬,易斌,鲁开智.基于机器学习算法建立非心脏手术术后认知功能障碍风险预测模型[J].陆军军医大学学报,2023,45(8):759-764. 被引量：1
4刘芳.降低骨质疏松腰背部疼痛的疼痛护理措施的应用价值分析[J].中文科技期刊数据库（引文版）医药卫生,2022(4):146-149.
5王立晓,颉磊.基于心理潜变量的乘客公共交通满意度研究[J].公路工程,2023,48(2):171-178.
6梁娟,梁红,刘梓康,赵丽婷.北京市心理援助热线赌博问题来电的危险因素[J].心理月刊,2022(24):47-49.
7孙宾,赵阳,何忠伟.双抗血小板药加低分子肝素治疗不稳定型心绞痛临床研究[J].中文科技期刊数据库（全文版）医药卫生,2021(12):62-63.
8郭靖,吴迪,成卓奇,李长胜,刘超.机器人辅助手术自主性技术的进展[J].机器人外科学杂志（中英文）,2023,4(4):281-298. 被引量：3
9金志军,王浩,方宝富.稀疏场景下基于理性好奇心的多智能体强化学习[J].计算机工程,2023,49(5):302-309. 被引量：1
10Pamela Reynolds.分享高光时刻:聪明管理者的选择[J].复印报刊资料（人力资源开发与管理）,2022(9):103-103.

计算机应用

2023年第5期

浏览历史

内容加载中请稍等...

基于共享注意力的多智能体强化学习订单派送

参考文献3

二级参考文献14

共引文献20

相关作者

相关机构

相关主题

浏览历史