基于递阶强化学习的多智能体AGV调度系统被引量：8

Multiagent AGV dispatching system based on hierarchical reinforcement learning

下载PDF

导出

摘要递阶强化学习是解决状态空间庞大的复杂系统智能体决策的有效方法。具有离散动态特性的AGV调度系统需要实时动态的调度方法 ,而具有 Max Q递阶强化学习能力的多智能体通过高效的强化学习方法和协作 ,可以实现 AGV的实时调度。 Hierarchical reinforcement learning is an effective method of solving decision problems for complex systems with enormous number of states. AGV dispatching system needs dynamic dispatching rules because of its discrete and dynamic properties. Multiagent with the capacity of Max Q hierarchical reinforcement learning is implemented in real time AGV dispatching by high performance learning and cooperation. The simulation testifies the efficiency of this method.

作者李晓萌杨煜普许晓鸣

机构地区上海交通大学自动化研究所

出处《控制与决策》 EI CSCD 北大核心 2002年第3期292-296,共5页 Control and Decision

关键词递阶强化学习多智能体 AGV调度系统机器学习 hierarchical reinforcement learning Max Q method cooperative multiagent AGV dispatching

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1T G Dietterich. Machine learning research: Four current directions[J]. Artificial Intelligence Magazine,1997,18(4):97-136.
2C Claus, C Boutilier. The dynamics of reinforcement learning in cooperative multiagent systems[A]. Proc of the 10th AAAI[C]. Wisconsin: Madison,1998.746-752.
3L Kaelbling. Hierarchical reinforcement learning: Preliminary results[A]. Proc of the 10th ICML[C]. San Francisco: Morgan Kaufmann,1993.167-173.
4T Dietterich. The MAXQ method for hierarchical reinforcement learning[A]. Proc of the 15th ICML[C]. San Francisco: Morgan Kaufmann.1998.118-126.
5C J Watkins. Learning from delayed rewards[D]. Cambridge: Kings College,1989.
6J Bartholdi, L Platzman. Decentralized control of affixed route automatic guided vehicle system[J]. IIE Transactions,1989,21(1):76-81.
7J Lee. Composite dispatching rules for multiple-vechile AGV system[J]. Simulation,1996,66(2):121-130.
8C Klein, J Kim. AGV dispatching[J]. Int J of Production Research,1996,34(1):95-100.

同被引文献40

1卢厚清,张永利,李宏伟,余勤.一种改进的蚁群求解算法[J].东南大学学报（自然科学版）,2006,36(S1):176-180. 被引量：3
2秦斌,吴敏,王欣.模糊神经网络模型混沌混合优化学习算法及应用[J].控制与决策,2005,20(3):261-265. 被引量：5
3刘国栋,曲道奎,张雷.多AGV调度系统中的两阶段动态路径规划[J].机器人,2005,27(3):210-214. 被引量：42
4戴学丰王林边信黔.基于DES的水下机器人协调控制研究[A]..2000中国控制与决策学术年会[C].,2000.793-796.
5Wu N Q, Zhou M C. AGV routing for conflict resolution in AGV systems [ A ]. Proceedings of the 2003 IEEE International Conference on Robotics and Automation [ C ]. Taipei Taiwan: IEEE, 2003.1428 - 1433.
6Rcszkowska E. Undirected colored Petri net for modelling and supervisory control of AGV systems[ A]. Proceedings of the 6th International Workshop on Discrete Event Systems[ C]. Los Alamitos, CA,USA: IEEE, 2002. 135-142.
7Miller R D. Automated Guided Vehicles and Automated Manufacturing[ M]. Dearborn, Michigan: Society of Manufacturing Engineers,1987.
8Lee J H, Lee B H, Choi M H . Real-time traffic control scheme of multiple AGV systems for collision free minimum time motion: a routing table approach [J]. IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems and Humans, 1998 , 28 ( 3 ): 347 -358.
9Deo N, Pang C Y. Shortest-path algorithms: taxonomy and annotation[J]. Networks, 1984, 14(2): 275 -323.
10Dijkstra E W. A note on two problems in connexion with graphs[J].Numerische Mathematic, 1959, 1 (2): 269 -271.

引证文献8

1江正川.多AGV群控调度的蚁群算法研究[J].科技信息,2013,0(36):63-64. 被引量：1
2刘国栋,曲道奎,张雷.多AGV调度系统中的两阶段动态路径规划[J].机器人,2005,27(3):210-214. 被引量：42
3王雪松,程玉虎,易建强.一种自适应模糊Actor-Critic学习[J].控制与决策,2006,21(9):1068-1072. 被引量：3
4王佳溶,楼佩煌,王晓勇.基于改进的两阶段控制策略的AGV路径优化调度研究[J].机械科学与技术,2008,27(9):1211-1216. 被引量：10
5巴德年.当今医学科技的发展趋势及我国的发展战略[J].医学与哲学,2000,21(2):1-4. 被引量：22
6韩增亮,赵智勇,王冬青.基于B-W交叉模式遗传算法的多AGV轨迹优化[J].青岛大学学报（工程技术版）,2017,32(2):46-50.
7于佳乔,张孜毅,李岩.基于Plant Simulation的车间调度优化仿真[J].长春工业大学学报,2021,42(1):53-58. 被引量：2
8程玉虎,易建强,赵冬斌.机器人行为协调机制研究进展[J].机器人,2004,26(2):187-192. 被引量：7

二级引证文献83

1杨渊,李玲,齐燕,高东平,杜然然.我国医学科技70年发展态势研究[J].医学信息学杂志,2019,40(10):12-18. 被引量：5
2范江涛,闫惠青.现代医学的回顾和发展趋势[J].广西医科大学学报,2007,24(S1):32-33.
3孙建萍,王莲花,高永平.对医务人员关于器官移植及身后(遗体)捐献的KAP调查分析[J].中国卫生事业管理,2005,21(2):119-121. 被引量：14
4孙建萍,高永平,王莲花.大学生对器官移植和器官捐献认知状况及态度的调查研究[J].医学与社会,2005,18(2):1-4. 被引量：21
5王雪松,田西兰,程玉虎.基于支持向量机的连续状态空间Q学习[J].中国矿业大学学报,2008,37(1):93-98. 被引量：5
6洪流,韩宇,靳雁,吴开春.新军事革命对军队高等医学教育的启示[J].西北医学教育,2008,16(5):860-861.
7王佳溶,楼佩煌,王晓勇.基于改进的两阶段控制策略的AGV路径优化调度研究[J].机械科学与技术,2008,27(9):1211-1216. 被引量：10
8刘思尧,王冬.基于博弈论的AGV系统优化调度模型[J].梧州学院学报,2008,18(6):54-59. 被引量：1
9杜仕林.“健康公平”的法律解读[J].理论与改革,2009(2):139-141. 被引量：1
10尚伟燕,李舜酩,占日新,辛江慧.轮履复合式探测车避障系统研究[J].传感器与微系统,2009,28(5):11-14. 被引量：1

1刘国栋,曲道奎,张雷.多AGV调度系统中的两阶段动态路径规划[J].机器人,2005,27(3):210-214. 被引量：42
2王文玺,肖世德,孟祥印,陈应松,张卫华.基于递阶强化学习的自主机器人路径规划智能体[J].计算机集成制造系统,2009,15(6):1215-1221. 被引量：5
3安岭丽,彭志平,李铁鹰.MAXQ方法在出租车问题中的应用[J].茂名学院学报,2007,17(1):56-59.
4刘子薇,吴焱明,路程,王吉祥.Dijkstra算法在激光导引AGV调度系统中的应用[J].机械工程与自动化,2017(2):33-34. 被引量：2
5张伟,张秋菊.Dijkstra算法在AGV调度系统中的应用[J].机械设计与制造工程,2015,44(5):61-64. 被引量：5
6庞士焕,朱相冰,张琦,汤萍萍.基于MAXQ方法的分层强化学习[J].计算机技术与发展,2009,19(4):154-156. 被引量：1
7邵雪松,高雨翔,宋瑞鹏,冯泽龙,帅率,马吉科.多目标复合AGV调度系统建模及在电力计量检定中的应用[J].江苏电机工程,2016,35(5):24-27. 被引量：10
8王凤英,崔国玮,邸建红,颉新春.计数器的VHDL设计与实现[J].现代电子技术,2007,30(9):114-116. 被引量：7
9沈晶,顾国昌,刘海波.一种新的分层强化学习方法[J].计算机应用,2006,26(8):1938-1939. 被引量：1
10Maxim扩充MAXQ混和信号微控制器产品线[J].电子质量,2010(12):62-62.

控制与决策

2002年第3期

浏览历史

内容加载中请稍等...

基于递阶强化学习的多智能体AGV调度系统被引量：8

参考文献8

同被引文献40

引证文献8

二级引证文献83

相关作者

相关机构

相关主题

浏览历史

基于递阶强化学习的多智能体AGV调度系统 被引量：8

参考文献8

同被引文献40

引证文献8

二级引证文献83

相关作者

相关机构

相关主题

浏览历史

基于递阶强化学习的多智能体AGV调度系统被引量：8