基于层级深度强化学习的间歇控制算法被引量：1

An Intermittent Control Algorithm Based on Deep Deterministic Policy Gradient

下载PDF

导出

摘要 DDPG算法是一种端到端的深度强化学习算法,主要用于解决仿真任务。DDPG能够在具有高维度动作空间的任务中取得接近人类的水平,然而当任务的复杂性提高时,DDPG存在收敛时间长和最终效果差的问题。为了提高在复杂任务环境中算法的收敛速度和最终效果,提出一种基于间歇控制框架的层级深度确定性策略梯度算法(HDDPG)用于完成仿真任务。首先在间歇控制原则下对复杂的任务进行策略上的分解,分解后的子任务间具有层级的架构和较为单一的优化目标,然后在最小转换原则下使用DDPG算法针对多个层级任务寻找最优解。使用DDPG和HD-DPG算法分别在轨迹追踪仿真任务中进行对比实验,实验结果证明在复杂连续运动控制任务上HDDPG相对DDPG算法具有更快的收敛速度和更好的实验结果。 Deep deterministic policy gradient (DDPG) is an end-to-end deep reinforcement learning algorithm. It is mainly used to solve virtual environment tasks. DDPG can achieve close-to-human level in tasks with high dimensional action space, but DDPG has the problem of long convergence time and poor performance for problems with significant complexity. In order to improve the convergence speed and the final effect of the algorithm in a complex task environment, proposes a hierarchical deep deterministic policy gradient (HDDPG) based on an intermittent control framework. Firstly, by applying the intermittent control principle the complex task can be decomposed into multiple subtasks, each of which can be optimized as a single task. Then the DDPG algorithm is used to find the optimal solution for multiple hierarchical tasks under the minimum transition principle. The DDPG and HDDPG algorithms are compared to verify the advantage of HDDPG, on the experiments of trajectory tracking task. The experimental results show that HDDPG is superior to the direct DDPG algorithm in problems of complex continuous motion control tasks, and has faster convergence speed.

作者李广源史海波孙杳如 LI Guang-yuan;SHI Hai-bo;SUN Yao-ru(Department of Computer Science College, College of Electronics and Information Engineering, Tongji University, Shanghai 201804)

机构地区同济大学电子与信息工程学院计算机科学与技术系

出处《现代计算机（中旬刊）》 2018年第12期3-7,共5页 Modern Computer

基金国家自然科学基金(No.91748122)

关键词 DDPG HDDPG 运动控制确定性策略梯度强化学习间歇控制 Deep Deterministic Policy Gradient (DDPG) Hierarchy Deep Deterministic Policy Gradient (HDDPG) Movement Control Deterministic Policy Gradient Reinforcement Learning Intermittent Control

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献8

1多南讯,吕强,林辉灿,卫恒.迈进高维连续空间:深度强化学习在机器人领域中的应用[J].机器人,2019,41(2):276-288. 被引量：24
2张斌,何明,陈希亮,吴春晓,刘斌,周波.改进DDPG算法在自动驾驶中的应用[J].计算机工程与应用,2019,55(10):264-270. 被引量：26
3解永春,王勇,陈奥,李林峰.基于学习的空间机器人在轨服务操作技术[J].空间控制技术与应用,2019,45(4):25-37. 被引量：14
4张耀中,许佳林,姚康佳,刘洁凌.基于DDPG算法的无人机集群追击任务[J].航空学报,2020,41(10):309-321. 被引量：29
5周庆锋,王思淳,李德鑫,刘佳琪,李同.基于DDPG的风电场动态参数智能校核知识学习模型[J].中国电力,2022,55(5):32-38. 被引量：2
6王斐,齐欢,周星群,王建辉.基于多源信息融合的协作机器人演示编程及优化方法[J].机器人,2018,40(4):551-559. 被引量：16
7柯丰恺,周唯倜,赵大兴.优化深度确定性策略梯度算法[J].计算机工程与应用,2019,55(7):151-156. 被引量：10
8刘乃军,鲁涛,蔡莹皓,王硕.机器人操作技能学习方法综述[J].自动化学报,2019,45(3):458-470. 被引量：39

引证文献1

1贾红涛,胡文娟.基于确定性策略梯度算法的机械臂控制模型构建及仿真[J].粘接,2021,47(9):151-154.

1刘五然.规范念算势在必行[J].珠算与珠心算,2018,0(5):42-43.
2李国豪.基于3D CNN-DDPG端到端无人驾驶控制[J].电子设计工程,2018,26(22):156-159. 被引量：4
3郭金红.水利水电工程施工安全管理与安全控制[J].名城绘,2019(2):0300-0300.
4黄凤娟.小学数学计算教学算理的结构分析及教学策略[J].明日,2019(7):0340-0340.
5陈建平,何超,刘全,吴宏杰,胡伏原,傅启明.增强型深度确定策略梯度算法[J].通信学报,2018,39(11):106-115. 被引量：8
6朱媚娜.舞台设计的空间创造与利用[J].东方藏品,2018,0(8):274-274.
7左丹.人防工程中的防化通风设计研究[J].工程技术研究,2018,3(9):227-228. 被引量：1
8刘诗宇.球杆系统建模及其闭环控制器的设计[J].现代机械,2018(6):1-8.
9生时.康熙皇帝五大养生之道[J].报刊荟萃,2018,0(12):102-102.
10黄政宇,胡寒婕.漳州核电项目前期建设成本精益化管理研究[J].南方能源建设,2018,5(4):135-140. 被引量：2

现代计算机（中旬刊）

2018年第12期

浏览历史

内容加载中请稍等...

基于层级深度强化学习的间歇控制算法被引量：1

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于层级深度强化学习的间歇控制算法 被引量：1

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于层级深度强化学习的间歇控制算法被引量：1