PDP: Parallel Dynamic Programming 被引量：15

PDP: Parallel Dynamic Programming

下载PDF

导出

摘要 Deep reinforcement learning is a focus research area in artificial intelligence. The principle of optimality in dynamic programming is a key to the success of reinforcement learning methods. The principle of adaptive dynamic programming(ADP)is first presented instead of direct dynamic programming(DP),and the inherent relationship between ADP and deep reinforcement learning is developed. Next, analytics intelligence, as the necessary requirement, for the real reinforcement learning, is discussed. Finally, the principle of the parallel dynamic programming, which integrates dynamic programming and analytics intelligence, is presented as the future computational intelligence. Deep reinforcement learning is a focus research area in artificial intelligence. The principle of optimality in dynamic programming is a key to the success of reinforcement learning methods. The principle of adaptive dynamic programming ADP is first presented instead of direct dynamic programming DP , and the inherent relationship between ADP and deep reinforcement learning is developed. Next, analytics intelligence, as the necessary requirement, for the real reinforcement learning, is discussed. Finally, the principle of the parallel dynamic programming, which integrates dynamic programming and analytics intelligence, is presented as the future computational intelligence. © 2014 Chinese Association of Automation.

作者 Fei-Yue Wang Jie Zhang Qinglai Wei Xinhu Zheng Li Li

机构地区 IEEE State Key Laboratory of Management and Control for Complex Systems(SKL-MCCS) School of Computer and Control Engineering Research Center for Military Computational Experiments and Parallel Systems Technology State Key Laboratory of Management and Control for Complex Systems Qingdao Academy of Intelligent Industries Department of Computer Science and Engineering Department of Automation

出处《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2017年第1期1-5,共5页 自动化学报（英文版）

基金 supported by National Natural Science Foundation of China(61533019,61374105,71232006,61233001,71402178)

关键词 Parallel dynamic programming Dynamic programming Adaptive dynamic programming Reinforcement learning Deep learning Neural networks Artificial intelligence Artificial intelligence Neural networks Reinforcement learning

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1Qiming Zhao,Hao Xu,Sarangapani Jagannathan.Near Optimal Output Feedback Control of Nonlinear Discrete-time Systems Based on Reinforcement Neural Network Learning[J].IEEE/CAA Journal of Automatica Sinica,2014,1(4):372-384. 被引量：2
2王飞跃.平行控制:数据驱动的计算控制方法[J].自动化学报,2013,39(4):293-302. 被引量：129
3Rushikesh Kamalapurkar,Justin R.Klotz,Warren E.Dixon.Concurrent Learning-based Approximate Feedback-Nash Equilibrium Solution of N-player Nonzero-sum Differential Games[J].IEEE/CAA Journal of Automatica Sinica,2014,1(3):239-247. 被引量：6
4Fei-Yue Wang,Jun Jason Zhang,Xinhu Zheng,Xiao Wang,Yong Yuan,Xiaoxiao Dai,Jie Zhang,Liuqing Yang.Where Does AlphaGo Go: From Church-Turing Thesis to AlphaGo Thesis and Beyond[J].IEEE/CAA Journal of Automatica Sinica,2016,3(2):113-120. 被引量：49
5Fei-Yue Wang.Control 5.0: From Newton to Merton in Popper's Cyber-Social-Physical Spaces[J].IEEE/CAA Journal of Automatica Sinica,2016,3(3):233-234. 被引量：11
6段艳杰,吕宜生,张杰,赵学亮,王飞跃.深度学习在控制领域的研究现状与展望[J].自动化学报,2016,42(5):643-654. 被引量：146

二级参考文献35

1王飞跃,李乐飞,黄星,邹余敏.关于长周期连续安全节能有效生产基础理论的探讨[J].计算机与应用化学,2007,24(12):1711-1713. 被引量：16
2王飞跃.人工社会、计算实验、平行系统——关于复杂社会经济系统计算研究的讨论[J].复杂系统与复杂性科学,2004,1(4):25-35. 被引量：231
3王飞跃.平行系统方法与复杂系统的管理和控制[J].控制与决策,2004,19(5):485-489. 被引量：322
4王飞跃.关于复杂系统研究的计算理论与方法[J].中国基础科学,2004,6(5):3-10. 被引量：97
5王飞跃.词计算和语言动力学系统的基本问题和研究[J].自动化学报,2005,31(6):844-852. 被引量：34
6王飞跃.关于复杂系统的建模、分析、控制和管理[J].复杂系统与复杂性科学,2006,3(2):26-34. 被引量：63
7王飞跃.复杂系统的控制与管理机制研究及其应用.中国科学院院长基金特别支持项目立项书.2005.
8Wang F Y, Wong P K. Intelligent Systems and Technology for Integrative and Predictive Medicine: An ACP Approach. ACM Transactions on Intelligent Systems and Technology. 4, 2, Article 32 (March 2013): 1-6.
9Wang F Y. Toward a paradigm shift in social computing: the ACP approach. IEEE Intelligent Systems, 2007, 22(5): 65-67.
10Wang F Y. Parallel control and management for intelligent transportation systems: concepts, architectures, and appli-cations. IEEE Transactions on Intelligent Transportation Systems, 2010, 11(3): 630-638.

共引文献321

1吕宜生,王飞跃,张宇,张晓东.虚实互动的平行城市:基本框架、方法与应用[J].智能科学与技术学报,2019,1(3):311-317. 被引量：14
2杨超,高玉,艾云峰,田滨,陈龙,王健,王飞跃.端对端平行无人矿山系统及其关键技术[J].智能科学与技术学报,2019,1(3):228-240. 被引量：14
3丁文文,王帅,李娟娟,袁勇,欧阳丽炜,王飞跃.去中心化自治组织:发展现状、分析框架与未来趋势[J].智能科学与技术学报,2019,0(2):202-213. 被引量：34
4沈大勇,王晓,刘胜.平行装卸:迈向智慧物流的智能技术[J].智能科学与技术学报,2019,0(1):34-39. 被引量：2
5吕宜生,陈圆圆,金峻臣,李镇江,叶佩军,朱凤华.平行交通:虚实互动的智能交通管理与控制[J].智能科学与技术学报,2019,1(1):21-33. 被引量：28
6付朝博,蔡卓函,冯琦琦,亓鹏程.装备体系平行试验基本概念及流程设计[J].装甲兵学报,2022(3):50-55.
7吕宜生,刘雅慧,陈圆圆,朱凤华.融合时空特征的端到端自动驾驶车辆转向角预测[J].中国公路学报,2022,35(3):263-272. 被引量：1
8郭一楠,杨帆,葛世荣,黄遥,尤秀松.知识驱动的智采数字孪生主动管控模式[J].煤炭学报,2023,48(S01):334-344. 被引量：3
9王岩,张旭辉,曹现刚,赵友军,杨文娟,杜昱阳,石硕.掘进工作面数字孪生体构建与平行智能控制方法[J].煤炭学报,2022,47(S01):384-394. 被引量：10
10孙烨超,马和民.教育数字化转型的挑战及其治理路径分析[J].中国教育政策评论,2022(1):60-76. 被引量：2

同被引文献119

1王飞跃,王艳芬,陈薏竹,田永林,齐红威,王晓,张卫山,张俊,袁勇.联邦生态:从联邦数据到联邦智能[J].智能科学与技术学报,2020,2(4):305-311. 被引量：25
2吕宜生,王飞跃,张宇,张晓东.虚实互动的平行城市:基本框架、方法与应用[J].智能科学与技术学报,2019,1(3):311-317. 被引量：14
3刘腾,王晓,邢阳,高玉,田滨,陈龙.基于数字四胞胎的平行驾驶系统及应用[J].智能科学与技术学报,2019,0(1):40-51. 被引量：14
4吕宜生,陈圆圆,金峻臣,李镇江,叶佩军,朱凤华.平行交通:虚实互动的智能交通管理与控制[J].智能科学与技术学报,2019,1(1):21-33. 被引量：28
5张俊,王飞跃,方舟.社会能源:从社会中获取能源[J].智能科学与技术学报,2019,0(1):7-20. 被引量：13
6王侨侨,曾君,刘俊峰,陈剑龙,王振刚.面向微电网源–储–荷互动的分布式多目标优化算法研究[J].中国电机工程学报,2020,40(5):1421-1432. 被引量：29
7ZHAO Rong-zhen,LIAN Jin.基于邻域粗糙集概念的一种滚动轴承特征提取方法[J].兰州理工大学学报,2019,45(6):34-39. 被引量：2
8王飞跃.人工社会、计算实验、平行系统——关于复杂社会经济系统计算研究的讨论[J].复杂系统与复杂性科学,2004,1(4):25-35. 被引量：231
9罗立.数学在科技文献增长规律研究中的应用及逻辑曲线增长规律的修正[J].情报科学,1981,2(3):17-23. 被引量：9
10王飞跃,汤淑明.人工交通系统的基本思想与框架体系[J].复杂系统与复杂性科学,2004,1(2):52-59. 被引量：40

引证文献15

1李浥东,张俊,陶耀东,王伟,顾元祥,王飞跃.平行安全:基于CPSS的生成式对抗安全智能系统[J].智能科学与技术学报,2020(2):194-202. 被引量：6
2郭超,鲁越,林懿伦,卓凡,王飞跃.平行艺术:人机协作的艺术创作[J].智能科学与技术学报,2019,0(4):335-341. 被引量：11
3吕宜生,王飞跃,张宇,张晓东.虚实互动的平行城市:基本框架、方法与应用[J].智能科学与技术学报,2019,1(3):311-317. 被引量：14
4白天翔,沈震,刘雅婷,董西松.平行机器:一种智能机器的管理与控制框架[J].智能科学与技术学报,2019,0(2):181-191. 被引量：5
5沈大勇,王晓,刘胜.平行装卸:迈向智慧物流的智能技术[J].智能科学与技术学报,2019,0(1):34-39. 被引量：2
6吕宜生,陈圆圆,金峻臣,李镇江,叶佩军,朱凤华.平行交通:虚实互动的智能交通管理与控制[J].智能科学与技术学报,2019,1(1):21-33. 被引量：28
7王飞跃,高彦臣,商秀芹,张俊.平行制造与工业5.0:从虚拟制造到智能制造[J].科技导报,2018,36(21):10-22. 被引量：14
8王振刚,陈渊睿,曾君,刘俊峰,潘志伟.CPSS架构下基于“引导信息”和平行控制的社区微电网能量管理方法[J].中国电机工程学报,2020,40(21):6864-6874. 被引量：7
9刘应东,刘韬,李华,王廷轩.变工况轴承的联合分布适应迁移故障诊断[J].电子测量与仪器学报,2021,35(5):69-75. 被引量：12
10王飞跃,蒋怀光.平行电池:智能生态化电池技术与服务体系的框架和流程[J].智能科学与技术学报,2021,3(4):521-531. 被引量：4

二级引证文献133

1王飞跃,王艳芬,陈薏竹,田永林,齐红威,王晓,张卫山,张俊,袁勇.联邦生态:从联邦数据到联邦智能[J].智能科学与技术学报,2020,2(4):305-311. 被引量：25
2李浥东,张俊,陶耀东,王伟,顾元祥,王飞跃.平行安全:基于CPSS的生成式对抗安全智能系统[J].智能科学与技术学报,2020(2):194-202. 被引量：6
3苏宏业,周泽,刘之涛,张立炎.电动汽车智能动态无线充电系统的研究现状与展望[J].智能科学与技术学报,2020,2(1):1-9. 被引量：7
4郭超,鲁越,林懿伦,卓凡,王飞跃.平行艺术:人机协作的艺术创作[J].智能科学与技术学报,2019,0(4):335-341. 被引量：11
5吕宜生,王飞跃,张宇,张晓东.虚实互动的平行城市:基本框架、方法与应用[J].智能科学与技术学报,2019,1(3):311-317. 被引量：14
6康孟珍,王秀娟,华净,王浩宇,王飞跃.平行农业:迈向智慧农业的智能技术[J].智能科学与技术学报,2019,0(2):107-117. 被引量：28
7沈大勇,王晓,刘胜.平行装卸:迈向智慧物流的智能技术[J].智能科学与技术学报,2019,0(1):34-39. 被引量：2
8吕宜生,陈圆圆,金峻臣,李镇江,叶佩军,朱凤华.平行交通:虚实互动的智能交通管理与控制[J].智能科学与技术学报,2019,1(1):21-33. 被引量：28
9何苗,沈大勇,王涛,邹玉,黄山,李济廷.基于ACP方法的平行人力资源管理框架[J].网络安全与数据治理,2023,42(S02):17-25.
10杭成宝.露天煤矿智能化转型平行安全研究[J].工矿自动化,2021,47(S01):96-100. 被引量：10

1WEI Qing-Lai,ZHANG Hua-Guang,LIU De-Rong,ZHAO Yan.An Optimal Control Scheme for a Class of Discrete-time Nonlinear Systems with Time Delays Using Adaptive Dynamic Programming[J].自动化学报,2010,36(1):121-129. 被引量：17
22006 IEEE World Congress on Computational Intelligence[J].自动化学报,2005,31(5):667-667.
3李枚毅,蔡自兴,石跃祥,孙国荣,蒙祖强.进化计算的一种变异概率自适应方法[J].计算机科学,2002,29(z1):144-145.
4Yong Liu 1,Tetsuya Higuchi 2,Masaya lwata 2 1.The University of Aizu, Fukushima 965 8580,Japan 2.Evolvable Systems Laboratory, Electrotechnical Laboratory, Lbaraki 305 8568,Japan.Design of Evolvable Hardware for Robotic Navigation[J].Wuhan University Journal of Natural Sciences,2001,6(Z1):547-554.
5Yang Yu-jun,Cheng Jun-shi,Chen Jia-pin,Li Xiao-hai.The Intellectualized Architecture of the Autonomous Micro- Mobile Robot Based- Behavior[J].Wuhan University Journal of Natural Sciences,2002,7(4):437-444.
6Qian Yusen,Chen Liping,Zhong Yifang,Zhou Ji (National CAD Sopport Software Engineering Research Center (Wuhan) Huazhong University of Science and Technology, Wuhan P. r. China, 430074) Niu Xinqiang,Yang Xinjun,Yang Benxin (Changjiang Water Resource C.An Automatic Generation System of Reinforcement Detail Drawings for Hydraulic Structures[J].Computer Aided Drafting,Design and Manufacturing,2000,10(1):41-49.
7WCCI 2008 CALL FOR PAPERS IEEE World Congress on Computational Intelligence HongKong June 1-6, 2008[J].控制理论与应用,2007,24(3):511-511.
8Balasubramaniyan SARAVANAN,Surbhi SIKRI,K. S. SWARUP,D. P. KOTHARI.Unit commitment using dynamic programming-an exhaustive working of both classical and stochastic approac[J].Frontiers in Energy,2013,7(3):333-341. 被引量：2
9王培屹.浅析强化学习算法研究与应用[J].科技信息,2011(11):183-183.
10Hui He,Hao Zhang.A Rapid Grid Search Method for Solving Dynamic Programming Problems in Economics[J].Frontiers of Economics in China-Selected Publications from Chinese Universities,2013,8(2):260-271.

IEEE/CAA Journal of Automatica Sinica

2017年第1期

浏览历史

内容加载中请稍等...