基于行动分值的强化学习与奖赏优化被引量：1

Action Values Based Reinforcement Learning and Optimized Reward Functions

下载PDF

导出

摘要针对强化学习算法收敛速度慢、奖赏函数的设计需要改进的问题,提出一种新的强化学习算法.新算法使用行动分值作为智能行为者选择动作的依据.行动分值比传统的状态值具有更高的灵活性,因此更容易针对行动分值设计更加优化的奖赏函数,提高学习的性能.以行动分值为基础,使用了指数函数和对数函数,动态确定奖赏值与折扣系数,加快行为者选择最优动作.从走迷宫的计算机仿真程序可以看出,新算法显著减少了行为者在收敛前尝试中执行的动作次数,提高了收敛速度. A new reinforcement learning algorithm with ＂action values＂ as a basis for an agent to choose actions is put forward to improve the design of reward signals. For action values are more flexible than traditional state values, it is easier to design more optimized reward functions and improve learning performance. Based on action values, an exponential function and a logarithmic function are used to compute action rewards and discount rate dynamically, which accelerates agents to choose optimized actions. It shows that through the computer simulation of a maze problem the new algorithm reduces action times before convergence and the convergence speed is thus enhanced.

作者陈启军肖云伟

机构地区同济大学控制科学与工程系

出处《同济大学学报（自然科学版）》 EI CAS CSCD 北大核心 2007年第4期531-536,共6页 Journal of Tongji University:Natural Science

基金国家自然科学基金资助项目(60643001) 教育部新世纪优秀人才计划和上海市曙光计划项目(04SG22)

关键词强化学习行动分值 Q算法奖赏函数 reinforcement learning action values Q algorithm reward functions

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1Watkins J C,Dayan H P. Q leaming[ J]. Machine Learning, 1992, 8:279.
2李伟,何雪松,叶庆泰,朱昌明.基于先验知识的强化学习系统[J].上海交通大学学报,2004,38(8):1362-1365. 被引量：5
3蒋国飞,高慧琪,吴沧浦.Q学习算法中网格离散化方法的收敛性分析[J].控制理论与应用,1999,16(2):194-198. 被引量：9
4Sutton R S. Open theoretical questions in reinforcement learning [ M] //Fischer P,Simon H U. Proc of the Fourth European Conf on Computational Learning Theory. [ S.l. ] : Springer- Verlag,1999:11 - 17.
5Mataric M J. Reward functions for accelerated learning[C]//Machine Learning. San Francisco: Morgan Kaufmann Publishers, 1994 : 181 - 189.
6Ng Y, Harada D, Russell S. Policy invariance under reward transformations:Theory and application to reward shaping[ M]//Kaufmann M. Proc of the sixteenth intl conf on machine learning. San Francisco: CA, 1999:278 - 287.
7Bonarini A, Bonacina C, Matteucci M. An approach to the design of reinforcement functions in real world, agent-based applications [J]. Man and Cybemeties: Part B,2001,31(3) :288.
8魏英姿 ,赵明扬 .强化学习算法中启发式回报函数的设计及其收敛性分析[J].计算机科学,2005,32(3):190-193. 被引量：13

二级参考文献18

1Minsky M L. Theory of Neural Analog Reinforcement Systems and its Application to the Brain Model Problem. New Jersey,USA, Princeton University, 1954
2Bertsekas D P,Tsitsiklis J N. Neuro-Dynamic Programming. Athena Scientific, Belmont, MA, 1996
3Sutton R S, Barto A G. Reinforcement Learning: An Introduction. MIT Press, Cambridge, MA, 1998
4Boyan J A,Moore A W. Generalization in reinforcement learning:Safely approximating the value function. Advances in Neural Information Processing Systems, 7: 369-376
5Watkins C J C H. Learning from Delayed Rewards: [Ph. D.Thesis]. King's College,University Library Cambridge, 1989
6Sutton R S. Open Theoretical Questions in Reinforcement Learning. In: Proc. of the Fourth European Conf. on Computational Learning Theory. Fischer P, Simon H U, eds. Springer-Verlag,1999.11-17
7Mataric M J. Reward Functions for Accelerated Learning. In:Machine Learning: Proc. of the Eleventh Intl. Conf. Morgan Kaufmann Publishers, San Francisco, CA, 1994. 181- 189
8Ng Y,Hareda D,Russell S. Policy invariance under reward transformations: Theory and application to reward shaping. In:Proc. of the Sixteenth Intl. Conf. on Machine Learning, Morgan Kaufmann,San Francisco,CA, 1999. 278-287
9Bonarini A,Bonaeina C,Matteucci M. An Approach to the Design of Reinforcement Functions in Real World, Agent-Based Applications. Man and Cybernetics, Part B, IEEE Transactions on, 2001,31(3) :288-301
10WEI Ying-zi,ZHAO Ming-yang. Effective Strategies for Complex Skill Real-time Learning Using Reinforcement Learning. In:IEEE Intl. Conf. on Robotics, Intelligent Systems and Signal Processing,2003. 388-392

共引文献21

1魏英姿 ,赵明扬 .强化学习算法中启发式回报函数的设计及其收敛性分析[J].计算机科学,2005,32(3):190-193. 被引量：13
2田建军,唐中勇.基于RBF函数状态离散化的激励学习[J].太原师范学院学报（自然科学版）,2006,5(3):50-53.
3陈启军,肖云伟.基于行动分值的强化学习与奖赏优化[J].同济大学学报（自然科学版）,2007,35(3):411-411. 被引量：1
4赵晓华,李振龙,于泉,张杰.基于切换模型的两交叉口信号灯Q学习协调控制[J].北京工业大学学报,2007,33(11):1148-1152. 被引量：4
5卞建勇,徐建闽,裴海龙.基于强化学习的视频车辆跟踪[J].华南理工大学学报（自然科学版）,2008,36(10):57-60. 被引量：3
6王国磊,钟诗胜,林琳.面向多机动态调度问题的两层Q学习算法[J].智能系统学报,2009,4(3):239-244. 被引量：1
7王忠巍,曹其新,栾楠,张蕾.基于强化学习的自主移动机器人反应式自救控制[J].上海交通大学学报,2009,43(11):1751-1755. 被引量：2
8刘全,闫其粹,伏玉琛,胡道京,龚声蓉.一种基于启发式奖赏函数的分层强化学习方法[J].计算机研究与发展,2011,48(12):2352-2358. 被引量：11
9郝钏钏,方舟,李平.基于Q学习的无人机三维航迹规划算法[J].上海交通大学学报,2012,46(12):1931-1935. 被引量：15
10张汝波,顾国昌,刘照德,王醒策.强化学习理论、算法及应用[J].控制理论与应用,2000,17(5):637-642. 被引量：92

同被引文献2

1胡晓辉.一种基于动态参数调整的强化学习动作选择机制[J].计算机工程与应用,2008,44(28):29-31. 被引量：6
2李晨溪,曹雷,陈希亮,张永亮,徐志雄,彭辉,段理文.基于云推理模型的深度强化学习探索策略研究[J].电子与信息学报,2018,40(1):244-248. 被引量：12

引证文献1

1于飞,郝建国,张中杰.基于动作概率的强化学习动作探索策略[J].计算机应用与软件,2023,40(5):184-189.

1陈启军,肖云伟.基于行动分值的强化学习与奖赏优化[J].同济大学学报（自然科学版）,2007,35(3):411-411. 被引量：1
2童小龙,姚明海,张灿淋.基于未知环境状态新定义及知识启发的机器人导航Q学习算法[J].计算机系统应用,2014,23(1):149-153. 被引量：1
3于献榕,赖铨,戴志伟,马丽君,谢裕忠.干式负载智能控制系统的设计与实现[J].计算机测量与控制,2016,24(3):59-63. 被引量：1
4刘犇.加强学习的实现及其在多主体系统中的应用[J].北京印刷学院学报,2000,8(1):22-30.
5冯延蓬,仵博,郑红燕,孟宪军.WSN中一种目标追踪在线节点调度算法[J].计算机工程,2012,38(11):96-99. 被引量：1
6肖文,王正友,王耀德.面向多源信息冲突管理的自适应折扣系数生成[J].小型微型计算机系统,2010,31(12):2348-2351. 被引量：1
7石相杰.析因实验设计与分析中的折扣系数及其应用——TAGUCHI方法研究[J].河北机电学院学报,1993,10(1):1-13.
8阮晓钢,陈静.基于滑模思想和Elman网络的操作条件反射学习控制方法[J].控制与决策,2011,26(9):1398-1401. 被引量：3
9仇环,曲国庆,苏晓庆.GM(1,1)模型的改进[J].山东理工大学学报（自然科学版）,2008,22(2):5-8. 被引量：11
10吴娴,赖剑煌.基于体积语义局部二值模式的行为识别[J].计算机学报,2012,35(12):2652-2660. 被引量：4

同济大学学报（自然科学版）

2007年第4期

浏览历史

内容加载中请稍等...

基于行动分值的强化学习与奖赏优化被引量：1

参考文献8

二级参考文献18

共引文献21

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于行动分值的强化学习与奖赏优化 被引量：1

参考文献8

二级参考文献18

共引文献21

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于行动分值的强化学习与奖赏优化被引量：1