Q-learning算法及其在囚徒困境问题中的实现被引量：7

Q-learning Algorithm and Its Usage in Prisoner's Dilemma

下载PDF

导出

摘要Ｑ－ｌｅａｒｎｉｎｇ是一种优良的强化学习算法。该文首先阐述了Ｑ－ｌｅａｒｎｉｎｇ的基本学习机制，然后以囚徒困境问题为背景，分析、对比ＴＱ－ｌｅａｒｎｉｎｇ算法与ＴＦＴ算法，验证了Ｑ－ｌｅａｒｎｉｎｇ算法的优良特性。 Q-learning is an algorithm of Reinforcement learning algorithm.In this paper,We elaborate the learning method of Q-learning algorithm simply,use it in prisoner's dilemma game and compare it with TFT to show its good character.

作者张春阳陈小平刘贵全蔡庆生

机构地区中国科学技术大学计算机系

出处《计算机工程与应用》 CSCD 北大核心 2001年第13期121-122,128,共3页 Computer Engineering and Applications

基金国家自然科学基金的支持(编号:69875017)

关键词机器学习强化学习 Q-learning算法囚徒困境问题人工智能 Machine Learning, Reinforcement learning, Q-learning algorithm, Agent,prisoner's dilemma,TFT algorithm

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1PR科恩周少柏等（译）.人工智能手册（第三卷）[M].科学出版社,1991..
2史忠植，高级人工智能，1998年
3蔡自兴，人工智能及其应用（第2版），1996年
4周少柏，人工智能手册.第三卷，1991年

同被引文献78

1田厚平,郭亚军,杨耀东.分销系统中多委托人及委托人可能合作的委托代理问题[J].系统工程理论方法应用,2004,13(4):361-366. 被引量：23
2朱江,伍聪.基于Agent的计算机建模平台的比较研究[J].系统工程学报,2005,20(2):160-166. 被引量：18
3应保胜,容芷君.线性供应链的稳定性分析及稳定化策略研究[J].湖北工业大学学报,2005,20(3):71-73. 被引量：3
4李随成,尹洪英.基于Q学习的供应链分销系统最优订货策略研究[J].控制与决策,2005,20(12):1404-1407. 被引量：2
5王迎军,高峻峻,郭亚军.基于需求预测的分销系统成本模型[J].系统工程学报,2006,21(1):97-101. 被引量：1
6刘昌贵,但斌.供应链战略合作伙伴关系的建立与稳定问题[J].软科学,2006,20(3):60-63. 被引量：24
7李文豪.我国银行经营绩效评价标准对信贷配给程度的影响[J].金融研究,2006(10):82-89. 被引量：12
8曹洁.银行信贷决策博弈分析[J].广州大学学报（自然科学版）,2006,5(6):86-90. 被引量：6
9刘娟娟,王镜宇.基于多智能体的演化博弈模型仿真研究[J].计算机与数字工程,2007,35(4):1-3. 被引量：3
10Christopher J Day, Benjan F Hobbs, Jong-Shi Pang. Oligopolistic competition in power networks: a conjectured supply function approach[J]. IEEE Trans on Power System, 2002,17(3).

引证文献7

1李随成,尹洪英.基于Q学习的供应链分销系统最优订货策略研究[J].控制与决策,2005,20(12):1404-1407. 被引量：2
2权小锋,尹洪英.基于互惠合作的供应链合作关系稳定机制研究[J].物流技术,2007,26(8):158-163. 被引量：6
3权小锋,尹洪英.供应链分销系统奖金优化与仿真分析[J].物流技术,2007,26(9):86-89.
4赵剑冬,林健.基于Agent的Repast仿真分析与实现[J].计算机仿真,2007,24(9):265-268. 被引量：14
5王帅.发电商基于Q-Learning算法的日前市场竞价策略[J].能源技术经济,2010,22(3):34-39. 被引量：8
6李锋,陈倩.信息共享对信贷市场影响的演化博弈分析[J].华南理工大学学报（社会科学版）,2013,15(5):10-14. 被引量：9
7廖列法,孙玮,刘朝阳.基于演化博弈研究移动和噪声对合作的影响[J].计算机应用与软件,2015,32(3):53-56. 被引量：4

二级引证文献43

1张砚劼,丁晨.基于Repast Simphony平台的经济系统仿真初探[J].中国商界,2009(3):161-162. 被引量：2
2权小锋,尹洪英.基于互惠合作的供应链合作关系稳定机制研究[J].物流技术,2007,26(8):158-163. 被引量：6
3权小锋,尹洪英.供应链分销系统奖金优化与仿真分析[J].物流技术,2007,26(9):86-89.
4李成杰,杨公平,尹义龙.基于agent的银行排队系统仿真[J].计算机仿真,2008,25(12):277-280. 被引量：11
5傅游,杜宇.基于Agent的Repast建模仿真平台[J].信息技术与信息化,2009(2):53-55. 被引量：6
6吴健宏,翁文国,倪顺江.基于GIS和Multi-Agent的城市应急疏散[J].清华大学学报（自然科学版）,2010,50(8):1168-1172. 被引量：22
7王付明,谢永生,智韬,王巍.基于Multi-Agent的工程保障排队系统仿真[J].指挥控制与仿真,2010,32(5):80-82.
8张广骏,李耀东,戴汝为.应用Repast S的复杂系统建模仿真[J].计算机仿真,2010,27(12):349-353. 被引量：9
9刘文远,李英帅,孙德杰,陈子军.基于Agent的同步休假排队调度系统仿真研究[J].计算机工程与设计,2011,32(8):2784-2788. 被引量：1
10张琦琮,杨公平.基于Agent的银行业务排队系统仿真研究[J].山东大学学报（工学版）,2011,41(4):68-72. 被引量：2

1王帅.基于两层Q-Learning算法的多智能体协作方法研究[J].煤矿机电,2013,34(5):74-76.
2任艳斐,张军锋.煤矿井下移动机器人路径规划的算法优化[J].煤炭技术,2013,32(7):80-82. 被引量：2
3徐学东.基于Q-learning算法的煤矿井下移动机器人路径规划[J].煤炭技术,2013,32(2):105-106. 被引量：4
4穆昕,王浣尘,王晓华.电子政务信息共享问题研究[J].中国管理科学,2004,12(3):121-124. 被引量：31
5望安全,陈宗海,文锋.一种基于强化学习的控制算法研究[J].计算机仿真,2003,20(11):42-44. 被引量：1
6柴玉梅,张靖.一种新的多目标优化策略机制及其应用[J].计算机应用,2007,27(9):2287-2289. 被引量：1
7王国庆.Q-learning算法的应用研究[J].河北企业,2016,0(12):262-263.
8何宏,李宇,张志宏.基于图像识别的爬壁机器人的路径规划[J].工业技术创新,2015,2(3):267-271. 被引量：1
9王帅.煤矿井下基于Q-learning算法的移动机器人路径规划[J].现代电子技术,2008,31(24):106-108. 被引量：3
10许培,薛伟.基于Q-learning的一种多Agent系统结构模型[J].计算机与数字工程,2011,39(8):8-11. 被引量：2

计算机工程与应用

2001年第13期

浏览历史

内容加载中请稍等...

Q-learning算法及其在囚徒困境问题中的实现被引量：7

参考文献4

同被引文献78

引证文献7

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

Q-learning算法及其在囚徒困境问题中的实现 被引量：7

参考文献4

同被引文献78

引证文献7

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

Q-learning算法及其在囚徒困境问题中的实现被引量：7