Q学习算法在库存控制中的应用被引量：20

INVENTORY CONTROL USING Q LEARNING

下载PDF

导出

摘要Ｑ学习算法是Ｗａｔｋｉｎｓ提出的求解信息不完全马尔可夫决策问题的一种强化学习方法．这里提出了一种新的探索策略，并将该策略和Ｑ学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题．仿真表明，该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近，从而证实了Ｑ学习算法在一些系统模型未知的工程控制问题中的应用潜力．

作者蒋国飞吴沧浦

机构地区北京理工大学自动控制系

出处《自动化学报》 EI CSCD 北大核心 1999年第2期236-241,共6页 Acta Automatica Sinica

基金国家自然科学基金

关键词马尔可夫决策库存控制运筹学 Q学习算法

分类号 O22 [理学—运筹学与控制论]

引文网络
相关文献

参考文献2

1Peng J，博士学位论文，1993年
2Lin L J，Machine Learning，1992年，8卷，293页

同被引文献155

1夏莉,黄晶晶.期权定价理论与分阶段投资决策[J].商业研究,2004(16):113-114. 被引量：6
2田厚平,郭亚军,杨耀东.分销系统中多委托人及委托人可能合作的委托代理问题[J].系统工程理论方法应用,2004,13(4):361-366. 被引量：23
3董祥军,王淑静,宋瀚涛,陆玉昌.负关联规则的研究[J].北京理工大学学报,2004,24(11):978-981. 被引量：33
4聂焱.现代生产控制中的库存管理方式——JIT与MRPⅡ[J].贵州电力技术,2005,8(3):53-57. 被引量：1
5汪涛,崔楠.国外交叉销售研究综述[J].外国经济与管理,2005,27(4):43-49. 被引量：17
6汤大为,王红卫.强化学习算法在供应链环境下的库存控制中的应用[J].管理学报,2005,2(3):358-361. 被引量：5
7应保胜,容芷君.线性供应链的稳定性分析及稳定化策略研究[J].湖北工业大学学报,2005,20(3):71-73. 被引量：3
8阎平凡.再励学习——原理、算法及其在智能控制中的应用[J].信息与控制,1996,25(1):28-34. 被引量：30
9李随成,尹洪英.基于Q学习的供应链分销系统最优订货策略研究[J].控制与决策,2005,20(12):1404-1407. 被引量：2
10刘鹏飞,谢如鹤.基于供应链的现代库存管理方法之比较研究[J].商业研究,2006(2):170-174. 被引量：15

引证文献20

1李随成,尹洪英.基于Q学习的供应链分销系统最优订货策略研究[J].控制与决策,2005,20(12):1404-1407. 被引量：2
2刘昌贵,但斌.基于蒙特卡罗仿真技术的随机型库存决策方法[J].重庆大学学报（自然科学版）,2006,29(2):140-143. 被引量：10
3党兴华,权小锋,尹洪英.强化学习算法在分阶段组合投资决策中的应用[J].科技管理研究,2006,26(3):241-243. 被引量：1
4刘虹.基于MDP自适应决策的库存控制[J].河北建筑科技学院学报,2006,23(3):109-112.
5权小锋,尹洪英.基于互惠合作的供应链合作关系稳定机制研究[J].物流技术,2007,26(8):158-163. 被引量：6
6权小锋,尹洪英.供应链分销系统奖金优化与仿真分析[J].物流技术,2007,26(9):86-89.
7程岩.电子商务中基于Q学习的动态交叉销售方法[J].管理科学学报,2008,11(3):106-113. 被引量：6
8霍建恩,彭重嘉.基于eM-Plant对注塑企业的生产线建模仿真[J].工业工程,2011,14(1):118-122. 被引量：3
9王雯,傅卫平,王更生,郝良.具有学习能力的供应链系统的复杂动力学[J].机械工程学报,2011,47(8):175-182. 被引量：1
10程岩.电子商务中面向延迟购买行为的易逝品动态捆绑策略[J].系统工程理论与实践,2011,31(10):1892-1902. 被引量：15

二级引证文献325

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2朱鹏霖.基于深度强化学习的零售库存管理[J].科技促进发展,2024,20(5):458-467.
3安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
4丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：9
5王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
6马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
7赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
8周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
9卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5
10魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19

1蒋国飞,高慧琪,吴沧浦.Q学习算法中网格离散化方法的收敛性分析[J].控制理论与应用,1999,16(2):194-198. 被引量：9
2周亚清.质量管理中的马尔可夫分析法[J].水利电力机械电子技术,1991,5(3):43-47.
3沈宗宣.N阶段随机多目标决策的解法[J].天津轻工业学院学报,1992(2):43-47.
4曾庆宁.模糊多目标马尔可夫决策[J].桂林电子工业学院学报,1999,19(1):44-47.
5李月鲜,戎卫东.向量优化问题最优性条件的锥刻画[J].内蒙古大学学报（自然科学版）,2008,39(5):503-507. 被引量：4
6黄岚,王康平,周春光,原媛,庞巍.基于蚂蚁算法的混合方法求解旅行商问题[J].吉林大学学报（理学版）,2002,40(4):369-373. 被引量：24
7辜介田,陈和勋,吕强.非Fuzzy非控元的存在性[J].南昌大学学报（理科版）,2000,24(2):136-142. 被引量：5
8程红熙,任忠斌,何清华.马尔可夫决策过程在动态WTA中的应用[J].电光与控制,2005,12(1):83-85. 被引量：1
9黄志坚.ε-有效点的稳定性[J].景德镇高专学报,1999,14(2):13-14.
10刘全,周文云,李志涛.关系强化学习方法的初步研究[J].计算机应用与软件,2010,27(2):40-43. 被引量：1

自动化学报

1999年第2期

浏览历史

内容加载中请稍等...

Q学习算法在库存控制中的应用被引量：20

参考文献2

同被引文献155

引证文献20

二级引证文献325

相关作者

相关机构

相关主题

浏览历史

Q学习算法在库存控制中的应用 被引量：20

参考文献2

同被引文献155

引证文献20

二级引证文献325

相关作者

相关机构

相关主题

浏览历史

Q学习算法在库存控制中的应用被引量：20