基于强化学习的订单生产型企业的订单接受策略被引量：9

Reinforcement learning based order acceptance policy in make-to-order enterprises

导出

摘要针对订单生产型企业在订单接受决策过程中的不确定性,基于强化学习的思想,在考虑生产成本、延迟惩罚成本以及拒绝成本的前提下,引入顾客等级这一要素,从收益管理的角度建立了基于半马尔可夫决策过程的订单接受模型.在此基础上,提出了基于SMART算法的最优订单接受策略求解方法,旨在最大化订单生产型企业的长期利润.仿真实验结果表明:基于SMART算法得到的订单接受策略要优于基于先来先服务方法得到的订单接受策略;同时,针对考虑顾客等级的仿真实验及数据分析结果,也验证了引入顾客等级这一要素的必要性和重要性. From the perspective of revenue management, a semi-Markov decision process based order acceptance model （SMDP-OA model） is proposed on the basis of reinforcement learning. This model is to solve the uncertainties during order accepting decision processes for make-to-order （MTO） compa- nies, not only taking into account the production cost, delay cost and reject cost of the incoming order, but also the factor of customer level. Besides, SMART-based optimal order acceptance algorithm is pre- sented, aiming at maximizing the profit of MTO companies. The simulation experiments indicate that the proposed SMART-based algorithm performs better than the algorithm based on the first-come-first-serve （FCFS） order acceptance strategy. Moreover, the experiments also justify the necessity and importance of incorporating the customer level factor during the determination of the optimal order acceptance policy.

作者王晓欢王宁宁樊治平

机构地区东北大学工商管理学院

出处《系统工程理论与实践》 EI CSSCI CSCD 北大核心 2014年第12期3121-3129,共9页 Systems Engineering-Theory & Practice

基金国家自然科学基金(71201020) 中央高校基本科研业务经费(N120406002) 中国博士后科学基金(2013M540233)

关键词收益管理订单接受 SMART算法平均利润强化学习 revenue management order acceptance SMART algorithm average profit reinforcementlearning

分类号 C934 [经济管理—管理学]

引文网络
相关文献

参考文献21

1Scott C, Izak D. Optimal admission control and sequencing in a make-to-stock/make-to-order production system[J]. Operations Research, 2000, 48(5): 709-720.
2Wu A W D, Chiang D M H. The impact of estimation error on the dynamic order admission policy in B2B MTO environment[J]. Expert Systems with Applications, 2009, 36(9): 11782-11791.
3Slotnick S A. Order acceptance and scheduling: A taxonomy and review[J]. European Journal of Operational Research, 2011, 212(1): 1-11.
4Balakrishnan N, Patterson J W, Sridharan V. Rationing capacity between two product classes[J]. Decision Sciences, 1996, 27(2): 185-214.
5Barut M, Sridharan V. Revenue management in order-driven production systems[J]. Decision Sciences, 2005, 36(2): 287-316.
6张欣,马士华.基于有限生产能力和产出缓存的订单接受策略[J].工业工程与管理,2008,13(2):34-38. 被引量：17
7张人千.考虑时间序列关联的订单选择决策比较研究[J].管理科学学报,2009,12(3):44-55. 被引量：13
8Rom W O, Slotnick S A. Order acceptance using genetic algorithms[J]. Computers and Operations Research, 2009, 36(6): 1758-1767.
9Oguz C, Salman F S, Yalcm Z B. Order acceptance and scheduling in make-to-order systems[J]. International Journal of Production Economics, 2010, 125(1): 200-211.
10范丽繁,陈旭.基于EMSR方法的订单接受策略研究[J].管理评论,2010,22(4):109-113. 被引量：6

二级参考文献94

1承向军,贺振欢,杨肇夏.基于遗传算法的交通信号机器学习控制方法[J].系统工程理论与实践,2004,24(8):130-135. 被引量：13
2陈宪章,汪定伟,刘崇.冲击型负荷下的生产存储模型研究[J].管理科学学报,2004,7(4):33-39. 被引量：4
3罗利,萧柏春.收入管理理论的研究现状及发展前景[J].管理科学学报,2004,7(5):75-83. 被引量：52
4张慧颖,寇纪淞,李天生,赵先德.基于σ/Q的库存控制中安全库存的优选策略[J].管理科学学报,2004,7(6):46-51. 被引量：7
5刘永,郭怀成,范英英,王丽婧.湖泊生态系统动力学模型研究进展[J].应用生态学报,2005,16(6):1169-1175. 被引量：34
6张锦特,赖玟玲.季节性需求下受资源限制及缺货之存货模型[J].管理科学学报,2005,8(3):72-80. 被引量：9
7禹海波.具有不确定性产出库存系统的随机比较[J].系统工程理论与实践,2005,25(7):105-112. 被引量：8
8王慧敏,佟金萍,马小平,倪建军,牛文娟.基于CAS范式的流域水资源配置与管理及建模仿真[J].系统工程理论与实践,2005,25(12):118-124. 被引量：36
9毛国柱,刘永,郭怀成,吕晓剑,周丰.湖泊富营养化控制技术综合集成方法框架[J].环境工程,2006,24(1):65-67. 被引量：9
10倪建军,徐立中,王建颖.基于CAS理论的多Agent建模仿真方法研究进展[J].计算机工程与科学,2006,28(5):83-86. 被引量：10

共引文献87

1Di Cao,Weihao Hu,Junbo Zhao,Guozhou Zhang,Bin Zhang,Zhou Liu,Zhe Chen,Frede Blaabjerg.Reinforcement Learning and Its Applications in Modern Power and Energy Systems: A Review[J].Journal of Modern Power Systems and Clean Energy,2020,8(6):1029-1042. 被引量：26
2钱静,吴克宇,陈超,胡星辰.基于后状态强化学习的最优订单接受决策[J].计算机科学,2022,49(S02):55-63.
3谢瑗瑗,胡祥光,刘军,谷发平.P2P网络中信任模型研究综述[J].军事通信技术,2009,30(2):38-42. 被引量：4
4李瑾,刘全,杨旭东,杨凯,翁东良.一种改进的平均奖赏强化学习方法在RoboCup训练中的应用[J].苏州大学学报（自然科学版）,2012,28(2):21-26. 被引量：2
5吴吉义,沈千里,陈德人,章剑林.融合QoS的对等电子服务信誉激励研究进展[J].华中科技大学学报（自然科学版）,2012,40(S1):365-371.
6李春贵,阳树洪,王萌,张增芳.基于SARSA(λ)算法的单路口交通信号学习控制[J].广西工学院学报,2008,19(2):10-14. 被引量：3
7张捍东,吴玉秀,岑豫皖.多机器人合作与协调研究进展[J].计算机工程与应用,2008,44(24):238-241. 被引量：4
8王巍巍,陈兴国,高阳.一种结合Tile Coding的平均奖赏强化学习算法[J].模式识别与人工智能,2008,21(4):446-452.
9承向军,杜鹏,杨肇夏.基于云模型的交通信号自学习控制方法[J].交通运输系统工程与信息,2009,9(1):45-50. 被引量：3
10雷蕾,陆新泉.P2P环境下基于小世界特性的信任机制[J].情报杂志,2009,28(B12):66-69.

同被引文献52

1刘春晖,张永刚,徐均哲.基于约束理论的轿车涂装迂回工艺倒推排序算法[J].吉林大学学报（工学版）,2008,38(S2):173-177. 被引量：3
2王迎军.顾客需求驱动的供应链契约问题综述[J].管理科学学报,2005,8(2):68-76. 被引量：60
3白小振,吉守龙.遗传算法在无委托板坯与合同匹配中的应用[J].控制工程,2008,15(1):95-98. 被引量：5
4张欣,马士华.基于有限生产能力和产出缓存的订单接受策略[J].工业工程与管理,2008,13(2):34-38. 被引量：17
5黄刚,姚志力,郭虎,司尚文.一类无缓冲区涂装喷漆排序问题[J].华中科技大学学报（自然科学版）,2008,36(7):108-111. 被引量：9
6王爽,赵鹏.基于Logit模型的客运专线旅客选择行为分析[J].铁道学报,2009,31(3):6-10. 被引量：53
7张人千.考虑时间序列关联的订单选择决策比较研究[J].管理科学学报,2009,12(3):44-55. 被引量：13
8范丽繁,陈旭.基于EMSR方法的订单接受策略研究[J].管理评论,2010,22(4):109-113. 被引量：6
9范丽繁,陈旭.基于收益管理的MTO企业订单定价和接受策略[J].系统工程,2011,29(2):87-93. 被引量：12
10张兄武,徐银香.发达国家本科应用型人才培养“责任共担”机制的探析[J].江苏高教,2011(4):102-104. 被引量：8

引证文献9

1钱静,吴克宇,陈超,胡星辰.基于后状态强化学习的最优订单接受决策[J].计算机科学,2022,49(S02):55-63.
2陆安山,梁韶华,邓安安.本科应用型人才订单培养模式的研究与临床实践[J].高教学刊,2016,2(7):204-206.
3曹裕,吴堪,熊寿遥.基于分层MTO订单的准入策略研究[J].管理科学学报,2017,20(8):50-62. 被引量：7
4杨宏兵,沈露,成明,陶来发.带退化效应多态生产系统调度与维护集成优化[J].计算机集成制造系统,2018,24(1):80-88. 被引量：11
5唐微,陈淮莉.基于强化学习的电商促销期时隙运能柔性分配研究[J].制造业自动化,2018,40(6):68-73.
6于超,刘洋,樊治平.考虑风险传导情形的订单接受决策方法[J].控制与决策,2019,34(3):611-619. 被引量：3
7唐红涛,方博,高晓灵,李香怡,殷伟铭.基于GSA-GA神经网络的铸造企业订单准入评价研究[J].工业工程,2020,23(4):121-130. 被引量：1
8孙卫红,吕文新.区域集群下板材订单配置模型及算法研究[J].运筹与管理,2020,29(12):38-42. 被引量：1
9金淳,冷浕伶,胡畔.基于启发式Q学习的汽车涂装车间作业排序优化[J].运筹与管理,2022,31(6):1-8. 被引量：2

二级引证文献23

1陈涛.计算机组装与维护中的常见问题及解决方法[J].数码设计,2019,8(6):52-53.
2甘婕,王磊,曾建潮,张晓红.单机调度与丝锥视情预防性更换集成模型[J].计算机集成制造系统,2019,25(11):2831-2838. 被引量：3
3CUI Weiwei.Approximate Approach to Deal with the Uncertainty in Integra ted Production Scheduling and Maintenance Planning[J].Journal of Shanghai Jiaotong university(Science),2020,25(1):106-117.
4王琪,张海珍,郭振起.非对称信息下基于风险偏好的供应链产品质量投入与定价策略研究[J].青岛大学学报（自然科学版）,2020,33(2):126-134. 被引量：2
5唐红涛,方博,高晓灵,李香怡,殷伟铭.基于GSA-GA神经网络的铸造企业订单准入评价研究[J].工业工程,2020,23(4):121-130. 被引量：1
6裴霞,吴晓,郭鹏,王昕,温昆.考虑状态维护策略与工时恶化作用下的单机调度研究[J].河北科技大学学报,2020,41(5):381-389.
7代文强,左永恒,孙朝苑,雷东.Make-to-Order模式下多产品占线生产策略研究[J].管理科学学报,2020,23(8):101-108. 被引量：5
8甘婕,王磊,张晓红,张文宇.单机调度与非完美视情维修的联合决策与优化[J].工业工程与管理,2021,26(1):75-81. 被引量：1
9冯春,张祎伟,黄成,姜文彪,武之炜.双足机器人步态控制的深度强化学习方法[J].计算机集成制造系统,2021,27(8):2341-2349. 被引量：8
10周兴建,黎继子,戴金山,姜文可.基于ACO算法的云制造供应链订单决策优化模型及仿真[J].系统工程,2021,39(5):81-91. 被引量：1

1姚慧敏.领导者素质的高低是事业成败的关键[J].阜阳师范学院学报（社会科学版）,1996(3):108-110.
2戴炯.SM·滴蜡[J].消费,2009(7).
3胖花.来一场两人的“SM”运动[J].祝你幸福（午后）,2007,0(1):55-55.
4倪普.处处留心皆学问[J].地理教育,2009(2):62-62.
5黎昌民.哈哈我赢了[J].少年儿童研究,1999,0(5):19-19.
6王媛.塑造人事干部的良好形象[J].决策探索,2013(16):54-55.
7衡红军,王红,王治宝.航空公司收益管理决策支持系统[J].计算机工程与应用,2002,38(9):213-214. 被引量：3
8胡威.提升我国公务员学习积极性的思考——基于M市284名后备干部的调研[J].中国行政管理,2013(6):87-91.
9王生荣,王林.强化学习增强素质促进史志工作新发展[J].新疆地方志,2005(3):20-21.
10江其玟,仲伟俊,梅姝娥.我国服务业收益管理理论研究进展[J].现代管理科学,2009(11):15-17.

系统工程理论与实践

2014年第12期

浏览历史

内容加载中请稍等...

基于强化学习的订单生产型企业的订单接受策略被引量：9

参考文献21

二级参考文献94

共引文献87

同被引文献52

引证文献9

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于强化学习的订单生产型企业的订单接受策略 被引量：9

参考文献21

二级参考文献94

共引文献87

同被引文献52

引证文献9

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于强化学习的订单生产型企业的订单接受策略被引量：9