基于强化学习的需求分布未知情境下酒店客房动态定价研究被引量：3

Dynamic pricing of hotel rooms based on reinforcement learning with unknown demand distribution

导出

摘要传统酒店动态定价研究大多考虑改进需求预测方法或考虑需求环境已知,而现实生活中需求分布通常是未知的.本文考虑需求分布未知的情境,建立基于马尔可夫决策过程的酒店客房多周期动态定价模型,并利用强化学习方法,提出基于SARSA(λ)的改进算法对客房动态定价模型进行求解.为提升算法的求解能力和收敛速度,提出了基于改进ε-greedy策略的ε-SARSA(λ)算法和基于改进模拟退火策略的ISA-SARSA(λ)算法.通过数值实验对比SARSA(λ),ε-SARSA(λ),SA-SARSA(λ)和ISA-SARSA(λ)四种算法的收益优化结果,验证了改进算法的有效性,结果显示,ISA-SARSA(λ)算法求解性能最好. Traditional hotel dynamic pricing research always considers improving demand forecasting methods or considers that the demand environment is known,while the demand distribution in real life is usually unknown.In this paper,we established a multi-period dynamic pricing model for hotel rooms based on Markov decision process with unknown demand distribution,and used the reinforcement learning method to propose improved algorithms based on SARSA(λ)to solve the dynamic pricing model of rooms.In order to improve the solving ability and convergence speed of the algorithm,we proposed theε-SARSA(λ)algorithm based on the improvedε-greedy strategy and the ISA-SARSA(λ)algorithm based on the improved simulated annealing strategy.Through numerical experiments,the revenue optimization results of the four algorithms,SARSA(λ),ε-SARSA(λ),SA-SARSA(λ)and ISA-SARSA(λ),were compared.The study results verify the effectiveness of improved algorithms and show that the ISA-SARSA(λ)algorithm has the best solution performance.

作者朱晗张敏唐加福 ZHU Han;ZHANG Min;TANG Jiafu(School of Management Science and Engineering,Dongbei University of Finance and Economics,Dalian 116025,China)

机构地区东北财经大学管理科学与工程学院

出处《系统工程理论与实践》 EI CSCD 北大核心 2023年第2期509-523,共15页 Systems Engineering-Theory & Practice

基金国家自然科学基金面上项目(72272027) 国家自然科学基金青年项目(71902018) 国家自然科学基金重点项目(71831003) 辽宁省自然科学基金(2022–KF–11–06)。

关键词强化学习动态定价 SARSA(λ)算法收益管理 reinforcement learning dynamic pricing SARSA(λ)algorithm revenue management

分类号 C935 [经济管理—管理学] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献12

1包晓英,阳成虎,蒲云.再制造产品最优定价策略研究[J].计算机集成制造系统,2008,14(12):2436-2440. 被引量：13
2肖飞,刘全,傅启明,孙洪坤,高龙.基于自适应势函数塑造奖赏机制的梯度下降Sarsa(λ)算法[J].通信学报,2013,34(1):77-88. 被引量：6
3秦智慧,李宁,刘晓彤,刘秀磊,佟强,刘旭红.无模型强化学习研究综述[J].计算机科学,2021,48(3):180-187. 被引量：28
4李晓炫,吕本富,曾鹏志,刘金烜.基于网络搜索和CLSI-EMD-BP的旅游客流量预测研究[J].系统工程理论与实践,2017,37(1):106-118. 被引量：33
5任武军,李新.基于互联网大数据的旅游需求分析——以北京怀柔为例[J].系统工程理论与实践,2018,38(2):437-443. 被引量：35
6李贺,张玉林,仲伟俊.考虑战略消费者行为风险的动态定价策略[J].管理科学学报,2012,15(10):11-25. 被引量：31
7陈武华,孙燕红,华中生.基于顾客选择的酒店多房间类型联合定价研究[J].管理科学学报,2013,16(7):23-33. 被引量：15
8陈旭.酒店收益管理的研究进展与前景[J].管理科学学报,2003,6(6):72-78. 被引量：42
9王欣,王芳.基于强化学习的动态定价策略研究综述[J].计算机应用与软件,2019,36(12):1-6. 被引量：6
10孔祥维,唐鑫泽,王子明.人工智能决策可解释性的研究综述[J].系统工程理论与实践,2021,41(2):524-536. 被引量：50

二级参考文献181

1程岩.电子商务中面向产品线的动态定价方法研究[J].系统工程学报,2010,25(4):533-539. 被引量：9
2宋双杰,曹晖,杨坤.投资者关注与IPO异象——来自网络搜索量的经验证据[J].经济研究,2011,46(S1):145-155. 被引量：154
3陈宗海,文锋,聂建斌,吴晓曙.基于节点生长k-均值聚类算法的强化学习方法[J].计算机研究与发展,2006,43(4):661-666. 被引量：13
4黄祖庆,达庆利.直线型再制造供应链决策结构的效率分析[J].管理科学学报,2006,9(4):51-57. 被引量：133
5THIERRY M, SAI.OMON M, NUNEN V, et al. Strategic issues in product recovery management[J]. California Management Review, 1995, 37(2) :114-135.
6TOKTAY B, WEIN M, ZENIOS A. Inventory management of remanufactured products[J]. Management Science, 2000, 46(11) :1412-1426.
7TREBILCOCK B. A winning formula for reverse logistics[J]. Modern Materials Handling, 2002,57 (10): 37-39.
8NUNEN V, ZUIDQIJK A. E enabled closed-loop supply chains[J]. California Management Review, 2004, 46(2):40- 54.
9PADMANABHAN V, PNG L. Manufacturer's return policies and retail competition[J]. Marketing Science, 1997,16 (1) : 81-94.
10DOWLATSHAHI S. Developing a theory of reverse logistics [J].Interfaces, 2000, 30(3):143- 155.