面向数据中心间网络带宽的在线定价机制设计:基于强化学习的方法被引量：3

Reinforcement Learning-Based Online Pricing for Inter-Datacenter Bandwidth

下载PDF

导出

摘要随着云服务的快速发展,数据中心间的网络带宽已经成为了宝贵的资源.目前,带宽以固定价格出售,并由流量工程进行容量分配.这种方式无法提供传输时间的保证.然而,大多数传输任务都有严格的截止时间限制,未及时完成传输会给用户造成较大的收益损失.此外,对于服务提供商来说,固定价格定价机制将导致网络利用率低下,不利于最大化其长期累积收益.因此,本文希望设计在线定价机制,最大化服务提供商的收益,同时保证用户传输请求的真实性.本文首先提出基于价格表的在线定价机制PLPM:服务提供商向用户实时地展示价格表,由用户选择特定的传输时间和传输量以满足其传输要求.PLPM利用强化学习的方法更新价格表,实现对不同时间、不同容量状态的带宽进行定价.进一步地,本文提出了基于请求的在线定价机制RPM:用户可以自定义其传输类型、传输量和截止时长.RPM在线地学习用户的估价以实现收益最大化和真实性,并匹配了基于优先级的带宽分配策略以提升网络带宽利用率.最后,通过实验证明了所提出的定价机制相比于固定定价机制,可以大幅提高累积收益和网络带宽的利用率. With the rapid development of cloud-based services,bandwidth between datacenters has become a valuable resource.Currently,the bandwidth is sold with a fixed price and is allocated using traffic engineering mechanisms,which have no guarantee on when the transfers can be finished.However,most transfer tasks have strict deadlines,while not finishing them on time may result in high losses to customers.In addition,trivially fixed pricing strategies will cause network inefficiency and cannot maximize service providers’revenues.We thus focus on how to design online pricing mechanisms for inter-datacenter transfers,while achieving revenue maximization and truthfulness.We first propose Price List-Based Online Pricing Mechanism(PLPM),providing customers with a price list to select specific time slots and amounts.In particular,discriminative prices for bandwidth at different time slots with corresponding capacities are calculated by reinforcement learning methods.We then extend PLPM to Request-Based Online Pricing Mechanism(RPM),which allows customers to request customized data transfers.RPM online explores and exploits the valuations of customers for revenue maximization and meanwhile guarantees truthfulness against rational customers.Allocation rules with priorities are designed to improve network utilization.We finally conduct experiments and demonstrate that the proposed mechanisms outperform fixed pricing from cumulative revenue and network utilization.

作者牛超越陈培煜张嘉懿吴帆陈贵海 NIU Chao-Yue;CHEN Pei-Yu;ZHANG Jia-Yi;WU Fan;CHEN Gui-Hai(Department of Computer Science and Engineering,Shanghai Jiaotong University,Shanghai 200240)

机构地区上海交通大学计算机科学与工程系

出处《计算机学报》 EI CAS CSCD 北大核心 2022年第5期1068-1086,共19页 Chinese Journal of Computers

基金科技创新2030-“新一代人工智能”重大项目(2018AAA0100900) 国家自然科学基金项目(62025204,61972254) 阿里巴巴创新研究计划资助.

关键词在线定价数据中心间网络带宽强化学习收益最大化真实性 online pricing inter-datacenter bandwidth reinforcement learning revenue maximization truthfulness

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1傅晓明,张尧学,马洪军,赵艳标.一种基于市场模型的网络带宽分配方法[J].电子学报,1999,27(9):127-129. 被引量：21
2姜永,陈山枝,胡博.异构无线网络中基于Stackelberg博弈的分布式定价和资源分配算法[J].通信学报,2013,34(1):61-68. 被引量：41
3魏蛟龙,张驰.基于拍卖的网络带宽分配方法的研究[J].电子学报,2003,31(6):891-894. 被引量：12
4苑迎,王翠荣,王聪,任婷婷,刘冰玉.基于非完全信息博弈的云资源分配模型[J].计算机研究与发展,2016,53(6):1342-1351. 被引量：6
5郑臻哲,吴帆,陈贵海.多维度防策略性云带宽预留拍卖机制设计[J].计算机学报,2019,42(4):701-720. 被引量：3

二级参考文献43

1田厚平,郭亚军,王学军.一类基于进化博弈的多主多从Stackelberg对策算法[J].系统工程学报,2005,20(3):303-307. 被引量：10
2张尧学,盖峰.高速信息网络关键技术──成组广域广播与QoS控制[J].电子学报,1995,23(10):32-36. 被引量：2
3D Fudenberg, J Tirole. Game Theory [ M ]. Cambridge: MIT Press,1991.
4P B Key, D R McAuley. Differential QoS and pricing in networks:where flow control meets game theory [ J]. Software, IEE Proceedings,1999,146(1) :39 -43.
5Y A Korilis, T A Varvarigou, S R Ahuja. Incentive compatible pricing strategies in noncooperative networks [A]. In Proc. IEEE INFOCOM'98 [ C]. San Francisco, 1998.439 - 446.
6J K MacKie-Mason, H R Varian.Pricing the intemet [A] .In B. Kahin and J. Keller, editors, Public Access to the Internet [ C]. London, UK:Prentice Hall, 1994.
7D Clark. Intemet cost allocation and pricing [A] .L W McKnight, J P Bailey, editors. Intemet Economics [ C]. Cambridge: MIT Press, 1997.
8S Shenker et al. Pricing in computer networks: reshaping the research agenda [J]. Computer Comm. Rev, 1996,26(2) : 123 - 133.
9A A Lazar, N. Semret. Design and analysis of the progressive second price auction for network bandwidth sharing [ A ]. Telecoranamication Systems, Special issue on Network Economics [ C ]. New York: Prentice Hall, 1999.
10Back K, Zender J F. Auctions of divisible goods:on the rationale for the Treasury experiment [ J ]. Review of Financial, 1993, Studies 6:733 -764.

共引文献75

1王嫚,徐惠民.一种基于市场竞拍机制的网格资源管理分配方法[J].计算机应用研究,2005,22(5):84-86. 被引量：3
2韩海山,斯琴.Proxy-Users系统收入分配的Stackelberg模型及解的存在性[J].内蒙古民族大学学报（自然科学版）,2005,20(2):121-124.
3杨小亮,徐坚,胡九川,张宏科,张思东.快速Max-Min公平带宽分配算法稳定性分析[J].航天控制,2005,23(4):48-50.
4王兴伟,刘聪,崔建业,黄敏.IP/DWDM光Internet中的一种并行公平智能QoS组播路由机制[J].计算机应用,2005,25(9):2094-2097.
5王兴伟,刘聪,崔建业,黄敏.IP/DWDM光Internet中的一种公平智能QoS组播路由机制[J].计算机科学,2005,32(10):31-33.
6韩海山,夏尊铨.Proxy-Users通信系统的Stackelberg模型及解的存在性[J].数学的实践与认识,2005,35(12):96-100.
7尹泽明,任燕,王红熳,杨放春.基于DiffServ的定价方法研究[J].电子学报,2006,34(10):1768-1772. 被引量：1
8井元伟,何凌,杨木易,朱海煜.基于动态调控的网络价格策略[J].控制与决策,2007,22(8):939-942. 被引量：3
9郑辉,李春林,冯美来.基于议价机制的网格资源交易算法[J].计算机技术与发展,2007,17(11):77-79.
10姜姗,李云鹏,刘方爱.一种基于双向拍卖机制的网格资源调度方法[J].信息技术与信息化,2007(5):78-79. 被引量：1

同被引文献34

1熊巧琴,汤珂.数据要素的界权、交易和定价研究进展[J].经济学动态,2021(2):143-158. 被引量：203
2夏义堃.欧美国家公共信息资源定价策略的发展演变分析[J].情报学报,2014,33(7):689-697. 被引量：5
3李伟,梁佳.基于策略型消费者的数字产品价格机制与发行时间[J].企业经济,2018,37(12):85-91. 被引量：3
4凌敏,张文金,袁亮,熊继平.面向边缘计算的物联网网络流量测量方法[J].重庆大学学报,2021,44(1):67-77. 被引量：5
5张颖,杨广媛.基于FW-PSO算法优化无线传感网络拓扑结构的方法[J].电子与信息学报,2021,43(2):396-403. 被引量：25
6毛伊敏,陶涛,曹文梁.基于网格密度和局部敏感哈希函数的并行化聚类算法[J].计算机应用研究,2021,38(5):1422-1427. 被引量：6
7王然,张宇超,王文东,徐恪,崔来中.基于预测的数据中心间混合流量调度算法[J].计算机研究与发展,2021,58(6):1307-1317. 被引量：3
8曹志鹏,刘勤让,刘冬培,张霞.面向时间敏感网络的流量调度方法[J].计算机工程,2021,47(7):168-175. 被引量：5
9马枢清,唐宏,李艺,雷援杰.基于粒子群优化算法的数据中心网络流量调度策略[J].电讯技术,2021,61(7):865-871. 被引量：15
10徐素秀,张雨萌,李从东,屈挺.知识产权保护下数字产品定价策略研究——考虑利益共享与网络外部性的分析[J].价格理论与实践,2020(12):115-118. 被引量：5

引证文献3

1周小光,资慧,金田,涂耀文,张峻诚,吴海勇.双碳目标下电网异址双活调控中心负载均衡控制方法[J].电测与仪表,2023,60(7):107-115. 被引量：2
2梁燕妮,尤建新.数据定价研究的主题演变及趋势——基于CiteSpace的文献计量分析[J].信息通信技术与政策,2024,50(4):66-78.
3陈聪.超高带宽5G电力无线专网通信流量调度算法[J].自动化与仪器仪表,2024(9):73-77.

二级引证文献2

1盖斌,贾华,张腾,徐子萌,吴云翼,易承乾,陈炎,张波.柔性直流输电用干式直流电容器工况验证试验回路研制[J].电力电容器与无功补偿,2024,45(1):169-174. 被引量：2
2张重远,苏铮,李乐,高烽晟,李浩义,尹晓萱,刘贺晨,刘云鹏,周松松,唐力.轻质高绝缘复合芯体制备及其在66 kV复合横担中的应用[J].高压电器,2024,60(4):56-64.

1刘羽茜,刘玉奇,张宗霖,卫志华,苗冉.注入注意力机制的深度特征融合新闻推荐模型[J].计算机应用,2022,42(2):426-432. 被引量：4
2张永,黄梦瑚,杨兴雨,张卫国.折扣下多阶段易腐品库存问题的无概率解决方法[J].管理工程学报,2021,35(6):250-258. 被引量：1
3张艳.国企供热成本最优运行控制策略及定价机制研究[J].价值工程,2022,41(16):9-11. 被引量：1
4幸丽霞,佘昭鹏,王雅炯.资产证券化、融资约束与上市公司股东财富--基于事件研究法的实证分析[J].中国注册会计师,2021(11):52-57.
5穆春生,蒋炎冰.以撰写改造方案人手提供城市更新全过程服务[J].中国房地产估价与经纪,2021(6):54-59.
6杨海涛,江晶晶,赵敏,赵锋,窦真兰.基于模型预测控制的区域综合能源系统运行优化方法[J].电气技术,2022,23(4):7-13. 被引量：11
7彭一海,刘继春,刘俊勇.两级电力市场环境下考虑多类型零售套餐的售电公司购售电策略[J].电网技术,2022,46(3):944-955. 被引量：16
8方重,程新,娄皎虹.优化注册制下A股发行定价机制的思考[J].清华金融评论,2022(4):71-76. 被引量：4
9郑如蓝.关于加强国有企业资产管理的思考[J].纳税,2021,15(36):149-151. 被引量：3
10马莹.从交付成果到观照价值访深圳奥飞迪科技有限责任公司全球交付部门项目经理张冰[J].项目管理评论,2022(1):84-86.

计算机学报

2022年第5期

浏览历史

内容加载中请稍等...

面向数据中心间网络带宽的在线定价机制设计:基于强化学习的方法被引量：3

参考文献5

二级参考文献43

共引文献75

同被引文献34

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

面向数据中心间网络带宽的在线定价机制设计:基于强化学习的方法 被引量：3

参考文献5

二级参考文献43

共引文献75

同被引文献34

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

面向数据中心间网络带宽的在线定价机制设计:基于强化学习的方法被引量：3