基于强化学习的推荐研究综述被引量：9

Survey of Reinforcement Learning Based Recommender Systems

下载PDF

导出

摘要推荐系统致力于从海量数据中为用户寻找并自动推荐有价值的信息和服务,可有效解决信息过载问题,成为大数据时代一种重要的信息技术。但推荐系统的数据稀疏性、冷启动和可解释性等问题,仍是制约推荐系统广泛应用的关键技术难点。强化学习是一种交互学习技术,该方法通过与用户交互并获得反馈来实时捕捉其兴趣漂移,从而动态地建模用户偏好,可以较好地解决传统推荐系统面临的经典关键问题。强化学习已成为近年来推荐系统领域的研究热点。文中从综述的角度,首先在简要回顾推荐系统和强化学习的基础上,分析了强化学习对推荐系统的提升思路,对近年来基于强化学习的推荐研究进行了梳理与总结,并分别对传统强化学习推荐和深度强化学习推荐的研究情况进行总结;在此基础上,重点总结了近年来强化学习推荐研究的若干前沿,以及其应用研究情况。最后,对强化学习在推荐系统中应用的未来发展趋势进行分析与展望。 Recommender systems are devoted to find and automatically recommend valuable information and services for users from massive data,which can effectively solve the information overload problem,and become an important information technology in the era of big data.However,the problems of data sparsity,cold start,and interpretability are still the key technical difficulties that limit the wide application of the recommender systems.Reinforcement learning is an interactive learning technique,which can dynamically model user preferences by interacting with users and obtaining feedback to capture their interest drift in real time,and can better solve the classical key issues faced by traditional recommender systems.Nowadays,reinforcement lear-ning has become a hot research topic in the field of recommendation systems.From the perspective of survey,this paper first analyzes the improvement ideas of reinforcement learning for recommender systems based on a brief review of recommender systems and reinforcement learning.Then,the paper makes a general overview and summary of reinforcement learning based recommender systems in recent years,and further summarizes the research situation of traditional reinforcement learning based recommendation and deep reinforcement learning based recommendation respectively.Furthermore,the paper summarizes the frontiers of reinforcement learning based recommendation research topic in recent years and its application.Finally,the future development trend and application of reinforcement learning in recommender systems are analyzed.

作者余力杜启翰岳博妍向君瑶徐冠宇冷友方 YU Li;DU Qi-han;YUE Bo-yan;XIANG Jun-yao;XU Guan-yu;LENG You-fang(School of Information,Renmin University of China,Beijing 100872,China;XUTELI School,Beijing Institute of Technology,Beijing 100081,China)

机构地区中国人民大学信息学院北京理工大学徐特立学院

出处《计算机科学》 CSCD 北大核心 2021年第10期1-18,共18页 Computer Science

基金国家自然科学基金(71271209) 中国人民大学研究基金(2020030228)。

关键词推荐系统强化学习深度强化学习马尔可夫决策过程多臂老虎机 Recommender systems Reinforcement learning Deep reinforcement learning Markov decision process Multiple arm bandits

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1黄立威,江碧涛,吕守业,刘艳博,李德毅.基于深度学习的推荐系统研究综述[J].计算机学报,2018,41(7):1619-1647. 被引量：422
2刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：473
3万里鹏,兰旭光,张翰博,郑南宁.深度强化学习理论及其应用综述[J].模式识别与人工智能,2019,32(1):67-81. 被引量：68
4杜威,丁世飞.多智能体强化学习综述[J].计算机科学,2019,46(8):1-8. 被引量：50
5刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438. 被引量：131
6吴宏杰,戴大东,傅启明,陈建平,陆卫忠.强化学习与生成式对抗网络结合方法研究进展[J].计算机工程与应用,2019,55(10):36-44. 被引量：11
7林嘉豪,章宗长,姜冲,郝建业.基于生成对抗网络的模仿学习综述[J].计算机学报,2020,43(2):326-351. 被引量：22
8朱郁筱,吕琳媛.推荐系统评价指标综述[J].电子科技大学学报,2012,41(2):163-175. 被引量：251

二级参考文献33

1魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
2高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
3王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：27
4金卓军,钱徽,陈沈轶,朱淼良.回报函数学习的学徒学习综述[J].智能系统学报,2009,4(3):208-212. 被引量：2
5刘建国,周涛,郭强,汪秉宏.个性化推荐系统评价方法综述[J].复杂系统与复杂性科学,2009,6(3):1-10. 被引量：131
6吕琳媛.复杂网络链路预测[J].电子科技大学学报,2010,39(5):651-661. 被引量：244
7吕琳媛,陆君安,张子柯,闫小勇,吴晔,史定华,周海平,方锦清,周涛.复杂网络观察[J].复杂系统与复杂性科学,2010,7(2):173-186. 被引量：29
8徐昕,沈栋,高岩青,王凯.基于马氏决策过程模型的动态系统学习控制:研究前沿与展望[J].自动化学报,2012,38(5):673-687. 被引量：21
9孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：623
10李耀宇,朱一凡,杨峰,贾全.基于逆向强化学习的舰载机甲板调度优化方案生成方法[J].国防科技大学学报,2013,35(4):171-175. 被引量：20

共引文献1322

1范文芳,王千.个性化智能推荐对消费者在线冲动购买意愿的影响研究[J].管理评论,2022,34(12):146-156. 被引量：24
2傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
3刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：45
4韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
5周宏宇,王小刚,赵亚丽,崔乃刚.组合动力运载器上升段轨迹智能优化方法[J].宇航学报,2020,41(1):61-70. 被引量：10
6张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376.
7李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
8顾秋阳,琚春华,鲍福光.融入用户关系强度的社交网络舆情信源发现方法[J].系统科学与数学,2020(9):1578-1596. 被引量：1
9赵蓉英,陈文欣.深度学习视角下的评价科学方法创新[J].情报科学,2022,40(11):3-11. 被引量：2
10钟玮琦,喻仁虹,李明柱.基于DDPG算法的供热末端运行策略研究[J].暖通空调,2022,52(S02):170-174.

同被引文献77

1阎世宏,马为之,张敏,刘奕群,马少平.结合用户长短期兴趣的深度强化学习推荐方法[J].中文信息学报,2021,35(8):107-116. 被引量：10
2杨善林,罗贺,胡小建.基于Q学习的自主Agent模型[J].微电子学与计算机,2006,23(9):203-205. 被引量：5
3谢礼珊,申文果,梁晓丹.顾客感知的服务公平性与顾客公民行为关系研究——基于网络服务环境的实证调研[J].管理评论,2008,20(6):17-24. 被引量：47
4谢华英,范红旗,赵宏钟,付强.SAR成像导引头的弹道设计与优化[J].系统工程与电子技术,2010,32(2):332-337. 被引量：14
5张刚,祝明波,周强,李相平.SAR成像末制导交接班问题研究[J].现代防御技术,2012,40(6):39-45. 被引量：2
6洪海生,江全元,严玉婷.实时平抑风电场功率波动的电池储能系统优化控制方法[J].电力系统自动化,2013,37(1):103-109. 被引量：70
7郑立斌,王红梅,顾寄南,石长华,何辉.RBF神经网络在机器人视觉伺服控制中的应用[J].机床与液压,2015,43(15):41-43. 被引量：4
8孟祥武,陈诚,张玉洁.移动新闻推荐技术及其应用研究综述[J].计算机学报,2016,39(4):685-703. 被引量：24
9胡泽春,夏睿,吴林林,刘辉.考虑储能参与调频的风储联合运行优化策略[J].电网技术,2016,40(8):2251-2257. 被引量：86
10黄伟,徐建城,吴华兴.弹载SAR末制导段轨迹控制算法[J].系统工程与电子技术,2016,38(9):2115-2121. 被引量：8

引证文献9

1葛晓琳,凡婉秋,符杨,李仪.基于改进柔性策略评价的风火储多主体博弈电能–调频市场联合竞价模型[J].电网技术,2023,47(5):1920-1930. 被引量：3
2明鑫,卢丹萍,陈中.一种视觉机器人抓取控制策略算法研究[J].机床与液压,2023,51(11):65-71. 被引量：3
3潘华莉,谢珺,高婧,续欣莹,王长征.融合多模态特征的深度强化学习推荐模型[J].数据分析与知识发现,2023,7(4):114-128. 被引量：2
4喻继军,熊明华.电子商务推荐系统公平性研究进展[J].现代信息科技,2023,7(14):115-124.
5孟祥福,霍红锦,张霄雁,王琬淳,朱金侠.个性化新闻推荐方法研究综述[J].计算机科学与探索,2023,17(12):2840-2860. 被引量：4
6贺鹏超,王宁,钱军,吴振华,刘曦.基于Q-learning算法的SAR导引头制导律设计研究[J].战术导弹技术,2023(5):124-130.
7杨畅,姚越,方霖枫,周仁杰.基于用户反馈和对话历史的对话式推荐技术研究[J].软件工程,2024,27(1):58-63.
8张磊,张继权,李一明,徐英,刘秉祺.基于强化学习的综合能源系统智能体设计[J].电子设计工程,2024,32(12):145-149.
9杨智勇,陈向东,陈佳慧.一种全局图增强的图神经网络新闻推荐算法[J].蚌埠学院学报,2024,13(5):40-48.

二级引证文献12

1吴志强,解庆,李琳,刘永坚.基于多模态融合的图神经网络推荐算法[J].计算机工程,2024,50(1):91-100.
2钟全辉,蒋丰庚,张以全,王泽南.基于机器视觉的树枝识别机械臂设计[J].今日自动化,2023(10):86-88.
3范蕾蕾.个性化新闻推荐的算法把关研究[J].新闻研究导刊,2024,15(5):5-7. 被引量：1
4李咸善,胡长宇,张远航,李欣,李飞.风电租赁储能参与电能-调频市场竞价策略[J].电网技术,2024,48(5):1992-2002.
5姜婷婷,吕妍,傅诗婷.应对过滤气泡:算法策展对用户信息消费行为选择性和态度极端化的影响[J].现代情报,2024,44(7):22-33.
6许尧,操蓉蓉,翟志敏,汪立立.弱光环境下仓库搬运机器人抓取控制方法[J].测控技术,2024,43(6):8-13.
7汪显顺,熊卿智,万磊,李祥,林重汕,金安安.基于知识图谱的区域企业关联可视化及关系挖掘[J].计算机与现代化,2024(8):11-16.
8孟文杰,孙晓瑜,王政凯,张雪松.基于协同过滤和特征工程的图书推荐系统研究及云图构建[J].微型电脑应用,2024,40(9):1-4.
9张敏,刘翌南,陈爱群,袁晓红.基于多模型和改进WOA算法的Delta机器人柔性夹持器抓取方法研究[J].食品与机械,2024,40(7):68-73.
10李咸善,胡长宇,李挺,李稳,魏洁,王仕龙.考虑调频性能的风电集群租赁储能竞价策略优化[J].浙江电力,2024,43(10):93-102.

1林靓.新媒体浪潮下传统新闻工作者业务能力提升思路[J].卫星电视与宽带多媒体,2021(18):191-192. 被引量：2
2努尔加玛·阿里木.融媒体时代广播电视台记者采编能力提升思路探析[J].休闲,2021(11):0068-0068.
3王惜民,范睿.基于类别不平衡数据联邦学习的设备选择算法[J].计算机应用研究,2021,38(10):2968-2973. 被引量：6
4韩连权.基于CiteSpace的公共实训基地研究热点分析与展望[J].常州信息职业技术学院学报,2021,20(5):32-36. 被引量：1
5任静霞,武志峰.动态信任衰减和信息匹配的混合推荐算法[J].计算机技术与发展,2021,31(10):30-37.
6王森,易佩,袁娇娇.CDI及其在去除水中重金属离子方面的研究进展[J].应用化工,2021,50(9):2562-2566. 被引量：3
7周百龄,赵天煜.浅谈配电网规划管理高质量提升[J].安防科技,2021(24):72-72.
8高雅卓,刘亚群,张国敏,邢长友,王秀磊.基于多阶段博弈的虚拟化蜜罐动态部署机制[J].计算机科学,2021,48(10):294-300. 被引量：2
9李欣童,熊智,陈明星,熊骏,李文龙.基于深度强化学习的无人机集群协同信息筛选方法研究[J].电光与控制,2021,28(10):6-10. 被引量：6
10高子建,张晗睿,窦万春,徐江民,孟顺梅.基于谱聚类和隐语义模型的智能协同推荐方法[J].计算机集成制造系统,2021,27(9):2517-2524. 被引量：6

计算机科学

2021年第10期

浏览历史

内容加载中请稍等...

基于强化学习的推荐研究综述被引量：9

参考文献8

二级参考文献33

共引文献1322

同被引文献77

引证文献9

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于强化学习的推荐研究综述 被引量：9

参考文献8

二级参考文献33

共引文献1322

同被引文献77

引证文献9

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于强化学习的推荐研究综述被引量：9