基于遗憾探索的竞争网络强化学习智能推荐方法研究被引量：1

Study on Intelligent Recommendation Method of Dueling Network Reinforcement Learning Based on Regret Exploration

下载PDF

导出

摘要近年来,深度强化学习在推荐系统中的应用受到了越来越多的关注。在已有研究的基础上提出了一种新的推荐模型RP-Dueling,该模型在深度强化学习Dueling-DQN的基础上加入了遗憾探索机制,使算法根据训练程度自适应地动态调整“探索-利用”占比。该算法实现了在拥有大规模状态空间的推荐系统中捕捉用户动态兴趣和对动作空间的充分探索。在多个数据集上进行测试,所提算法在MAE和RMSE两个评价指标上的最优平均结果分别达到了0.16和0.43,比目前的最优研究结果分别降低了0.48和0.56,实验结果表明所提模型优于目前已有的传统推荐模型和基于深度强化学习的推荐模型。 In recent years,the application of deep reinforcement learning in recommendation system has attracted much attention.Based on the existing research,this paper proposes a new recommendation model RP-Dueling,which is based on the deep reinforcement learning Dueling-DQN algorithm,and adds the regret exploration mechanism to make the algorithm adaptively and dynamically adjust the proportion of“exploration-utilization”according to the training degree.The algorithm can capture users’dynamic interest and fully explore the action space in the recommendation system with large-scale state space.By testing the proposed algorithm model on multiple data sets,the optimal average results of MAE and RMSE are 0.16 and 0.43 respectively,which are 0.48 and 0.56 higher than the current optimal research results.Experimental results show that the proposed model is superior to the existing traditional recommendation model and recommendation model based on deep reinforcement learning.

作者洪志理赖俊曹雷陈希亮徐志雄 HONG Zhi-li;LAI Jun;CAO Lei;CHEN Xi-liang;XU Zhi-xiong(Command&Control Engineering College,Army Engineering University of PLA,Nanjing 210007,China)

机构地区陆军工程大学指挥控制工程学院

出处《计算机科学》 CSCD 北大核心 2022年第6期149-157,共9页 Computer Science

关键词推荐系统深度强化学习 Dueling-DQN RP-Dueling 动态兴趣遗憾探索 Recommendation system Deep reinforcement learning Dueling-DQN RP-Dueling Dynamic interest Regret exploration

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1齐会敏,刘群,戴大祥.面向兴趣主题的个性化好友推荐[J].计算机工程与科学,2018,40(2):348-353. 被引量：6
2尹祎,冯丹,施展.一种基于效用的个性化文章推荐方法[J].计算机学报,2017,40(12):2797-2811. 被引量：10
3杨凯欣,李雅玮.基于协同过滤算法的移动智能学习平台的开发与设计[J].软件工程与应用,2019,8(3):104-114. 被引量：3

二级参考文献5

1马宏伟,张光卫,李鹏.协同过滤推荐算法综述[J].小型微型计算机系统,2009,30(7):1282-1288. 被引量：203
2胡昌平,陈果.共词分析中的词语贡献度特征选择研究[J].现代图书情报技术,2013(7):89-93. 被引量：15
3高永兵,杨红磊,刘春祥,胡文江.基于内容与社会过滤的好友推荐算法研究[J].微型机与应用,2013,32(14):75-78. 被引量：8
4王玙,高琳.基于社交圈的在线社交网络朋友推荐算法[J].计算机学报,2014,37(4):801-808. 被引量：53
5高全力,高岭,杨建锋,王海.上下文感知推荐系统中基于用户认知行为的偏好获取方法[J].计算机学报,2015,38(9):1767-1776. 被引量：22

共引文献15

1燕彩蓉,黄颜,徐光伟,黄永锋.基于时间动态性的场感知分解机模型[J].控制与决策,2020,35(1):169-173. 被引量：2
2龙增艳,陈志刚,徐成林.基于用户交互的社交网络好友推荐算法[J].计算机工程,2019,45(3):132-137. 被引量：16
3李浩君,张征,张鹏威.基于三维特征协同支配的个性化学习资源推荐方法[J].计算机科学,2019,46(B06):461-467. 被引量：9
4李亚欣,蔡永香,张根.结合实时推荐与离线推荐的推荐系统[J].计算机系统应用,2019,28(10):45-52. 被引量：2
5徐勇,汪倩,武雅利,李晓宇,张心蕊.用户画像研究的文献计量分析[J].榆林学院学报,2020,30(2):4-9. 被引量：4
6丁家满,沈书琳,贾连印,游进国,李润鑫.一种基于协同过滤和混合相似性模型的推荐算法[J].上海理工大学学报,2020,42(3):275-282. 被引量：7
7汪倩,徐勇,张心蕊,李晓宇.用户画像研究进展综述[J].现代计算机,2020,26(24):60-63. 被引量：11
8李维乾,张艺,郑振峰,王海,张紫云.基于多属性的动态采样协同过滤推荐算法[J].计算机应用研究,2020,37(9):2640-2644. 被引量：7
9刘坤达,宋红文,张卫东,欧达宇.品牌优先的零售客户细分研究[J].现代商贸工业,2021,42(32):45-46. 被引量：3
10蒋忠珍,何景明.基于在线评论的高端酱香型白酒消费特征分析——以飞天茅台酒在京东上的在线评论为例[J].中国酿造,2021,40(10):235-238. 被引量：6

同被引文献4

1许丹丹,张进.基于改进人工势函数的航天器近距离安全控制方法[J].力学学报,2020,52(6):1581-1589. 被引量：3
2李贝贝,宋佳芮,杜卿芸,何俊江.DRL-IDS:基于深度强化学习的工业物联网入侵检测系统[J].计算机科学,2021,48(7):47-54. 被引量：17
3代珊珊,刘全.基于动作约束深度强化学习的安全自动驾驶方法[J].计算机科学,2021,48(9):235-243. 被引量：15
4谢万城,李斌,代玥玥.空中智能反射面辅助边缘计算中基于PPO的任务卸载方案[J].计算机科学,2022,49(6):3-11. 被引量：3

引证文献1

1幸林泉,肖应民,杨志斌,韦正旻,周勇,高赛军.基于安全强化学习的航天器交会制导方法[J].计算机科学,2023,50(8):271-279. 被引量：1

二级引证文献1

1张恒力,李嘉豪,李昂.身份与责任:航天工程师的伦理冲突探析[J].自然辩证法通讯,2024,46(3):102-110.

1田明钢.国土空间规划下生态保护红线评估调整探索——以拉萨市曲水县为例[J].区域治理,2021(23):26-27.
2周彬,黄定照,韦静.自动缫丝机的“三线”对生丝纤度偏差的影响[J].广西蚕业,2021,58(3):41-45.
3杨丙俭.镇平县依据冬前气温变化对小麦播种期及播种量的调整探索[J].河南农业,2022(7):46-47.
4无.国有企业工资总额决定机制改革的创新与实践[J].企业改革与管理,2021(16):49-52. 被引量：4
5陈树肖,郭金淮,王晨,葛贵斌.基于抢占型离散排队的军事信息服务系统性能研究[J].通信技术,2022,55(5):619-624.
6杜楚,黄泽锋,李小翠.面向边缘协作的动态服务配置与迁移机制研究[J].无线电工程,2022,52(6):953-960.
7罗俊仁,张万鹏,陆丽娜,陈璟.即时策略博弈在线对抗规划方法综述[J].计算机科学,2022,49(6):287-296.
8邱潇颀,高长生,荆武兴.拦截大气层内机动目标的深度强化学习制导律[J].宇航学报,2022,43(5):685-695. 被引量：8
9杨将,阳亦斌,欧盛芬,邓永祁.基于知识模型的城轨信号故障诊断系统[J].控制与信息技术,2022(2):112-119.

计算机科学

2022年第6期

浏览历史

内容加载中请稍等...

基于遗憾探索的竞争网络强化学习智能推荐方法研究被引量：1

参考文献3

二级参考文献5

共引文献15

同被引文献4

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于遗憾探索的竞争网络强化学习智能推荐方法研究 被引量：1

参考文献3

二级参考文献5

共引文献15

同被引文献4

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于遗憾探索的竞争网络强化学习智能推荐方法研究被引量：1