基于知识引导的自适应序列强化学习模型

Knowledge-Guided Adaptive Sequence Reinforcement Learning Model

下载PDF

导出

摘要序列推荐可形式化为马尔科夫决策过程,进而转化为深度强化学习问题,其关键是从用户序列中挖掘关键信息,如偏好漂移、序列之间的依赖关系等,但当前大多数基于深度强化学习的推荐系统都是以固定序列长度作为模型输入.受知识图谱的启发,文中设计基于知识引导的自适应序列强化学习模型.首先,利用知识图谱的实体关系,从完整的用户反馈序列中截取部分序列作为漂移序列,其中漂移序列中的项目集合表示用户的当前偏好,序列长度表示用户的偏好变化速度.然后,通过门控循环单元提取漂移序列中用户的偏好变化和项目之间的依赖关系,同时利用自注意力机制对关键的项目信息进行选择性关注.最后,设计复合奖励函数,包括折扣序列奖励和知识图谱奖励,用于缓解奖励稀疏的问题.在4个真实世界数据集上的实验表明,文中模型的推荐准确率较优. The sequence recommendation can be formalized as a Markov decision process and then transformed into a deep reinforcement learning problem.Mining critical information from user sequences is a key step,such as preference drift and dependencies between sequences.In most current deep reinforcement learning recommendation systems,a fixed sequence length is taken as the input.Inspired by knowledge graphs,a knowledge-guided adaptive sequence reinforcement learning model is proposed.Firstly,using the entity relationship of the knowledge graph,a partial sequence is intercepted from the complete user feedback sequence as a drift sequence.The item set in the drift sequence represents the user′s current preference,and the sequence length represents the user′s preference change speed.Then,a gated recurrent unit is utilized to extract the user′s preference changes and dependencies between items,while the self-attention mechanism selectively focuses on key item information.Finally,a compound reward function is designed,including discount sequence rewards and knowledge graph rewards,to alleviate the problem of sparse reward.Experiments on four real-world datasets demonstrate that the proposed model achieves superior recommendation accuracy.

作者李迎港童向荣 LI Yinggang;TONG Xiangrong(School of Computer and Control Engineering,Yantai University,Yantai 264005)

机构地区烟台大学计算机与控制工程学院

出处《模式识别与人工智能》 EI CSCD 北大核心 2023年第2期108-119,共12页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基金项目(No.62072392,61972360) 山东省重大科技创新工程项目(No.2019522Y020131)资助。

关键词自适应序列深度强化学习知识图谱自注意力机制循环神经网络 Adaptive Sequence Deep Reinforcement Learning Knowledge Graph Self-Attention Mechanism Recurrent Neural Network

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1刘旭东,陈德人,王惠敏.一种改进的协同过滤推荐算法[J].武汉理工大学学报（信息与管理工程版）,2010,32(4):550-553. 被引量：13
2邓爱林,朱扬勇,施伯乐.基于项目评分预测的协同过滤推荐算法[J].软件学报,2003,14(9):1621-1628. 被引量：559
3童向荣,姜先旭,王莹洁,张楠.信任网络形成及其在智能推荐中的应用研究进展[J].小型微型计算机系统,2017,38(1):92-98. 被引量：5
4刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：487
5秦川,祝恒书,庄福振,郭庆宇,张琦,张乐,王超,陈恩红,熊辉.基于知识图谱的推荐系统研究综述[J].中国科学：信息科学,2020,50(7):937-956. 被引量：120
6宁泽飞,孙静宇,王欣娟.基于知识图谱和标签感知的推荐算法[J].计算机科学,2021,48(11):192-198. 被引量：6
7李想,杨兴耀,于炯,钱育蓉,郑捷.基于知识图谱卷积网络的双端推荐算法[J].计算机科学与探索,2022,16(1):176-184. 被引量：13
8王潇,刘红岩,车尚锟.一种基于深度强化学习的直播推荐方法[J].信息系统学报,2022(1):1-18. 被引量：1
9亓法欣,童向荣,于雷.基于强化学习DQN的智能体信任增强[J].计算机研究与发展,2020,57(6):1227-1238. 被引量：13

二级参考文献64

1秦艳琳,吴晓平,高键鑫.分布式环境下信任路径选择性搜索及聚合研究[J].通信学报,2012,33(S1):148-156. 被引量：6
2邓爱林,左子叶,朱扬勇.基于项目聚类的协同过滤推荐算法[J].小型微型计算机系统,2004,25(9):1665-1670. 被引量：147
3余力,刘鲁,李雪峰.用户多兴趣下的个性化推荐算法研究[J].计算机集成制造系统,2004,10(12):1610-1615. 被引量：45
4张海燕,丁峰,姜丽红.基于模糊聚类的协同过滤推荐方法[J].计算机仿真,2005,22(8):144-147. 被引量：25
5魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
6唐文,胡建斌,陈钟.基于模糊逻辑的主观信任管理模型研究[J].计算机研究与发展,2005,42(10):1654-1659. 被引量：84
7张丙奇.基于领域知识的个性化推荐算法研究[J].计算机工程,2005,31(21):7-9. 被引量：34
8童向荣,张伟.基于模糊盟友关系的多主体系统长期联盟[J].计算机研究与发展,2006,43(8):1445-1449. 被引量：8
9彭玉,程小平.基于属性相似性的Item-based协同过滤算法[J].计算机工程与应用,2007,43(14):144-147. 被引量：21
10彭玉,程小平,徐艺萍.一种改进的Item-based协同过滤推荐算法[J].西南大学学报（自然科学版）,2007,29(5):146-149. 被引量：17

共引文献1201

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：51
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376. 被引量：1
5李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：47
6熊回香,黄晓捷,肖兵,王妞妞.在线学术资源中基于时序知识图谱的学者推荐研究[J].情报科学,2022,40(8):3-10.
7陈新元,周忠眉,陈庆强,高美春,施达雅.结合四元数路径集成和空洞循环卷积的知识表示[J].中文信息学报,2023,37(3):54-64.
8陈晋鹏,李海洋,张帆,李环,魏凯敏.基于会话的推荐方法综述[J].中文信息学报,2023,37(3):1-17. 被引量：4
9查琇山,刘方方.基于缺失值补全和SVD的手游推荐方法[J].计算机应用研究,2020,37(S02):166-169. 被引量：1
10周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：8

1杨然,王任翔,丛嘉熠,吴海锋.基于5E教学模式的“细胞的能量货币——ATP”教学设计[J].大众科技,2023,25(1):168-171. 被引量：1
2孙宇冲,程曦苇,宋睿华,车万翔,卢志武,文继荣.多模态与文本预训练模型的文本嵌入差异研究[J].北京大学学报（自然科学版）,2023,59(1):48-56. 被引量：3
3王莺,刘秀洁,崔倩.职业院校在线开放课程思政建设现状与对策分析[J].中文科技期刊数据库（全文版）教育科学,2023(3):9-12.
4王逸轩,戴宇轩.基于专家示范深度强化学习的光伏系统MPPT控制[J].电源技术,2023,47(2):265-270. 被引量：1
5刘高常,谢依婷,谭吉玉.基于贡献度视角的矿区生态保护利益分配研究[J].现代矿业,2023,39(2):174-179.
6李可,傅启明,陈建平,陆悠,王蕴哲,吴宏杰.基于分类DQN的建筑能耗预测[J].计算机系统应用,2022,31(10):156-165. 被引量：1
7宋伟业,刘灵玥,阎洁,王航宇,何书凯,韩爽,王明辉,刘永前.基于深度强化学习的海上风电集群自进化功率平滑控制方法[J].中国电力,2023,56(3):36-46. 被引量：7

模式识别与人工智能

2023年第2期

浏览历史

内容加载中请稍等...

基于知识引导的自适应序列强化学习模型

参考文献9

二级参考文献64

共引文献1201

相关作者

相关机构

相关主题

浏览历史