-
题名基于因果机制约束的强化推荐系统
- 1
-
-
作者
张斯力
李梓健
蔡瑞初
郝志峰
闫玉光
-
机构
广东工业大学计算机学院
汕头大学工学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第5期279-290,共12页
-
基金
国家自然科学基金(61876043,61976052,62206061)
国家优秀青年科学基金(62122022)
科技创新2030—“新一代人工智能”重大项目(2021ZD0111501)。
-
文摘
利用历史数据训练强化学习推荐系统已经得到越来越多研究人员的关注,但是历史数据使得强化学习模型对状态-动作估值错误,产生数据偏差,如流行度偏差和选择偏差。造成上述问题的原因是历史数据分布与强化学习策略采集的数据分布不一致以及历史数据本身带有偏差。使用因果机制可以在约束策略采集数据分布的同时解决数据偏差的问题,提出基于因果机制约束的强化推荐系统,包含因果机制约束模块和对比策略模块。因果机制约束模块用于约束推荐策略可选择的样本空间以减少策略分布与数据分布误差,考虑随时间动态变化的物品流行度分布以缓解流行度偏差。对比策略模块通过平衡正负样本的重要性,缓解选择偏差的影响。在真实数据集Ciao和Epinions上的实验结果表明,相比深度Q网络(DQN)-r、GAIL、SOFA等,该算法具有较优的准确性和多样性,包含加入因果机制约束模块后的模型在F-measure指标上分别提高2%和3%,进一步验证了因果机制约束模块的有效性。
-
关键词
推荐系统
强化学习
因果机制
外推误差
数据偏差
-
Keywords
recommendation system
reinforcement learning
causal mechanism
extrapolation error
data bias
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-