期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于因果机制约束的强化推荐系统
1
作者 张斯力 李梓健 +2 位作者 蔡瑞初 郝志峰 闫玉光 《计算机工程》 CAS CSCD 北大核心 2024年第5期279-290,共12页
利用历史数据训练强化学习推荐系统已经得到越来越多研究人员的关注,但是历史数据使得强化学习模型对状态-动作估值错误,产生数据偏差,如流行度偏差和选择偏差。造成上述问题的原因是历史数据分布与强化学习策略采集的数据分布不一致以... 利用历史数据训练强化学习推荐系统已经得到越来越多研究人员的关注,但是历史数据使得强化学习模型对状态-动作估值错误,产生数据偏差,如流行度偏差和选择偏差。造成上述问题的原因是历史数据分布与强化学习策略采集的数据分布不一致以及历史数据本身带有偏差。使用因果机制可以在约束策略采集数据分布的同时解决数据偏差的问题,提出基于因果机制约束的强化推荐系统,包含因果机制约束模块和对比策略模块。因果机制约束模块用于约束推荐策略可选择的样本空间以减少策略分布与数据分布误差,考虑随时间动态变化的物品流行度分布以缓解流行度偏差。对比策略模块通过平衡正负样本的重要性,缓解选择偏差的影响。在真实数据集Ciao和Epinions上的实验结果表明,相比深度Q网络(DQN)-r、GAIL、SOFA等,该算法具有较优的准确性和多样性,包含加入因果机制约束模块后的模型在F-measure指标上分别提高2%和3%,进一步验证了因果机制约束模块的有效性。 展开更多
关键词 推荐系统 强化学习 因果机制 外推误差 数据偏差
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部