离线强化学习通过减小分布偏移实现了习得策略向行为策略的逼近,但离线经验缓存的数据分布往往会直接影响习得策略的质量.通过优化采样模型来改善强化学习智能体的训练效果,提出两种离线优先采样模型:基于时序差分误差的采样模型和基于...离线强化学习通过减小分布偏移实现了习得策略向行为策略的逼近,但离线经验缓存的数据分布往往会直接影响习得策略的质量.通过优化采样模型来改善强化学习智能体的训练效果,提出两种离线优先采样模型:基于时序差分误差的采样模型和基于鞅的采样模型.基于时序差分误差的采样模型可以使智能体更多地学习值估计不准确的经验数据,通过估计更准确的值函数来应对可能出现的分布外状态.基于鞅的采样模型可以使智能体更多地学习对策略优化有利的正样本,减少负样本对值函数迭代的影响.进一步,将所提离线优先采样模型分别与批约束深度Q学习(Batch-constrained deep Q-learning,BCQ)相结合,提出基于时序差分误差的优先BCQ和基于鞅的优先BCQ.D4RL和Torcs数据集上的实验结果表明:所提离线优先采样模型可以有针对性地选择有利于值函数估计或策略优化的经验数据,获得更高的回报.展开更多
滑坡空间易发性统计模型的构建需要正样本(滑坡点)和负样本(非滑坡点)两类数据,但历史观测数据仅记录了正样本,而负样本的选取容易受到正样本污染,因为没有滑坡记录的地方也可能在过去或未来发生滑坡,从而导致模型的预测精度与稳定性受...滑坡空间易发性统计模型的构建需要正样本(滑坡点)和负样本(非滑坡点)两类数据,但历史观测数据仅记录了正样本,而负样本的选取容易受到正样本污染,因为没有滑坡记录的地方也可能在过去或未来发生滑坡,从而导致模型的预测精度与稳定性受到影响。针对此问题,将前期提出的半监督学习算法PBLC(positive and background learning with constraints)应用于滑坡空间易发性分析,探讨其解决负样本污染问题的有效性。本文以粤东地区为研究区,选择高程、坡度、坡向、剖面曲率、距离道路最短距离、距离断层线最短距离、距水系最短距离、年平均降雨量、归一化植被指数和地理坐标共11个影响因子作为环境变量。结果表明,与传统的人工神经网络模型相比,基于PBLC算法的预测概率取值范围更为合理,预测结果更加稳定,且预测精度随背景样本数量增加而提高;粤东地区的滑坡灾害高易发区集中于北部和西南区域,坡度和高程是影响该地区滑坡易发性的主要因子。结果表明,半监督学习算法PBLC可以有效解决滑坡统计建模过程负样本污染的问题,提高模型预测精度。展开更多
文摘离线强化学习通过减小分布偏移实现了习得策略向行为策略的逼近,但离线经验缓存的数据分布往往会直接影响习得策略的质量.通过优化采样模型来改善强化学习智能体的训练效果,提出两种离线优先采样模型:基于时序差分误差的采样模型和基于鞅的采样模型.基于时序差分误差的采样模型可以使智能体更多地学习值估计不准确的经验数据,通过估计更准确的值函数来应对可能出现的分布外状态.基于鞅的采样模型可以使智能体更多地学习对策略优化有利的正样本,减少负样本对值函数迭代的影响.进一步,将所提离线优先采样模型分别与批约束深度Q学习(Batch-constrained deep Q-learning,BCQ)相结合,提出基于时序差分误差的优先BCQ和基于鞅的优先BCQ.D4RL和Torcs数据集上的实验结果表明:所提离线优先采样模型可以有针对性地选择有利于值函数估计或策略优化的经验数据,获得更高的回报.
文摘滑坡空间易发性统计模型的构建需要正样本(滑坡点)和负样本(非滑坡点)两类数据,但历史观测数据仅记录了正样本,而负样本的选取容易受到正样本污染,因为没有滑坡记录的地方也可能在过去或未来发生滑坡,从而导致模型的预测精度与稳定性受到影响。针对此问题,将前期提出的半监督学习算法PBLC(positive and background learning with constraints)应用于滑坡空间易发性分析,探讨其解决负样本污染问题的有效性。本文以粤东地区为研究区,选择高程、坡度、坡向、剖面曲率、距离道路最短距离、距离断层线最短距离、距水系最短距离、年平均降雨量、归一化植被指数和地理坐标共11个影响因子作为环境变量。结果表明,与传统的人工神经网络模型相比,基于PBLC算法的预测概率取值范围更为合理,预测结果更加稳定,且预测精度随背景样本数量增加而提高;粤东地区的滑坡灾害高易发区集中于北部和西南区域,坡度和高程是影响该地区滑坡易发性的主要因子。结果表明,半监督学习算法PBLC可以有效解决滑坡统计建模过程负样本污染的问题,提高模型预测精度。