期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于时间差分误差的离线强化学习采样策略 被引量:2
1
作者 张龙飞 冯旸赫 +3 位作者 梁星星 刘世旋 程光权 黄金才 《工程科学学报》 EI CSCD 北大核心 2023年第12期2118-2128,共11页
离线强化学习利用预先收集的专家数据或其他经验数据,在不与环境交互的情况下离线学习动作策略.与在线强化学习相比,离线强化学习具有样本效率高、交互成本低的优势.强化学习中通常使用Q值估计函数或Q值估计网络表示状态-动作的价值.因... 离线强化学习利用预先收集的专家数据或其他经验数据,在不与环境交互的情况下离线学习动作策略.与在线强化学习相比,离线强化学习具有样本效率高、交互成本低的优势.强化学习中通常使用Q值估计函数或Q值估计网络表示状态-动作的价值.因无法通过与环境交互及时修正Q值估计误差,离线强化学习往往面临外推误差严重、样本利用率低的问题.为此,提出基于时间差分误差的离线强化学习采样方法,使用时间差分误差作为样本优先采样的优先度度量,通过使用优先采样和标准采样相结合的采样方式,提升离线强化学习的采样效率并缓解分布外误差问题.同时,在使用双Q值估计网络的基础上,根据目标网络的不同计算方法,比较了3种时间差分误差度量所对应的算法的性能.此外,为消除因使用优先经验回放机制的偏好采样产生的训练偏差,使用了重要性采样机制.通过在强化学习公测数据集—深度数据驱动强化学习数据集上与已有研究成果相比,基于时间差分误差的离线强化学习采样方法在最终性能、数据效率和训练稳定性上均有更好的表现.消融实验表明,优先采样和标准采样相结合的采样方式对算法性能的发挥至关重要,同时,使用最小化双目标Q值估计的时间差分误差优先度度量所对应的算法,在多个任务上具有最优的性能.基于时间差分误差的离线强化学习采样方法可与任何基于Q值估计的离线强化学习方法结合,具有性能稳定、实现简单、可扩展性强的特点. 展开更多
关键词 离线 强化学习 采样策略 经验回放 时间差分误差
下载PDF
人工智能在抗击新冠肺炎疫情的应用与启示 被引量:8
2
作者 龙坤 程柏华 刘世旋 《信息安全与通信保密》 2020年第12期16-24,共9页
新冠疫情期间,人工智能在辅助医疗诊治、赋能社会治理、助力复工复产等方面发挥重要作用,为维护公共卫生安全提供了科技支撑。一方面,人工智能助力新冠疫情防控,显著提升了抗疫效率,减少了人力成本,并降低了人员感染风险;另一方面,疫情... 新冠疫情期间,人工智能在辅助医疗诊治、赋能社会治理、助力复工复产等方面发挥重要作用,为维护公共卫生安全提供了科技支撑。一方面,人工智能助力新冠疫情防控,显著提升了抗疫效率,减少了人力成本,并降低了人员感染风险;另一方面,疫情防控的需求牵引也加速了人工智能的发展和落地。但是,人工智能在此次抗击疫情过程中也面临着预警失位、发挥作用有限等问题。为了更好维护公共卫生安全,未来需要大力推动重要医疗数据开放共享,建立基于人工智能的公共卫生监测预警体系,并注重把握维护公共卫生安全与保护公民隐私之间的平衡。 展开更多
关键词 人工智能 公共卫生安全 新冠肺炎疫情 应用 启示
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部