-
题名基于时间差分误差的离线强化学习采样策略
被引量:2
- 1
-
-
作者
张龙飞
冯旸赫
梁星星
刘世旋
程光权
黄金才
-
机构
国防科技大学系统工程学院
-
出处
《工程科学学报》
EI
CSCD
北大核心
2023年第12期2118-2128,共11页
-
基金
国家自然科学基金面上资助项目(62273352)。
-
文摘
离线强化学习利用预先收集的专家数据或其他经验数据,在不与环境交互的情况下离线学习动作策略.与在线强化学习相比,离线强化学习具有样本效率高、交互成本低的优势.强化学习中通常使用Q值估计函数或Q值估计网络表示状态-动作的价值.因无法通过与环境交互及时修正Q值估计误差,离线强化学习往往面临外推误差严重、样本利用率低的问题.为此,提出基于时间差分误差的离线强化学习采样方法,使用时间差分误差作为样本优先采样的优先度度量,通过使用优先采样和标准采样相结合的采样方式,提升离线强化学习的采样效率并缓解分布外误差问题.同时,在使用双Q值估计网络的基础上,根据目标网络的不同计算方法,比较了3种时间差分误差度量所对应的算法的性能.此外,为消除因使用优先经验回放机制的偏好采样产生的训练偏差,使用了重要性采样机制.通过在强化学习公测数据集—深度数据驱动强化学习数据集上与已有研究成果相比,基于时间差分误差的离线强化学习采样方法在最终性能、数据效率和训练稳定性上均有更好的表现.消融实验表明,优先采样和标准采样相结合的采样方式对算法性能的发挥至关重要,同时,使用最小化双目标Q值估计的时间差分误差优先度度量所对应的算法,在多个任务上具有最优的性能.基于时间差分误差的离线强化学习采样方法可与任何基于Q值估计的离线强化学习方法结合,具有性能稳定、实现简单、可扩展性强的特点.
-
关键词
离线
强化学习
采样策略
经验回放
时间差分误差
-
Keywords
offline
reinforcement learning
sample strategy
experience replay buffer
TD-error
-
分类号
TG142.71
[金属学及工艺—金属材料]
-
-
题名人工智能在抗击新冠肺炎疫情的应用与启示
被引量:8
- 2
-
-
作者
龙坤
程柏华
刘世旋
-
机构
国防科技大学文理学院
国防科技大学系统工程学院
-
出处
《信息安全与通信保密》
2020年第12期16-24,共9页
-
基金
湖南省研究生科研创新项目“新兴颠覆性技术对国家安全的影响及治理策略研究”(No.CX20200041)。
-
文摘
新冠疫情期间,人工智能在辅助医疗诊治、赋能社会治理、助力复工复产等方面发挥重要作用,为维护公共卫生安全提供了科技支撑。一方面,人工智能助力新冠疫情防控,显著提升了抗疫效率,减少了人力成本,并降低了人员感染风险;另一方面,疫情防控的需求牵引也加速了人工智能的发展和落地。但是,人工智能在此次抗击疫情过程中也面临着预警失位、发挥作用有限等问题。为了更好维护公共卫生安全,未来需要大力推动重要医疗数据开放共享,建立基于人工智能的公共卫生监测预警体系,并注重把握维护公共卫生安全与保护公民隐私之间的平衡。
-
关键词
人工智能
公共卫生安全
新冠肺炎疫情
应用
启示
-
分类号
TN915.08
[电子电信—通信与信息系统]
-