期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
显式知识推理和深度强化学习结合的动态决策
被引量:
1
1
作者
张昊迪
陈振浩
+4 位作者
陈俊扬
周熠
连德富
伍楷舜
林方真
《软件学报》
EI
CSCD
北大核心
2023年第8期3821-3835,共15页
近年来,深度强化学习在序列决策领域被广泛应用并且效果良好,尤其在具有高维输入、大规模状态空间的应用场景中优势明显.然而,深度强化学习相关方法也存在一些局限,如缺乏可解释性、初期训练低效与冷启动等问题.针对这些问题,提出了一...
近年来,深度强化学习在序列决策领域被广泛应用并且效果良好,尤其在具有高维输入、大规模状态空间的应用场景中优势明显.然而,深度强化学习相关方法也存在一些局限,如缺乏可解释性、初期训练低效与冷启动等问题.针对这些问题,提出了一种基于显式知识推理和深度强化学习的动态决策框架,将显式的知识推理与深度强化学习结合.该框架通过显式知识表示将人类先验知识嵌入智能体训练中,让智能体在强化学习中获得知识推理结果的干预,以提高智能体的训练效率,并增加模型的可解释性.将显式知识分为两种,即启发式加速知识与规避式安全知识.前者在训练初期干预智能体决策,加快训练速度;而后者将避免智能体作出灾难性决策,使其训练过程更为稳定.实验表明,该决策框架在不同强化学习算法上、不同应用场景中明显提高了模型训练效率,并增加了模型的可解释性.
展开更多
关键词
知识表示与推理
可解释性
深度强化学习
动态序列决策
下载PDF
职称材料
题名
显式知识推理和深度强化学习结合的动态决策
被引量:
1
1
作者
张昊迪
陈振浩
陈俊扬
周熠
连德富
伍楷舜
林方真
机构
深圳大学计算机与软件学院
上海脑科学与类脑研究中心
中国科学技术大学计算机科学与技术学院
香港科技大学计算机科学与工程系
出处
《软件学报》
EI
CSCD
北大核心
2023年第8期3821-3835,共15页
基金
国家自然科学基金(61806132,U2001207,61872248)
广东省自然科学基金(2017A030312008)
+2 种基金
深圳市自然科学基金(ZDSYS20190902092853047,R2020A045)
珠江人才计划(2019ZT08X603)
广东省普通高校创新团队项目(2019KCXTD005)。
文摘
近年来,深度强化学习在序列决策领域被广泛应用并且效果良好,尤其在具有高维输入、大规模状态空间的应用场景中优势明显.然而,深度强化学习相关方法也存在一些局限,如缺乏可解释性、初期训练低效与冷启动等问题.针对这些问题,提出了一种基于显式知识推理和深度强化学习的动态决策框架,将显式的知识推理与深度强化学习结合.该框架通过显式知识表示将人类先验知识嵌入智能体训练中,让智能体在强化学习中获得知识推理结果的干预,以提高智能体的训练效率,并增加模型的可解释性.将显式知识分为两种,即启发式加速知识与规避式安全知识.前者在训练初期干预智能体决策,加快训练速度;而后者将避免智能体作出灾难性决策,使其训练过程更为稳定.实验表明,该决策框架在不同强化学习算法上、不同应用场景中明显提高了模型训练效率,并增加了模型的可解释性.
关键词
知识表示与推理
可解释性
深度强化学习
动态序列决策
Keywords
knowledge representation and reasoning
interpretability
deep reinforcement learning(DRL)
sequential decision making
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
显式知识推理和深度强化学习结合的动态决策
张昊迪
陈振浩
陈俊扬
周熠
连德富
伍楷舜
林方真
《软件学报》
EI
CSCD
北大核心
2023
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部