期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
结合新颖性和风险评估的内在奖励方法 被引量:1
1
作者 赵英 秦进 袁琳琳 《计算机工程与应用》 CSCD 北大核心 2023年第5期148-154,共7页
强化学习算法依赖于精心设计的外在奖励,然而Agent在和环境交互过程中,环境反馈给Agent的外在奖励往往是非常稀少的或延迟,这导致了Agent无法学习到一个好的策略。为了解决该问题,从新颖性和风险评估这两方面设计一个内在奖励,使Agent... 强化学习算法依赖于精心设计的外在奖励,然而Agent在和环境交互过程中,环境反馈给Agent的外在奖励往往是非常稀少的或延迟,这导致了Agent无法学习到一个好的策略。为了解决该问题,从新颖性和风险评估这两方面设计一个内在奖励,使Agent能充分地探索环境以及考虑环境中存在不确定性动作。该方法分为两部分,首先是新颖性描述为对当前状态-动作和转换后状态的访问次数,将具体执行的动作考虑进去;其次是动作的风险程度,风险评估从累积奖励方差考虑,来判断当前动作对状态的意义是有风险的还是无风险的。该方法在Mujoco环境下进行了评估,实验验证该方法取得了更高的平均奖励值,尤其是在外在奖励延迟的情况下,也能取得不错的平均奖励值。说明该方法能有效地解决外在奖励稀疏的问题。 展开更多
关键词 强化学习 新颖性 风险评估 内在奖励
下载PDF
基于ECA和YOLOv4的轻量级目标检测网络设计
2
作者 李秉涛 何勇 袁琳琳 《传感器与微系统》 CSCD 北大核心 2023年第9期100-104,共5页
针对传统的目标检测网络存在参数量大、检测速度慢等不足,在计算资源受限的设备上难以满足实时性需求的问题,提出一种改进的YOLOv4-tiny目标检测算法,使用Bneck_E替换主特征提取网络的CSP结构,在深层特征提取网络中,增加轻量级注意力机... 针对传统的目标检测网络存在参数量大、检测速度慢等不足,在计算资源受限的设备上难以满足实时性需求的问题,提出一种改进的YOLOv4-tiny目标检测算法,使用Bneck_E替换主特征提取网络的CSP结构,在深层特征提取网络中,增加轻量级注意力机制——高效通道注意力(ECA)机制,采用双向特征融合,用深度可分离卷积对浅层特征下采样,提高对小目标的检测精度。在PASCAL VOC数据集上实验表明,该算法平均精度均值(mAP)提高了4.4%,帧率(FPS)提升了8.9%,模型大小仅为YOLOv4-tiny的36%,有利于在嵌入式设备上部署运行。 展开更多
关键词 目标检测 YOLOv4-tiny算法 深度可分离卷积 高效通道注意力
下载PDF
有限理性下不确定参数多目标博弈平衡的稳定性
3
作者 陈聪利 汤卫 王春 《运筹与模糊学》 2023年第2期1242-1257,共16页
本文从有限理性的角度,建立了不确定参数下多目标博弈的有限理性模型,并通过构造特殊的理性函数,证明了在支付函数发生扰动的情况下,该有限理性模型是结构稳定的,并且对弱 ε-Pareto-NS平衡也是鲁棒的。进一步,我们通过具体算例对其平... 本文从有限理性的角度,建立了不确定参数下多目标博弈的有限理性模型,并通过构造特殊的理性函数,证明了在支付函数发生扰动的情况下,该有限理性模型是结构稳定的,并且对弱 ε-Pareto-NS平衡也是鲁棒的。进一步,我们通过具体算例对其平衡的稳定性进行更加直观的验证分析。 展开更多
关键词 有限理性 多目标博弈 不确定参数 弱Pareto-NS平衡 稳定性
下载PDF
结合向前状态预测和隐空间约束的强化学习表示算法 被引量:4
4
作者 项宇 秦进 袁琳琳 《计算机系统应用》 2022年第11期148-156,共9页
虽然深度强化学习能够解决很多复杂的控制问题,但是需要付出的代价是必须和环境进行大量的交互,这是深度强化学习所面临的一大挑战.造成这一问题的原因之一是仅依靠值函数损失难以让智能体从高维的复杂输入中提取有效特征.导致智能体对... 虽然深度强化学习能够解决很多复杂的控制问题,但是需要付出的代价是必须和环境进行大量的交互,这是深度强化学习所面临的一大挑战.造成这一问题的原因之一是仅依靠值函数损失难以让智能体从高维的复杂输入中提取有效特征.导致智能体对所处状态理解不足,从而不能正确给状态分配价值.因此,为了让智能体认识所处环境,提高强化学习样本效率,本文提出一种结合向前状态预测与隐空间约束的表示学习方法(regularized predictive representation learning,RPRL).帮助智能体从高维视觉输入中学习并提取状态特征,以此来提高强化学习样本效率.该方法用前向的状态转移损失作为辅助损失,使智能体学习到的特征包含环境转移的相关动态信息.同时在向前预测的基础上添加正则化项对隐空间的状态表示进行约束,进一步帮助智能体学习到高维度输入的平滑、规则表示.该方法在DeepMind Control(DMControl)环境中与其他的基于模型的方法以及加入了表示学习的无模型方法进行比较,都获得了更好的性能. 展开更多
关键词 强化学习 表示方法 状态转移 隐空间约束 连续控制 高维度输入
下载PDF
基于遗传交叉算子的深度Q网络样本扩充 被引量:1
5
作者 杨彤 秦进 +1 位作者 谢仲涛 袁琳琳 《计算机系统应用》 2021年第12期155-162,共8页
区别于传统深度强化学习中通过从经验回放单元逐个选择的状态转移样本进行训练的方式,针对采用整个序列轨迹作为训练样本的深度Q网络(Deep Q Network,DQN),提出基于遗传算法的交叉操作扩充序列样本的方法.序列轨迹是由智能体与环境交互... 区别于传统深度强化学习中通过从经验回放单元逐个选择的状态转移样本进行训练的方式,针对采用整个序列轨迹作为训练样本的深度Q网络(Deep Q Network,DQN),提出基于遗传算法的交叉操作扩充序列样本的方法.序列轨迹是由智能体与环境交互的试错决策过程中产生,其中会存在相似的关键状态.以两条序列轨迹中的相似状态作为交叉点,能产生出当前未出现过的序列轨迹,从而达到扩充序列样本数量、增大序列样本的多样性的目的,进而增加智能体的探索能力,提高样本效率.与深度Q网络随机采样训练样本和采用序列样本向后更新的算法(Episodic Backward Update,EBU)进行对比,所提出的方法在Playing Atari 2600视频游戏中能取得更高的奖赏值. 展开更多
关键词 深度强化学习 经验回放 样本效率 遗传算法
下载PDF
不确定参数下多目标博弈平衡的通有稳定性
6
作者 陈聪利 杨辉 +1 位作者 王国玲 汤卫 《系统科学与数学》 CSCD 北大核心 2024年第3期711-722,共12页
文章研究了不确定参数下多目标博弈平衡的存在性及通有稳定性.首先,文章运用向量值Ky Fan不等式证明了该博弈弱Pareto-NS平衡的存在性.其次,运用Fort定理,证明了大多数不确定参数下多目标博弈弱Pareto-NS平衡都是本质稳定的.最后,通过... 文章研究了不确定参数下多目标博弈平衡的存在性及通有稳定性.首先,文章运用向量值Ky Fan不等式证明了该博弈弱Pareto-NS平衡的存在性.其次,运用Fort定理,证明了大多数不确定参数下多目标博弈弱Pareto-NS平衡都是本质稳定的.最后,通过具体算例验证了所得结论的合理性. 展开更多
关键词 不确定参数 多目标博弈 弱Pareto-NS平衡 存在性 通有稳定性
原文传递
一种基于条件生成对抗网络的强化学习数据增强方法
7
作者 项宇 秦进 袁琳琳 《计算机与数字工程》 2024年第6期1739-1745,共7页
强化学习用于序列决策问题上取得的成功越来越受到人们的重视,但是当使用高维状态作为输入时,仍然存在数据效率低下的问题。造成这个问题的原因之一是智能体难以从高维空间提取有效的特征。为了提高数据效率,论文提出一种适用于强化学... 强化学习用于序列决策问题上取得的成功越来越受到人们的重视,但是当使用高维状态作为输入时,仍然存在数据效率低下的问题。造成这个问题的原因之一是智能体难以从高维空间提取有效的特征。为了提高数据效率,论文提出一种适用于强化学习任务的数据增强方法cGDA(cGANs-based Data Augment),该方法用条件生成对抗网络(cGANs)对环境的动态特性建模,以当前时刻的状态和动作作为条件生成模型的输入,输出下一时刻的状态作为增强数据。训练过程中使用真实数据和增强数据同时训练智能体,有效地帮助智能体从不同的数据中快速提取到有用的知识。在Atari100K基准上,cGDA在26个离散控制问题环境中与采用数据增强的方法比较,在16个环境中获得了更高的性能;与未采用数据增强的方法比较,在14个环境中获得了更高的性能。 展开更多
关键词 强化学习 数据增强 数据效率 条件生成对抗网络 雅达利游戏
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部