期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于平均场内生奖励的多智能体强化学习算法
1
作者 孙文绮 李大鹏 +1 位作者 田峰 丁良辉 《无线电通信技术》 2023年第3期556-565,共10页
针对复杂的多智能体应用场景中只依靠根据最终目标设计的简单奖励函数无法对智能体学习策略做出有效引导的问题,提出了一种基于平均场内生奖励的多智能体强化学习(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidenc... 针对复杂的多智能体应用场景中只依靠根据最终目标设计的简单奖励函数无法对智能体学习策略做出有效引导的问题,提出了一种基于平均场内生奖励的多智能体强化学习(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidence Reinforcement Learning, M3IR-UCRL)算法。该算法在奖励函数中增加了内生奖励模块,用生成的内生奖励与定义任务的外部奖励一起帮助代表智能体在用平均场控制(Mean-Field Control, MFC)化简的多智能体系统中学习策略。智能体学习时首先按照期望累积内外奖励加权和的梯度方向更新策略参数,然后按照期望累积外部奖励的梯度方向更新内生奖励参数。仿真结果表明,相比于只用简单外部奖励引导智能体学习的(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidence Reinforcement Learning, M3-UCRL)算法,所提算法可以有效提高智能体在复杂的多智能体场景中的任务完成率,降低与周围环境的碰撞率,从而使算法的整体性能得到提升。 展开更多
关键词 多智能体系统 平均场控制 基于模型的强化学习 内生奖励
下载PDF
经济下行期商业银行风险管控研究
2
作者 孙文绮 孙曼青 《中国商论》 2020年第3期151-152,共2页
商业银行作为我国市场经济运行中的核心,在经济下行期商业银行的风险管理工作就显得尤为重要,直接关系着商业银行的业务发展和风险管理间的关系,做好经济下行期商业银行的风险管控工作,是保证商业银行持续发展,实现国民经济发展目标的... 商业银行作为我国市场经济运行中的核心,在经济下行期商业银行的风险管理工作就显得尤为重要,直接关系着商业银行的业务发展和风险管理间的关系,做好经济下行期商业银行的风险管控工作,是保证商业银行持续发展,实现国民经济发展目标的重要途径之一。基于此,本文将从经济下行给商业银行带来的风险影响入手,结合当前现状,提出了几点适用于加强经济下行期商业银行风险管控成效的具体措施。仅供参考。 展开更多
关键词 经济下行期 商业银行 风险管控 研究
下载PDF
我心目中最好的老师
3
作者 孙文绮 李娜(指导) 《中学生作文指导》 2019年第25期227-227,共1页
一说到老师,我就会立马精神一振,因为我的脑海里会一下闪现出那双炯炯有神的大眼睛。这双眼睛是谁的呢?她就是我心目中最好的老师———董晓莉老师。
关键词 眼睛 老师 心目
下载PDF
捶肩
4
作者 西条十八 孙文绮 《小学生导刊(中年级版)》 2012年第3期24-24,共1页
妈妈,给您捶捶肩吧。 啪嗒,啪嗒,啪嗒嗒!
关键词 小学生 语文学习 阅读知识 课外阅读
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部