期刊文献+
共找到3,439篇文章
< 1 2 172 >
每页显示 20 50 100
Efficient Optimal Routing Algorithm Based on Reward and Penalty for Mobile Adhoc Networks
1
作者 Anubha Ravneet Preet Singh Bedi +3 位作者 Arfat Ahmad Khan Mohd Anul Haq Ahmad Alhussen Zamil S.Alzamil 《Computers, Materials & Continua》 SCIE EI 2023年第4期1331-1351,共21页
Mobile adhoc networks have grown in prominence in recent years,and they are now utilized in a broader range of applications.The main challenges are related to routing techniques that are generally employed in them.Mob... Mobile adhoc networks have grown in prominence in recent years,and they are now utilized in a broader range of applications.The main challenges are related to routing techniques that are generally employed in them.Mobile Adhoc system management,on the other hand,requires further testing and improvements in terms of security.Traditional routing protocols,such as Adhoc On-Demand Distance Vector(AODV)and Dynamic Source Routing(DSR),employ the hop count to calculate the distance between two nodes.The main aim of this research work is to determine the optimum method for sending packets while also extending life time of the network.It is achieved by changing the residual energy of each network node.Also,in this paper,various algorithms for optimal routing based on parameters like energy,distance,mobility,and the pheromone value are proposed.Moreover,an approach based on a reward and penalty system is given in this paper to evaluate the efficiency of the proposed algorithms under the impact of parameters.The simulation results unveil that the reward penalty-based approach is quite effective for the selection of an optimal path for routing when the algorithms are implemented under the parameters of interest,which helps in achieving less packet drop and energy consumption of the nodes along with enhancing the network efficiency. 展开更多
关键词 ROUTING optimization reward PENALTY MOBILITY energy THROUGHOUT PHEROMONE
下载PDF
Magnetic Field-Based Reward Shaping for Goal-Conditioned Reinforcement Learning
2
作者 Hongyu Ding Yuanze Tang +3 位作者 Qing Wu Bo Wang Chunlin Chen Zhi Wang 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2023年第12期2233-2247,共15页
Goal-conditioned reinforcement learning(RL)is an interesting extension of the traditional RL framework,where the dynamic environment and reward sparsity can cause conventional learning algorithms to fail.Reward shapin... Goal-conditioned reinforcement learning(RL)is an interesting extension of the traditional RL framework,where the dynamic environment and reward sparsity can cause conventional learning algorithms to fail.Reward shaping is a practical approach to improving sample efficiency by embedding human domain knowledge into the learning process.Existing reward shaping methods for goal-conditioned RL are typically built on distance metrics with a linear and isotropic distribution,which may fail to provide sufficient information about the ever-changing environment with high complexity.This paper proposes a novel magnetic field-based reward shaping(MFRS)method for goal-conditioned RL tasks with dynamic target and obstacles.Inspired by the physical properties of magnets,we consider the target and obstacles as permanent magnets and establish the reward function according to the intensity values of the magnetic field generated by these magnets.The nonlinear and anisotropic distribution of the magnetic field intensity can provide more accessible and conducive information about the optimization landscape,thus introducing a more sophisticated magnetic reward compared to the distance-based setting.Further,we transform our magnetic reward to the form of potential-based reward shaping by learning a secondary potential function concurrently to ensure the optimal policy invariance of our method.Experiments results in both simulated and real-world robotic manipulation tasks demonstrate that MFRS outperforms relevant existing methods and effectively improves the sample efficiency of RL algorithms in goal-conditioned tasks with various dynamics of the target and obstacles. 展开更多
关键词 Dynamic environments goal-conditioned reinforcement learning magnetic field reward shaping
下载PDF
考虑奖励机制的电动汽车充电优化引导策略 被引量:1
3
作者 张建宏 赵兴勇 王秀丽 《电网与清洁能源》 CSCD 北大核心 2024年第1期102-108,118,共8页
随着电动汽车(electric vehicle,EV)的大规模推广,其无序充电严重威胁电网的安全稳定运行,积极引导EV用户参与充电优化策略,对于提高电网的安全稳定性具有重要意义。为此,基于充电优化管理调度思路,提出一种考虑奖励机制的EV充电优化引... 随着电动汽车(electric vehicle,EV)的大规模推广,其无序充电严重威胁电网的安全稳定运行,积极引导EV用户参与充电优化策略,对于提高电网的安全稳定性具有重要意义。为此,基于充电优化管理调度思路,提出一种考虑奖励机制的EV充电优化引导策略,在分时电价的基础上,计入用户在降低电网负荷波动中的奖励机制,考虑充电位置固定、不确定用户的出行需求,确定EV的充电时间及充电位置,达到用户满意度最高的目的;利用EV动态响应的实时优化算法,对所提的优化调度模型进行求解。仿真结果验证了所提策略的有效性和可行性,该优化调度策略不仅能有效改善负荷低谷时段集中充电形成新的负荷高峰的问题,而且可明显降低用户的充电成本及电网负荷波动。 展开更多
关键词 电动汽车 充电控制 负荷波动 奖励机制 优化引导策略
下载PDF
Effectiveness of Reward System on Assessment Outcomes in Mathematics
4
作者 May Semira Inandan 《Journal of Contemporary Educational Research》 2023年第9期52-58,共7页
As assessment outcomes provide students with a sense of accomplishment that is boosted by the reward system,learning becomes more effective.This research aims to determine the effects of reward system prior to assessm... As assessment outcomes provide students with a sense of accomplishment that is boosted by the reward system,learning becomes more effective.This research aims to determine the effects of reward system prior to assessment in Mathematics.Quasi-experimental research design was used to examine whether there was a significant difference between the use of reward system and students’level of performance in Mathematics.Through purposive sampling,the respondents of the study involve 80 Grade 9 students belonging to two sections from Gaudencio B.Lontok Memorial Integrated School.Based on similar demographics and pre-test results,control and study group were involved as participants of the study.Data were treated and analyzed accordingly using statistical treatments such as mean and t-test for independent variables.There was a significant finding revealing the advantage of using the reward system compare to the non-reward system in increasing students’level of performance in Mathematics.It is concluded that the use of reward system is effective in improving the assessment outcomes in Mathematics.It is recommended to use reward system for persistent assessment outcomes prior to assessment,to be a reflection of the intended outcomes in Mathematics. 展开更多
关键词 MATHEMATICS reward system Assessment outcomes
下载PDF
基于季节性碳交易机制的园区综合能源系统低碳经济调度 被引量:4
5
作者 颜宁 马广超 +2 位作者 李相俊 李洋 马少华 《中国电机工程学报》 EI CSCD 北大核心 2024年第3期918-931,I0006,共15页
为有效提高碳排放配额分配的合理性,并且避免年度结算时碳排放量超标导致环境污染加剧问题,提出基于奖惩因子的季节性碳交易机制,以园区综合能源系统(park integrated energy system,PIES)为对象进行低碳经济调度。首先,构建包含能量层... 为有效提高碳排放配额分配的合理性,并且避免年度结算时碳排放量超标导致环境污染加剧问题,提出基于奖惩因子的季节性碳交易机制,以园区综合能源系统(park integrated energy system,PIES)为对象进行低碳经济调度。首先,构建包含能量层–碳流层–管理层的综合能源系统(integrated energy system,IES)运行框架,建立电气热多能流供需动态一致性模型;其次,分析系统内“日–季节–年度”碳排放特性,打破传统应用指标法的配额分配方法,采用灰色关联分析法建立碳排放配额分配模型,并基于奖惩阶梯碳价制定季节性碳交易机制;最后,以系统内全寿命周期运行成本及碳交易成本最小为目标,对执行季节性碳交易机制的PIES进行低碳经济调度,分析长时间尺度下季节性储能参与调度的减碳量。搭建IEEE 33节点电网5节点气网7节点热网的PIES,并基于多场景进行算例分析,验证此调度方法能够实现零碳经济运行,保证系统供能可靠性,为建立零碳园区奠定理论基础。 展开更多
关键词 园区综合能源系统 季节性碳交易机制 奖惩阶梯碳价 灰色关联分析法
下载PDF
生态补偿视角下流域跨界水污染协同治理机制设计及演化博弈分析 被引量:1
6
作者 杨霞 何刚 +1 位作者 吴传良 张世玉 《安全与环境学报》 CAS CSCD 北大核心 2024年第5期2033-2042,共10页
针对流域相邻两地区和流域管理机构三方博弈主体,引入双向生态补偿-奖惩机制,构建流域跨界水污染三方演化博弈理论模型。通过稳定性分析得出流域跨界水污染协同治理理想状态的稳定条件,并结合新安江流域生态补偿试点案例进行仿真分析。... 针对流域相邻两地区和流域管理机构三方博弈主体,引入双向生态补偿-奖惩机制,构建流域跨界水污染三方演化博弈理论模型。通过稳定性分析得出流域跨界水污染协同治理理想状态的稳定条件,并结合新安江流域生态补偿试点案例进行仿真分析。结果表明:(1)引入双向生态补偿-奖惩机制可有效推动新安江流域相邻两地采取达标排放行为,促使系统达到(1, 1, 0)稳定状态;(2)动态奖惩机制组合使用有助于系统演化,从博弈主体初始意愿、实施效能和支持倾向等角度综合考虑,动态奖励-静态惩罚策略监管效果最优,动态奖励-动态惩罚策略次之;(3)流域跨界水污染协同治理的实现策略与相邻两地达标排放的治理成本与收益、双向生态补偿金额度、流域管理机构发放生态补偿奖励金额、积极监管成本和收益等因素密切相关。 展开更多
关键词 环境学 水污染 演化博弈 生态补偿 动态奖惩 协同治理
下载PDF
稀疏奖励场景下基于状态空间探索的多智能体强化学习算法
7
作者 方宝富 余婷婷 +1 位作者 王浩 王在俊 《模式识别与人工智能》 EI CSCD 北大核心 2024年第5期435-446,共12页
多智能体的任务场景往往伴随着庞大、多样的状态空间,而且在某些情况下,外部环境提供的奖励信息可能非常有限,呈现出稀疏奖励的特征.现有的大部分多智能体强化学习算法在此类稀疏奖励场景下效果有限,因为算法仅依赖于偶然发现的奖励序列... 多智能体的任务场景往往伴随着庞大、多样的状态空间,而且在某些情况下,外部环境提供的奖励信息可能非常有限,呈现出稀疏奖励的特征.现有的大部分多智能体强化学习算法在此类稀疏奖励场景下效果有限,因为算法仅依赖于偶然发现的奖励序列,会导致学习过程缓慢和低效.为了解决这一问题,文中提出基于状态空间探索的多智能体强化学习算法,构建状态子集空间,从中映射出一个状态,并将其作为内在目标,使智能体更充分利用状态空间并减少不必要的探索.将智能体状态分解成自身状态与环境状态,结合这两类状态与内在目标,生成基于互信息的内在奖励.构建状态子集空间和基于互信息的内在奖励,对接近目标状态的状态与理解环境的状态给予适当的奖励,以激励智能体更积极地朝着目标前进,同时增强对环境的理解,从而引导其灵活适应稀疏奖励场景.在稀疏程度不同的多智能体协作场景中的实验验证文中算法性能较优. 展开更多
关键词 强化学习 稀疏奖励 互信息 内在奖励
下载PDF
前景理论视角下废旧动力电池回收监管演化博弈分析 被引量:1
8
作者 许礼刚 刘荣福 +1 位作者 陈磊 倪俊 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第1期290-297,共8页
废旧动力电池具有较强的负外部性,违背了新能源汽车设计的初衷。为促进废旧动力电池有效回收,将前景理论与演化博弈论耦合,综合考虑政府、企业(汽车生产)和公众之间的利益,促使政府和公众对企业进行共同监督,构建三方博弈模型。针对初... 废旧动力电池具有较强的负外部性,违背了新能源汽车设计的初衷。为促进废旧动力电池有效回收,将前景理论与演化博弈论耦合,综合考虑政府、企业(汽车生产)和公众之间的利益,促使政府和公众对企业进行共同监督,构建三方博弈模型。针对初始意愿、罚款组成、风险态度系数和损失规避系数的不同情况,进行模拟数值仿真,并结合现实中废旧动力电池的认识度、奖惩机制和盈利信心进行分析。研究表明:提高公众或政府的初始监督意愿,可以促进企业回收废旧动力电池;当企业的回收策略为亏损时,提高企业对公众的补偿金额、降低企业的风险态度系数和损失规避系数,可以促进企业积极回收;在废旧动力电池回收过程中,共同监督的效果优于单独监督。 展开更多
关键词 动力电池 演化博弈 前景理论 共同监督 奖惩机制
下载PDF
政府监管下直播带货平台合谋行为的奖惩机制研究 被引量:1
9
作者 李国昊 梅婷 梁永滔 《江苏大学学报(社会科学版)》 2024年第2期100-112,共13页
“直播+电商”的新型商品销售模式正飞速发展,但该过程中存在诸多问题。本文考虑了直播带货平台与平台商家合谋以获取超额利润的现象,建立并分析了不同的奖惩机制下直播带货平台与政府监管机构的演化博弈模型,最终得出以下结论:静态奖... “直播+电商”的新型商品销售模式正飞速发展,但该过程中存在诸多问题。本文考虑了直播带货平台与平台商家合谋以获取超额利润的现象,建立并分析了不同的奖惩机制下直播带货平台与政府监管机构的演化博弈模型,最终得出以下结论:静态奖惩机制与动态奖励静态惩罚机制下,系统不存在稳定均衡点;静态奖励动态惩罚和动态奖励动态惩罚机制下,系统存在稳定均衡点,但动态奖惩机制下直播带货平台与平台商家合谋的概率更低。动态奖惩机制下,直播带货平台和直播电商合谋行为与奖惩力度有关,当惩罚力度增加时,直播带货平台与平台商家合谋的概率下降,政府监管成本降低;当奖励强度增加时,政府严格监管概率降低,直播带货平台与平台商家合谋概率降低但变化较小。因此,政府监管机构采用科学合理的动态奖惩机制有助于直播带货行业的稳健发展。 展开更多
关键词 直播带货平台 奖惩机制 演化博弈 合谋行为
下载PDF
基于强化学习的多段连续体机器人轨迹规划
10
作者 刘宜成 杨迦凌 +1 位作者 梁斌 陈章 《电子测量技术》 北大核心 2024年第5期61-69,共9页
针对多段连续体机器人的轨迹规划问题,提出了一种基于深度确定性策略梯度强化学习的轨迹规划算法。首先,基于分段常曲率假设方法,建立连续体机器人的关节角速度和末端位姿的正向运动学模型。然后,采用强化学习算法,将机械臂的当前位姿... 针对多段连续体机器人的轨迹规划问题,提出了一种基于深度确定性策略梯度强化学习的轨迹规划算法。首先,基于分段常曲率假设方法,建立连续体机器人的关节角速度和末端位姿的正向运动学模型。然后,采用强化学习算法,将机械臂的当前位姿和目标位姿等信息作为状态输入,将机械臂的关节角速度作为智能体的输出动作,设置合理的奖励函数,引导机器人从初始位姿向目标位姿移动。最后,在MATLAB中搭建仿真系统,仿真结果表明,强化学习算法成功对多段连续体机器人进行轨迹规划,控制连续体机器人的末端平稳运动到目标位姿。 展开更多
关键词 连续体机器人 轨迹规划 强化学习 位姿控制 奖励引导
下载PDF
基于变色龙哈希和可验证秘密共享的联盟链修改方法
11
作者 宋宝燕 丁俊翔 +1 位作者 王俊陆 张浩林 《计算机应用》 CSCD 北大核心 2024年第7期2087-2092,共6页
区块链具有去中心化、不可篡改、可追溯等特征。现有的联盟链系统在数据上链后会全程留痕,当出现敏感信息或恶意数据时无法处理,或处理后区块链分叉、中断。针对这些问题,提出一种基于变色龙哈希和可验证秘密共享的联盟链数据修改方法... 区块链具有去中心化、不可篡改、可追溯等特征。现有的联盟链系统在数据上链后会全程留痕,当出现敏感信息或恶意数据时无法处理,或处理后区块链分叉、中断。针对这些问题,提出一种基于变色龙哈希和可验证秘密共享的联盟链数据修改方法。首先,把变色龙哈希的陷门再分配给身份节点,从而将发起修改者与实际修改者进行隔离;其次,为保证再分配值的正确性,将不同时间周期变色龙哈希所对应的数据设为可验证数据,用验证节点上传承诺到可验证数据,并用提案节点通过承诺验证秘密共享值;最后,为防止节点作恶,提出基于奖励金机制的数据纠正方法提高节点纠正作恶的积极性,降低作恶的可能。在中山大学区块链与智能金融研究中心InPlusLab开发的DApps数据集上进行实验的结果表明:当恶意节点数30个时,所提方法相较于用传统变色龙哈希修改联盟链数据的方法在处理恶意节点的效率方面提高了44.1%;当恶意数据量达到30条时,在处理恶意数据的时间上缩短了53.7%。 展开更多
关键词 可修改联盟链 变色龙哈希 秘密共享 可验证数据 奖励金机制
下载PDF
企业领导权变奖励影响员工职业承诺机理探讨
12
作者 宋成一 赵永乐 《中央财经大学学报》 北大核心 2024年第3期107-117,共11页
企业领导权变奖励影响员工职业承诺有赖于由员工心理契约违背中介完成并受制于员工权力距离的调节。笔者基于组织公平理论,构建了企业领导权变奖励影响员工职业承诺机制的一个有调节的中介模型,在此基础上以590份来自对中国内地企业普... 企业领导权变奖励影响员工职业承诺有赖于由员工心理契约违背中介完成并受制于员工权力距离的调节。笔者基于组织公平理论,构建了企业领导权变奖励影响员工职业承诺机制的一个有调节的中介模型,在此基础上以590份来自对中国内地企业普通员工问卷调查的有效数据,运用层级回归和bootstrap方法实证检验了企业领导权变奖励与员工职业承诺之间的关联。检验结果证实:企业领导权变奖励显著正向影响员工职业承诺;员工心理契约违背部分中介作用于企业领导权变奖励对员工职业承诺的影响;员工权力距离既与企业领导权变奖励影响员工职业承诺的关系负相关,也反向调节此间员工心理契约违背的中介作用。本研究通过尝试性地将员工心理契约违背和员工权力距离等相关变量引入对企业领导权变奖励影响员工职业承诺关系模型的实证检验,揭示了企业领导权变奖励对员工职业承诺的相关影响机理,从领导奖励层次与员工职业承诺的关联上扩展了组织公平理论的应用边界,丰富了有关公司内部治理方面的现有文献,研究结论有助于为企业经营管理中制定科学合理的奖惩条例和处理好企业领导与员工的干群关系提供理论依据。 展开更多
关键词 职业承诺 领导权变奖励 心理契约违背 权力距离
下载PDF
面向稀疏奖励的机器人操作技能学习
13
作者 吴培良 张彦 +2 位作者 毛秉毅 陈雯柏 高国伟 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第1期99-108,共10页
基于深度强化学习的机器人操作技能学习成为研究热点,但由于任务的稀疏奖励性质,学习效率较低.本文提出了基于元学习的双经验池自适应软更新事后经验回放方法,并将其应用于稀疏奖励的机器人操作技能学习问题求解.首先,在软更新事后经验... 基于深度强化学习的机器人操作技能学习成为研究热点,但由于任务的稀疏奖励性质,学习效率较低.本文提出了基于元学习的双经验池自适应软更新事后经验回放方法,并将其应用于稀疏奖励的机器人操作技能学习问题求解.首先,在软更新事后经验回放算法的基础上推导出可以提高算法效率的精简值函数,并加入温度自适应调整策略,动态调整温度参数以适应不同的任务环境;其次,结合元学习思想对经验回放进行分割,训练时动态调整选取真实采样数据和构建虚拟数的比例,提出了DAS-HER方法;然后,将DAS-HER算法应用到机器人操作技能学习中,构建了一个稀疏奖励环境下具有通用性的机器人操作技能学习框架;最后,在Mujoco下的Fetch和Hand环境中,进行了8项任务的对比实验,实验结果表明,无论是在训练效率还是在成功率方面,本文算法表现均优于其他算法. 展开更多
关键词 机器人操作技能学习 强化学习 稀疏奖励 最大熵方法 自适应温度参数 元学习
下载PDF
考虑含HRD的光热电站和综合需求响应的综合能源系统低碳经济调度 被引量:1
14
作者 王义军 孙健淳 +2 位作者 高敏 秦烨嵘 张希栋 《东北电力大学学报》 2024年第1期72-82,共11页
在“双碳”的背景下,为进一步提升综合能源系统(Integrated Energy System, IES)的经济性和环境效益,文中提出一种在奖惩阶梯型碳交易机制下考虑含热回收装置(Heat Recycling Device, HRD)的光热电站和综合需求响应的IES系统低碳经济调... 在“双碳”的背景下,为进一步提升综合能源系统(Integrated Energy System, IES)的经济性和环境效益,文中提出一种在奖惩阶梯型碳交易机制下考虑含热回收装置(Heat Recycling Device, HRD)的光热电站和综合需求响应的IES系统低碳经济调度方法。首先,在源侧构建含热回收装置的光热电站与加装碳捕集的热电联产机组联合运行的IES架构,并分析电转气两阶段的运行原理,建立计及余热回收的电转气设备模型。其次,考虑到负荷侧电、热、气三种负荷的柔性特性,在负荷侧建立电热气综合需求响应模型。最后,引入奖惩阶梯型碳交易机制,进一步减小系统碳排放量,构建调度周期内以含购能成本、运维成本、碳交易成本等系统总运行成本最小为目标的综合能源系统低碳优化调度模型。通过算例分析结果表明,所提方法不仅能提高机组的运行潜力,而且有效降低了系统总运行成本与碳排放量。 展开更多
关键词 光热电站 热回收装置 碳捕集技术 奖惩阶梯碳交易 综合需求响应
下载PDF
实时功能磁共振成像神经反馈在肥胖症中的应用进展
15
作者 李鑫 孙永兵 +12 位作者 周菁 和俊雅 乔琦 林新贝 邹智 李中林 武肖玲 张弓 吕雪 李昊 胡扬喜 李凤丽 李永丽 《磁共振成像》 CAS CSCD 北大核心 2024年第5期175-180,共6页
肥胖症及减重后不能维持健康体质量的核心因素多为食物成瘾,食物成瘾在神经影像学中表现为奖赏网络与认知控制网络间神经环路的失衡。实时功能磁共振成像神经反馈(real time functional magnetic resonance imaging neurofeedback,rtfMR... 肥胖症及减重后不能维持健康体质量的核心因素多为食物成瘾,食物成瘾在神经影像学中表现为奖赏网络与认知控制网络间神经环路的失衡。实时功能磁共振成像神经反馈(real time functional magnetic resonance imaging neurofeedback,rtfMRI-NF)作为一种新型生物反馈技术,已被应用于其他物质成瘾领域的临床研究和治疗中。在食物成瘾肥胖症中,rtfMRI-NF同样具有重塑异常脑功能、改善摄食行为并达到减重效果的潜力。本综述总结了肥胖患者食物成瘾的功能磁共振脑成像模型,探讨应用rtfMRI-NF作为其潜在治疗工具的可行神经靶点,并回顾了rtfMRI-NF在肥胖应用中的最新研究进展,为未来rtfMRI-NF在肥胖中的治疗策略和临床指导提供参考。 展开更多
关键词 肥胖 食物成瘾 实时功能磁共振成像神经反馈 磁共振成像 奖赏功能
下载PDF
竞争情境下奖赏动机对自我欺骗的影响:眼动证据
16
作者 范伟 杨颖 +1 位作者 董艳秋 张文洁 《心理科学》 CSCD 北大核心 2024年第2期411-423,共13页
为了探讨奖赏动机和竞争情境对自我欺骗的影响,实验1采用前瞻范式探索自我欺骗效应及奖赏动机对自我欺骗的影响,实验2探讨奖赏动机和竞争情境对自我欺骗的影响,实验3采用眼动技术探讨两者对自我欺骗的视觉认知机制。结果发现:(1)相比较... 为了探讨奖赏动机和竞争情境对自我欺骗的影响,实验1采用前瞻范式探索自我欺骗效应及奖赏动机对自我欺骗的影响,实验2探讨奖赏动机和竞争情境对自我欺骗的影响,实验3采用眼动技术探讨两者对自我欺骗的视觉认知机制。结果发现:(1)相比较无答案组,有答案组在金钱奖赏下的预测成绩更加接近真实水平;(2)竞争和奖赏产生的合力增加了自我欺骗;(3)相比较仅被启动奖赏动机或竞争情境的被试,奖赏-竞争组在True和False兴趣区的平均注视时间更短,自我欺骗行为增加。这些结果表明金钱激励诱发的奖赏动机减少自我欺骗程度,但竞争情境能促进自我欺骗发生。 展开更多
关键词 自我欺骗 奖赏动机 竞争情境 前瞻范式 眼动
下载PDF
一种改进蚁群算法的路径规划研究
17
作者 刘海鹏 念紫帅 《小型微型计算机系统》 CSCD 北大核心 2024年第4期853-858,共6页
针对机器人在复杂环境中的路径规划问题,本文提出了一种改进蚁群算法的路径规划研究方法.首先,在启发函数中引入一种自适应调整的放大因子,以提高相邻节点的启发信息差异,使蚂蚁朝着最优路径的方向搜索;其次,采用一种奖惩机制对路径上... 针对机器人在复杂环境中的路径规划问题,本文提出了一种改进蚁群算法的路径规划研究方法.首先,在启发函数中引入一种自适应调整的放大因子,以提高相邻节点的启发信息差异,使蚂蚁朝着最优路径的方向搜索;其次,采用一种奖惩机制对路径上的信息素进行更新,使算法的收敛速度得到有效的提高;然后,通过对信息素挥发因子进行动态调整,提高蚁群的搜索速度,使算法快速收敛.最后,在最优路径的基础上,采用拐点优化算法与分段B样条曲线相结合的方法来进行路径优化,有效的改善了路径的平滑性.仿真结果表明,所提的研究方法具有更好的收敛性和搜索能力,更符合机器人运动的实际要求. 展开更多
关键词 启发函数 奖惩机制 信息素挥发因子 路径优化
下载PDF
基于Gabor滤波器的事件流特征增强及事件相机对象识别
18
作者 周茜 郑鹏 《仪表技术与传感器》 CSCD 北大核心 2024年第4期76-80,共5页
基于Gabor滤波器的事件驱动卷积是仿生分层脉冲神经网络中常用的事件相机对象特征提取方法。为提高该类网络事件相机对象特征提取能力,提出基于Gabor滤波器的事件流特征增强算法,并应用于奖励调节STDP规则的脉冲神经网络事件相机对象识... 基于Gabor滤波器的事件驱动卷积是仿生分层脉冲神经网络中常用的事件相机对象特征提取方法。为提高该类网络事件相机对象特征提取能力,提出基于Gabor滤波器的事件流特征增强算法,并应用于奖励调节STDP规则的脉冲神经网络事件相机对象识别系统。算法首先将事件流按时间窗口划分为事件流片段,然后提取各时间窗口内的事件流片段特征,同时增强事件数量较多的时间窗口内特征。并基于奖励调节STDP规则帮助网络学习诊断性特征。采用增强算法的网络在MNIST-DVS数据集上的分类精度优于未采用增强算法的网络,并且对于较短的事件流输入也有很好的分类能力。该事件流特征增强算法能够提高基于Gabor滤波器的事件驱动卷积对事件相机对象的特征提取能力。 展开更多
关键词 事件相机 对象识别 特征增强 GABOR滤波器 奖励调节STDP
下载PDF
基于深度强化学习的SCR脱硝系统协同控制策略研究
19
作者 赵征 刘子涵 《动力工程学报》 CAS CSCD 北大核心 2024年第5期802-809,共8页
针对选择性催化还原(SCR)脱硝系统大惯性、多扰动等特点,提出了一种基于多维状态信息和分段奖励函数优化的深度确定性策略梯度(DDPG)协同比例积分微分(PID)控制器的控制策略。针对SCR脱硝系统中存在部分可观测马尔可夫决策过程(POMDP),... 针对选择性催化还原(SCR)脱硝系统大惯性、多扰动等特点,提出了一种基于多维状态信息和分段奖励函数优化的深度确定性策略梯度(DDPG)协同比例积分微分(PID)控制器的控制策略。针对SCR脱硝系统中存在部分可观测马尔可夫决策过程(POMDP),导致DDPG算法策略学习效率较低的问题,首先设计SCR脱硝系统的多维状态信息;其次,设计SCR脱硝系统的分段奖励函数;最后,设计DDPG-PID协同控制策略,以实现SCR脱硝系统的控制。结果表明:所设计的DDPG-PID协同控制策略提高了DDPG算法的策略学习效率,改善了PID的控制效果,同时具有较强的设定值跟踪能力、抗干扰能力和鲁棒性。 展开更多
关键词 DDPG 强化学习 SCR脱硝系统 协同控制 多维状态 分段奖励函数
下载PDF
基于国家科研奖励新政下用户需求的图书馆查证服务创新实践
20
作者 鲁玥 苗艳荣 郝丹 《山东图书馆学刊》 2024年第1期40-45,共6页
国家科研奖励新政提出规范使用SCI论文相关指标,由此将对图书馆查证服务产生重大影响。当前,在指标“破”而尚未“立”的阶段,探索查证服务的发展方向,提前规划服务,对新政的效用具有良好的支撑作用。将国家图书馆查证服务现状和用户需... 国家科研奖励新政提出规范使用SCI论文相关指标,由此将对图书馆查证服务产生重大影响。当前,在指标“破”而尚未“立”的阶段,探索查证服务的发展方向,提前规划服务,对新政的效用具有良好的支撑作用。将国家图书馆查证服务现状和用户需求变化特征与新政关键内容对应分析,探索适应用户需求变化的评价内容和服务方式,建立以智慧服务为支撑的多维服务体系。新政下图书馆查证服务创新实践具有良好的效果。 展开更多
关键词 图书馆服务 论文查证 用户需求 科研奖励政策 智慧图书馆
下载PDF
上一页 1 2 172 下一页 到第
使用帮助 返回顶部