期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于探索-利用权衡优化的Q学习路径规划 被引量:3
1
作者 彭云建 梁进 《计算机技术与发展》 2022年第4期1-7,共7页
针对移动智能体在未知环境下的路径规划问题,提出了基于探索-利用权衡优化的Q学习路径规划。对强化学习方法中固有的探索-利用权衡问题,提出了探索贪婪系数ε值随学习幕数平滑衰减的εDBE(ε-decreasing based episodes)方法和根据Q表... 针对移动智能体在未知环境下的路径规划问题,提出了基于探索-利用权衡优化的Q学习路径规划。对强化学习方法中固有的探索-利用权衡问题,提出了探索贪婪系数ε值随学习幕数平滑衰减的εDBE(ε-decreasing based episodes)方法和根据Q表中的状态动作值判断到达状态的陌生/熟悉程度、做出探索或利用选择的AεBS(adaptive ε based state)方法,这一改进确定了触发探索和触发利用的情况,避免探索过度和利用过度,能加快找到最优路径。在未知环境下对基于探索-利用权衡优化的Q学习路径规划与经典的Q学习路径规划进行仿真实验比较,结果表明该方法的智能体在未知障碍环境情况下具有快速学习适应的特性,最优路径步数收敛速度更快,能更高效实现路径规划,验证了该方法的可行性和高效性。 展开更多
关键词 强化学习 Q学习 探索-利用 路径规划 未知环境
下载PDF
基于探索-利用模型优化AFL变异的方法
2
作者 徐鹏 刘嘉勇 林波 《信息网络安全》 CSCD 北大核心 2019年第6期61-67,共7页
模糊测试是通过不断生成不同的输入来测试程序从而发现并识别安全漏洞,已经广泛应用于漏洞挖掘中。目前灰盒模糊测试是最流行的模糊测试策略,它将轻量级代码插桩与数据反馈驱动相结合,以生成新的程序输入。AFL(American Fuzzy Lop)是一... 模糊测试是通过不断生成不同的输入来测试程序从而发现并识别安全漏洞,已经广泛应用于漏洞挖掘中。目前灰盒模糊测试是最流行的模糊测试策略,它将轻量级代码插桩与数据反馈驱动相结合,以生成新的程序输入。AFL(American Fuzzy Lop)是一种卓越的灰盒模糊测试工具,其以高效的forkserver执行、可靠的遗传算法和多种的变异策略著称,但其变异策略主要采样随机变异,存在较大的盲目性。文章提出了一种运用强化学习的方法来优化变异的策略,以多摇臂赌博机问题为模型,记录不同变异方式产生的输入在目标程序中的执行效果,利用探索-利用算法自适应地学习变异操作结果的概率分布情况,智能地进行变异操作策略调整,提升AFL的模糊测试性能。文章选择汤普森采样为优化算法设计实现了AFL-EE模糊测试工具,并对5类常用的文件类程序进行了验证测试,实验表明该方法能自动调整变异操作策略,有效地产生覆盖率高的测试输入,方法可行、额外资源消耗较小,总体上优于AFL工具。 展开更多
关键词 AFL 多摇臂赌博机 探索-利用 汤普森采样
下载PDF
探索-利用困境再审视——基于主动推理的视角
3
作者 王姝彦 柴新 《自然辩证法通讯》 CSSCI 北大核心 2024年第7期24-31,共8页
探索-利用困境是当代行为心理学和人工智能等研究领域中的难点问题之一。近些年来,随着神经科学、认知心理学、智能科学、管理科学等学科的不断发展以及脑成像技术的日益进步,有关探索-利用困境的探问也得到了多向路的推展和深化。其中... 探索-利用困境是当代行为心理学和人工智能等研究领域中的难点问题之一。近些年来,随着神经科学、认知心理学、智能科学、管理科学等学科的不断发展以及脑成像技术的日益进步,有关探索-利用困境的探问也得到了多向路的推展和深化。其中,神经科学家卡尔·弗里斯顿基于变分自由能原理提出的主动推理,从计算和神经层次上为探索-利用困境的重解提供了一种整合性的一元化分析立场。在主动推理框架下,可以将探索-利用困境的序贯决策问题转化为单一目标函数的优化,即预期自由能最小化。由此,探索与利用之间的平衡由预期自由能最小化所驱动,认知主体可依据外在环境的改变局部切换认知价值和实用价值从而自适应地平衡探索与利用行为。 展开更多
关键词 探索-利用困境 主动推理 预期自由能 整合
原文传递
基于轨迹感知的稀疏奖励探索方法
4
作者 张启阳 陈希亮 张巧 《计算机科学》 CSCD 北大核心 2023年第1期262-269,共8页
现有的深度强化学习算法在处理稀疏奖励问题时常常会导致探索困难的问题,其往往只依赖于预先设计好的环境奖励,从而难以取得较好的效果。在这种场景中,需要更加细致地设计奖励,对智能体的探索状态做出更精准的判断并反馈。异步优势表演... 现有的深度强化学习算法在处理稀疏奖励问题时常常会导致探索困难的问题,其往往只依赖于预先设计好的环境奖励,从而难以取得较好的效果。在这种场景中,需要更加细致地设计奖励,对智能体的探索状态做出更精准的判断并反馈。异步优势表演者评论家算法(Asynchronous Advantage Actor-Critic,A3C)通过并行训练来提升训练效率,提升了原有算法的训练速度,但是对于奖励稀疏的环境,其不能很好地解决探索困难的问题。针对A3C算法在稀疏奖励环境中探索效果不佳的问题,提出了一种基于探索轨迹自动感知的A3C算法(Exploration Trajectory Perception A3C,ETP-A3C)。该算法在训练中探索困难时能够感知智能体的探索轨迹,进一步判断并决策智能体的探索方向,帮助智能体尽快走出探索困境。为了验证ETP-A3C算法的有效性,将其与基线算法在超级马里奥兄弟中的5个不同环境中进行了对比实验,结果表明,所提算法在学习速度和模型稳定性上均有较明显的提升。 展开更多
关键词 人工智能 知识迁移 深度强化学习 A3C算法 探索-利用问题
下载PDF
合法利用与有效探索:机构改革中的地方新部门如何实现真正整合?——基于F市自然资源和规划局的案例研究 被引量:4
5
作者 任敏 李玄 《北京行政学院学报》 CSSCI 北大核心 2019年第5期35-43,共9页
通过构建基于“合法性-有效性”的“利用-探索”框架,以观察本轮机构改革中的地方新部门是如何实现组织层面、职能层面和人员层面的真正整合的。研究发现,面临组织整合、职能整合、人员整合的新部门,会主动对所拥有的资源进行基于合法... 通过构建基于“合法性-有效性”的“利用-探索”框架,以观察本轮机构改革中的地方新部门是如何实现组织层面、职能层面和人员层面的真正整合的。研究发现,面临组织整合、职能整合、人员整合的新部门,会主动对所拥有的资源进行基于合法性基础上的利用,并不断以有效性为主旨进行探索以开辟新环境下工作领域的新天地。在潜在的新部门形成时期,主要体现为主动地依托已有的、在上一轮机构改革后形成的“三定方案”以及其他法律法规对所掌握的职能和资源进行利用。在前置新部门形成阶段,为实现空间整合与未来路径的打造,在物理空间和人员配置上向着实体化迈进。协调与会商作为一种迅速实现人员、职能和组织领导的“真正整合”的具体方式,在不断探索的过程中得以发展。最后在新部门成立时期的新阶段,则主要在组织领导的顶层融合和中层管理者与业务干部的“专业聚合”两个层面,通过合法利用和有效探索,形成“人与事合、心与力合”的局面,从而实现真正整合。 展开更多
关键词 机构改革 利用-探索 合法性-有效性
下载PDF
求解动态旅行商问题的蚁群优化算法新策略
6
作者 刘孟莹 秦进 陈双 《计算机仿真》 2024年第8期349-355,368,共8页
动态旅行商问题是标准旅行商问题的一个扩展,由于其现实应用广泛,吸引了大量研究者的兴趣。蚁群优化算法可以转化历史环境信息,天然具有适应动态改变的能力,可以解决动态旅行商问题。使用蚁群优化算法解决优化问题时,算法探索能力和利... 动态旅行商问题是标准旅行商问题的一个扩展,由于其现实应用广泛,吸引了大量研究者的兴趣。蚁群优化算法可以转化历史环境信息,天然具有适应动态改变的能力,可以解决动态旅行商问题。使用蚁群优化算法解决优化问题时,算法探索能力和利用能力的权衡是一个关键问题。传统的思路是在搜索前期侧重探索能力,使蚁群充分获取搜索空间的信息,随着搜索过程的进行逐渐增强利用能力,使蚁群逐渐收敛。然而,以上思路不利于在动态场景中快速获得质量较高的解。针对动态旅行商问题,提出了一种新的探索-利用权衡策略,在环境变化后,首先使用模拟退火算法增强利用能力以快速获得质量较高的解,在解质量难以提高时再使用自适应性轮盘赌选择方法帮助算法跳出局部极值。在权重变化的动态旅行商问题上的实验证明,所提新策略优于其它蚁群优化算法及变体。 展开更多
关键词 动态旅行商问题 蚁群优化 探索-利用权衡策略 模拟退火算法 轮盘赌选择方法
下载PDF
带有特征感知的D2D内容缓存策略 被引量:2
7
作者 杨静 李金科 《电子与信息学报》 EI CSCD 北大核心 2020年第9期2201-2207,共7页
设备到设备通信(D2D)可以有效地卸载基站流量,在D2D网络中不仅需要共享大众化内容还需要个性化内容缓存。该文对缓存内容选择问题进行了深入研究,提出一种结合特征感知的内容社交价值预测(CSVP)方法。价值预测不仅可以降低时延也可以减... 设备到设备通信(D2D)可以有效地卸载基站流量,在D2D网络中不仅需要共享大众化内容还需要个性化内容缓存。该文对缓存内容选择问题进行了深入研究,提出一种结合特征感知的内容社交价值预测(CSVP)方法。价值预测不仅可以降低时延也可以减少缓存替换次数降低缓存成本。首先结合用户特征和内容特征计算内容当前价值,然后通过用户社交关系计算未来价值。微基站根据内容的价值为用户提供个性化内容缓存服务,宏基站则在每个微基站的缓存内容中选择价值较大部分的内容。仿真结果表明,该文提出的缓存策略可以有效缓解基站流量,与其他方法相比降低时延约20%~40%。 展开更多
关键词 边缘网络 D2D通信 内容缓存 探索-利用 价值预测
下载PDF
深度强化学习理论及其应用综述 被引量:68
8
作者 万里鹏 兰旭光 +1 位作者 张翰博 郑南宁 《模式识别与人工智能》 EI CSCD 北大核心 2019年第1期67-81,共15页
一方面,随着深度强化学习理论和应用研究不断深入,其在游戏、机器人控制、对话系统、自动驾驶等领域发挥重要作用;另一方面,深度强化学习受到探索-利用困境、奖励稀疏、样本采集困难、稳定性较差等问题的限制,存在很多不足.面对这些问题... 一方面,随着深度强化学习理论和应用研究不断深入,其在游戏、机器人控制、对话系统、自动驾驶等领域发挥重要作用;另一方面,深度强化学习受到探索-利用困境、奖励稀疏、样本采集困难、稳定性较差等问题的限制,存在很多不足.面对这些问题,研究者们提出各种各样的解决方法,新的理论进一步推动深度强化学习的发展,在弥补缺陷的同时扩展强化学习的研究领域,延伸出模仿学习、分层强化学习、元学习等新的研究方向.文中从深度强化学习的理论、困难、应用及发展前景等方面对其进行探讨. 展开更多
关键词 深度强化学习 马尔科夫决策过程 探索-利用困境 稀疏奖励
下载PDF
面向综合能源系统的多智能体协同AGC策略 被引量:9
9
作者 席磊 王昱昊 +3 位作者 陈宋宋 陈珂 孙梦梦 周礼鹏 《电机与控制学报》 EI CSCD 北大核心 2022年第4期77-88,共12页
针对大规模可再生能源接入电网所带来的强随机扰动问题,从自动发电控制的角度提出感知历史经验的多智能体深度强化学习算法,即具有置信区间上界的深度强化学习(DQN-UCB)。所提方法通过置信区间上界(UCB)策略来解决传统启发式方法在平衡... 针对大规模可再生能源接入电网所带来的强随机扰动问题,从自动发电控制的角度提出感知历史经验的多智能体深度强化学习算法,即具有置信区间上界的深度强化学习(DQN-UCB)。所提方法通过置信区间上界(UCB)策略来解决传统启发式方法在平衡“探索-利用”过程中,面对随机低质量样本带来的当前和目标Q值误差较大的问题;同时,基于置信区间上界策略的优先级采样机制替代了传统深度Q学习(DQN)的均匀随机采样机制,以提高高质量样本被选取的概率,进而促使智能体快速收敛到最优策略。通过对IEEE标准两区域负荷频率控制模型和融入大规模可再生能源的分布式多区域综合能源系统模型进行仿真,结果表明,与其他智能方法相比,所提方法具有更优的控制性能、更快的收敛速度,能够获取分布式多区域综合能源系统的最优协同。 展开更多
关键词 综合能源系统 自动发电控制 多智能体 深度强化学习 置信区间上界 探索-利用 采样机制
下载PDF
一种新的蚁群优化算法信息素更新策略及其性能分析 被引量:2
10
作者 颜晨阳 张友鹏 熊伟清 《计算机应用研究》 CSCD 北大核心 2007年第7期86-88,91,共4页
针对蚁群优化算法的关键步骤——信息素轨迹更新过程进行了深入分析。通过理论上的证明和实验验证,提出了信息素轨迹更新中存在着一个利用—探索困境;在此基础上针对这个现象提出了一种基于Metrop-olis接受准则的信息素更新策略,并通过... 针对蚁群优化算法的关键步骤——信息素轨迹更新过程进行了深入分析。通过理论上的证明和实验验证,提出了信息素轨迹更新中存在着一个利用—探索困境;在此基础上针对这个现象提出了一种基于Metrop-olis接受准则的信息素更新策略,并通过在不同规模的TSP上的实验,证明了这种新策略的有效性。 展开更多
关键词 蚁群优化算法 信息素更新策略 利用-探索困境 Metropolis接受准则
下载PDF
The RHSA Strategy for the Allocation of Outbound Containers Based on the Hybrid Genetic Algorithm 被引量:1
11
作者 Meilong Le Hang Yu 《Journal of Marine Science and Application》 2013年第3期344-350,共7页
Secure storage yard is one of the optimal core goals of container transportation;thus,making the necessary storage arrangements has become the most crucial part of the container terminal management systems(CTMS).Thi... Secure storage yard is one of the optimal core goals of container transportation;thus,making the necessary storage arrangements has become the most crucial part of the container terminal management systems(CTMS).This paper investigates a random hybrid stacking algorithm(RHSA) for outbound containers that randomly enter the yard.In the first stage of RHSA,the distribution among blocks was analyzed with respect to the utilization ratio.In the second stage,the optimization of bay configuration was carried out by using the hybrid genetic algorithm.Moreover,an experiment was performed to test the RHSA.The results show that the explored algorithm is useful to increase the efficiency. 展开更多
关键词 random hybrid stacking algorithm genetic algorithm container yard operation container stowage plan handling cost utilization ratio
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部