期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
启发式强化学习机制的异构双种群蚁群算法 被引量:6
1
作者 刘中强 游晓明 刘升 《计算机科学与探索》 CSCD 北大核心 2020年第3期460-469,共10页
针对传统蚁群算法在解决TSP问题时易陷入局部最优、收敛速度较慢的问题,提出了一种基于启发式强化学习的异构双种群蚁群算法。蚁群分为主种群和子种群,主种群负责解的构建和信息素的更新,子种群则是在构建解的同时对主种群的解集进行替... 针对传统蚁群算法在解决TSP问题时易陷入局部最优、收敛速度较慢的问题,提出了一种基于启发式强化学习的异构双种群蚁群算法。蚁群分为主种群和子种群,主种群负责解的构建和信息素的更新,子种群则是在构建解的同时对主种群的解集进行替换。算法初期利用启发式算子自适应地控制两个种群的交流频率,通过偏离度系数控制解的交换方式。前期让子种群的最优解去替换主种群的随机解,增加解的多样性,同时引入强化学习机制对交流后主种群最优路径上的信息素进行自适应的奖赏,以增大最优公共路径以后被选择的概率。后期则控制子种群的最优解去替换主种群的最差解,强化最优路径上信息素的量,并对主种群最优路径上的信息素进行奖赏,进一步提高算法的收敛速度。实验仿真表明,算法能够有效地跳出局部最优,并且解的质量在大规模测试集上有明显的改善。 展开更多
关键词 商旅问题(TSP) 异构双种群 偏离度系数 启发式强化学习
下载PDF
基于启发式强化学习的多智能体覆盖问题研究
2
作者 贺荟霖 《现代计算机(中旬刊)》 2018年第5期8-11,共4页
针对多智能体覆盖问题存在的计算量大、收敛速度慢等问题,提出一种基于启发式强化学习的多智能体覆盖算法。利用智能体收集到的环境信息作为先验知识,对强化学习中智能体的行动选择进行引导。仿真实验表明,该算法在不影响覆盖效果的情... 针对多智能体覆盖问题存在的计算量大、收敛速度慢等问题,提出一种基于启发式强化学习的多智能体覆盖算法。利用智能体收集到的环境信息作为先验知识,对强化学习中智能体的行动选择进行引导。仿真实验表明,该算法在不影响覆盖效果的情况下有效提高覆盖问题的学习收敛速度。 展开更多
关键词 多智能体 启发式强化学习 覆盖问题
下载PDF
基于启发式强化学习的空战机动智能决策 被引量:51
3
作者 左家亮 杨任农 +2 位作者 张滢 李中林 邬蒙 《航空学报》 EI CAS CSCD 北大核心 2017年第10期212-225,共14页
空战机动智能决策一直是研究热点,现有的空战机动决策主要采用优化理论和传统的人工智能算法,是在相对固定的环境下进行决策序列计算研究。但实际空战是动态变化的,且有很多不确定性因素。采用传统的理论方法进行求解,很难获取与实际情... 空战机动智能决策一直是研究热点,现有的空战机动决策主要采用优化理论和传统的人工智能算法,是在相对固定的环境下进行决策序列计算研究。但实际空战是动态变化的,且有很多不确定性因素。采用传统的理论方法进行求解,很难获取与实际情况相符的决策序列。提出了基于启发式强化学习的空战机动智能决策方法,在与外界环境动态交互的过程中,采用"试错"的方式计算相对较优的空战机动决策序列,并采用神经网络方法对强化学习的过程进行学习,积累知识,启发后续的搜索过程,很大程度上提高了搜索效率,实现空战决策过程中决策序列的实时动态迭代计算。最后仿真实验结果表明本文提出的算法所计算的决策序列与实际情况相符。 展开更多
关键词 空战机动 智能决策 启发式强化学习 神经网络 决策序列
原文传递
移动机器人自主寻路避障启发式动态规划算法 被引量:7
4
作者 方啸 郑德忠 《农业机械学报》 EI CAS CSCD 北大核心 2014年第7期73-78,共6页
用启发式动态规划算法解决移动机器人自主寻路、避障问题。提出了传感器检测环境状态的方法,以及对传感器检测信息进行归一化处理的方案。对输入、输出量以及学习系统的强化信号进行定义,设计了机器人自主学习寻路、避障的控制策略。定... 用启发式动态规划算法解决移动机器人自主寻路、避障问题。提出了传感器检测环境状态的方法,以及对传感器检测信息进行归一化处理的方案。对输入、输出量以及学习系统的强化信号进行定义,设计了机器人自主学习寻路、避障的控制策略。定义了连续型强化信号,使机器人通过学习,对优先寻路还是优先避障做出决策判断。为验证启发式动态规划算法在移动机器人寻路、避障问题上的学习能力,设计了3种不同的寻路、避障仿真实验:同目标、不同起始点,同起始点、不同目标,和移动目标仿真实验。仿真结果表明,对于不同的寻路、避障要求,基于启发式动态规划算法的移动机器人具有良好的学习及适应能力。 展开更多
关键词 移动机器人 寻路避障启发动态规划强化学习
下载PDF
系列决策任务中的策略转换:来自爱荷华赌博任务的证据
5
作者 胡馨允 沈悦 戴俊毅 《心理学报》 CSCD 北大核心 2023年第11期1793-1805,共13页
已有大量研究使用系列决策任务探讨了各类决策的决策策略。通过假定个体采用单一策略完成所有任务试次,并比较对应的计算认知模型拟合实证数据的能力,这些研究发现各种决策任务都涉及多种可能的决策策略。但是,此类研究的一个共同缺陷... 已有大量研究使用系列决策任务探讨了各类决策的决策策略。通过假定个体采用单一策略完成所有任务试次,并比较对应的计算认知模型拟合实证数据的能力,这些研究发现各种决策任务都涉及多种可能的决策策略。但是,此类研究的一个共同缺陷在于忽视了个体在任务过程中转换决策策略的可能性。通过开发允许在强化学习策略和启发式策略间转换的针对爱荷华赌博任务的计算认知模型,并将此类模型同单一策略模型进行对比,研究1提供了个体在该系列决策任务中会改变决策策略的明确证据。研究2则发现,随着试次数的增加,发生策略转换的可能性也会上升。这些结果表明,为了正确认识各种决策任务的决策策略,需要充分考虑在系列决策任务过程中发生策略转换的可能性,尤其是试次较多的系列任务。未来研究可以探讨策略转换的多种可能形式,以及导致策略转换的任务和个体因素,以便进一步深化对于系列决策任务的心理机制的认识。 展开更多
关键词 系列决策任务 爱荷华赌博任务 策略转换 计算认知建模 强化学习启发策略
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部