-
题名PAC最优的RMAX-KNN探索算法
被引量:2
- 1
-
-
作者
李超
门昌骞
王文剑
-
机构
山西大学计算机与信息技术学院
计算智能与中文信息处理教育部重点实验室(山西大学)
-
出处
《计算机科学与探索》
CSCD
北大核心
2020年第3期513-526,共14页
-
基金
国家自然科学基金 Nos.61673249,U1805263
山西省国际科技合作重点研发计划项目 No.201903D421050~~
-
文摘
探索与利用的均衡是强化学习研究的重点之一。探索帮助智能体进一步了解环境来做出更优决策;而利用帮助智能体根据其自身当前对于环境的认知来做出当前最优决策。目前大多数探索算法只与值函数相关联,不考虑当前智能体对于环境的认知程度,探索效率极低。针对此问题,提出了一种基于状态空间自适应离散化的RMAX-KNN强化学习算法,算法根据当前智能体对于环境状态空间的离散化程度改写值函数形式,然后基于此值函数对环境进行合理的探索,逐步实现对于环境状态空间的自适应离散化划分。RMAXKNN算法通过将探索与环境状态空间离散化相结合,逐渐加深智能体对于环境的认知程度,进而提高探索效率,同时在理论上证明该算法是一种概率近似正确(PAC)最优探索算法。在Benchmark环境上的仿真实验结果表明,RMAX-KNN算法可以在探索环境的同时实现对于环境状态空间的自适应离散化,并学习到最优策略。
-
关键词
探索与利用的均衡
值函数
状态空间自适应离散化
概率近似正确(PAC)最优探索算法
-
Keywords
balance of exploration and exploitation
value function
adaptive discretization of state space
probably approximately correct(PAC)optimal exploration algorithm
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名无人机群目标搜索的主动感知方法
被引量:7
- 2
-
-
作者
楼传炜
葛泉波
刘华平
袁小虎
-
机构
上海海事大学物流工程学院
同济大学电子与信息工程学院
清华大学计算机科学与技术系
清华大学自动化系
-
出处
《智能系统学报》
CSCD
北大核心
2021年第3期575-583,共9页
-
基金
国家自然科学基金项目(61773147,U1509203)
浙江省自然科学基金项目(LR17F030005).
-
文摘
为提升蚁群搜索算法在规模大的栅格环境中对未知目标的搜索效率,提出基于蚁群算法的主动感知搜索框架。该框架通过应用历史环境信息来选择无人机的运动方式,并由无人机运动方式和感知域信息得到新的环境信息,从而实现无人机群的智能自动化搜索功能。新方法计算出一种具有探索偏好的未搜索概率,可使无人机搜索时偏向未搜索程度高的栅格,以此来提高算法的搜索能力。同时,以未搜索概率和信息素作为运动方式决策的依据来建立一种新的运动方式选择机制。该机制不仅考虑了目标可能出现的区域,又可兼顾未知区域,从而可实现无目标先验信息条件下的搜索过程。仿真结果表明,此算法在规模大的栅格环境中,与现有算法相比具有更高的搜索效率,并且得到的目标分布信息将更加全面。
-
关键词
无人机
蚁群算法
无目标先验条件
具有探索偏好的搜索概率
主动感知搜索框架
未知区域
运动方式选择机制
环境信息
-
Keywords
unmanned aerial vehicle
ant colony
without prior information of the target
an unsearched probability with exploration preference
active perception search framework
unknown region
motion mode selection mechanism
environmental information
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于蚁群信息素辅助的Q学习路径规划算法
被引量:6
- 3
-
-
作者
田晓航
霍鑫
周典乐
赵辉
-
机构
哈尔滨工业大学控制与仿真中心
国防科技大学前沿交叉学科学院
-
出处
《控制与决策》
EI
CSCD
北大核心
2023年第12期3345-3353,共9页
-
基金
黑龙江省自然科学基金项目(LH2021F025)
中央高校基本科研业务费专项资金项目(HIT.NSRIF202242)
+1 种基金
黑龙江省教改项目(SJGY20200185)
哈尔滨工业大学研究生教改核心项目(21HX0401)。
-
文摘
当Q学习应用于路径规划问题时,由于动作选择的随机性,以及Q表更新幅度的有限性,智能体会反复探索次优状态和路径,导致算法收敛速度减缓.针对该问题,引入蚁群算法的信息素机制,提出一种寻优范围优化方法,减少智能体的无效探索次数.此外,为提升算法初期迭代的目的性,结合当前栅格与终点位置关系的特点以及智能体动作选择的特性,设计Q表的初始化方法;为使算法在运行的前中后期有合适的探索概率,结合信息素浓度,设计动态调整探索因子的方法.最后,在不同规格不同特点的多种环境中,通过仿真实验验证所提出算法的有效性和可行性.
-
关键词
Q学习
路径规划
Q表初始化
探索概率
蚁群算法
信息素
-
Keywords
Q-learning
path planning
Q-table initialization
exploring probabilities
ant colony algorithm
pheromone
-
分类号
TP273
[自动化与计算机技术—检测技术与自动化装置]
-