-
题名好奇心驱动的深度强化学习机器人路径规划算法
被引量:6
- 1
-
-
作者
张永梅
赵家瑞
吴爱燕
-
机构
北方工业大学信息学院
-
出处
《科学技术与工程》
北大核心
2022年第25期11075-11083,共9页
-
基金
国家自然科学基金(61371143)
北京市教委科技项目(KM202110009002)。
-
文摘
针对采用深度强化学习算法实现机器人路径规划任务中,训练前期随机性高导致奖励难获取问题,提出内在好奇心驱动的深度确定性策略梯度算法对连续型动作输出的端到端机器人路径规划进行研究。将环境获取的感知信息作为输入状态,输出机器人动作(线速度、角速度)的连续型控制量,在Gazebo仿真平台进行训练并验证。实验结果表明,基于内在好奇心驱动的深度确定性策略梯度路径规划算法可以较好地实现端到端的机器人路径规划,并且有利于解决训练前期奖励难获取问题,与离散型动作输出的深度Q学习网络模型进行了对比分析,结果表明所提出算法决策控制效果更优越。在真实环境中进行了验证,在静态障碍和动态障碍的场景下,所提出算法可成功到达目标点。
-
关键词
深度强化学习
机器人路径规划
深度确定性策略梯度
好奇心驱动算法
-
Keywords
deep reinforcement learning
robot path planning
deep deterministic strategy gradient
curiosity-drive algorithm
-
分类号
TP241.2
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名好奇心蒸馏双Q网络移动机器人路径规划方法
- 2
-
-
作者
张凤
顾琦然
袁帅
-
机构
沈阳建筑大学电气与控制工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2023年第19期316-322,共7页
-
基金
国家自然科学基金面上项目(62073227)
辽宁省教育厅基金(LJKZ0581)。
-
文摘
针对移动机器人的路径规划中DQN算法存在过估计、样本利用率低、奖励稀疏等,从而影响机器人获取最优路径的问题,提出基于好奇心蒸馏模块竞争架构的双Q网络(curiosity distillation module dueling deep double Q-network prioritized experience replay,CDM-D3QN-PER)方法。该方法以D3QN为基础,在输入端添加长短时记忆网络(long short term memory,LSTM)处理雷达和相机的信息,降低过估计的影响,获得更有利的环境信息;采用优先经验回放机制(prioritized experience replay,PER)作为采样方法,使样本得到充分利用,提高样本利用率;引入好奇心蒸馏模块(curiosity distillation module,CDM),缓解奖励稀疏的问题。通过仿真实验与DQN、DDQN、D3QN相比,CDM-D3QN-PER算法训练的机器人到达目标点的次数明显增加,为DQN算法的3倍。该算法使奖励值得到提升,加快了收敛速度,能够在复杂的未知环境中获得最优路径。
-
关键词
DQN算法
D3QN算法
好奇心蒸馏模块
长短时记忆网络(LSTM)
最优路径
-
Keywords
deep Q-network(DQN)algorithm
D3QN algorithm
curiosity distillation module
long short term memory(LSTM)
optimal path
-
分类号
TP39
[自动化与计算机技术—计算机应用技术]
-
-
题名基于过时信息年龄最小化无人机路径规划
- 3
-
-
作者
殷杰
付芳
李凯
-
机构
山西大学物理电子工程学院
海南大学计算机科学与技术学院
-
出处
《测试技术学报》
2024年第4期363-370,共8页
-
文摘
在一些对信息新鲜度要求较高的物联网(IoT)场景中,无人机凭借其高机动性和灵活性的特点可以用于辅助采集设备数据。现有的评估信息新鲜度的信息年龄存在一定局限性,无法从内容角度准确定义。该文采用过时信息年龄来表征信息新鲜度,并且提出基于好奇心驱动DQN算法的无人机辅助IoT数据采集方案,通过优化无人机轨迹,实现在满足无人机能耗约束条件下过时信息年龄的最小化。仿真结果表明,相比传统DQN算法,该文所提算法使智能体探索能力加强,收敛速度变快约45%,所得奖励值高约67%。
-
关键词
物联网
过时信息年龄
无人机路径规划
好奇心驱动DQN算法
-
Keywords
Internet of Things
age of outdated information
UAV path planning
curiosity-driven DQN algorithm
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名面向车联网多播业务中断概率约束的资源优化研究
- 4
-
-
作者
王璐
-
机构
山西大学物理电子工程学院
-
出处
《电子技术应用》
2023年第10期82-88,共7页
-
文摘
随着汽车工业和通信技术的迅速发展,获取高质量的交通信息在车辆紧急情况中至关重要。在车联网中车辆的高速移动性会导致信息传输面临中断的风险,同时随着车辆数目的增加,有限的频谱资源为车联网的功率分配带来了挑战。为了解决这一难题,采用单频网络技术,通过资源分配策略来降低信干噪比的中断概率,最小化单频网络中每个路边单元的传输功率。该优化问题被建模为马尔可夫决策过程,并采用基于好奇心驱动的DQN(C-DQN)资源优化算法来求解。大量仿真结果表明,该方案在满足较低中断概率的前提下最小化传输功率,所采用的算法与基准算法相比,在学习速度和稳定性方面具有良好的性能。
-
关键词
车联网
中断概率
功率分配
马尔可夫决策过程
好奇心驱动的DQN
-
Keywords
Internet of Vehicles
outage probability
power allocation
Markov decision process
curiosity-driven DQN
-
分类号
TN929.5
[电子电信—通信与信息系统]
TP393
[自动化与计算机技术—计算机应用技术]
-